Mathematik 3 für ET 08/09

Mathematik 3 für ET 08/09
Wolfgang Herfort
Institut für Analysis und Scientific Computing
Technische Universität Wien
c
2007–2009
W.Herfort
2
Vorwort
Das vorliegende Skriptum stellt mathematische Begriffe und Themen für das Studium Bakkalaureat Elektrotechnik an der Technischen Universität Wien zusammen.
Das Wort “Mathematik” beinhaltet m.W. das Wort Kenntnis (im geistes- und naturwissenschaftlihen Sinn). Die Mathematik ist in diesem Sinne eine Sprache, welche (Er)kenntnisse
festhält, reproduzierbar und vergleichbar macht. Wie in natürlichen Sprachen ist ihr Gebrauch an eine Grammatik gebunden, die sie nicht nur Laien gelegentlich schwer zugänglich
erscheinen läßt. Dennoch ist sie eine lebende Sprache, ein Hilfsmittel, (Er)kenntnisse der Anschauung und des Geistes auszudrücken. In der Grundlagenforschung bis hin zu numerischer
Simulation komplexer physikalischer Vorgänge erscheinen hochschulmathematische Begriffe (z.B. Thuesysteme, kommutative Algebra, lineare Algebra auch über endlichen Körpern
(Kodierungstheorie), Hilbertraumtechniken, Soboleffräume, Fixpunktmethoden und weiteres)
unabdingbar etwa bei der Analyse gesicherter Algorithmen.
Das Skriptum kann durchaus auch im Alleingang gelesen werden, wobei es um das “Verdauen” mathematischer Begriffe geht, die meist in einem Kasten in knapper Weise formuliert
werden, und bessere Intuition sehr oft erst durch nachfolgende Beispiele entsteht (d.h. beim
ersten Lesen nicht “Hängenbleiben”). Etliches aus M1 und M2 findet sich hier in knapper
Darstellung. Andere Quellen (siehe z.B. Literaturverzeichnis) mitzubenützen, ist durchaus
empfehlenswert.
Meine Hoffnung ist es, Ihnen verwertbares mathematisches Wissen näherbringen zu können
und Freude und Selbstvertrauen, sich mathematischer Spezialliteratur und Vorlesungen bei
Bedarf zu nähern, zu heben.
Danksagung an
H.J.Dirschmid, daß er seine reiche Erfahrung als akademischer Lehrer mir mitteilte, Peter
Szmolyan für hilfreiche Grundsatzgespräche. Wolfram Hojka für Korrekturlesen des Manuskripts, wertvolle Vorschläge, sowie Feinarbeit zur optischen Gestaltung. W. Auzinger,
G. Bergauer, W. Hojka, A. Slateff und J. Wiesenbauer für wertvolle Diskussionen. Herrn A. Goiser
für Folienmaterial und Diskussion. Aufmerksamen Lesern der Internetversion während der
vergangenen Studienjahre für ihre Hinweise. Im voraus danke ich für Ihr geschätztes Interesse und Kommentare. Lassen Sie mich wissen, wenn Begriffe, Probleme oder Fragen nicht
ausreichend geklärt sind.
Recht herzlich möchte ich A. Prechtl für orientierungsweisende Gespräche hinsichtlich Stoffauswahl und Präsentation, sowie Durchsicht des Manuskripts danken.
Gegenüber der Version vom vorigen Studienjahr wurde vorallem der Teil “Algebra” etwas
gekürzt (man findet die gestrichenen Teile im Anhang und diesen nur in der Internetversion,
um das Handskriptum nicht allzu dick werden zu lassen). Besonderer Dank gebührt Dir, liebe
Anna!
Wien, im Oktober 2008
Wolfgang Herfort
Inhaltsverzeichnis
0 Allgemeines
0.1 Lehrstoff der Vorlesung . . . . . . . . . . . . . . . . . . . .
0.2 Stoffübersicht der Studienkommission ET 2000 . . . . . . .
0.2.1 Wahrscheinlichkeitstheorie und Statistik . . . . . . .
0.2.2 Mengen und Mengenverknüpfungen . . . . . . . . .
0.2.3 Relationen, Abbildungen und Ordnungsstrukturen .
0.2.4 Verknüpfungen und verknüpfungstreue Abbildungen
0.2.5 Gruppen . . . . . . . . . . . . . . . . . . . . . . . . .
0.2.6 Ringe und Körper . . . . . . . . . . . . . . . . . . .
0.2.7 Lineare Vektorräume . . . . . . . . . . . . . . . . . .
0.2.8 Metrische Räume . . . . . . . . . . . . . . . . . . . .
0.2.9 Banach-Räume . . . . . . . . . . . . . . . . . . . . .
0.2.10 Hilbert-Räume . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Wahrscheinlichkeitstheorie
1.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . .
1.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . .
1.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . .
1.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . .
1.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . .
1.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Histogramm und Verteilung einer Zufallsvariablen . . . . . . . . . . .
1.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und
Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . .
1.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
1.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . .
1.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . .
1.3.1 Ungleichung von Tschebischeff und das Bernoulliexperiment . . . . . .
1.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz . . . . . . . . . . .
3
7
7
7
7
7
8
8
8
9
9
9
10
10
11
11
11
19
21
23
24
24
26
36
42
43
45
53
53
59
4
2 Statistik
2.1 Grundlagen und Kurzbeschreibung
2.1.1 Aufgaben der Statistik . . .
2.1.2 Hauptsatz der Statistik . .
2.2 Schätz- und Testverfahren . . . . .
2.2.1 Parameterschätzung . . . .
2.2.2 Intervallschätzung . . . . .
2.2.3 Statistische Testverfahren .
2.3 Kovarianz und lineare Regression .
Inhaltsverzeichnis
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Grundlagen
3.1 Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Prädikatenlogik 1.Stufe . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 “Naive” Mengentheorie, Mengen, Elemente, Teilmengen . . . . . . . .
3.2.2 Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge, Produktmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt . . .
3.2.5 Funktionen und Abbildungen . . . . . . . . . . . . . . . . . . . . . . .
63
63
63
65
66
66
71
79
85
91
91
91
96
98
100
108
110
114
119
4 Algebra
4.1 Freie Monoide und Termersetzung . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Halbgruppen und Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und
Wirkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler . . . . . . .
4.2.4 Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe von
Quotienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Abstrakte Polynomdefinition als Terme . . . . . . . . . . . . . . . . .
4.3.3 Ringe von Quotienten in einem Integritätsbereich. . . . . . . . . . . .
4.3.4 Kongruenzen in kommutativen Ringen mit Einselement, Ideale . . . .
4.3.5 Kommutativer Polynomring, Algebraische Körpererweiterung . . . . .
4.3.6 Endliche Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
127
127
132
132
5 Metrische Räume
5.1 Metrische Räume . . . . . . . . . . . . . . . . . . . .
5.1.1 Grundlegende Definitionen . . . . . . . . . .
5.1.2 Konvergenz . . . . . . . . . . . . . . . . . . .
5.1.3 Fixpunktsatz von Banach und Anwendungen
163
163
163
164
169
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
140
144
146
146
150
152
153
155
157
Inhaltsverzeichnis
5.1.4
5.1.5
5
Offene, abgeschlossene, beschränkte, dichte und kompakte Teilmengen
eines metrischen Raumes . . . . . . . . . . . . . . . . . . . . . . . . . 177
Approximationssatz von Stone-Weierstraß . . . . . . . . . . . . . . . . 182
6 Lineare Funktionalanalysis
6.1 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Grundlagen, Axiome . . . . . . . . . . . . . . . . .
6.1.2 Teil-, Quotienten- und Komplementärraum . . . .
6.1.3 Lineare Hülle, Unabhängigkeit, Basen, Dimension
6.1.4 Lineare Abbildung, Kern, Bild und Rang . . . . .
6.1.5 Dualraum, Dualität . . . . . . . . . . . . . . . . .
6.2 Normierte lineare Räume, Banachräume . . . . . . . . . .
6.2.1 Norm, Vollständigkeit . . . . . . . . . . . . . . . .
6.2.2 Abgeschlossene Teilräume, Dimension . . . . . . .
6.2.3 Lp und lp Normen . . . . . . . . . . . . . . . . . .
6.2.4 Soboleffnormen . . . . . . . . . . . . . . . . . . . .
6.3 Stetige lineare Operatoren . . . . . . . . . . . . . . . . . .
6.3.1 Stetigkeit=Beschränktheit, Operatornorm . . . . .
6.3.2 (Topologischer) Dualraum . . . . . . . . . . . . . .
6.3.3 Kompakte Operatoren . . . . . . . . . . . . . . . .
6.4 Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.1 Inneres Produkt, Prähilbertraum . . . . . . . . . .
6.4.2 Vollständigkeit . . . . . . . . . . . . . . . . . . . .
6.4.3 Orthonormalsysteme . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Saite - etwas mathematische Physik
7.1 Mathematisches Modell und Allgemeines zum Lösen . . . . . . . . . . . . . .
7.1.1 Die involvierten physikalischen Begriffe . . . . . . . . . . . . . . . . .
7.1.2 Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.3 Variationsformulierung – distributionelle Lösung . . . . . . . . . . . .
7.1.4 Hilbertraumformulierung – Soboleffnormen . . . . . . . . . . . . . . .
7.1.5 Lösungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Formulierung des Randwertproblems . . . . . . . . . . . . . . . . . . .
7.2.2 Hilbertraumformulierung - Existenz und Eindeutigkeit . . . . . . . . .
7.2.3 Globale Minimumeigenschaft des Wirkungsintegrals J . . . . . . . . .
7.2.4 Konstruktion der Rieszabbildung – Konsequenzen . . . . . . . . . . .
7.3 Eingespannte Saite im Potentialfeld unter Krafteinwirkung . . . . . . . . . .
7.3.1 Physikalische Fragestellung . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Hilbertraumformulierung . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.3 Bemerkungen zur Lösbarkeit – Fredholmalternative . . . . . . . . . .
185
185
185
188
192
200
204
214
215
219
220
222
225
225
228
232
234
236
245
248
257
257
257
259
259
260
260
261
261
262
262
263
264
264
264
265
6
Inhaltsverzeichnis
A ANHÄNGE
267
A.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
A.1.1 Modelltheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
A.1.2 Formale Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
A.1.3 Axiomatische Mengentheorie . . . . . . . . . . . . . . . . . . . . . . . 269
A.1.4 Kardinalität endlicher Mengen . . . . . . . . . . . . . . . . . . . . . . 271
A.1.5 Kardinalität und unendliche Mengen . . . . . . . . . . . . . . . . . . . 274
A.1.6 Relationsschemata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
A.2 Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
A.2.1 Chomsky Grammatik . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
A.2.2 Reguläre Grammatik und Automat . . . . . . . . . . . . . . . . . . . . 280
A.2.3 Kellerautomat und Turingmaschine . . . . . . . . . . . . . . . . . . . . 282
A.2.4 Halbgruppenwirkungen . . . . . . . . . . . . . . . . . . . . . . . . . . 283
A.2.5 Heterogene Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
A.2.6 Gesetze in heterogenen Algebren . . . . . . . . . . . . . . . . . . . . . 292
A.2.7 Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper . . . . . . . . . . . . . . . . . . 294
A.2.8 Eindeutige Faktorzerlegung . . . . . . . . . . . . . . . . . . . . . . . . 298
A.3 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
A.3.1 Konstruktion der Vervollständigung für einen metrischen Raum (X, d) 301
A.3.2 Beweis des Banachschen Fixpunktsatzes Anmerkung 155 . . . . . . . 303
A.3.3 Beweise der Aussagen über offene, abgeschlossene, kompakte, etc. Mengen in Anmerkung 160 . . . . . . . . . . . . . . . . . . . . . . . . . . 304
A.4 Banachräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
A.4.1 Beweis für Anmerkung 204 – Vollständigkeit des Dualraums . . . . . 305
A.4.2 Satz von Hahn-Banach* . . . . . . . . . . . . . . . . . . . . . . . . . . 306
A.4.3 Nachweise der Aussagen in Anmerkung 209 über kompakte Operatoren 309
A.4.4 Distributionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
A.5 Logfile: Korrekturen im Skriptum . . . . . . . . . . . . . . . . . . . . . . . . . 317
Kapitel 0
Allgemeines
0.1
Lehrstoff der Vorlesung
Der Lehrstoff ist schlagwortartig durch ein Protokoll der Studienkommission festgelegt. Das
Manuskript geht (vorallem in den Anhängen) darüber hinaus. Es wird empfohlen, sich mit
den im Protokoll genannten Begriffen vertraut zu machen, einzusehen unter
http://www.math.tuwien.ac.at/∼herfort/ET/INHALTE/M3.pdf
bzw. mit etwas erläuterndem Kommentar versehen, im nachfolgenden Abschnitt. Es geht
vorallem darum, diese Begriffe intuitiv als auch formal gut zu erfassen. Durchaus so, daß
man sich imstande sieht, diese Dinge dem Interessierten selbst weitergeben zu können.
Nicht prüfungsrelevant, aber möglicherweise interessant sollten vorallem das Konzept des
Termersetzungssystems, das vieles aus der Algebra und Linguistik (theoretische Informatik) schnell zugänglich macht, sowie ein Abschnitt über die eingespannte Saite, der ein 1dimensionales Problem mit Hilbertraummethoden und FEM in Verbindung bringt, sein.
0.2
0.2.1
Stoffübersicht der Studienkommission ET 2000
Wahrscheinlichkeitstheorie und Statistik
Die Stoffübersicht diesbezüglich findet man im oben zitierten Verzeichnis als Datei ‘./M1 2.pdf’.
Zum Prüfungsmodus: der 1.Test sollte dieses Material abdecken, sodaß hiezu bei der
Prüfung nicht mehr gefragt wird.
0.2.2
Mengen und Mengenverknüpfungen
Mengen, Teilmengen, Mengensysteme (im Skriptum Familien von Mengen), Durchschnitt Vereinigung - Differenz - Komplement (sind die üblichen Mengenverknüpfungen), die Beziehungen zwischen diesen Verknüpfungen wird durch Mengenalgebra, d.i. die Rechengesetze,
die erfüllt sind, beschrieben. Kartesisches Produkt ist grundlegend für den abstrakten Funktionsbegriff und Relationen.
7
8
0.2.3
Allgemeines
Relationen, Abbildungen und Ordnungsstrukturen
2-stellige Relation beschreibt die Beziehungen zwischen den Elementen 2er Mengen,
Äquivalenzrelation ist eine Form von Gleichheit oder Gleichartigkeit von Elementen einer
Menge. Z.B. gleicher Jahrgang. Äquivalenzklasse=alle Objekte mit gleichem Merkmal
(gleichem Jahrgang). Quotientenmenge=Menge der Äquivalenzklassen (alle Jahrgänge).
Ordnungsrelation beschreibt ordnenden Vergleich von Elementen einer Menge (etwa Hierarchiestrukturen). Nicht je 2 Elemente müssen vergleichbar sein. Kleinste und größte
Elemente sind mit allen Elementen vergleichbar und haben niemanden echt “drunter”
bzw. “drüber”, minimale und maximale Elemente haben lediglich niemand “echt drunter” bzw. drüber. Vollständig geordnet, wenn je 2 Elemente vergleichbar (z.B. reelle
Zahlen) - hier total geordnet genannt. Untere und obere Schranken beziehen sich meist
auf eine Teilmenge (z.B. jene, die durch irgendeine Eigenschaft herausgefischt werden).
Wohlordnung liegt vor, wenn jede nicht leere Teilmenge ein kleinstes Element hat. Diese
Eigenschaft haben die natürlichen Zahlen und darauf beruht vollständige Induktion.
Abbildungsbegriff auch Funktionsbegriff. Abbildungstypen sind injektive, surjektive und bijektive Funktionen. Zusammensetzung, auch Komposition oder Hintereinanderausführung
von Funktionen ist durch g ◦ f (x) := g(f (x)) definiert. Z.B. ist sin ◦ exp die Funktion,
welche etwa 0 die Zahl sin(1) zuordnet.
0.2.4
Verknüpfungen und verknüpfungstreue Abbildungen
Verknüpfung bedeutet, daß man (meist) 2 Elemente einer Menge nimmt, und ihnen (durch
irgendeine Prozedur) ein anderes Element der Menge zuordnet. Bei Funktionen werden 2
Funktionen genommen und deren Zusammensetzung gebildet – eine Verknüpfung im vorliegenden Sinn. Das übliche Addieren bzw. Multiplizieren von 2 Zahlen ist eine Verknüpfung
in diesem Sinn (wir werden in der Vorlesung von 2-stelliger Operation reden). Über äußere
Verknüpfungen wird nichts vorgetragen, es handelt sich dabei um Abbildungen mit mehreren
Argumenten aus ein und derselben Menge mit Werten in einer davon verschiedenen Menge.
Innere Verknüpfungen sind 2-stellige Operationen auf einer Menge, wie z.B. die Addition
natürlicher Zahlen, aber auch das Vektorprodukt ~a × ~b im R3 . Als spezielle Eigenschaften
werden Assoziativität (=Assoziativgesetz) und Kommutativität (=Kommutativgesetz) vorgestellt, die schon in der Mengenalgebra aufscheinen. Dies führt zu Halbgruppen, Monoiden
und Gruppen. Homomorphie ist eine Abbildung von einer (Halb)gruppe in eine andere, sodaß die Operationen “respektiert” werden, d.h. f (x · y) = f (x) ∗ f (y) gilt für alle x, y im
Definitionsbereich von f . Isomorphismus ist ein bijektiver Homomorphismus.
0.2.5
Gruppen
Gruppenaxiome. Einfache Eigenschaften von Gruppen können Endlichkeit, abelsch (=kommutativ), trivial (nur ein Element enthaltend), zyklisch (z.B. die Drehungen eines gleichseiten
Dreiecks) sein.
0.2. Stoffübersicht der Studienkommission ET 2000
9
(Halb)gruppen kodieren sehr oft Selbstähnlichkeiten bwz. Symmetrien von Objekten und
die Gruppenoperation entspricht der Komposition von Selbst- bzw. Symmetrieabbildungen
des Objekts in sich.
Entsprechend ist manchmal die multiplikative Schreibweise (Drehungen des gleichseitigen
Dreiecks), manchmal die additive (’+’, etwa bei Ornamenten - Parkettierungen) hilfreicher.
Die Rechengesetze, welche eine Gruppe erfüllt, lassen sich entsprechend formulieren.
Der Kern eines Gruppenhomomorphismus besteht aus allen Elementen, die auf das Einselement abgebildet werden. Bild sind jene Elemente, die durch Anwenden des Homomorphismus
entstehen.
0.2.6
Ringe und Körper
Ringe haben eine Addition, meist ’+’ geschrieben und eine Multiplikation, und es wird das
Distributivgesetz erfüllt. Beispiele sind die ganzen Zahlen, n × n-Matrizen (nicht kommutativ
für n ≥ 2). Andere Beispiele sind die Polynomringe.
Körper erlauben Division für Elemente6= 0. Beispiele sind die rationalen, die reellen, und
die komplexen Zahlen. Endliche Körper (der kleinste enthält nur 0 und 1 – Rechnen modulo
2) werden z.B. in der Kodierungstheorie benötigt.
0.2.7
Lineare Vektorräume
Vektorraumaxiome und Beispiele. Unterräume (=Teilräume), Basis, Dimension, Lineare Abbildung (es ist in der linearen Algebra eher üblich von Abbildung, denn als Funktion zu reden
– Grund: die Funktion y = kx+d wird in der Schule als “lineare Funktion” bezeichnet, ist aber
für d 6= 0 keine lineare Abbildung). Vektoren können auch Funktionen sein, man spricht dann
oft von einem Funktionenraum. Ein linearer Operator ist dasselbe wie eine lineare Abbildung.
Einfaches Beispiel für lineare Abbildung: Projektion auf die (x, y)-Ebene in z-Richtung.
Kern=alle Elemente, die unter der linearen Abbildung Null werden, im Beispiel die z-Achse.
Bild=alle Elemente, die unter der Abbildung entstehen, im Beispiel die ganze (x, y)-Ebene.
Ein anderes Beispiel entsteht, wenn man y 7→ y 00 betrachtet. Diese Abbildung ist linear, ihr
Kern sind Funktionen der Bauart y = kx + d, weil nur diese y 00 = 0 erfüllen, also Lösungen
der homogenen Gleichung sind.
Der Dualraum besteht aus den linearen Abbildungen in den Skalarkörper und ist selbst ein
Vektorraum. Die Elemente des Dualraums nennt man lineare Funktionale.
0.2.8
Metrische Räume
sind Mengen mit einem Abstandsbegriff=Metrik. Diesbezüglich können ähnlich wie im Rn
Konvergenz, Cauchyfolgen und Vollständigkeit bezüglich der Metrik formuliert werden. Die
häufigsten Beispiele sind normierte lineare Räume (siehe weiter unten). Bestapproximation
bezieht sich hier auf die Minimierung des Abstandes eines Punktes in einer kompakten Teilmenge zu einem festen Punkt. Bei Fixpunktsätzen geht man von der Idee aus, einen Fixpunkt
x = f (x) durch Vorgabe eines Startwertes x0 und Iteration xn+1 = f (xn ) zu approximieren. Um die Konvergenz zu sichern, wird hier als Hilfsmittel der Banachsche Fixpunktsatz
10
Allgemeines
vorgeführt. Anwendung sind iterative Lösungsverfahren (lineare Gleichungssystem und Nachiteration, Nullstellenmethoden, Newtonalgorithmus, Picard-Lindelöf u.v.a.)
0.2.9
Banach-Räume
Eine Norm ist ein verallgemeinerter Längenbegriff für Vektoren (Funktionen). Sie erfüllt
Eigenschaften, die sehr an die der übliche euklidische Länge eines Vektors im R3 angelehnt
sind. Ein Vektorraum (über R oder C) mit so einer Norm ist ein normierter linearer Raum.
Danach wird der normierte lineare Raum zu einem metrischen Raum, indem man als Distanz von Vektoren die Norm ihrer Differenz festlegt (induzierte Metrik). Ist er vollständig,
so nennt man ihn Banachraum. Stetige lineare Operatoren zwischen 2 gegebenen linearen
normierten Räumen können selbst mit einer Norm, der Operatornorm, als normierter linearen Raum aufgefaßt werden. Der (topologische) Dualraum besteht aus allen stetigen linearen
Funtionalen.
0.2.10
Hilbert-Räume
Wenn in einem Vektorraum (über R oder C) eine Abbildung, die je 2 Vektoren einen Skalar
zuordnet, Eigenschaften des im R3 (bzw. C3 ) üblichen Skalarprodukts aufweist, so spricht
man von einem inneren Produkt, und der Raum heißt Prähilbertraum (=euklidischer Vektorraum). Die Schwarzsche (genauer Cauchy-Bunjakowskiĭ-Schwarzsche) Ungleichung besagt
im R3 , daß das innere Produkt zweier Vektoren betragsmäßig nie größer als das Produkt
der Vektorlängen ist. Eine solche Ungleichung kann p
aus den Axiomen des inneren Produkts
hergeleitet werden und impliziert, daß durch kvk := hv, vi eine Norm, die induzierte Norm,
entsteht. Somit ist jeder Prähilbertraum ein (spezieller) normierter linearer Raum und insbesondere ein metrischer Raum. Ist er vollständig, so ist er ein Hilbertraum. Orthogonalität
kann analog dem 3-dimensionalen Anschauungsraum durch Verschwinden des inneren Produkts ausgedrückt werden. Dementsprechend gibt es im Hilbertraum die Orthogonalprojektion
eines Punktes in einen abgeschlossenen Teilraum, die Bestapproximation des Problems, den
minimalen Abstand des Punktes vom Teilraum zu finden. Diese Aufgabe hat viele nützliche Anwendungen, zu ihnen zählen die Singulärwertzerlegung von Matrizen im Rn (überbestimmte lineare Gleichungssysteme– z.B. in der Varianzanalyse oder Ausgleichsrechnung),
und voran verallgemeinerte Fourierreihen. Die Lösung der Aufgabe gelingt, wenn im Teilraum
ein vollständiges Orthogonalsystem bekannt ist, durch Angabe jenes Fourierreihenabschnittes
des Punktes, der im Teilraum liegt. Der Rieszsche Darstellungssatz besagt, daß jedes stetige
lineare Funktional im Hilbertraum durch das innere Produkt in einfacher Weise beschrieben werden kann. Auf diesem Satz beruht die Methode der Greenfunktionen bei der Lösung
etlicher Randwertaufgaben.
Kapitel 1
Wahrscheinlichkeitstheorie
1.1
1.1.1
Empirische und mathematische Wahrscheinlichkeit – WMaße
Relative Häufigkeit und Wahrscheinlichkeit
Zunächst beschreiben wir in Definition 2 relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 1 werden jene
Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 4) und Laplace-Wahrscheinlichkeitsraum
(Definition 5) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes Wahrscheinlichkeitsraum in Definition 9.
Beispiel 1 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines
Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen:
Augenzahl
Prozentsatz
1
16.8%
2
17.3%
3
16.4%
4
16.7%
5
16.2%
6
16.6%
Fragen:
1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen
gerundet oder abgeschnitten wurde?
2. Kann die Tabelle stimmen?
3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen?
4. . . . eine ungerade Augenzahl geworfen?
5. . . . eine ungerade Augenzahl oder 4 geworfen?
6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen?
11
12
Wahrscheinlichkeitstheorie
7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞
geht, machen. Darf man erwarten, daß sie alle gegen 100
6 % streben?
Auch wenn im Beispiel ziemlich klar ist, was “Häufigkeit in Prozenten” bedeutet, bedarf
es einer formalen Definition.
Definition 2 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und
(ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient
hn (A) :=
Anzahl der i mit ωi in A
n
als relative Häufigkeit bezeichnet.
Die relativen Häufigkeiten in Beispiel 1 sind demnach
A
hn (A)
{1}
0.168
{2}
0.173
{3}
0.164
{4}
0.167
{5}
0.162
{6}
0.166
weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als
einelementige Menge angeschrieben ist und daß wir n nicht kennen1 !
Geht man davon aus, daß weder Würfel noch Unterlage “manipuliert” sind, so kann man
beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfes machen. Ein
weiterer Aspekt, der in den Fragen 3. 4. und 5. im Beispiel 1 auftritt, ist der, daß man sich
dafür interessiert, ob nach dem Wurf die Augenzahl x in einer Teilmenge A von Ω liegt.
Anmerkung 3 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als
Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des
Experiments nicht grundsätzlich vorherbestimmen zu können.
Jede Teilmenge A von Ω nennt man zufälliges Ereignis.
In Beispiel 1 ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment
und das Ereignis “die Augenzahl ist ungerade” drückt sich durch “das zufällige Experiment
zur Ermittlung von x ∈ Ω hat x ∈ A = {1, 3, 5} ergeben” aus. In Beispiel 1 ist es klar, daß
die relative Häufigkeit dafür, daß x sich in A befindet, die Summe der relativen Häufigkeiten
der einelementigen Teilmengen ist, weil man ja einfach “Prozente addiert”. Auf diese Art ist
Frage 2 beantwortet. Weiters ist hn ({1, 3, 5}) = 16.8+16.4+16.2
= 0.168+0.164+0.162 = 0.494.
100
Auf diese Art ist Frage 4 beantwortet und man kann es mit Fragen 5 und 6 genauso machen
– werden jedoch in Beispiel 7 etwas mehr Geschick walten lassen.
1
Siehe jedoch Beispiel 270 und dort die Antwort auf Frage 1
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
13
Definition 4 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen
Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die
die Gesamtsumme fürP
alle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A
von Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben.
In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein
endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A.
Definition 5 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) =
Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum.
Wir vermerken, daß dann stets P (A) = |A|
|Ω| .
1
|Ω|
für jedes
Beispiel 6 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 1. Danach legt man für jedes Elementarereignis “Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i” mit
P ({i}) := 16 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A|
|6| gegeben.
Die Antwort auf Frage 7 wird durch den in Anmerkung 49, dem Satz von Gliwenko-Cantelli
gegeben werden. Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung dafür, in
welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende Bernoulliexperiment (Beispiel 46) und der zentrale Grenzwertsatz (Anmerkung 48) bilden die Grundlage
hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten Satz statistische
Testverfahren in Beispiel 60 1, die bestenfalls einen “Sicherheitsfaktor” für das tatsächliche
Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur Einführung eines
neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in W-theoretischem Sinn
untermauert bzw. widerlegt werden. Wenn es wissenschaftliche Methoden ermöglichen, sollten
statistische Ergebnisse (“eine signifikant große Zahl Patienten, die das Mittel A eingenommen haben, melden gewisse Nebenwirkungen”) entsprechende fachspezifische (analytische)
Untersuchungen (Medizin, Chemie, etc) nach ziehen.
In diesem Sinne sind die Ausführungen in Beispiel 6 eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 1. Würde z.B. die relative Häufigkeit für
das “Werfen einer 3” stark von 16 abweichen, so könnte man das als Hinweis auf “manipulierte
Würfel oder Unterlage” auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich
mittels statistischer Testverfahren (Unterabschnitt 2.1.1) entschieden wird.
Bei der Beantwortung der Fragen 3–6 aus Beispiel 1 zeigt es sich, daß man vorteilhaft
mittels Mengenoperationen, wie Durchschnitt, Vereiningung und Komplement “Rechnen”
kann:
Beispiel 7 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man
mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben.
14
Wahrscheinlichkeitstheorie
3. Es sind die geraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 4 hn ({1, 3, 5}) = 0.494 gefunden, also ergibt sich hn ({2, 4, 6} =
1 − 0.494 = 0.506. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition 4)
gültige Formel P (A0 ) = 1 − P (A) benützt.
5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) +
16.7
66.1
P ({4}) = 49.4
100 + 100 = 100 .
Hiebei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) =
P (A) + P (B), falls A ∩ B = ∅.
6. Man kann das de Morgansche Mengengesetz A0 ∩B 0 = (A∪B)0 für die Mengen A := {3} und
B := {4} und {5} ∩ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∩ ({3}0 ∩ {4}0 ) = {5} ∩ {3, 4}0 = {5},
sodaß sich P ({5} ∩ ({3}0 ∩ {4}0 )) = 0.162 ergibt. Zugegeben, kaum ein Rechenvorteil!
Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch
unendliche W-Räume zu formulieren.
Beispiel 8 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip
und bleibt danach “zufällig” darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns
als vernachlässigbar angesehen werden, es somit als “Punkt” angesehen werden. Wir stellen
folgende Fragen, deren Präzisierung und Antwort in Beispiel 12 erfolgen soll.
1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des
Chips liegt?
2. . . . in einer der vier Ecken liegt?
3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt?
4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken
Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor
1
4 ) errichtet, usw.
Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die
Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt
X(x, y) aus Ω gewählt wird.
Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger
Ausführung des Experiments das Korn in A zu liegen kommt.
Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 2
sich zu
A(n)
hn ({X(x, y) ∈ A}) =
n
ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 6 die empirische W. approximativ gleich der mathematischen erhofft).
Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A
durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche
2
genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
15
von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses
“X(x, y) kommt zufällig in A zu liegen”.
Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt
man 41 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der
Bezeichnung Q(a) für ein Quadrat der Seitenlänge a
P (A) =
∞
X
i=1
X
∞
1
1
1
=
= .
P Q
i
i
2
4
3
i=1
Um die “Zufälligkeit” von Ereignissen mathematisch zu behandeln, konstruiert man (ein
mengentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse
Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei
oftmaliger Wiederholung ein und des selben Experiments erwartet man eine Annäherung
der relativen Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei der Diskussion des Bernoulliexperiments in Beispiel 46 deutlich zu machen
beabsichtigen. Hier die Forderungen an so ein Tripel (Ω, Σ, P ):
Definition 9 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden
Daten:
1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein
“zufälliger Versuch” besteht in der Auswahl eines Elementes x ∈ Ω.
2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse. Jede
Menge A ∈ Σ steht für das Ereignis “in zufälliger Weise wird ein x ∈ Ω bestimmt, und
dieses x liegt dann in A”. Die Menge Σ sei eine Σ-Algebra, d.h.:
(a) Ω gehört zu Σ.
(b) Wenn die Teilmenge A zu Σ gehört, so auch das Komplement A0 := Ω \ A (A0
heißt das zu A komplementäre Ereignis).
(c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung
∞
[
Ak = {x | ∃k mit x ∈ Ak }.
k=1
3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt:
(a) Es ist P (Ω) = 1.
(b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A).
16
Wahrscheinlichkeitstheorie
(c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiters je zwei Mengen
Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt:
P(
∞
[
k=1
Ak ) =
∞
X
P (Ak ).
k=1
Man sagt, P ist sigmaadditiv.
Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität,
d.h. P (A ∪ B) = P (A) + P (B).
Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie “Probability”
bzw. “Probabilität”) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintreten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne
von Definition 78) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt
das Maß diskret.
S
Die Mengenoperationen ∪, ∞
k=1 , ∩ und Komplementbildung werden im Sinne von logischen
Operationen mit den Ereignissen beschreibenden Klausen interpretiert:
Anmerkung 10
1. das Ereignis A als “x wird zufällig in Ω gezogen und befindet sich
in A”. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A
zu interpretieren.
2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis “A tritt nicht ein”.
3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt sowohl
A als auch B ein” (wobei sehr wohl A und B auch gleichzeitig auftreten dürfen).
Ist A ∩ B = ∅, so sagt man “Die Ereignisse A und B schließen einander aus.” oder
auch daß sie “unvereinbar” sind.
4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt
wenigstens A oder B ein”.
S
5. ∞
k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als “Wenigstens eines der Ereignisse Ak tritt ein”.
Es kann folgendes gezeigt werden:
Anmerkung 11 In einem diskreten W-Raum mit der abzählbarenSTeilmenge A, welche
P (A) = 1 erfüllt, muß offenbar P (A0 ) P
= 0 sein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen,
daß jeder Punkt a ∈ A positives Maß hat.
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
17
Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 4, und Σ die
Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von
Definition 9.
Beispiel 12 Es sollen Antworten zu den in Beispiel 8 gestellten Fragen gegeben werden. Als
Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ R × R | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus “berechenbaren Flächen”
bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun
wird im Rahmen der Maßtheorie (siehe z.B. [23]) gezeigt, daß diese Rechtecke durch iteriertes
Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf
eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des
Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der
Aufgabe wiederzufinden.
Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der
für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat:
1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null.
2. Geradenstücke haben Maß Null.
3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb
Q, so bleibt der Flächeninhalt erhalten.
4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) =
1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine
solche Menge heißt Jordanmeßbar), so gehört A zu Σ.
Deshalb ist P ({( 12 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte, z.B. P ({(0, 0)}) = 0.
Nun zur Vereinigung der aufeinandergestellten Quadrate. Zunächst
sollte man prüfen, ob die gesamte
Figur in Q Platz hat. Dazu darf die
Summe aller Seitenlängen 21 + 41 +
. . . = 12 1−1 1 = 1 nicht größer als 1
2
sein, was offenkundig der Fall ist.
Spitzfindigkeit: Die Quadrate scheiden einander in einem Geradenstück (also nicht leerer
Schnitt). Dieses hat Maß Null. Entfernen wir alle solchen Schnitte (bestehend aus abzählbar
vielen Geradenstücken, also insgesamt einer Menge vom Maß Null), so bekommen wir eine
Vereinigung “randloser” Quadrate, deren paarweise Schnitte leer sind, und deren Inhalte eine
1 1
geometrische Folge { 14 , 16
, 64 , . . .} bilden, sodaß die Sigmaadditivität und die geometrische
Summenformel auf P (A) = 14 1−1 1 = 31 führen.
4
Laplaceraum
Kodieren Ω1 := {A, B}, Ω2 := {0, 1},
1 für OKAY
Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann
man Paare (A± , B ± ) versuchen, wobei
‘−’ kaputte Sicherung bedeute.
Zunächst hat man für Urne U1
den W-Raum Ω1
:=
{A
⊂
{w1 , w2 , s1 , s2 , s3 } | |A| = 2}
und für U2 hat man Ω2 := {A ⊂
{w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}.
Danach bildet man die disjunkte
Vereinigung Ω := Ω1 ∪ Ω2 , wobei
die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen,
1
× “15” bzw. für U2 12 × “16” sein
2
Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal
Zahl erscheint.
Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den
Rest. Wahrscheinlichkeit für Ausschuß
der Gesamtproduktion?
Sicherungen A und B fallen mit 3 bzw.
1 Prozent aus. Wahrscheinlichkeit für
Stromausfall?
Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln.
Wahrscheinlichkeit dafür, bei zufälliger
Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in
Händen zu haben.
2
—
Würfeln mit 2 Würfeln. Augensumme=9
2
Laplaceraum
Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl
muß.
Anmerkung
Text
P(Ω)
{1, 2, 3, 4, 5, 6} ×
{1, 2, 3, 4, 5, 6}
{K, Z}×{K, Z}×
{K, Z}
{(A+ , B − ),
(A− , B + ),
(A− , B − )}
{{wi , sj } | i =
1, 2 ∧ j = 1, 2, 3} ∪
{{w, bj } | j =
1, 2, 3, 4, 5}
P(Ω)
P(Ω)
P(Ω)
{(A+ , B + ),
(A+ , B − ),
(A− , B + ),
(A− , B − )}
siehe links
{(3, 6),(4, 5),
(5, 4), (6, 3)}
{Z} × {K, Z} ×
{K, Z} ∪ {K} ×
{Z} × {K, Z} ∪
{K} × {K} × {Z}
{(A, 0), (B, 0)}
A
{2, 3, 5}
Ω1 × Ω2
P(Ω)
Σ
P(Ω)
Ω
{1, 2, 3, 4, 5, 6}
+
2
8
=
+
1
9
1
8
=
7
8
1
6
1
5
2 × (5) + 2 × (6) =
2
2
· · · = 19
≈
0.317
60
97
P (A) = 1 − 100
×
99
=
·
·
·
=
100
0.0397, d.h. 3.97%
0.7 × 0.03 + 0.3 ×
0.01 = 0.024
4
8
4
36
1
2
P (A)
18
Wahrscheinlichkeitstheorie
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
1.1.2
19
Bedingte Wahrscheinlichkeit und Ereignisgraphen
Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum
(Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit
welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten
ist. Z.B. kann A das Ereignis “ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße
Ohren” und B das Ereignis “ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat
rote Augen”. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an,
unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen
im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen:
B rote Augen
¬B keine r. A.
A weiße Ohren
10
30
40
¬A keine w.O.
5
55
60
15
85
100
Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit
10
P (B|A) = 40
, weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen
10
40
Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100
, P (A) = 100
1
und es wäre P (B|A) mit der gleichen Motivation der Wert 4 entstanden. So kommt man zur
üblichen Definition der bedingten Wahrscheinlichkeit:
Definition 13 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 9) und A, B
meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl
P (B|A) :=
P (A ∩ B)
P (A)
heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme,
daß A tatsächlich eingetreten ist.
Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt:
Anmerkung 14 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B)
ein Wahrscheinlichkeitsmaß
(A)
definiert.
Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis
A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B
die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer
Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil,
dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen.
Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit
des Medikaments plausibel erscheinen läßt.
20
Wahrscheinlichkeitstheorie
P (s|A)= 16
P (A)= 12hhh4A
hh
hhhh
h
h
A 123
h
¿ VV
1
B 220 VVVPVV(B)=
VVVV2
V*
0
1
12
P (w, A) = 16
P (r, A) = 41
s 023 P (s, A) =
P (w|A)= 62
```````````0 w 113
123 `````````
P (r|A)= 63
0 r 122
1
1
P (s|B)= 2
0 s 120 P (s, B) = 4
aaaaaaaaaaaaaaaa
a
a
a
a
B 220
P (r|B)= 21
1
/ r 210 P (r, B) = 4
Abbildung 1.1: Ereignisgraph zu Beispiel 15
Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und
andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete
graphische Darstellung wird gelegentlich als “Ereignisgraph” bezeichnet und verdeutlicht die
Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten
Wahrscheinlichkeit.
Beispiel 15 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze),
2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es
soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen
werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist?
Naiv betrachtet, könnte jemand sagen, “Alles in allem, das Verhältnis von s zu allen wähl3
baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10
= 0.3 sein.” Das ist nicht
einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel
zu erwischen lediglich 16 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 21 16 + 12 12 = 13 ≈ 0.33
zu nehmen.
Um das besser zu verstehen, verwenden wir die Zeichnung Fig. 1.1. Dort sieht man zunächst
die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte
enthält, richtig gelesen, eine Kodierung von Ω, nämlich
Ω = ({A, B} × {s, w, r}) \ {(B, r)}.
Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst
rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und “abzuzählen”. Insbesondere ist die in Definition 13 gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen,
wenn man die Wahrscheinlichkeiten jeweils hintereinanderliegender Pfeile multipliziert.
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
1.1.3
21
Totale Wahrscheinlichkeit, Formel von Bayes
Anmerkung 16 Es sollen {Ai | i ∈ I} und B Ereignisse in eiem W-Raum sein, derart
daß die Ereignisse
Ai ∩ B einander ausschließen3 , d.h. daß Ai ∩ Aj ∩ B = ∅ für i 6= j gilt,
S
und B = i∈I Ai ∩B ist, also {Ai ∩B | i ∈ I} eine Partition von B im Sinn von Definition
76. Weiters soll P (Ai ) > 0 für alle i ∈ I sein. Dann gelten die folgenden Aussagen:
Satz von der totalen Wahrscheinlichkeit:
X
X
P (B) =
P (Ai ∩ B) =
P (B|Ai )P (Ai ),
i∈I
i∈I
wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition
9) und Benützen von Definition 13 dient.
Reziprozität: Ist P (B) > 0, so ist wegen Definition 13 stets
P (Ai |B)P (B) = P (B|Ai )P (Ai ).
Formel von Bayes: Es ist
P (Ai |B) =
P (Ai )P (B|Ai )
P (Ai )P (B|Ai )
=P
,
P (B)
i∈I P (B|Ai )P (Ai )
wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und
danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient.
Beispiel 17
• Wer mag, kann die Formeln anhand von Beispiel 15 nachvollziehen. Sind
z.B. A :=“Es wird eine Kugel in A gezogen”, B :=“Es wird eine Kugel in B gezogen”
und s :=“Es wird eine schwarze Kugel gezogen”, so findet man P (A) = 21 = P (B) und
1
P (s) = 12
+ 14 = 31 . Nun findet man, den Ereignisgraphen verwendend,
1
11 11
= P (s) = P (s|A)P (A) + P (s|B)P (B) =
+
.
3
62 22
Wie groß ist P (A|s) lt. Definition 13, danach gemäß Bayesscher Formel, und wie interpretiert man das?
1/12
1
Antwort: Es ergibt sich P (A|s) = P P(A∩s)
(s) = 1/12+1/4 = 4 . Interpretation: “Man geht
davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür,
daß sie aus Urne A stammt.” Die Bayessche Formel ergibt im Einklang:
P (A|s) =
3
P (s|A)P (A)
=
P (s|A)P (A) + P (s|B)P (B)
11
62
11
62
+
11
22
1
= .
4
In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j.
22
Wahrscheinlichkeitstheorie
• Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit
unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion.
Wie groß ist die Wahrscheinlichkeit für
das Eintreten des jeweils aufgelisteten Ereignisses:
X Y Z
1. Ein Teil wird zufällig entnommen
% Anteil Gesamt- 30 50 20
und wurde von X produziert?
produktion
2. Ein Teil wird zufällig entnommen
%
Ausschuß
2
4
1
und das Teil ist fehlerhaft?
der
jeweiligen
3. Ein Teil aus den fehlerhaften wird
Produktion
zufällig entnommen und wurde von
X produziert?
Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen
produziert worden ist. F soll heißen “fehlerhaft”.
1. Aus der Tabelle entnimmt man P (X) =
30
100
= 0.3.
2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partititon von F , also ist P (F ) =
P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die
zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar,
2
z.B. P(“Teil ist F und stammt von X”)= 100
= 0.02. Etwas formaler: P (F |X) = 0.02.
Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt
man der Tabelle die anderen Werte und es ergibt sich
P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028,
also “nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.”
3. Hier wird nach P (X|F ) gefragt, weil man “von Haus aus” annimmmt, ein fehlerhaftes
Bauteil herauszugreifen und Schuldige sucht. Beim Anwenden von Definition 13 hätte
)
man P (X|F ) = P (X∩F
P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden
der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort
P (X|F ) =
0.3 × 0.02
3
P (F |X)P (X)
=
=
≈ 0.214.
P (F )
0.28
14
Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die
Bayessche Formel:
P (X|F ) =
=
P (F |X)P (X)
P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z)
0.3 × 0.02
0.006
=
≈ 0.214.
0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01
0.028
1.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
1.1.4
23
Unabhängigkeit von Ereignissen
Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet
es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleichwahrscheinlich ist,
wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 14 herausstellt,
daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen
unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die
Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0
sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 13
sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch
einen Sinn. Deshalb ist folgende Definition üblich:
Definition 18 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt.
T
Eine
endliche
Folge
(A
|
i
∈
I)
von
Ereignissen
heißt
unabhängig,
falls
P
(
i
i∈J Ai ) =
Q
i∈J P (Ai ) für jede Teilmenge J von I gilt.
Anmerkung 19 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind
folgende Aussagen gleichwertig:
• A und B sind unabhängig,
• P (A|B) = P (A).
• P (B|A) = P (B)
• P (A ∩ B) = P (A)P (B).
• A0 und B sind unabhängig.
• A0 und B 0 sind unabhängig.
Insbesondere ist die Relation “A und B sind unabhängig” symmetrisch.
Anmerkung 20
• Im Beispiel mit den Hasen war A “weißohrig” und B “rotäugig”. Die
Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden, war
40
15
40×15
3
, P (B) = 100
. Somit ist P (A) × P (B) = 100×100
= 20
< 14 .
P (B|A) = 41 , P (A) = 100
A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß
“weißohrige Hasen eher zu Rotäugigkeit neigen”.
Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird
es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen,
medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen.
• Ein offenkundiges Beispiel für Unabhängigkeit von Ereignissen A und B beim Werfen von Würfeln W1 und W2, sind A =“W1 zeigt eine 6” bzw. B = “W2 zeigt 1,3
24
Wahrscheinlichkeitstheorie
oder 5”. Dann ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6},
B = {1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis
(i, j) ist gleichwahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 5 vor.
Hieraus ergibt sich durch Abzählen von A, B und A ∩ B und anschließender Division
3
1
durch |Ω| = 36, daß P (A) = 16 , P (B) = 36 = 21 und P (A ∩ B) = 36
= 12
. Die in Definition 13 geforderte Gleichung P (A ∩ B) = P (A)P (B) besteht. Die “Intuition”, daß
die beiden Würfelergebnisse “unabhängig” im Sinne von “einander nicht beeinflussen”
sind, spiegelt sich in der Erfülltheit dieser Gleichung wieder.
• Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis
A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B
darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6},
A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} ×
{1, 2, 3, 4, 5, 6}. Weiters ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten
9
5
1
11
3
3
1
ergibt sich sofort P (A) = 63 + 36
= 27
36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6
11
11
1
Die famose Gleichung besteht nicht, weil P (A)P (B) = 27
36 36 = 48 > 6 = P (A ∩ B) ist,
also sind die Ereignisse A und B nicht unabhängig.
1.2
1.2.1
Zufallsvariable und Verteilungen
Zufallsvariable
Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel:
Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts
auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition:
Definition 21 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → Rn eine
zufällige Variable oder auch stochastische Variable mit Werten im Rn .
Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann.
Ist f : Rn → Rm , so ist f X eine stochastische Funktion der Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt
meßbar, wenn jede Menge der Form
X −1 (B) = {ω ∈ Ω | X(ω) ∈ B}
für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X
meßbar.)
Beispiel 22 Einige konkrete Beispiele mögen der Anschauung dienen:
X /
Rn
CC
CC
f
f X CC! Ω CC
Rm
1.2. Zufallsvariable und Verteilungen
25
1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen
mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S
ein Euro an B geht, und bei einem Wurf von 6 5 Euro von B an S gehen.
Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert
werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment
des Würfelns festgelegt. Die Zufallsvariable ist diskret.
2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ R2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb
von Ω und P der übliche “Flächeninhalt”. Man denke an das Werfen mit Darts (ohne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart
werden, daß Gewinn nach der Formel
p
x2 + y 2 < 10
10 falls
X(x, y) :=
−1.5 sonst
ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50
Cent kostet.
Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das
durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß
man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret.
3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es
gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an,
es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen
wird die tatsächliche Kantenlänge, sodaß man Ω = R und P das übliche Längenmaß
wählt.
Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt,
sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die
Zufallsvariable ist nicht diskret.
Sie kann als stochastische Funktion der Zufallsvarablen X(ω) = ω ∈ Ω := R angesehen
werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 .
4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante
unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt
annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10]×R.
Nun interessiert ihn die Zufallsvariable X : [0, 10] × R → R, nämlich
X(t, s) :=
2s
,
t2
weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf
man von zufälligen Ergebnissen ausgehen. X ist nicht diskret.
Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × R = Ω angesehen
ist.
werden, wobei f (s, t) = 2s
t2
26
Wahrscheinlichkeitstheorie
5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gereade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an,
Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein
Intervall [a, b] (auch wenn die physikalische Deutung “Zeit” ist) zu verwenden.
Danach könnte man U : [0, T ] → R als Zufallsvariable ansehen, wenn man kleine
Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret.
Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U
R als
U (t)
stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht
x
man die Zusammensetzung der Funktion f (x) := R
mit einer Zufallsvariablen U (t).
6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ Rn ist, denn
dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen
werden. Diese Art Zufallsvariablen findet man in Fülle:
• Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → R ist die
geworfene Augenzahl.
• Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ R, wobei m und M ein vorgegebener
Minimal- bzw. Maximalwert sind. X : Ω → R ist die gemessene Wandstärke.
• Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → R2 .
Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 9 ist.
7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die
Funktion
1 falls ω ∈ A
X(ω) :=
0
sonst
betrachtet werden.
Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in R annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist
diskret.
1.2.2
Histogramm und Verteilung einer Zufallsvariablen
Histogramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe von 100 Personen ergibt
sich folgende Tabelle:
Größe
Zahl d Personen
36
2
37
3
38
5
39
10
40
25
41
30
42
20
43
4
44
1
1.2. Zufallsvariable und Verteilungen
27
Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Histogramm
36 37 38 39 40 41 42 43 44
Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen
eine diskrete reelle Zufallsvariable X : Ω → R zu definieren, die lediglich der Werte der
gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, “wie
häufig” die Variable X einen vorgegebenen Wert annimmmt. Genauer gesprochen werden auf
der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser
Wert angenommen wird. Hier ist die entsprechende Definition:
Anmerkung 23 Für eine im Sinne von Definition 21 diskrete Zufallsvariable X : Ω →
Rn ist das Histogramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}.
Beispiel 24 Es sollen weitere Beispiele folgen:
1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen eines Würfels beschreibt, und
X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 5 vor. Das Histogramm
1 · · · · · ·
6
von X ist typisch für einen Laplaceraum.
2.
In 1. von Beispiel 22 wurde für 1
Euro gewürfelt und im Falle einer 6
fünf Euro ausbezahlt. Somit nimmt
X genau die Werte −1 und 5 mit
den Wahrscheinlichkeiten 65 und 16
an. De facto kann man das Histogramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 56 und
P 0 (5) = 16 auffassen.
1
2
3
4
5
6
5
6
1
6
·
·
X = −1
X=5
/
3. Im 2.ten Beispiel mit den Darts in Beispiel 22 ist es ähnlich. Es ist Ω0 = {−1.5, 10}
2
2
und P 0 ({−1.5}) = 1 − 10
und P 0 ({10}) = 10
50
50 , das Histogramm sieht dem vorigen
sehr ähnlich.
28
Wahrscheinlichkeitstheorie
4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die
Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → R, definiert durch X(ω1 , ω2 ) :=
ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns
das 10fache dieser Summe in Euro ist.
Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt?
Statt eines Histogramms mit 36 Werten für die Häufigkeiten der Elementarereignisse
reicht jetzt das nachstehende Histogramm, in welchem die Wahrscheinlichkeiten (in
Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden:
•
6/36
•
•
5/36
•
•
4/36
•
•
3/36
•
•
2/36
•
1/36 •
2
3
4
5
6
7
8
9
10
11
12
·
·
·
·
·
·
·
·
·
·
·
Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 :=
{1, 2, . . . , 12} mit dem W-Maß P 0 laut Histogramm ausreichend aufschlußreich (es ist
z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = P ({1, 6}) +
6
· · · + P ({(6, 1)} = 36
= 1 ). Damit kann man die obige Frage durch Addition der WahrP12 60
1
7
scheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1
= 6×7
36
2 36 = 12 ≈ 0.583 beantworten.
5. In 4. von Beispiel 22 will jemand die Gravitationskonstante unter der Annahme von
√
s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit,
√
nämlich 1, hat. Deshalb reicht es, das Histogramm als Punktmuster in der ( s, t)-Ebene
zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Histogramm
ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 63).
6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das “Treffermuster”, etwa wie in der Skizze zu Beginn von Abschnitt 2.3 über Kovarianz. Wiederum darf dieses Muster als Histogramm gedeutet
werden. Ähnlich wie im vorigen Beispiel gibt das Histogramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr “zieht”, bzw., wenn das Gewehr
eingeschossen ist, über die gezeigte Treffsicherheit des Schützen.
Statt eines Histogramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert
man folgende Tabelle aus der bereits gehabten
Größe
Zahl d Personen
<35
0
<36
2
<37
5
<38
10
<39
20
<40
45
<41
75
<42
95
< 43
99
< 44
100
1.2. Zufallsvariable und Verteilungen
29
Diese Tabelle enthält genau die selbe Information wie das Histogramm, weil man ja alle
(relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X <
43}) = 0.95 − 0.75 = .20. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß
eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die
Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von
X ablesbar ist, deren Graph hier skizziert ist:
◦ ◦•
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
◦• •
36 37 38 39 40 41 42 43 44 45
Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch
FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person
zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert
von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Histogramm rekonstruieren kann.
Histogramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht
diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim
Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für
nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen
abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen
als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab
messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen
(wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen
eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine
gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der
30
Wahrscheinlichkeitstheorie
Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, linksabgeschlossene, rechts offene
Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es
könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so
müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hiebei ist die
Verteilungsfunktion hilfreich:
Definition 25 1-dimensionale Verteilung(sfunktion) Ist X : Ω → R eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → R
meßbar in dem Sinne daß für alle Zahlen a, b ∈ R mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b}
zu Σ gehört, so ist Ihre Verteilung FX : R → [0, 1] durch
FX (x) := P ({ω | X(ω) < x})
festgelegt.
Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene
Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt,
wenn Ω eine Teilmenge des Rn und X stetig ist.
Die im “Schuhgrößenbeispiel” vorgestellte Verteilung(sfunktion) entspricht genau dieser
Definition.
Anmerkung 26 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX “einzusehen”.
1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0.
2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y).
3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h).
4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (R, B, Q), durch Q((a, b)) :=
F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B
konstruiert werden, daß F : R → [0, 1] als Zufallsvariable aufgefaßt werden kann
und F zudem die Verteilung dieser Zufallsvariablen ist.
Rb
Ist überdies F stetig differenzierbar mit F 0 = f , so ist4 P (a ≤ X < b) = a f (x) dx =
F (b) − F (a).
1
◦
•
◦
•
0
1.2. Zufallsvariable und Verteilungen
31
Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur
kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim
bißchen Augenzukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln,
von der man erhofft, daß sie “Grenzwert” bei ständigem Verfeinern ist (etwa so ähnlich wie
beim Riemannintegral). Eine Präzisierung dieser Idee ist der Hauptsatz der Statistik von
Gliwenko-Cantelli (Anmerkung 49).
Auch die weiteren, öfter noch benötigten Eigenschaften 1-dimensionaler Verteilungsfunktionen sind am “Schuhgrößenbeispiel” nachvollziehbar.
Anmerkung 27 Ist F an den Intervallenden a, b stetig, so ergibt sich wegen [a, b) =
(−∞, b) \ (a, ∞) die Rechnung: PX ([a, b)) = PX ((a, b)) = PX ((a, b]) = P ([a, b]) = F (b) −
F (a), also
P (a ≤ X < b) = F (b) − F (a).
Ist F an der Stelle b unstetig, so ergibt sich PX ([b, b]) = PX ({b}) = F (b+ ) − F (b),
insbesondere ist die Wahrscheinlichkeit, daß X den Wert b annimmt, positiv. Dann ergibt
sich wegen [a, b] = (−∞, b) \ (−∞, a) ∪ {b} die Rechnung PX ([a, b]) = PX ((−∞, b)) −
PX ((−∞, a)) + PX ({b}) = F (b) − F (a) + F (b+ ) − F (b) = P ({b}) + F (b) − F (a), also
P (a ≤ X ≤ b) = P ({b}) + F (b) − F (a).
Es wird sich in Anmerkung 34 herausstellen, daß zur Berechnung von Erwartungswert,
Varianz, Schiefe einer Zufallsvariablen X lediglich Kenntnis von deren Verteilung im
Rn erforderlich ist. Schließlich
P sollte nicht verschwiegen werden, daß für diskretes P die
Funktion F durch F (x) = {ω|X({ω})<x} P ({ω}) und für stetig differenzierbares F mit
Rx
Ableitung (Verteilungsdichte) f durch F (x) = −∞ f (t) dt darstellbar ist.
Ist insbesondere F
stetig, so läßt sich für alle Intervalle (a, b]
durch P ((a, b])
:=
F (b) − F (a) ein W-Maß auf R bestimmen.
1
γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
·
·
·_ _ _ _ _ _ _ _ _·
·
·
0
b = γ − Quantil
b
Ist F stetig und streng monoton, so ist die Gleichung α = F (z) für jedes γ ∈ (0, 1)
eindeutig lösbar. Die eindeutig bestimmte Lösung heißt γ-Quantil und wird üblicherweise
mit zγ bezeichnet. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., “die Wahrscheinlichkeit, daß X einen Wert < zγ annimmt, ist dann γ”. Ist γ = 21 = 0.5, so wird z0.5 als
4
als unmittelbare Folgerung des HS der Differential- u. Integralrechnung
32
Wahrscheinlichkeitstheorie
Median, ist γ = 14 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe Unterabschnitt 2.2.2) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1
liegende Quantile zγ eine Rolle.
Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen.
Beispiel 28 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 44s folgen später:
1. In 1. von Beispiel 24, wo X : {1, 2, 3, 4, 5, 6} → R durch X(i) := i definiert war, ergibt
sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 61 , für
die ω < x ist, somit:
/
◦
1
◦ •
5/6
◦ •
4/6
◦ •
3/6

◦ •
2/6
0 falls x ≤ 0


 j
◦
•
1/6
j ∈ {1, 2, 3, 4, 5, 6}
6 falls
F (x) =
o· •· · · · · ·

∧ 0≤j−1<x≤j ≤6


1 2 3 4 5 6
1 sonst.
Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige “Sprunghöhe” ist 61 .
Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Histogramm abgelesen
werden.
2. Auch in 2. von Beispiel 24, wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest
man die Verteilungsfunktion direkt aus dem Histogramm ab:
◦
1
5
◦
•
6
F (x) =

 0
5
6

1
x ≤ −1
−1 < x ≤ 5
5<x
•
−1
·
5
3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen
0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω
zu wählen. Danach ist P ([α, β]) = β−α
b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies
vor Augen, erkennt man
1.2. Zufallsvariable und Verteilungen
33
•
•
·
1
F (x) = P ({ω | ω < x}) =

 0
x−a
b−a

1
x<a
a≤x<b
b≤x
·
a
b
Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) =
zu “erraten”, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist.
Die vorliegende Verteilung heißt
Gleichverteilung auf [a, b], bzw.
Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein
Rechteck beschreibt:
1
b−a
◦
•
•
a
·
b
1
b−a
·
4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines
2
2
Rebenen Bereichs K in R (d.h. einer Teilmenge K des R ) mit Gesamtmasse M =
K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle
jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit
Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar
an Verfärbung der Oberfläche, sodaß ρ proportional zum “Grad” der Verfärbung sein
kann).
Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) :=
R
B ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der
Sigmaalgebra aller in K enthaltenen Borelmengen.
Interpretation im W-theoretischen Sinn?
Antwort: Das Ereignis “in der Borelmenge B befindet sich ein Punkt des Trägers von ρ”
hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit
dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → R2 , definiert
durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ.
Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht
der “zufällige” Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen
will, wie sich z.B. die Kultur ausbreitet.
5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 44),
aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik
oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende
“akademischen Übungsbeispiel”:
Eine Zufallsvariable X : Ω → R habe die Verteilungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|,
falls |x| < 1 ist. Man berechne die Verteilungsfunktion FX (x), sowie den Median z0.5 und das
0.99-Quantil z0.99 .
? 1)
·?(0,
???

·
(−1, 0)
·
(1, 0)
·
34
Wahrscheinlichkeitstheorie
Rx
Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist
Rx
Rx
FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 −
Rx
|t|) dt = −1 (1 + t) dt = 12 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1
Rx
R0
Rx
ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt =
R
x
1
1
2
2 + 0 (1 − t) dt = 2 (1 + 2x − x ).
Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich
in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische
Dichte, z.B. auch für N (0, σ), Beispiel 44). Um z0.99 zu bestimmen, muß man die
quadratische Gleichung 0.99 = 21 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage
kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung
ergibt z0.99 ≈ 0.8.
Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ)
interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 2.2.2) bei
gegebener “Irrtumswahrscheinlichkeit” α für ein symmetrisches Intervall (−, ) mit
P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches .
Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 21 (1−)2 ) = 2−2 .
√
Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese
√
Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt.
Welche W-theoretische Aussage läßt sich nun machen?
Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable
(definiert auf welchem Ω auch immer, jedoch Werten in R) einen Wert im Intervall
(−0.68, 0.68) annimmt, ist zumindest 0.9.
Im Falle nicht diskreter Zufallsvariabler X : Ω → Rn (etwa, wenn, wie in Beispiel 22
3., wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel
8, n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man
grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit
P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In })
ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so
wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler
Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader:
Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form
[a, b) = (−∞, b) \ (−∞, a)
geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende)
[a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)).
(Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum).
1.2. Zufallsvariable und Verteilungen
Es ist [a, b) × [c, d) das mit ausgezogenen Linien umrandete Rechteck. Das strichlierte Rechteck ist
(−∞, a) × (−∞, d), das punktierte
(−∞, b) × (−∞, d), und der Durchschnitt der beiden Rechtecke ist
(−∞, a) × (−∞, c).
35
d_
c
_ _ _ _ _ _ _ _ _ _·
·
·a
·
·
·b
Definition 29 Ist X : Ω → Rn eine Rn -wertige Zufallsvariable, und für jedes n-Tupel
a = (a1 , . . . , an ) ∈ Rn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt
X ist Σ − B-meßbar), so nennt man
F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an })
= P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an })
= P (X −1 ((−∞, a1 ) × · · · × (−∞, an )))
die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist).
Es ist durchaus üblich, “in salopper Manier” P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben
und als “(Aufenthalts)wahrscheinlichkeit von X in B” zu interpretieren.
Ist (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable,
und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das
nebenstehende kommutative Diagramm.
B
X −1
/Σ
PX
! P
[0, 1]
Es erweist sich (R, B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 9 nachzuvollziehen
hat.S
Z.B. ist PX (R)
= P (X −1 R) =
S
S
P (Ω) = 1, bzw. sind Bi ∩ Bj = ∅ so ist PX ( i Bi ) = P (X −1 ( i Bi )) = P ( i X −1 (Bi )), und
da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich weiters
X
X
=
P (X −1 (Bi )) =
PX (Bi ),
i
i
also ist PX sigmaadditiv.
Im Nachfolgenden sollen die wichtigsten Eigenschaften von Verteilungen (der Fall n = 1
ist hier miteingeschlossen) zusammengestellt werden:
Anmerkung 30 Es gelten folgende Fakten für F = FX :
1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten
festgehalten werden.
2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden.
36
Wahrscheinlichkeitstheorie
3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw.
+∞ geht.
4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) ×
· · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz
B ein W-Raum (Rn , B, Q) konstruiert werden, derart, daß F die Verteilung der
Zufallsvariablen F wird.
Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := Rn , Σ0 := B, die
Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf Rn induziertes Maß
zu bezeichnen (in Beispiel 24 ist PX = P 0 jedesmal!).
1.2.3
Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V
und Schiefe
Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden.
Im 1. von Beispiel 24 wurde X : {1, 2, 3, 4, 5, 6} → R mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5} und
X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend oft
spielt, so wird er “im mit Wahrscheinlichkeiten gewichteten Mittel”
X
5
1
X(ω)P ({ω}) = (−1) × + 5 × = 0
6
6
ω
Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die
“Luft ausgehen”). Diese Größe ist ein erstes Beispiel eines Erwartungswertes.
Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus
Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als “im Mittel gefundene” Ladung.
In Beispiel 22 5., dem Beispiel mit der Spannung würde der über den Zeitraum [0, T ] gemitRT
telte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung
zu halten, vorallem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist.
Im Falle Beispiel 28 3., wo mit gleicher Wahrscheinlichkeit eine Zufallsvariable die Werte
0 < a ≤ X(ω) = ω ≤ b annimmt, stellt
Z b
1
a+b
x dx = · · · =
b−a a
2
einen Mittelwert aller möglichen Werte von X(ω) dar.
Noch deutlicher ist in Beispiel 28 4., für die Schale mit den Mikroben
Z ω1
ρ(ω1 , ω2 ) d(ω1 , ω2 )
ω2
S
als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden.
1.2. Zufallsvariable und Verteilungen
37
Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation
des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der
klassischen Mechanik. Dieses Bild von “Massenverteilung” kann hilfreich sein, vorallem in
Abschnitt 2.3, wo es um die Kovarianz geht.
Beispiel 31 Es sei M eine Teilmenge im R3 . Zunächst soll diese Menge abzählbar sein und
aus Vektoren bestehen, d.h., M = {~xi | i ∈ N}. Angenommen, jedes ~xi ist die Position eines
Massenpunkts mit der Masse mi , derart daß
X
mi = 1
i
ist (Gesamtmasse = 1). Dann lernt man, daß
X
~ :=
S
mi ~xi
i
der Massenmittelpunkt des Systems ist.
In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein
Teilchen (=Massenpunkt) ω ∈ Ω := R3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi
aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß
X
P =
mi δ~xi
i
vor, und dann ist
~ = E(X),
~
S
~
wobei X(ω)
= ω die Identität auf R3 ist.
Nun sei M nicht notwendig
abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender
R
Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale
Z
~
~
~xρ(x, y, z) d(x, y, z).
S = E(X) =
M
Beispiel 32 (Verteilungsfunktion für Münzwurf)
Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1},
wobei P ({i}) := 12 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2),
bzw. F (1) − F (0) gedeutet werden?
Antwort: Man definiert eine Zufallsvariable X : Ω → R durch X({i}) := i. Nun ist
F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}|
= |{i∈Ω|i<a}|
. Dann ergibt sich folgende Skizze
2
2
und Rechnung:
38
Wahrscheinlichkeitstheorie
O
−∞ o
/
◦
1
1
2
◦
0
•
•
/ +∞
0
1
F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist “man ein bißchen rechts von 1,
also sind alle Werte von i im Intervall”), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil
F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤
i < 1) = P ({0}) = 21 .
Im Eingangsbeispiel wurde
schon angedeutet, daß für eine Zufallsvariable X im endlichen
P
Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens
der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem
Wiederholen des Zufallsexperiments zu “erwarten” ist. E(X) läßt sich durch F ausdrücken,
nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) −
F (s)
X
E(X) =
s(F (s+ ) − F (s))
s∈S
und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß!
Definition 33 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω → R
eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren Menge
S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiters sei
Z ∞
X
|x|f (x) dx +
|s|P ({s}) < ∞,
−∞
s∈S
so heißt
Z
∞
µX = E(X) :=
xf (x) dx +
−∞
X
sP ({s})
s∈S
Erwartungswert von X. Es heißt f Verteilungsdichte.
Es heißt
V (X) := E((X − µX )2 )) = E((X − E(X))2 ) = E(X 2 ) − E(X)2
Varianz von X und
σX :=
p
V (X) =
p
E((X − E(X)2 )
1.2. Zufallsvariable und Verteilungen
39
die Streuung oder Standardabweichung.
Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung.
Anschaulich ist der Erwartungswert ein “Mittelwert”, die Varianz besagt etwas, wie weit
die Werte der Zufallsvariablen vom Mittelwert weg “variieren”, und die Schiefe ist ein grobes
Maß, inwieweit die Verteilung nicht “symmetrisch” um µ gelegen ist.
Anmerkung 34
1. Im diskreten Fall ergibt sich die zu Beginn schon benützte Formel
P
E(X) = x xP (X = x);
R∞
2. Wenn F stetig differenzierbar ist, ergibt sich E(X) = −∞ xf (x) dx.
3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ R, und existieren E(X) und E(Y ), so
auch E(aX + bY ) und es ist
E(aX + bY ) = aE(X) + bE(Y ). (“E ist ein lineares Funktional”)
4. E(X) ist charakterisiert als jene Zahl µ für die E(X − µ) = 0 gilt.
X
5. Hat man Ω
"
g
A
"
2 R , wobei A ⊆ R ist, so ist gX Zufallsvariable auf Ω und
gX
für diskretes X
E(gX) =
X
g(x)P (X = x) = EX (g).
x∈X
6. (Transformation für 1-dimensionales g)
Es sollen Zufallsvariable X, Y : Ω → R mit stückweise
stetigen Dichten fX , fY und g : R → R stetig differenzierbar und streng monoton sein, welche die Rolle
einer Transformation spielt, d.h. Y = gX. Weiters soll
w : R → R eine integrierbare Funktion bezüglich der
Dichte fX sein. Die Situation ist jene im Diagramm.
Als Konsequenz der Substitutionsregel für Integrale
ergeben sich folgende Beziehungen:
Für die Dichten gilt:
ΩA
AA
}}
}
AAY
}
}
AA
}
}~
g
/R
RA
}
AA
}}
AA
}}wg−1
w AA
}
~}
fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y))
X
R
1
g 0 (g −1 (y))
Für die Verteilungsfunktionen gilt:
FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y))
Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt:
EY (wg −1 ) = EX (w).
.
40
Wahrscheinlichkeitstheorie
7. Ist X : Ω → Rk eine Zufallsvariable und g : Rk → R stetig differenzierbar, und ist
fX Dichte der Verteilung von X, so kann die Verteilung von gX durch
Z
FgX (z) =
fX (x) d(x)
{x|g(x)<z}
bestimmt werden.5
Beispiel 35 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7.
“Skalierungen” von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl.
Beispiel 44). Der Gebrauch von 7. wird ebenso dort für die Berechnung der Verteilung von
g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 55 und
Beispiel 56) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem Skriptum
nicht vorgeführt werden soll.
1. Die Zufallsvariable X : Ω → R sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion
FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ).
Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit
ist FX (x) = 0, 21 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist
R1
R∞
3 1
EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 21 dx = 12 x3 = 13 .
−1
Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die
Verteilungsfunktion ergibt die Transformationformel für y = ax + b
fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a,
und weil y = g(x) = ax + b sofort g −1 (y) = y−b
a ergibt, bekommt man fY (y) =
y−b
1
1
a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a
ist. Ansonst ist fY (y) = 0.
Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) =
FX (g −1 (y)) = FX ( y−b
a ) zu bekommen. Die Fallunterscheidung in der Definition von FX
überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte
−a + b und a + b übergehen.
Deshalb ist FY (y) = 0, 21 ( y−b
a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b,
bzw. a + b ≤ y ist.
Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden.
Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen
Intervall [−1, 1] liefert keinen Beitrag):
Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie
(−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x).
5
g
−1
1.2. Zufallsvariable und Verteilungen
EY (Y ) = EY (gg −1 Y ) = EX (gX) =
R1
−1 (ax
41
+ b) 12 dx =
1
2
R1
−1 b dx
= b.
Wer es nicht glaubt oder gerne “rechnet”, berechnet EY (y) auf direktem Weg:
R a+b 1
1 1 2 a+b
1
2
2
dy = 2a
EY (Y ) = −a+b y 2a
2 y −a+b = 4a ((a + b) − (a − b) ) = b.
2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 28 3. Welche
Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat
sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist?
Antwort(findung):
Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x.
Der Rest von R darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so
fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt
√
sich für die Dichten wegen g −1 (y) = y:
√
fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y,
also fY (y) =
1
√
2 y,
sofern y ∈ (0, 1] und Null sonst.
Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) =
√
FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche
y
Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy =
R y du
√
√
y.)
0 2 u =
Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der
Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge
√ √
{x ∈ R | x2 < z} = (− z, z). Nun ist fX = 31 genau auf [−1, 2] und man muß nur
mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall
√
leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!):
Z
Z min{2,√z}
√
√
1
1
FgX (z) =
fX (x) dx =
dx = (min{2, z} − max{−1, − z}),
√ √
√
3
(− z, z)
max{−1,− z} 3
was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in
geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung
die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 55) führt.
3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei
X : Ω → R definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 .
P
Antwortfindung: In Anmerkung 34 4., sei g(x) := x. Dann ist E(X) = x∈R xP (X =
x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p.
P
2
Analog, wenn g(x) = (x − p)2 , findet man E(gX) =
x∈R (x − p) P (X = x) =
(0 − p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist.
Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 40 nützlich sein.
42
1.2.4
Wahrscheinlichkeitstheorie
Unabhängigkeit von Zufallsvariablen
Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte “voneinander unbeeinflußt” in zufälliger Weise annehmen. So etwa wird beim 5
maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen
Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, “hinterhältige”
Situation in Anmerkung 20. Um zu präzisen Begriffen zu gelangen, erinnern wir an die Unabhängigkeit von Ereignissen A und B (Definition 18), nämlich P (A ∩ B) = P (A)P (B).
Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈
A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man
diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis “X < x”
und B das Ereignis “Y < y”, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß
F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und
B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus
F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben:
Definition 36 Die zufälligen Variablen X, Y : Ω → R heißen (stochastisch) unabhängig, falls
die Zufallsvariable (X, Y ) : Ω → R × R die Verteilungsfunktion F(X,Y ) (a, b) = FX (a)FY (b)
besitzt.
Die Folge Xi : Ω → R mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge
stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈
I) von der Form
Y
F(Xi |i∈I) (ai | i ∈ I) =
FXi (ai )
i∈I
sein.
Anmerkung 37 Sind A und B Ereignisse in Ω, so sind sie genau dann unabhängig,
wenn die Indikatorfunktionen stochastisch unabhängig sind.
Haben insbesondere FX und FY Dichten fX und fY , so ist zur Unabhängigkeit hinreichend und notwendig, daß F(X,Y ) als Dichte das Produkt f(X,Y ) (x, y) = fX (x)fY (y)
hat.
Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau
dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → RI
eine Dichte hat, und diese die Gleichung
Y
f(Xi |i∈I) ((xi | i ∈ I)) =
fXi (xi )
i∈I
erfüllt.
1.2. Zufallsvariable und Verteilungen
43
Im Falle der Unabhängigkeit von X und Y ergibt sich
µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY
und hieraus nach ein wenig Rechnung
V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X).
Beispiel 38 Einige Beispiele hiezu
1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und
X, Y : Ω → R die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw.
Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 16 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 28 1. (jene für die Augenzahl mit
einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man,
1
indem man zunächst P ({(i, j) | (i, j) = (i
ergibt sich
P0 , j0 )})
P = 36 ermittelt. Danach
P
P
1
F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36
=
P
P
P
P
1
1
i<i0 6
j<j0 6 =
i<i0 P ({i}
j<j0 P ({j}) = FX (i0 )FY (j0 ).
2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) =
(5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 61 , sowie
1
1
P ({(i, j) | i+j = 2}) = 36
, also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216
6= 0
zu vermerken.
3. Beim Fehlergesetz (im Anschluß an Anmerkung 48) werden Annahmen über die Unabhängigkeit von Fehlern gemacht.
1.2.5
Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
Es sei (X, Y ) : Ω → R2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von
Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend
Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die
Verteilung von FX durch
X
FX (x) =
P(X,Y ) ({(x, y)})
y∈Y
im diskreten Fall und falls f(X,Y ) eine Dichte ist, so ergibt sich
Z ∞
fX (x) =
f (x, y) dy.
−∞
Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ).
Man bezeichnet im diskreten Fall den Bruch
P(X,Y ) (x, y)
PX (Y | x) := P
x P(X,Y ) (x, y)
44
Wahrscheinlichkeitstheorie
als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den
Wert x angenommen hat.
Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten
fY |x (x, y) :=
f(X,Y ) (x, y)
fX (x)
bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt.
Im diskreten Fall heißt
E(g(X, Y ) | x) :=
X
x
g(x, y)PX (Y | x)
1.2. Zufallsvariable und Verteilungen
45
und im Falle von Dichten
Z
∞
E(g(X, Y ) | x) :=
g(x, y)fY |x (x, y) dy
−∞
bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat.
Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen.
Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So
z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → R3 aus der gemeinsamen Verteilung
von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet
werden und entsprechend bedingte Erwartungswerte und -dichten.
Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an
stochastische Prozesse, etwa in der Signalverarbeitung.
1.2.6
Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen
In den nachstehenden Tabellen finden sich die Daten der entsprechenden Verteilungen. Hier
sollen einige Aufgaben das Auftreten von Zufallsvariablen mit den entsprechenden Verteilungen repräsentieren.
Beispiel 39 (Dirac- oder Punktverteilung) Es sei Ω ⊆ Rn und ~x0 ∈ Ω, sowie Σ := P(Ω),
sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von X(~
ω ) := ω
~
ist gegeben durch
0 ∃i xi < x0i
F (x1 , . . . , xn ) =
1 ∀i xi ≥ x0i
Ist gX mit g : A ⊆ Rn → R und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und
V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben.
Allgemeiner kann jedes diskrete Punktmaß im Rn in der Form
X
P =
ai δ~xi
i
P
beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß.
Ist n = 1, so sind
X
µ=
xi ai
i
und
σ2 =
X
ai x2i − µ2 .
i
Beispiel 40 (Bernoulliverteilung6 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈
Σ ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit
q bezeichnet werde. Wie in Beispiel 35 3. ausgeführt, ist die Verteilungsfunktion FX der
Zufallsvariablen X : Ω → R mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das
6
Auch Binomialverteilung
46
Wahrscheinlichkeitstheorie
Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf R, d.h. 0 für
x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei
q := 1 − p ist.
Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem
solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ R mit FXi = FX
(gleiche Verteilung wie X). Hiedurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → Rn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede
Wahl der xi ∈ {0, 1}
P(
n
\
{ω | Xi (ω) = xi }) =
i=1
n
Y
P ({ω | Xi (ω) = xi }) = pk q n−k
i=1
wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft,
die Anzahl jener Indizes i, für die das Ereignis APim i.ten Versuch eintritt.
Nun sei S : Ω → R die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ N
genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist.
Dementsprechend ist
n k n−k
P ({ω | S(ω) = k}) =
p q
,
k
weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der
Indizes {1, . . . , n} zu wählen.
In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf R,
nämlich
n X
n k n−k
PS =
p q
δk .
k
k=0
Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes
X
X n
PS ({k}) =
pk q n−k = (p + q)n = (p + 1 − p)n = 1.
k
k
k
Für den Erwartungswert von S findet man gemäß Anmerkung 34
P
E (S) = Px∈R S(x)P ({ω | S(ω) = x})
= Pnk=0 kP
= k})
({ω | S(ω)
n k
n−k
=
p)
k k k p (1 −
p k
P
n
n
= q
k≥1 k k
q
und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter
Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden),
daß
µ = E (S) = np.
1.2. Zufallsvariable und Verteilungen
47
Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der
Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich
P
V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2
= nE(X 2 ) + n(n − 1)p2 − n2 p2
= np − np2 = npq.
Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n; p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und
Varianz pq
n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß
bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit
immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 46) und schließlich beim zentralen Grenzwertsatz
(Anmerkung 48) eingegangen werden (Grundlagen der Statistik)!.
Am Ende dieses Beispiels möge eine konkrete Situation stehen:
• Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5%
fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5
Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon
kaputt ist?
Man kennt die Wahrscheinlichkeit des Ereignisses A, “Sicherung kaputt”, sie ist p =
5
100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob
sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer
kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der
Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5
Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen
nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar.
5
Somit ist die Verteilung B(5; 100
) und somit ergibt sich als Wahrscheinlichkeit
5 0 5
1 − PS (0) = 1 −
p q = 1 − (1 − 0.05)5 ≈ 0.226,
0
was gar nicht so klein ist!
Beispiel 41 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein (etwa für
das Auftreten eines Produktionsfehlers) und n groß ist (etwa die Anzahl der entnommenen
Stichproben), so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von
λ := np folgende Approximationen einer B(n; p)-verteilten Zufallsvariablen X gebräuchlich:
n k n−k
λk −λ
E(X) = λ, V (X) = λq, PX ({k}) =
p q
≈
e .
k!
k
Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene
48
Wahrscheinlichkeitstheorie
für PX ({k}) etwas Erklärung. Es ist
PX ({k}) =
≈
≈
≈
Es erweist sich PX ({k}) :=
λk −λ
k! e
PX (R) =
als W-Maß auf R, weil jeder dieser Werte positiv und
X
k
n−j+1 k
λ n−k
j=1
jn λ 1 − n
−k
Qk 1 k
λ n
1 − nλ
j=1 j λ 1 − n
λk
λ n
k! 1 − n
λk −λ
.
k! e
Qk
PX ({k}) =
X λk
k
k!
ke−λ = eλ e−λ = 1
ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter
λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. “seltene Ereignisse”).Inwieweit die
Näherungen für B(n : p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [34]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung
durch die Poissonverteilung brauchbar zu approximieren.
Hier ein Beispiel aus [34]:
Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2
unbrauchbare vorzufinden?
1
Antwort: Wie in Beispiel 40 kennt man die Fehlerwahrscheinlichkeit p = 1000
dafür, ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften Werkstücke
zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt X die Anzahl
der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden. Dieses X ist
1
B(500, 1000
) verteilt und somit ist
500
500
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 −
0.999499 ≈ 0.090128.
1
Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204.
Beispiel 42 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → R heißt
hypergeometrisch mit den Parametern m, N, n ∈ N mit m ≤ N und s ≤ N verteilt, im
Zeichen, H(m, N, s) wenn sie auf R das diskrete W-Maß
1 m N −m
PX ({k}) = N k
s−k
s
besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit,
aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit
1.2. Zufallsvariable und Verteilungen
49
bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩
M | = k zu finden.
Weiters sind Erwartungswert und Streuung:
X
s
s s N −m
E(X) =
kPX ({k}) = M , V (X) = m
.
1−
N
N
N
N −1
k
Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich
vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht.
Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die
W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M
gehören, also auch das besagte Merkmal haben.
Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem
jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die
Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition
5 zu machen (jedes Elementarereignis ist gleichwahrscheinlich), somit ist Σ die Menge aller
Teilmengen von Ω und
1
P ({S}) := |N | .
s
Wie lautet die Verteilung von X?
Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den
vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung
S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe
einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von
M 0 eindeutig festlegen, nämlich S = T ∪ U .
N
|M |
Für ein festes k-elementiges T gibt es k , danach für
0 |
|M | = m
M
M0
die Wahl des Komplementanteils U |M
s−k Möglichkeiten ein k-elementiges S “zusammenzustellen”:
1
|M | |N | − |M |
PX ({k}) = |N |
.
k
s−k
s
|T | = k
|U | = s − k S
T =S∩M
U = S ∩ M0
Konkretes Anwendungsbeispiel:
Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die
Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält?
Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der
500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge
der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe
50
Wahrscheinlichkeitstheorie
S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren:
1
10 490
490 · 489 · · · · 441
PX ({0}) = 500
= ··· =
≈ 0.34516.
0
50
500 · 499 · · · 451
50
Anderes Beispiel:
Wie groß ist die Wahrscheinlichkeit, bei “6 aus 45” wenigstens eine Zahl richtig zu erraten?
Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen
(nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S
durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl
der “Richtigen” an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man
1 6 39
39 · · · 33
11951
PX ({0}) = 45
=
=
.
0
6
45 · · · 39
35260
6
Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit.
Beispiel 43 (Exponentialverteilung) Eine Variable X : Ω → R ist λ-exponentialverteilt,
wenn ihre Dichte für positive x durch fX (x) = λe−λx , mit λ > 0 und durch fX (x) = 0 für
x ≤ 0 gegeben ist. Man findet FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x.
Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 .
Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung (“exponentieller Zerfall”).
Beispiel 44 (Gaußverteilung) Eine Variable X : Ω → R ist normal- bzw. Gaußverteilt,
falls es µ ∈ R und ein positives σ gibt, sodaß PX eine W-dichte der Form
2
1 (x−µ)
1
fµ,σ (x) = √ e− 2 σ2
σ 2π
Rx
hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man
sagt auch, X ist N (µ, σ)-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt,
C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit
dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 48)
klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ
normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 40).
Es gelten folgende Aussagen:
1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) :=
R x − t2
√1
e 2 dt, die sowohl tabelliert vorliegt (z.B. in [3]), als auch numerisch in Stan2π −∞
dardpaketen zugänglich ist (etwa in den Statistikpaketen R7 oder S8 ). Der Nachweis
7
8
Free Software
Komerzielles Produkt
1.2. Zufallsvariable und Verteilungen
51
für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten
x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π))
Z
∞
2
e
− t2
2 Z
dt =
− 12 (x2 +y 2 )
e
Z
0
2
− r2
e
d(x, y) =
R2
−∞
∞ Z 2π
r dφ
2
dr = −2π e
− r2
0
∞
= 2π,
0
woraus Φ(∞) = 1 folgt.
2. Für eine N (µ, σ)-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 .
3. Ist X gemäß N (µ, σ)-verteilt, so ist die standardnormierte Zufallsvariable Z :=
gemäß N (0, 1)-verteilt, genauer,
x−µ
.
Φµ,σ (x) = Φ
σ
X−µ
σ
All dies folgt unmittelbar aus Anmerkung 34 6.
4. Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist aX gemäß N (aµ, aσ)-verteilt.
5. Sind die unabhängigen Zufallsvariablen
√ X, Y jeweils N (µ, σ) und N (ν, τ )-verteilt, so
ist X + Y verteilt gemäß N (µ + ν, σ 2 + τ 2 )9 . Allgemeiner ergibt sich hieraus (durch
Induktion) das Additionstheorem unabhängiger
N (µi , σi )-verteilter Zufallsvariabler
Pn
Pn Xi :
Ω → R, demzufolge
die
Dichte
von
X
gemäß
N
(µ,
σ)-verteilt
mit
µ
=
i=1 i
i=1 µi
Pn
2
2
und σ = i=1 σi ist.
6. Sind X, Y : Ω → R unabhängige Zufallsvariable mit N (µX , σX ) und N (µY , σY )1 −Q(x,y)
Normalverteilung, so ist die Zufallsvariable gemäß einer Dichte f(X,Y ) (x, y) := 2π
e
mit Q(x, y) = σ12 (x − µX )2 + σ12 (y − µY )2 verteilt. Diese Dichte hat die bekannte
X
Y
Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µX , µY ) und Halbachsen im Verhältnis der Streuungen. Dreht man das Koordinatensystem, so erscheinen
in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten
herrührt, siehe hiezu 2.3.
7. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1.
9
Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation
bekannt ist. Um die Faltung zu sehen, benützen wir Anmerkung 34 7. Demgemäß
R
hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden
der Substitution
t − x, dy = dt, “neue
Grenzen=−∞,
z”, Vertauschen
Rz
R z der
R ∞ Integrationsreihenfolge zu
R ∞ y R=z−x
R∞
FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. Diese
R∞
Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was
identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise
gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten
der Dichten.
52
Wahrscheinlichkeitstheorie
Für den letzten Punkt soll kurz der Nachweis erbracht werden (der ganz allgemein für
beliebige Verteilungen F mit bezüglich des Nullpunktes symmetrischer Verteilungsdichte f
geht), wobei an geeigneter Stelle die Substitution u = −t, dt = −du und neue Integralgrenzen
∞ bzw. a, und schließlich die Symmetrie f (u) = f (−u) = f (t) benützt wird: Es ist P (|X| <
a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < Ra} \ {ω | −a < X}) =R P ({ω | X <
a
∞
a}) − P ({ω | −a < X}) = F (a) − F (−a) = F (a) − −∞ f (t) dt = F (a) − a f (u) du =
F (a) − (1 − F (a)) = 2F (a) − 1.
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Normalverteilung N(0,1)
1.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
53
1
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Verteilungsfunktion N(0,0.5)
1.3
1.3.1
Approximation mathematischer durch empirische Wahrscheinlichkeit
Ungleichung von Tschebischeff und das Bernoulliexperiment
Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment
ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine Wtheoretisch formulierte Antwort auf die in Beispiel 1 aufgeworfene Frage, inwieweit man denn
erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich
mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist
eine solche Frage, wenn p durch statistische Erhebung “geschätzt” werden soll, also von
vorneherein unbekannt ist. Mehr darüber in den Beispielen 50 und 53.
Wir werden die Ungleichung von Tschebischeff dabei benützen:
54
Wahrscheinlichkeitstheorie
q
◦
◦
•
0
•
0
1
1=p+q
Abbildung 1.2: “Theoretische” Verteilungsfunktion beim Bernoulliexperiment
Anmerkung 45 (Ungleichung von Tschebischeff) Es sei X : Ω → R eine Zufallsvariable und > 0, so gelten folgende Aussagen:
• P (|X| ≥ ) ≤
E(|X|)
.
• P (|X − E(X)| ≥ ) ≤
V (X)
.
2
Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach
definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y
auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung
E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ),
und hieraus durch Umformen die erste Behauptung.
Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also
P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := |Y − E(Y )|2 , so ergibt sich
P (|Y − E(Y )|2 ≥ 2 ) ≤
V (Y )
,
2
und weil links definitionsgemäß das Maß der Menge
{ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ }
ermittelt wird, ist alles gezeigt.
w.z.b.w.
Beispiel 46 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand
geht, “theoriegestützt” von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω →
{1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das sei z.B.
durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische) Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. 1.2 angegegebenen
Form.
Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde
man sich gerne auf (H), d.h. q = 1 − p = 12 aufgrund mathematischer Betrachtungen stützen
können.
Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art:
1.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
55
a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt,
b) oder n mal (unabhängig voneinander) hintereinander ausgeführt.
Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest
für i = 1, . . . , n. In dieser Weise, wie in Beispiel 40 (Bernoulliverteilung) genauer ausgeführt
worden ist, ergibt sich für die Zufallsvariable Sn : Ω → R, definiert durch
Sn (ω) :=
n
X
Xi (ω) = |{i | Xi (ω) = 1}|,
(1.1)
i=1
welche abzählt, in wievielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung
mit E(Sn ) = np und V (Sn ) = npq.
Schließlich kommt die Ungleichung von Tschebischeff (Anmerkung 45) zum Zug, indem
wir dort X := n1 Sn einsetzen und V n1 Sn = n12 V (Sn ) beachten:
1
pq
P Sn − p ≥ ≤ 2 .
(1.2)
n
n
Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils),
welchen Näherungswert würde man nach n Versuchen für p benützen?
Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend,
k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte)
Wahrscheinlichkeit p ist.
Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die “Irrtumswahrscheinlichkeit”.
Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist?
Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 14 annimmt, ist
pq
1
≤
,
2
n
4n2
1
1
sodaß es hinreichend ist, 4n
2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also
10% Genauigkeit bei der Approximation), so ist n = 250.
Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als
250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k :=
300
300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000
≈ p als Approximation der
Fehlerwahrscheinlichkeit ist.
Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist
α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage:
“Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.”
Antwortfindung: Zunächst läßt sich Glg.(1.2) in äquivalenter Form als
1
pq
P (| Sn − p| ≤ ) ≥ 1 − 2
n
n
56
Wahrscheinlichkeitstheorie
schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck
1
| Sn − p| ≤ n
pq
ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n
2 ≥ 1 − α
pq
1
ergeben – in äquivalenter Form – aus α ≥ n2 . Da letzteres aus α ≥ 4n2 folgt, kann man
1
:= √4αn
setzen und so ergibt sich (für dieses ):
1
1
P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α.
n
n
Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) :=
1
n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie
zu n events annehmen. Diese Schranken passen sich also dem n an!
300
= 3 × 10−3 als Näherung
Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000
1
für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn
= √4×101−1 ×105 =
5 × 10−3 und bekommt
k
k
P (p ∈ [ − , + ]) ≥ 1 − α,
n
n
und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für
das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ].
(Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa
1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p
können Ausgangspunkt für die Berechung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.)
Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen?
Antwort: wird am Ende von Beispiel 53 1. gegeben werden.
a) = 1
Punkt- oder
Dirac-V. δa
an a
= k) =
= k) =
Hypergeometrische-,
M , N , n aus
N
−M
)
(Mk )(Nn−k
N
(n)
λk −λ
k! e
xk)
=
n k n−k
p
q
k
BernoulliBinomialBn (p),
sei
0 < p < 1
und
q := 1 − p
Poisson-, sei
λ>0
xi ) =
Gleichmäßige
1
n
P (X =
Name d. V.
λk
k!
x≤0
0<x
x ≤ x1
xk−1 < x ≤ xk ,
2≤k≤n
xn ≤ x
0
P
e−λ k<x
1
k.A.
k−1
n
0
FX (x) =
0 x≤a
1 x>a
nM
N
λ
i=1
Pn
np
1
n
a
E(X)
xi
nM
N 1−
λ
npq
M
N
N −1
N −n
E(X 2 ) − E(X)2
0
V (X
Ziehen von Stichproben ohne Zurücklegen, Beispiel
42
Poissonprozess,
Beispiel 41
n-maliges
Durchführen
eines Experiments,
Beispiel 40
Laplace W-Raum
X = a ist ein sicheres Ereignis
Anwendungsbereich
1.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
57
Student-, tn ∈ N, n >
0
1
0
Rx
Γ( n+1
2
√1
)
nπ Γ( n
2
n
2 2 Γ( n
)
2
χ2 - n ∈ N,
n>0
h
n
− 12
u−µ 2
σ
−∞ “
R∞
2
du
” n+1
2
1+ un
e− 2 u− 2 −1 du
u
−∞ exp
Rx
i
du
1
x−µ 2
σ
i
“
2
1+ xn
1
2
” n+1
x≤0
x
n
e− 2 x− 2 −1 x > 0
h
exp − 12
n
2 2 Γ( n
)
2
n+1
Γ( 2
√1
)
nπ Γ( n
2
0
√1
σ 2π
0
x≤0
λe−λx x ≤ 0 < x
0
x≤0
1 − e−λx 0 < x
√1
σ 2π
FX0 (x) = f (x)
0
x<a
1
b−a a < x ≤ b,
0
b≤x
FX (x)
0
x<a
x−a
b−a a < x ≤ b,
1
b≤x
Gauß,
N (µ, σ), µ,
σ>0
Exponentialλ>0
Rechteck,
Intervall
a<b
Name d. V.
0 (f n ≥
2)
n
µ
1
λ
3)
n
n−2
2n
σ2
1
λ2
(f n ≥
− a)2
1
12 (b
1
2 (a
+ b)
V (X)
E(X)
standardisierte
normalverteilte Daten nicht
normalverteilt
bei unbekannter
Varianz Beispiel
55
Beispiel 55
Beispiel 44
Lebensdauer,
Zerfallsdauer,
Beispiel 43
Beispiel 28 3.
Anwendungsbereich
58
Wahrscheinlichkeitstheorie
1.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
59
1.3.2
Gesetz der großen Zahlen, Zentraler Grenzwertsatz
Beim Bernoulliexperiment (Beispiel 46) kommt man zur Aussage, daß sich bei wachsenden
Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei
A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben,
zumindest in folgendem Sinn: Aus der Ungleichung Glg.(1.2) ergibt sich
1
lim P (| Sn − p| ≥ ) = 0
n→∞
n
für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk “gut” sein sollte
im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also “nahezu sicher” sein
darf, daß hn (A) = nk ≈ p.
Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 49,
der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene
Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die
gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von
Kolmogorov Anmerkung 47.
Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind10 , vorgestellt werden.
Anmerkung 47 (Kolmogorov) Ist Xn : Ω → Rk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und
∞
X
V (Xn )
n2
n=1
erfüllen, so ist
<∞
n
1 X
P ({ω | lim (
Xj (ω) − E(Xn )) = 0}) = 1.
n→∞ n
j=1
Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und
es ergibt sich aus dem vorigen
n
1X
P ({ω | lim
Xj (ω) = E(X)}) = 1.
n→∞ n
j=1
Die Konvergenzaussage wird auch als “Xn gehorcht dem starken Gesetz der großen Zahlen”
ausgedrückt, während die schwächere, aus ihr folgende:
n
1 X
Xj (ω) − E(Xn ) > }) = 0
lim P ({ω | n→∞
n
j=1
10
etwa [23]
60
Wahrscheinlichkeitstheorie
für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn = n1 Sn
wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall,
nämlich, daß die Folge ( n1 Sn | n ∈ N) dem schwachen Gesetz der großen Zahlen genügt.
Der zentrale GWS wird auch in allgemeinerer Form und unter technischen Bedingungen
(von Lindeberg, siehe S. 111 in [23] ff.) formuliert. Eine vereinfachte (oft zitierte und benützte) Version ist die folgende:
Anmerkung 48 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable) Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und
V (X) = σ, so ist die standardisierte Zufallsvariable
Pn
X̄(ω) − µ √
j=1 (Xj (ω) − µ)
√
Z(ω) :=
=
n,
σ
σ n
P
mit X̄ := n1 ni=1 Xi approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b) −
Rx
2
Fn (a) gegen Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 44, Φ(x) := √12π −∞ e−x dx
ist.
In diesem Sinne ist das Fehlermittel
n
1X
X̄(ω) − µ =
(Xj (ω) − µ)
n
j=1
auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, √σn )-verteilt11 .
Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 12 und Laplace
1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel
46) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung B(n, p),
welcher die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) = nk , wenn in k von n
unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz
k − np
< b → Φ(b) − Φ(a)
P a≤ √
npq
für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis
gelegentlich benützten Faustregeln np > 4 und nq > 4 ([19], Seite 160), bzw. in [34]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen.
Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar her√
leiten, weil jedes Xi (wie in Beispiel 46) Erwartungswert µ und Streuung σ = pq (vgl.
√
Beispiel 35 3.) hat. Danach wird das Z zu Z = S√n −µ
n, was nach wenig Rechnung zur
pq
Behauptung führt.
11
Vgl.Beispiel 44 4.
1.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
61
Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal
gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige
Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im
Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das
l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach Messungsserie und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W.,
die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste
signifikante Stelle 1 ist.
Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := R überzugehen. Die Erfahrung lehrte:
1. kleine Fehler sind häufiger als große,
2. positive und negative Fehler heben einander nahezu auf,
3. Fehler, nahe bei Null, sind am häufigsten.
Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach
sich gezogen (siehe die ausführliche Diskussion in [16]). Gauß schließlich postulierte
das nach ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ
normalverteilt angenommen werden darf.
Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS
wie folgt:
Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h.
F =
n
X
Xi
j=1
und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß
er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat,
√
so ist F nach dem zentralen GWS approximativ N (0, σ n)-verteilt. Da n zwar groß,
aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler
F approximativ N (0, σF )-verteilt, wobei σF2 ≈ V (F ) gelten muß.
Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein
und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert
wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die
Länge l genommen. Das n-fache Messen soll nun approximativ die VerteilungpF von
X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X)
interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In 3. von Beispiel
50 wird der Physikpraktikumsübliche Näherungswert σ̂ beschrieben.
62
Wahrscheinlichkeitstheorie
Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler (nämlich tatsächliche unbekannte Länge l minus Wert der j.ten Messung). Das in Anmerkung 48 genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, approximativ
N (0, √σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das
Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In
Unterabschnitt 2.2.1 wird µ, bzw. σ die Rolle eines “Parameters” spielen, der anhand
gemessenen Datenmaterials geschätzt werden soll.
Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die “mathematische” betrachtet. Das
kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. 1.2 angesehen werden. Beim Satz von GliwenkoCantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 49.
Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache
Folgerung aus dem zentralen GWS ist (z.B. in [15]).
Kapitel 2
Statistik
2.1
Grundlagen und Kurzbeschreibung
2.1.1
Aufgaben der Statistik
Details, die hier möglicherweise beim ersten Durchlesen schwer verständlich sind, werden in
den nachstehenden Kapiteln behandelt. Einfach weiter lesen und später diese grobe Übersicht
durchsehen.
Beschreibende Statistik. Sie befaßt sich mit der übersichtlichen Aufbereitung von (großen)
Datenmengen, die durch Messungen im weitesten Sinne zustandekommen. Dazu gehören
etwa Histogramme, die manchmal in Prozenten, manchmal in Absolutzahlen – oft auch
in Klassen zusammengefaßt – Datenmaterial veranschaulichen.
Schließende Statistik. Es geht darum, für eine nicht näher oder nur zum Teil bekannte
~ : Ω → Rk (z.B. ist k = 2 beim
Verteilung F einer (vektorwertigen) Zufallsvariablen X
Dartschießen, nämlich x- und y-Koordinate) durch folgende Methode eine Näherung zu
gewinnen:
Man gibt eine natürlich Zahl n vor, “mißt” n-mal und faßt jede Messung als Festle~ verteilten zufälligen Variablen X
~ i : Ω → Rk auf. Die
gen eines Wertes einer wie X
Messung ist so auszuführen, daß keine die andere beeinflußt, und das bedingt, daß die
~ i unabhängig sind. Das Meßergebnis ~xi (der Variablen X
~ i ) heißt dann deren
Variablen X
Realisation.
Einfache Beispiele des Messens: n-malige Wiederholung eines Zufallsexperiments im
Bernoulliexperiment, n-maliges Abmessen einer Strecke (z.B. in der Geodäsie). Aus
einer Population, d.i. Gesamtheit, n-mal hintereinander “in zufälliger Weise” Elemente
herausgreifen, die Größe (oder nur das Vorhandensein eines Merkmals, d.i. Wert der
Zufallsvariablen nur Null oder Eins) messen, das Element “zurücklegen”.
Die n Messungen stellen ein zufälliges Experiment dar, bei dem die vektorwertige Zu~ 1, . . . , X
~ n ) : Ω → (Rk )n als Wert (“Realisierung”) den Vektor
fallsvariable X := (X
x := (~x1 , . . . , ~xn ) ∈ (Rk )n annimmt. Nun geht es in der schließenden Statistik darum,
63
64
Statistik
die experimentell ermittelte Verteilungsfunktion Fn : Rk → [0, 1], nämlich
Fn (~x) :=
|{i | ~xi < ~x}|
,
n
wobei das “<” koordinatenweise zu lesen ist, als Näherungsfunktion von F (~x) anzusehen. Insofern wird hier das Bernoulliexperiment (Beispiel 46) verallgemeinert, als dort
die Verteilungsfunktion eine recht einfache Treppenfunktion (Fig. 1.2) darstellt.
Als theoretische Grundlage dafür wird der in Anmerkung 49 noch zu besprechende Satz
von Gliwenko-Cantelli angesehen.
In vielen Situationen kennt man die Verteilung F zum Teil, sei es, daß sie von einer
bestimmten Form ist, oder daß z.B. plausible Annahmen über die Größe ihrer Varianz
gemacht werden können. Oft will man auch nur Kenngrößen von F schätzen, wie z.B.
den Erwartungswert der nach F verteilten Zufallsvariablen X. Entsprechend gibt es
folgende Teildisziplinen der schließenden Statistik:
• Parameterschätzung1 . Man hat genügend Gründe dafür, anzunehmen, daß die
Verteilung F eine spezifische Form F (x, θ) hat, bei der θ ∈ Θ ein Parameter in
einem Parameterbereich Θ ⊆ Rd ist. Typisches Beispiel ist die Verteilungsfunktion der Normalverteilung N (µ, σ), bei der θ := (µ, σ) ∈ Θ := R2 die Rolle des
Parameters spielt. Nun wird eine “plausible” Näherung θ̂ des unbekannten Parameters θ mittels der Meßreiheergebnisse x ∈ (Rk )n bestimmt. Zu diesem Zweck
konstruiert man eine Schätzfunktion2 Z : (Rk )n → Rd , und berechnet θ̂ := Z(x).
Die häufigsten Methoden zur Auffindung einer geeigneten Schätzfunktion Z sind
die Momentenmethode3 und die der Maximum Likelihood Schätzung.
• Intervallschätzung für einen skalaren Parameters θ mit Konfidenzniveau4 α. Jetzt ist d = 1 und es geht genau wie vorher um die Schätzung eines
nunmehr skalaren
Parameters θ, (etwa θ = µ = E(X), der Erwartungswert, oder
p
θ = σ = V (X), die Standardabweichung). Allerdings wird jetzt α (meist ist
α ∈ {0.05, 0.02, 0.01}) vorgegeben. Danach konstruiert man skalarwertige Schätzfunktionen θ, und θ von (Rk )n → R derart, daß der zu schätzende Parameter
θ
θ(x) < θ < θ(x)
mit (1−α)×100%iger Wahrscheinlichkeit erfüllt. Die Größe 1−α ist das Konfidenzniveau, die Intervallgrenzen θ(x) und θ(x) sind die Vertrauensgrenzen. Wird dabei
die Anzahl der Messungen erhöht, darf man hoffen, daß diese Vertrauensgrenzen
enger zusammenrücken.
• Prüfen von Hypothesen. Es wird, nicht unähnlich zu vorher, diesmal als Signifikanzniveau bezeichnetes α (meist in {0.05, 0.02, 0.01}) gewählt. Als Hypothese
1
Anderer Name: Punktschätzung.
Stichprobenfunktion, Punktschätzer
3
soll hier nicht vorgeführt werden, siehe z.B. [19]
4
Auch Konfidenzschätzung genannt.
2
2.1. Grundlagen und Kurzbeschreibung
65
bezeichnet man eine Aussage, daß für eine vorgegebene Schätzfunktion Z die Zufallsvariable ZX in einem vorgegebenen Bereich liegt (z.B. Null ist, oder in einem
Intervall ist). Dem Neyman-Pearson Paradigma folgend, wird die Hypothese H0 als
Nullhypothese und eine weitere, sie ausschließende, als Alternativhypothese bezeichnet, und man möchte durch eine Stichprobe festlegen, ob man die Nullhypothese
verwerfen kann.
Nun wird eine neue Schätzfunktion T konstruiert, die Testfunktion und man ermittelt einen Ablehnbereich A durch die Bedingung
P (T ∈ A) ≤ α,
was insbesondere dann geht, wenn die Verteilung von T X bekannt ist. Wegen der
Annahme von H0 kann man P (T ∈ A) “ausrechnen” und deshalb den Ablehnungsbereich im vorhinein festlegen. Nun wird, wie schon angedeutet, eine Einzelmessung t für T X ermittelt. Fällt dieses t in den Ablehnungsbereich A, so wird die
Hypothese abgelehnt, andernfalls wird sie nicht abgelehnt. Je kleiner α ist, desto
geringer wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie
richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, A entsprechend gewählt. Gebräuchliche Testverfahren sind tTest, Wilcoxontest, χ2 -Anpassungstest und Kolmogorow-Smirnow-Anpassungstest,
auf die noch einzugehen ist.
• Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall
geht es um eine R2 wertige Zufallsvariable (X, Y ), von der eine Meßreihe (xi , yi ) als
Realisierung vorliegt. Dann liegt eine “Punktwolke” von Daten vor. Nun versucht
man, insbesondere wenn man Normalverteilung annimmt, eine Dichtefunktion zu
erraten, deren Graph konzentrische Ellipsen als Schichtlinien auffweist. Darüber
gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. Meßreihen helfen, die für diese Fragen relevanten Korrelationsund Regressionsgrößen zu schätzen.
2.1.2
Hauptsatz der Statistik
~ : Ω → Rk eine Zufallsvariable, deren Verteilungsfunktion F : Rk → [0, 1] nicht
Es sei X
näher bekannt ist (beim Dartschießen ist k = 2, die x- und die y-Koordinate). Nun wird
ein natürliches n vorgegeben und n einander nicht beeinflussende Messungen ausgeführt, die
~ verteilter Zufallsvariabler X
~ i : Ω → Rk
man als Realisierungen n unabhängiger genau wie X
k
auffaßt. Dann wird, wie in der Einleitung angesprochen, für jedes ~x ∈ R die Zufallsvariable
Fn (~x, ·) : Ω → [0, 1] durch
~ i (ω) < ~x}|
|{i | X
Fn (~x, ω) :=
n
definiert, wobei das “<” koordinatenweise zu lesen ist. Diese Zufallsvariable beschreibt die
~ i unterhalb des Wertes ~x (koorHäufigkeit der Experimente, in denen die jeweilige Variable X
dinatenweise von 1 bis k) liegt und wird durch Zufallsexperiment (dem Meßvorgang) ermittelt.
66
Statistik
Nämlich, das n-fache Messen ergibt eine empirische Häufigkeitsverteilung Fn : Rk → [0, 1],
die durch
|{i | xi < x}|
Fn (x) :=
n
gegeben ist, und die man als Realisierung der Zufallsvariablen Fn (x, ·) : Ω → [0, 1] auffaßt.
Erfahrungsgestützt erwartet man, daß Fn (x) eine gute Approximation von F (x) ist und im
Falle eines die Verteilungsfunktion die Stufenform wie in Fig. 1.2 hat, wissen wir das eben
durch das Bernoulliexperiment (Beispiel 46). Im allgemeineren Fall kann man sich auf den
“Hauptsatz der Statistik” stützen:
Anmerkung 49 (Gliwenko-Cantelli, 1933) Es sei
Dn (ω) := sup |Fn (x, ω) − F (x)|
x∈R
so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1.
In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine
gute Approximation von F ist, geht mit wachsendem n gegen Eins.
Je mehr Messungen man macht, “desto unwahrscheinlicher” sind “größere” Differenzen zwischen Fn und F auf R zu erwarten. Also, genau wie beim Bernoulliexperiment ergibt sich
beim Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die
aus der Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für
F (x) ist. Wohlgemerkt, keine Gewißheit, lediglich “sich erhöhende Wahrscheinlichkeit”.
2.2
2.2.1
Schätz- und Testverfahren
Parameterschätzung
Von einer zufälligen Variablen X : Ω → Rk hat man Grund zur Annahme, daß sie einer
Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ Rd ein Parameter ist (z.B. das p im Falle eines Laplace-W-Raumes, (a, b) ∈ R2 im Falle der Rechtecksverteilung, (n, p) ∈ R2 für die
Bernoulliverteilung, oder (µ, σ) ∈ R2 im Falle der Gaußschen Normalverteilung).
Nun wird eine Stichprobe x := (x1 , . . . , xn ) ∈ (Rk )n ermittelt, d.h., es werden n Messungen
der Variablen X durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z :
(Rk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Bei der Konstruktion von
Z spielen folgende Argumente eine Rolle, bei der man den Vergleich mit der Zufallsvariablen
ZX(ω) = Z(X1 (ω), . . . , Xn (ω)) heranzieht:
1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias
oder Verzerrung. Man wünscht sich einen erwartungstreuen Schätzer.
2.2. Schätz- und Testverfahren
67
2. Z ist konsistent5 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n),
und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0
ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist.
3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 ,
falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente
Schätzer.
Beispiel 50 Konkrete Beispiele sollen folgen.
1. (Schätzung von p). Es soll das Bernoulliexperiment, wo genau das auch getan wurde
(Beispiel 46) in einer Anwendung gezeigt werden: Um laufend die Produktionsgüte eines Betriebes zu testen, werden üblicherweise regelmäßig 5 Stück aus jeder Lieferung
genommen und getestet. Im einfachsten Fall soll lediglich die Tauglichkeit geprüft werden und sieht sich veranlaßt, einfachheitshalber anzunehmen, daß p% fehlerhafte Stücke
produziert werden. Deshalb werden pro Woche (oder Monat) die Anzahl der fehlerhaften Stücke gezählt. Es entsteht eine Zahlentabelle, bei der übungshalber 30 Lieferungen,
also 150=100%, betrachtet werden sollen.
Eine Strichliste oder Urliste entsteht, und schließlich die
rechts abgebildete Häufigkeitstabelle, deren Spalten angeben, wie viele Fünferauswahlen jeweils 0–5 fehlerhafte
Stücke enthalten.
0
5
1
3
2
5
3
2
4
1
5
0
Als Ereignisraum Ω nehmen wir die Menge aller erzeugten Stücke innerhalb eines festen
Zeitraumes. Die Zufallsvariable X : Ω → R soll durch X(ω) := 1, falls ωP
defekt, und
1
Null sonst sein. Würde man alle Elemente in Ω testen, so hätte man p = |Ω|
ω∈Ω X(ω).
Da wir lediglich die Stichprobe von 150 Stück testen, ist uns bestenfalls ein Näherungswert p̂ zugänglich. Wie zu erwarten, wird man dies durch die Häufigkeit eines Fehlers
in unseren Proben tun. Dabei wird durchaus geschwindelt: Die 150 Stück werden im
Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben
keine Beeinflussung von p annimmt.
In diesem Sinne ist Z(x1 , . . . , xn ) := |{i|xni =1}| eine auf dem Rn definierte Funktion,
die als Schätzer benützt werden soll, die bis auf das n mit dem Ausdruck in Glg.(1.1)
übereinstimmt. In unserem Fall ist n = 150 und als Schätzung für θ := p bekommt man
mittels der obigen Häufigkeitstabelle
p̂ := Z(x1 , . . . , x150 ) =
5+3+5+2+1+0
7
=
≈ 0.093.
150
75
2. (Messwerte). In Fortsetzung der Anwendung des zentralen GWSes (nach Anmerkung
48) beim “physikalischen Praktikum” behandeln wir die Messung einer skalaren Größe,
etwa einer Länge l.
Angenommen, es werden 10 Messungen gemacht und systematische Fehler ausgeschlossen:
5
andere Bezeichnung: asymptotisch erwartungstreu.
68
Statistik
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Welche W-theoretische Deutung ist möglich? Welche Stichprobenfunktion bildet man?
Nun faßt man die Länge als Zufallsvariable auf, definiert auf Ω := R. Wäre die exakte
Länge bekannt, so wäre die Verteilung F von X durch F (x) = 0 für x < l und F (x) = 1
für l ≤ x. Um Messfehler berücksichtigen zu können, fasst man die zehn Messungen als
Realisationen von 10 wie X verteilten Zufallsvariablen auf.
1 P10
Antwort: Danach bildet man die Stichprobenfunktion Z(x1 , . . . , x10 ) := 10
i=1 xi , eine
Funktion von R10 → R.
Ist dieses Z erwartungstreu?
Die Zufallsvariable
10
1 X
Z(X1 , . . . , X10 ) :=
Xi
10
i=1
erweist sich als erwartungstreu, weil
10
10
i=1
i=1
1 X
1 X
E(Xi ) =
E(X) = E(X) = l,
E(Z(X1 , . . . , X10 )) =
10
10
diePvon uns gesuchte Länge ist. Das Gleiche gilt für beliebiges n, also für Z(X1 , . . . , Xn ) =
n
1
i=1 Xi .
n
P
Ist Z(X1 , . . . , Xn ) = n1 ni=1 Xi konsistent?
P
Zunächst gilt wegen E(Xi ) = E(X) = µ die Gleichung E(Z(X1 , . . . , Xn )) = n1 ni=1 E(Xi ) =
E(X) = µ. Nun ergibt die Ungleichung von Tschebischeff (Anmerkung 45), indem man
dort statt X unser Z einsetzt:
P (|Z − E(Z)| ≥ ) ≤
V (Z)
.
2
Wenn für wachsendes n der Ausdruck auf der rechten Seite gegen
PNull geht, ist die
Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (Z) = V ( n1 ni=1 Xi ) berechnet
werden, wobei wegen der Annahme der Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 37 gilt, sodaßE(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2 berücksichtigt werden kann:
P
V (Z) = E(Z 2P
) − E(Z)2 = P
E(( n1 ni=1 Xi )2 ) − µ2
= n12 E( ni=1 Xi2 + 2 1≤i<j≤n
Xi Xj ) − µ2
n
= n12 nE(X 2 ) + 2 2 µ2 − µ2
= V (X)
n .
Somit enthält die rechte Seite in der Tschebischeffschen Ungleichung den Faktor n1 , der
die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt.
Welche Schätzung ergibt sich für l unter Anwendung des vorgestellten W-theoretischen
Konzepts?
2.2. Schätz- und Testverfahren
69
Antwort: Man setzt die zehn Meßwerte (n = 10) in den Schätzer ein. Eine numerisch
sinnvolle Methode besteht in folgender Rechnung
10
x̄ :=
1 X
1
1
= 13.01
xi = 13+ (0.1−0.1+0.0−0.1+0.2+0.1−0.1+0.1−0.2+0.1) = 13+
10
10
100
i=1
Anmerkung: Auf die Physikpraktikumsübliche Angabe eines Meßfehlers soll in 3. eingegangen werden.
3. (Schätzung von µ bzw. σ für eine Verteilung). Die Tabelle aus dem vorigen Beispiel
soll jetzt folgende Deutung haben: Aus einer Population soll durch die zehnelementige Stichprobe auf den Mittelwert und die Varianz geschlossen werden. Mit ähnlichen
Rechnungen wie vorher zeigt man:
P
(a) Die Schätzfunktion Stichprobenmittel Z(x1 , . . . , xn ) := n1 ni=1 xi (bei uns ist n =
10) ist konsistent und erwartungstreu. Ist die unbekannte Verteilung eine N (µ, 1)Normalverteilung, so ist sie auch eine effizienteste. Die Abkürzung x̄ ist für das
Stichprobenmittel, und X̄ := ZX.
1 Pn
2
(b) Die Schätzfunktion Stichprobenvarianz Z(x1 , . . . , xn ) := n−1
i=1 (xi − x̄) ist
konsistent und erwartungstreu.
Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her?
1 Pn
2
Antwort: Man betrachtet die Zufallsvariable ZX = n−1
i=1 (Xi − X̄) , in der X̄ :=
P
P
P
n
n
n
1
1
2
2
2
i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) =
i=1 Xi ist. Es ist E( n−1
i=1 (Xi − X̄) ) =
n
2
2
nE(X 2 ) + nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X
ähnlich wie im vorigen Beispiel
Pn ) − E(2X̄ ). Die
1
2
laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und
Einsetzen ergeben
!
n
1 X
E
(Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X).
n−1
i=1
Das (n − 1) braucht man für die Erwartungstreue!
Welcher Schätzwert σ̂ ergibt sich für die Standardabweichung aus der Tabelle?
Antwort: Es ist n − 1 = 9 und somit kann man unter Benützung von x̄ = 13.01 aus
dem vorigen Beispiel
10
1X
1
σ̂ =
(xi −13.01)2 = (0.092 +0.112 +0.012 +0.112 +0.192 +0.092 +0.112 +0.092 +0.932 +0.092 ) ≈ 0.0166
9
9
2
i=1
also ist σ̂ ≈ 0.13.
Wie lautet daher die Physikpraktikumsgerechte Antwort auf die Frage, wie lang das l
ist?
Antwort: Es ist l ≈ µ̂ ± σ̂ ≈ 13.0 ± 0.1. Dabei ist µ̂ das Stichprobenmittel und σ̂ 2 die
Stichprobenvarianz, wie oben erklärt.
70
Statistik
Anmerkung 51 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im
Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ Rn
hat, kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂.
Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen
unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden
kann.
Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die
Gestalt
n
Y
L(x, θ) :=
f (xi , θ).
i=1
Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als
“wahrscheinlichste Beobachtung” zu interpretieren, m.a.W., θ̂ so zu wählen, daß das
Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn )
auswertet.
Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion
Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung
L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ}
gefunden wird.
Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl
der xi eindeutig ist, kann man die einfachere Gleichung
∂
L(x1 , . . . , xn , θ) = 0
∂θ
nach den θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt,
falls θ ∈ Rd ist).
Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent
ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten.
Beispiel 52 Beispiele hiezu:
1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses.
Es sei möglich, das Bernoulliexperiment (Beispiel 46) auszuführen, d.h. man setzt X :
Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus,
daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses
feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht
ist ein MLS für p.
P
Wie in Beispiel 46 ausgeführt, ist S := ni=1 xi verteilt gemäß L(x1 , . . . , xn , p) = pS (1−
p)n−S . Differenzieren nach p und Nullsetzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 − S)pS (1 −
p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das schon in
2.2. Schätz- und Testverfahren
71
Beispiel 46, bzw. Beispiel 50 2. gefundene Stichprobenmittel
S(x) = Z(x1 , . . . , xn ) =
1
(x1 + · · · + xn )
n
kommt.
2. Es sei X : Ω → R eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 28
3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe (x1 , . . . , xn ) ∈
Rn hat.
1
Die Verteilungsdichte ist b−a
, falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich
1
L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist
bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximimum dort an, wo b − a
unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi |
i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n}
und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu.
3. Es sei X : Ω → R eine auf R+ bezüglich einer Exponentialverteilungsdichte (Beispiel
43) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch
unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ.
Pn
Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0
verschwindet. Durch Differenzieren P
nach dem Parameter λ ergibt sich zunächst 0 =
nλn−1 e−λS − λn Se−λS , wobei S := ni=1 xi . Elementare Rechnung ergibt den MLS
n
Z(x1 , . . . , xn ) := Pn
i=1 xi
2.2.2
.
Intervallschätzung
Es sei X : Ω → Rk eine Zufallsvariable, deren Dichte die Gestalt f (x, θ) mit x ∈ Rk und θ ∈
Θ ⊆ R ist. Die Gestalt dieser Verteilungsfunktion ergibt sich aus einer Annahme, die in der
konkreten Situation gemacht werden kann. Allerdings ist θ nicht bekannt, und man versucht
eine Näherung θ̂ aus einer Stichprobe zu finden. Im vorigen Abschnitt wurden Punktschätzer
hiezu verwendet.
Ist der Stichprobenumfang (das n) im Verhältnis zur Gesamtheit klein, so kann die Konsistenz eines Schätzers, nämlich, daß mit Wahrscheinlichkeit Eins die Schätzwerte bei n → ∞
gegen den korrekten Parameter konvergieren, nicht in quantitativer Form in Anspruch genommen werden – man weiß nicht wirklich “wie nahe θ̂ am gesuchten θ dran ist.” Deshalb
verzichtet man bei der Methode der Intervallschätzung auf die Berechnung eines solchen
Näherungswertes, sondern macht eine wahrscheinlichkeitstheoretische Aussage über die Lage
von θ indem man folgende Prozedur anwendet:
1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann
bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben.
2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : (Rk )n → R, derart, daß
θ(x1 , . . . , xn ) ≤ θ(x1 , . . . , xn ) für alle i und xi ∈ Rk gilt.
72
Statistik
3. Die beiden Funktionen geben Anlaß, Zufallsvariable θX und θX ins Spiel zu bringen,
für die bei konkreter Stichprobe x = (x1 , . . . , xn ) ∈ (Rk )n Realisierungen θ(x) und θ(x)
vorliegen.
Für diese beiden Zufallsvariablen wünscht man sich die Garantie
P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α.
4. Hat man diese “theoretische Vorarbeit”, nämlich 1.–3. geleistet, ermittelt man mittels
der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie:
“Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x]
liegt, ist zumindest 1 − α. ”
Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken
an, mit hoher Wahrscheinlichkeit werden sie dabei “enger”.
5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd
normalverteilt angenommen werden darf:
(a) Die Binomialverteilung B(n, p) (siehe Beispiel 40) ist es (in der Praxis), wenn
9
n > p(1−p)
(vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 48).
(b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl.
Anmerkung 48 und dort das Beispiel zum Physikpraktikum.
Beispiel 53 Im Nachfolgenden die häufigsten Situationen von Intervallschätzungen.
1. (Schätzen einer unbekannten Wahrscheinlichkeit p)
Jemand hat n = 10000 mal (in unabhängiger Weise) Proben einer Produktion gezogen,
dabei 300 Fehler gefunden und p̂ := 3 × 10−3 als Näherung für die Wahrscheinlichkeit p
des Auftretens von Fehlern angenommen. Nun soll zu α := 0.1 als Irrtumswahrscheinlichkeit ein p̂− ≤ p̂+ gefunden werden, sodaß P (p− < p < p+ ) ≥ 1 − α, m.a.W., daß mit
90%-iger Wahrscheinlichkeit, die gesuchte Wahrscheinlichkeit p im Intervall (p− , p+ )
liegt.
9
Antwortfindung: Die oben zitierte Faustregel besagt 10000 > p(1−p)
, und für p̂ =
−3
3 × 10
ist das sichtlich der Fall. Allerdings, das ist der Näherungswert, das p ist
unbekannt. Gegen Ende von Beispiel 46 wurde die gleiche Fragestellung mittels der
Ungleichung von Tschebischeff behandelt und
P (0 ≤ p ≤ 8 × 10−3 ) > 0.90
(2.1)
gefunden, also, daß mit 90%-iger Wahrscheinlichkeit p im angegebenen Intervall liegt.
9
Leider ist für p so nahe an Null die Arbeitshypothese n > pq
nicht erfüllt.
Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit nicht
√
näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt (wir
wissen das aus Beispiel 35 3.) verteilt. Nun besagt der zentrale GWS unter Zuhilfenahme
√
√
√
√
von Beispiel 44 4., daß X̄−µ
n = X̄−p
n approximativ N (0, 1)-verteilt ist.
pq
pq
2.2. Schätz- und Testverfahren
73
Um die Methode gut zu verstehen, brauchen wir in Kürze die Ungleichung
in etwas anderer Form beschrieben, nämlich
|X̄−p| √
√
n
pq
<z
6
p ∈ (p̂− (ω), p̂+ (ω)),
wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung
z2
z2
2
− 2X̄(ω) +
p + X̄ 2 (ω) = 0
p 1+
n
n
sind.
Anwendung des zentralen GWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung
√
48) ergibt wegen Beispiel 44 6. P (| X̄−p
n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. Lösen der letzten
σ
α
dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 .
Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige
quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von
z2
z2
2
p 1+
− 2p̂ +
p + p̂2 = 0.
(2.2)
n
n
Und gibt es jetzt endlich eine Antwort auf die letzte Frage in Beispiel 46, nämlich,
ob die Glg.(2.1) angegebene Schätzung durch Approximation von B(n, p) durch eine entsprechende Normalverteilung verbessert werden kann? Sind die im Satz von De
Moivre-Laplace (gleich nach Anmerkung 48) genannten Approximationsbedingungen
np > 4 und nq > 4 erfüllt?
300
Ja. Es ist p̂ = nk = 10000
= 3 · 10−3 und einer Φ-Tabelle (z.B. in [15]) entnimmt man
z1− 0.1 = z0.95 ≈ 1.645 für die Normalverteilung N (0, 1). Die quadratische Gleichung
2
wird zu
p2 (1 + 2.7 · 10−3 ) − (2 · 3 · 10−3 + 2.7 · 10−5 )p + 9 · 10−10 = 0,
deren Lösungen (etwa mittels MAPLE) auffindbar sind:
> fsolve({p^2*(1+2.7*10^(-3))-(2*3*10^(-3)+2.7*10^(-3))*p+9*10^(-6)=0},{p});
{p = 0.002767527675}, {p = 0.003243243243}
(Lang ersehnte) Antwort: Mit 90%-iger Sicherheit darf gesagt werden, daß die gesuchte
Wahrscheinlichkeit p im Intervall [2.7 · 10−3 , 3.3 · 10−3 ] liegt. Diese Aussage ist präziser
als jene in Glg.(2.1). Es ist n = 104 , p > 2.7 · 10−3 und q = 1 − p > 0.5, also sind die
genannten Approximationsbedingungen erfüllt.
6
2
z
n
Die völlig elementare Herleitung geht so:
p−
2
z
n
p2 ⇔ obige Bedingung.
|X̄−p| √
√
n
pq
< z ⇔ (X̄ − p)2 <
z2
(p(1
n
− p) ⇔ p2 − 2pX̄ + X̄ 2 <
74
Statistik
Wie lauten die in der Einleitung zu diesem Unterabschnitt 2.2.2 genannten Stichprobenfunktionen θ und θ des Intervallschätzers? Welchen Wert hat k?
Antwort: Es ist k = 1, weil die gesuchte Variable p ein Skalar ist. Die oben gebildeten
Zufallsvariablen p− , p+ : Ω → R sind die gesuchten Schätzfunktionen θ, θ. Man findet
sie als Lösungen der quadratischen Glg.(2.2) für p, explizit hat man mit dem aus der
Gleichung 2Φ(z) − 1 = 1 − α gefundenen z := z1− α2 die reellen Funktionen
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
z
2
(1+ zn )
q
z2
4n2
−
z
2
(1+ zn )
q
z2
n3
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
+
x̄−x̄2
n
(2.3)
x̄−x̄2
n .
In der Praxis geht man gelegentlich davon aus, daß p ≈qx̄ ist, also mit 100×(1−α)%-iger
Wahrscheinlichkeit p ∈ (x̄−, x̄+) liegt, wobei :=
z
2
x̄(1−x̄)
n
ist. An Glg.(2.3) erkennt
z2
n
gegenüber x̄ vernachlässigen kann. Will man mit der
man, daß das geht, wenn man
Theorie im Einklang leben, empfiehlt sich die etwas kompliziertere Form Glg.(2.3) des
Schätzers, in der für die im allgemeinen mäßig großen z die “numerische Stabilität”
ganz gut berücksichtigt worden ist.
Wie würde man Glg.(2.3) verwenden, um ein Intervall (p− , p+ ) zu finden?
Antwort: Es ist x̄ = nk = 3 · 10−3 die relative Häufigkeit (jene die gemessen worden ist).
Das z = z1− 0.1 wurde schon oben zu 1.645 bestimmt. Danach setzt man in Glg.(2.3)
2
ein und findet das in der Antwort zur vorigen Frage angegebene Intervall.
2. (Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ)-verteilte
Zufallsvariable X : Ω → R.)
Von einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R kennt man einen groben
Richtwert der Streuung σ (etwa als Erfahrungswert). Weiters liegt eine Realisierung von
(X1 , . . . , Xn ) : Ω → Rn vor, konkret gesagt, man hat eine Tabelle (x1 , . . . , xn ) ∈ Rn
von Messungen. Wie kann bei Vorgabe einer Irrtumswahrscheinlichkeit α ein Intervallschätzer θ, θ für µ konstruiert werden?
P
Antwort(findung): Die Stichprobenfunktion X̄ := n1 ni=1 Xi : Ω → R ist wegen Beispiel
2
44 N (µ, σn )-verteilt. Deshalb ist
X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1.
σ
Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in
äquivalenter Form als
zσ
zσ
X̄ − √ ≤ µ ≤ X̄ + √
n
n
zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2
der Gleichung 2Φ(z) − 1 = 1 − α.
2.2. Schätz- und Testverfahren
75
Antwort:
Es ist unter Verwendung der Funktion x̄ : Rn → R, definiert durch x̄(x1 , . . . , xn ) :=
1 Pn
i=1 xi das Paar
n
zσ
zσ
θ(x) = x̄(x) − √ , θ(x) = x̄(x) + √
n
n
ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also
die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ
zσ
, x̄(x) + √
) liegt, wobei x die Tabelle der (durch
tie, daß µ im Intervall (x̄(x) − √
n
n
Zufallsexperiment) ermittelten Werte von X ist.
Es sei die Tabelle aus Beispiel 50 2. gegeben. Weiters sei bekannt, daß die Streuung
der Längenmessung (z.B. wegen der verwendeten Methode) bei 0.1 Einheit liegen kann
und man mache die Annahme, daß der Fehler normalverteilt ist (etwa aufgrund des
Fehlergesetzes). Man gebe für eine Irrtumswahrscheinlichkeit von α := 0.01 und α = 0.1
jeweils ein Konfidenzintervall für die zu messende Länge l an.
Antwort: Zunächst findet man für x̄(x) (das meist “schlampig” mit x̄ abgekürzt wird)
den Wert 13.01 (wurde in Beispiel 50 2 schon ausgerechnet). Es ist n = 10, und z =
z1− 0.01 = z0.995 = 2.576 aus einer Tabelle für Φ ([15], S 61 ff). Die simple Rechnung
2
liefert 99%-ige Sicherheit für l ∈ (13.01 − 0.081, 13, 01 + 0.081), also l ∈ (12.9, 13.1).
Für α = 0.1 findet man z = z0.95 = 1.645. Die analoge Rechnung liefert, daß l mit
90%-iger Sicherheit im Intervall (13.01 − 0.052, 13.01 + 0.052) = (12.96, 13.062) liegt.
Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung
der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n “flach” verläuft.
Im Weiteren benötigen wir noch zwei Verteilungen, die beide mittels der Gammafunktion
definiert werden.
Anmerkung 54 Die Gammafunktion ist für positive x durch
Z ∞
Γ(x) :=
e−t tx−1 dt
0
definiert.
Beispiel 55 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist durch
(
0
x≤0
f (x) :=
1
−x/2
n/2−1
e
x
x>0
2n/2 Γ(n/2)
R∞
definiert. Dabei ist Γ(x) die für x > 0 definierte Gammafunktion Γ(x) := 0 e−t tx−1 dt. Man
kann E(X) = n und V (X) = 2n zeigen (etwa in [19]). Der “Freiheitsgrad” n kommt daher,
daß man für n unahbhängige
N (0, 1)-verteilte Zufallsvariable Xi : Ω → R zeigen kann, daß
P
die Zufallsvariable ni=1 Xi2 : Ω → R eine χ2 -Verteilung in n Freiheitsgraden hat. Die Ideee
der Herleitung ist ähnlich, wie im Falle der Gleichverteilung in Beispiel 35 2.
76
Statistik
Beispiel 56 (tn -Verteilung oder Studentverteilung7 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → R ist durch
−(n+1)/2
1 Γ((n + 1)/2)
x2
fX (x) := √
1+
Γ(n/2)
n
nπ
n
gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2
. Im
weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine
χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat.
Y /n
Anmerkung 57 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten
für eine beliebige, reellwertige N (µ, σ)-verteilte Zufallsvariable X:
• Das Stichprobenmittel
n
1X
X̄ =
Xi
n
i=1
ist für unabhängig durchgeführte Experimente N (µ, √σn )- verteilt (siehe Beispiel
44).
• Die normierte Stichprobenvarianz
n
1 X
Y := 2
(Xi − X̄)2
σ
i=1
erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz
n
1 X
(Xi − X̄)2
S :=
n−1
2
i=1
in der Gleichung
Y =
(n − 1)S 2
σ2
vorkommt.
• Die Stichprobenfunktion
X̄ − µ √
√
n,
S2
(welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen
√
Z = X̄−µ
n ist – das Z ist wie im zentralen GWS Anmerkung 48), ist tn−1 -verteilt.
σ
• Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert
(z.B. in [3]), bzw. in Statistiksoftware, wie z.B. R, zugänglich.
7
Sie wurde von W.S. Gosset auf empirischem Weg gefunden und er hat sie unter dem Pseudonym “Student”
1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen.
2.2. Schätz- und Testverfahren
77
Beispiel 58 Nun zu Schätzungen von σ bzw. µ, bei denen man χ2n−1 und tn−1 benützt.
1. (Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ)-verteilte Zufallsvariable)
Es sind für vorgegebene Irrtumswahrscheinlichkeit α Stichprobenfunktionen θ : Rn →
R und θ : Rn → R für µ (vgl. den Beginn, Unterabschnitt 2.2.2) gesucht, wobei über σ
nichts bekannt ist, derart daß durch nach n-maligem unabhängigen Zufallsexperiment
vorliegendem Datenmaterial x = (x1 , . . . , xn ) ∈ Rn mit Konfidenzniveau (1 − α) die
Aussage
P (µ ∈ (θ(x), θ(x)) ≥ 1 − α
getroffen werden kann.
√
Antwort(findung): Wie in Anmerkung 57 ausgeführt, genügt X̄−µ
n einer tn−1 -Verteilung.
S
Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert vorliegt), so
hat man in Analogie zu Beispiel 53, 2.
P (|
X̄ − µ √
n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α,
S
wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hiezu die
an Beispiel 44 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der
tn−1 -Verteilung ([15]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 .
Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 53 2. ergibt
zS
zS
P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α.
n
n
P
1 Pn
2
Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1
i=1 (xi − x̄) ,
α
und z die Lösung von Tn−1 (z) = 1 − 2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung).
Wie in Beispiel 53 2., soll das unbekannte µ aus der Meßtabelle von Beispiel 50 2.
analog wie dort für Irrtumswahrscheinlichkeiten α ∈ {0.01, 0.1} geschätzt werden, wo
es um die Länge l einer als normalverteilten Zufallsvariablen (weil mit Fehler behaftet
– vgl. den Abschnitt nach Anmerkung 48) ging.
Antwort(findung): Der Bequemlichkeit halber sei die Meßtabelle nochmals angeführt.
Aus ihr ging hervor, daß n = 10 und x̄ = 13.01 war.
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Es ist s̄2 = 19 (4×0.092 +3×0.112 +0.192 +0.212 +0.012 ) ≈ 1.65×10−2 . also s̄ = 1.3×10−1 .
Nun wird das 1 − α2 Quantil der t9 -Verteilung bestimmt, es ergibt sich aus einer Tabelle
(z.B. in [15] S 61 ff)
z9;1− 0.01 = z9;0.995 ≈ 3.250 z9;1− 0.1 = z9;0.95 ≈ 1.833.
2
2
78
Statistik
Dementsprechend ergibt sich der Term
−2
zs̄
√
n
zu
−2
3.250×3.96×10
√
10
≈ 4.07 × 10−2 ≈ 0.041
√
für α = 0.01 und zu 1.833×3.96×10
≈ 0.023 für α = 0.1. Entsprechend ergeben sich als
10
zs̄
zs̄
√
√
Intervalle (s̄ − n , s̄ + n ) im 1.ten Fall (12.93, 13.08) und im 2.ten Fall (12.94, 13.14).
Antwort: Unter der Annahme einer N (µ, σ)-Verteilung ist die Länge l mit 99%-iger Sicherheit im Intervall (12.93, 13.08), bzw. mit 90%-iger Sicherheit im Intervall (12.94, 13.14).
Die Normalverteilungsannahme ergibt somit ein klein wenig mehr Genauigkeit als Beispiel 53 2.
2. (Intervallschätzung für σ einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R
bei nicht bekanntem µ. ) Diese Schätzung ist vorallem dann interessant, wenn man
nur wissen will, ob die Meßwerte stark streuen.
Man bestimme Stichprobenfunktionen θ, θ : Rn → R, sodaß bei gegebener Irrtumswahrscheinlichkeit α und entsprechender Tabelle von n unabhängigen Meßdaten mit
Konfidenzniveau 1 − α die Varianz σ 2 im Intervall (θ(x), θ(x)) liegt.
Antwortfindung: Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß
die Ungleichung
|σ 2 − σ̂ 2 | < z
mit P
Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 =
n
1
2
i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten
n−1
mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt.
P
Wegen Anmerkung 57 ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist
P (a ≤ Y ≤ b) = F (b) − F (a),
wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen
2
1 Pn
2
Y = (n−1)S
(zur Erinnerung, S 2 = n−1
i=1 (Xi − X̄) ) in äquivalenter Form als
σ2
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
b
a
angeschrieben werden kann, ergibt sich
P(
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
) = F (b) − F (a) = 1 − α,
b
a
sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2
und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt
aber F (b) − F (a) = 1 − α.
Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die
1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die
(n−1)s2
1 Pn
1 Pn
Funktionen s2 = n−1
i=1 (xi − x̄) (wobei x̄ := n
i=1 xi ) und findet θ(x) =
b
und θ(x) =
(n−1)s2
.
a
Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so
2.2. Schätz- und Testverfahren
79
wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit
≥ 1 − α in diesem Intervall liegt.
Es soll für die im vorigen Beispiel angegebene Meßreihe ein Konfidenzintervall mit
Irrtumswahrscheinlichkeit α = 0.1 bestimmt werden.
Antwortfindung: Wie eben gesagt, brauchen wir das α2 = 0.05 Quantil a, bzw. 1 − α =
0.95 Quantil b für die χ9 -Verteilung (weil es 10 Meßpunkte sind). Man findet a = 3.325
und b = 16.92 aus einer entsprechenden Tabelle ([15], S 61ff). Das s2 = 1.66 × 10−2
wurde schon im vorangehenden Beispiel bestimmt.
Die Intervallgrenzen ergeben sich zu
9×1.66×10−2
≈ 0.0448.
3.325
(n−1)s2
b
=
9×1.66×10−2
16.92
≈ 0.0088 und
(n−1)s2
a
=
Antwort: Die Varianz σ 2 liegt mit 90%-iger Sicherheit im Intervall (0.009, 0.045).
Es soll zum Abschluß eine mit 90%-iger Sicherheit geltende obere Grenze für σ 2 angegeben werden. (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser
Wert ist.)
Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es
ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das
−2
rechte Intervallende zu 9×1.66×10
≈ 0.036.
4.168
Antwort: Mit 90%-iger Wahrscheinlichkeit ist die Varianz σ 2 < 0.036 ist.
2.2.3
Statistische Testverfahren
Hier soll nur ein Einblick für 1-dimensionale Zufallsvariable bzw. Parametertests für 1parametrige Verteilungen behandelt werden.
1. Es sei eine Zufallsvariable X : Ω → R gegeben, über deren Verteilung eine Aussage,
die sogenannte Nullhypothese H0 vorliegt. (z.B. “X hat einen Erwartungswert ≥ 50”,
konkreter “Die Partei XY wird demnächst mindestens 50% der Parlamentssitze bekommen”) oder “Die Strahlungskonzentration um die Unglücksstelle ist mit der Entfernung
exponentialverteilt mit Exponent λ > 50”.
Ein Testverfahren zur Widerlegung einer Nullhypothese im ersten Fall heißt Parametertest (hier wäre der Parameter θ := µ = E(X)), im anderen Fall spricht man vom Anpassungstest (nämlich ob die Meßdaten einer Exponentialverteilung “angepaßt” sind).
Beim Parametertest besteht die Nullhypothese in der Aussage “θ ∈ Θ0 ” (im obigen
Fall ist Θ0 = [50, ∞)) und die Alternativhypothese in “θ ∈ Θ1 ” für Parameterbereiche Θ0 , Θ1 ⊆ R, von der man die Unvereinbarkeit mit H0 fordert (also z.B. H0 :
“θ ∈ Θ0 := [45, 55]” und H1 :“θ ∈ Θ1 := [0, 30]”).
In abstrakter Fassung: Man weiß, FX ∈ F, einer Menge von Verteilungen. H0 bedeutet
die Aussage “FX ∈ F0 ” für eine gewisse Teilmenge F0 ⊂ F und H1 , daß FX ∈ F \ F0
ist.
Parametrische Form: F = {Fθ | θ ∈ Θ} und F0 = {Fθ | θ ∈ Θ0 }
80
Statistik
2. Grundsätzlich sollte H0 widerlegt werden (auch wenn das nicht immer der Fall ist)
und man gibt zunächst ein Signifikanzniveau α (meist in {0.1, 0.01, 0.001}, manchmal
auch kleiner) vor, nämlich dafür, daß man H0 im Zuge des Verfahrens ungerechtfertigt
verwirft (sogenannter Fehler 1.Art).
Nun konstruiert man eine Testfunktion T : Rn → R, deren Verteilung F unter der Annahme von H0 bekannt ist. Weiters wird ein Ablehnungsbereich oder kritischer Bereich
Kα ⊆ R konstruiert (meist ein Intervall), und zwar durch die Bedingung
P (T X ∈ Kα ) ≤ α,
wobei die bekannte Verteilung F zur Berechnung herangezogen
R ∞wird. Etwa, wenn f eine
Dichte der Verteilung F von T X ist, durch P (T X ∈ Kα ) = −∞ T (x)f (x) dx.
Abstrakt: Man konstruiert T : Rn → R, sodaß T X eine Verteilung F besitzt, die sich
für jedes F0 ∈ F0 mittels T berechnen läßt.
Im parametrischen Fall ist F = Fθ als Funktion von θ ∈ Θ0 ausdrückbar. Insbesondere
ist P = Pθ von diesem θ abhängig.
3. Es werden n unabhängige Messungen der Variablen X gemacht. Beschrieben wird das
durch einen Zufallsvektor X : Ω → X mit Realisierung x ∈ Rn (die gemessene Tabelle).
Danach wird mittels der konreten Stichprobe x ∈ Rn getestet: ist T (x) ∈ Kα (d.h., wenn
der Wert der Testfunktion im kritischen Bereich liegt), so lehnt man H0 ab, andernfalls
gilt sie als aufgrund des statistischen Befundes nicht abzulehnen.
4. Wird H0 aufgrund der Daten nicht verworfen, obwohl H0 falsch ist, begeht man einen
Fehler 2.Art.
Als Gütefunktion bezeichnet man g : F → [0, 1] definiert durch
8
g(F ) := PF (T X ∈ Kα )
Für F ∈ F0 ist g(F ) die Wahrscheinlichkeit dafür, einen Fehler 1.Art, für F ∈ F \F0 die
Wahrscheinlichkeit dafür, daß der Test das erkennt, m.a.W., daß auf F die Alternative
Hypothese H1 zutrifft und die Nullhypothese H0 zurecht verworfen wurde.
Die Einschränkung von g auf F0 heißt Irrtumswahrscheinlichkeit 1.Art, und 1 − g das
Konsumentenrisiko.
Die Einschränkung von g auf F \ F0 heißt Trennschärfe (auch Macht, Power) des
Testverfahrens und 1 − g Irrtumswahrscheinlichkeit 2.Art.
Auf die Gütefunktion soll hier nicht eingegangen werden. Siehe hiezu z.B. [19].
Beispiel 59 (Parametertests) Die einfache Nullhypothese lautet H0 : θ = θ0 . Dabei kann
θ eine Wahrscheinlichkeit, eine Streuung, etc. sein. Getestet wird üblicherweise gegen eine
der folgenden Alternativen H1 :
8
Es ist PF ((−∞, x)) = F (x), somit PF das von der Verteilungsfunktion bestimmte Maß.
2.2. Schätz- und Testverfahren
81
• θ 6= θ0 : wenn z.B. das Werkstück das Ausmaß θ0 und weder zu lang oder kurz sein darf;
• θ < θ0 : wenn z.B. θ0 die vom Werk behauptete Funktionsdauer eines technischen Geräts
ist;
• θ > θ0 : wenn z.B. θ0 die von der Firma behauptete Maximalzahl der Produktionsfehler
einer Lieferung ist;
1. Jemand möchte zeigen, daß eine Münze nicht regelmäßig ist, und möchte sie n mal
(unabhängig) werfen, um die Häufigkeit von K (Kopf), bzw. Z (Zahl) zu ermitteln
(ein Bernoulliexperiment, vgl. Beispiel 46). Dazu werde eine Irrtumswahrscheinlichkeit
α = 0.05 angegeben und, unter der Annahme daß man P ({K}) ∈ (0.4, 0.6) geschätzt
wird, soll die Wahrscheinlichkeit β einen Fehler 2.Art zu begehen, höchstens gleich 0.05
sein. Nach welcher Regel entscheidet man?
Antwortfindung:
Liegt ein parametrischer Test vor? Wie lauten Θ und θ, falls ja?
Antwort: Es liegt ein parametrischer Test mit θ = p ∈ Θ = [0, 1] als Parameter.
Wie formuliert man H0 und H1 ? Wie lauten Θ0 und Θ1 ?
Antwort: Man will die Nullhypothese H0 “P ({K}) = 21 ” durch Experiment widerlegen.
Θ0 = { 21 }.
Als Alternativhypothese H1 wurde “|p − 12 | ≥ 0.1” formuliert. Demnach ist Θ1 =
[0, 0.4] ∪ [0.6, 1].
Wie können T und der Ablehnungsbereich konstruiert werden?
Antwort(findung): Wie bei allen Bernoulliexperimenten ist lediglich das Eintreten eines
Ereignisses (hier K) von Interesse und somit beobachtet man die Zufallsvariable X :
Ω = {K, Z} mt Wert 1 oder 0, je nachdem, ob K oder Z kommt. Entsprechendes nfaches unabhängiges Werfen
wird durch den Zufallsvektor X : Ω → {0, 1}n beschrieben
1 Pn
und danach ist X̄ := n i=1 Xi : Ω → R jene Zufallsvariable, die nach Auswerten
der Meßergebnisse
die relative Häufigkeit kn0 annimmt. Sie gibt Anlaß, die Funktion
1 Pn
T (x) := n i=1 xi : Rn → R als Testfunktion heranzuziehen.
Den Ablehnungsbereich Kα besorgen wir uns ähnlich, wie man ein Konfidenzintervall
konstruiert: Es genügt z ≥ 0 mit P (|X̄ − 12 | ≥ z) = α = 0.05 anzugeben. Weil |X̄ − 12 | ≥
z ⇔ −z ≤ X̄ − 12 ≤ z ist, ergibt sich
1
1
P (|X̄ − | > x) = 1 − P ((|X̄ − | ≤ x) = 1 − (FX̄− 1 (x) − FX̄− 1 (−x)).
2
2
2
2
Unter der Annahme von H0 kann die Verteilung von T X = X̄ mittels des zentralen
X̄− 1 √
GWS (Anmerkung 48) approximativ bestimmt werden, weil ja Z = 1/22 n approximativ N (0, 1)-verteilt ist. Das ergibt
√
√
√
1 − α = FX̄− 1 (x) − FX̄− 1 (−x) = Φ(2x n) − Φ(−2x n) = 2Φ(2x n) − 1,
2
2
82
Statistik
√
also die Gleichung Φ(2x n) = 1 − α2 , die nach Ermittlung des entsprechenden Quantils
z1− α2 = z0.975 = 1.960 auf
√
2x n = 1.960
führt, sodaß sich in Abhängigkeit von n als Ablehnungsbereich
1 0.98 1 0.98
K0.05 = [0, 1] \ ( − √ , + √ )
2
n 2
n
eignet.
Wie formuliert man die Bedingung, daß die Wahrscheinlichkeit, einen Fehler 2.ter Art
zu begehen, höchstens β ist?
Antwort: Dazu benützt man die Gütefunktion g für Werte von Parametern, auf die H1
zutrifft. Die Gütefunktion ist für p ∈ Θ1 = [0, 0.4] ∪ [0.6, 1] definiert durch g(Fp ) =
√ ).
Pp (|T X − 21 | ≥ 0.98
n
2. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable mit bekanntem σ. Weiters sei
H0 die Nullhypothese “µ = µ0 ”. Gegeben sei ein Signifikanzniveau α. Man beschreibe
ein Testverfahren für H0 gegen die Alternativhypothese “µ 6= µ0 ”.
Antwortfindung: Es liegt nahe, Θ0 = {µ0 } und Θ1 := R \ {µ0 } zu wählen. Nun kan man
das Problem mittels eines Intervallschätzers behandeln: Die Forderung an Kα , nämlich
Pµ0 (X ∈ Kα ) ≤ α
und die Symmetrie der Gaußverteilung um µ legen es nahe, Kα als Komplement eines
Konfidenzintervalls für die Irrtumswahrscheinlichkeit α zu bestimmen.
3. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable und H0 die Hypothese “σ = σ0 ”,
sowie H1 die Alternativhypothese “σ 6= σ0 ”. Wie kann für gegebenes Signifikanzniveau
α ein Testverfahren konstruiert werden?
Antwort: Auch hier genügt es, Kα als Komplement eines Konfidenzintervalls zur Vertrauensgrenze 1 − α anzunehmen.
4. Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese “µX = µY ” und H1
die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung
von H0 zu entwickeln.
Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y
als normalverteilt (vgl.Beispiel 44). Nun betrachtet man das neue Problem Z = 0 versus
Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau 1 − α
festlegt.
Als Ergebnis dieser Vorgangsweise findet man den t-Test:
s
nX nY (nX + nY − 2)
X̄ − Ȳ
T (X, Y ) := q
.
nX + nY
2 + (n − 1)S 2
(nX − 1)SX
Y
Y
2.2. Schätz- und Testverfahren
83
Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen.
Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt.
Beispiel 60 (Anpassungstest)
1. (χ2 -Test) Es sei X : Ω → R eine Zufallsvariable mit Verteilung FX , F0 eine Verteilung
(z.B. Normalverteilung oder Gleichverteilung, alle Parameter darin sollen als bekannt
festliegen!) und die Nullhypothese H0 durch “FX = F0 ” gegeben.
Ein Grenzwertsatz der folgenden Art wird benützt:
Es werden mittels einer Tabelle (xk | k = 1, . . . , n) von unabhängig ermittelten Meßwerten von X zunächst Klassen gebildet, d.h. eine Unterteilung von R in paarweise
disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann
hk :=
|{i | xi ∈ [ak , bk )}|
n
die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie
approximativ gleich pk ist. Die Theorie zeigt nun, daß für hinreichend großes n die
Pearsonsche Stichprobenfunktion
χ2 := n
X (hk − pk )2
k
pk
=
X (|{i | xi ∈ [ak , bk )}| − npk )2
npk
k
approximativ χ2m−1 -verteilt ist.
Die Hypothese “FX = F0 ” wird demgemäß verworfen, wenn bei gegebenem Signifikanzniveau α der Wert der Pearsonschen Stichprobenfunktion für dieses Datenmaterial das
α-Quantil χ2α;m−1 überschreitet.
Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk >
einzuhalten (wegen der “versteckten” Benützung des zentralen GWS).
9
pk qk
Ein Würfel wird 1000 mal geworfen und es ergibt sich die Meßreihe
Augenzahl
1
2
3
4
5
6
Häufigkeit 168 173 164 167 162 166
Für das Signifikanzlevel α = 0.005 soll gecheckt werden, ob es sich um Gleichverteilung
handelt (vgl. Beispiel 1 und Definition 5).
Antwort(findung): Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede
erfüllt nk > 160 ≥ 95 = 64.8.
36
Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000
6 zu berücksichtigen ist:
χ2 =
1000 2
2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2
(173 − 1000
6 )
6 )
6
6
6
6
+
+
+
+
+
1000
1000
1000
1000
1000
1000
6
6
6
6
6
6
(168 −
84
Statistik
Es ergibt sich als Wert
107
250
= 0.428.
Nun berechnet man das 1 − 0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 =
16.75 ergibt. Dieser Würfel genügt hohen Standards9 .
2. (Kolmogorow-Smirnow Test) Es besitze die Zufallsvariable X : Ω → R eine stetige
Verteilung FX und es sei F0 eine stetige Verteilungsfunktion. Nun sei H0 die Nullhypothese “FX = F0 ”. Man überprüft dies mittels empirischer Verteilungsfunktion Fn , die
sich aus n unabhängiger Messungen (xk | k = 1, . . . , n) von X ergibt.
Der Test beruht auf dem Satz von Gliwenko-Cantelli (Anmerkung 49) in asymptotischer
Form:
∞
X
λ
2
P (Dn < √ ) ≈ Q(λ) := 1 + 2
(−1)j e−2(jλ) .
n
j=0
wobei Dn = maxk |Fn (xk ) − F0 (xk )| als Approximation der Kolmogorowdistanz von FX
und Fn fungiert. Die Funktion auf der rechten Seite kann für viele Zwecke ab λ ≥ 4
2
durch die einfachere Q(λ) ≈ 1 − 2e−λ ersetzt werden, für die meisten praxisnahen
α ∈ {0.1, 0.05, 0.01, 0.005, 0.001} liegt sie in tabellierter Form vor.
Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α gefunden und
√
man verwirft H0 “FX = F0 ”, wenn Dn n > λ1−α ist.
Wie testet man das vorige Beispiel mit dem KS-Verfahren?
Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel
28 1 ausgeführt worden ist.
Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5
Messungen folgende Meßreihen
Gerät A 15.1 17.2 19.3 20.4 21.3
Gerät B 15.2 17.1 19.4 20.5 21.2
Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide
Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist.
Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre
Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit
gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall
[15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt
D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1
√
und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet
für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563
kann die Nullhypothese “Gerät A und Gerät B messen die gleiche Verteilung” nicht
abgelehnt werden.
9
Gut möglich, daß die Messungen “frei erfunden” sind.
2.3. Kovarianz und lineare Regression
85
Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange
Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 –
23?
Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [34]).
2.3
a)
Kovarianz und lineare Regression
b)
c)
Im folgenden soll (X, Y ) : Ω → R2 eine vektorwertige Zufallsvariable sein. In der obigen
Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien
erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y )
und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 28 4.) begreifen. Auch
Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und
Deviationsmomenten, worauf hier nicht eingegangen werden soll.
In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung
der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit “hoher Wahrscheinlichkeit”
schließen wollen. Praktische Probleme dieser Art wären z.B. “In welchem Maße beeinflußt
die Zugabe des Wirkstoffes X das Ertragsaußmaß Y” (hier vermutet man, kennt jedoch den
direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig
gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist,
bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird.
Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden
2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind:
Beispiel 61 Es sei (X, Y ) : Ω → R2 eine Zufallsvariable mit Erwartungswert (µX , µY ) und
die skalaren Zufallsvariablen haben (natürlich Erwartungswerte µX , bzw. µY ) und Varianzen
V (X), V (Y ). Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b),
d.h., die Verteilung entlang eines “Durchmessers”. Sichtlich ist E(Za,b ) = aE(X) + bE(Y )
86
Statistik
weil E linear ist (vgl. Anmerkung 34). Für die Varianz bekommt man nach etwas Rechnung
V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ).
Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) −
E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird
V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y )
eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist:
1. Ohne Einschränkung wählen wir ein Koordinatensystem in R2 mit (µX , µY ) = (0, 0).
2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt
p
aX + bY = X 2 + Y 2 cos((X, Y ), (a, b))
die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b).
p
3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b)
streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet
für den Winkel
p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert
von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse,
in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse
ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über
etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man
in der obigen Skizze in b) recht deutlich.
4. Analyse der Ellipsen: Als quadratische Form hat
2
2
V (aX+bY ) = a V (X)+2abcov (X , Y )+b V (Y ) = (a, b)
V (X)
cov (X , Y )
cov (X , Y )
V (Y )
unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der
Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 )
und Differenzieren auf
V (X) − λ cov (X , Y )
a
0
=
,
cov (X , Y ) V (Y ) − λ
b
0
und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des
EWP ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit
kann man in b) der obigen Skizze die Ellipse einzeichnen.
5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare
Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX 0, bzw.
0 = a0 (X − µX ) + b0 (Y − µY )
a
b
2.3. Kovarianz und lineare Regression
87
angeben, wobei für V (X) 6= 0 man
(a0 , b0 ) = (−cov (X , Y ), V (X ))
bekommt.
6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede
2-dimensionale Gaußverteilung von der Form
f (x, y) =
mit
1
Q(x, y) =
2(1 − ρ2 )
1
p
e−Q(x,y)
2πσX σY 1 − ρ2
(x − µX )2
(x − µX )(y − µY ) (y − µY )2
−
2ρ
+
2
σX σY
σX
σY2
)
ist. Dann erweist sich ρ = covσX(Xσ,Y
. Damit folgt für Normalverteilungen aus der UnY
korreliertheit auch die Unabhängigkeit.
Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des
Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn.
Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr
als 2 Variablen.
Definition 62 (Ausgleichsgerade) Es sei (X, Y ) : Ω → R eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ R2 der Aufgabe
E((Y − aX − b)2 ) ⇒ Minimum
gebildete Gerade mit der Gleichung
y = a0 x + b0
die Ausgleichs- oder Regressionsgerade10 von Y bezüglich X zur gemeinsamen Verteilung von
(X, Y ). Man findet (a0 , b0 ), indem man die Kovarianz
cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY
berechnet als
a0 =
cov (X , Y )
, b 0 = µY − a 0 µX
V (X)
in Übereinstimmung mit jenen von Beispiel 61 5. Der Vorteil dort wäre die Verfügbarkeit
etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig).
10
“Regression”, d.i. “Rückschritt”, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und
Pearson zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal
bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem
geringeren Ausmaß. Der Zusammenhang des “Rückschritts” wurde linear angenommen. (Aus [34], S 136).
88
Statistik
Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend,
schreiben wir
f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 +
lineare Glieder in x − µX und y − µY
+a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 .
Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion
g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ).
Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl naach a bzw. b verschwinden, wodurch das Gleichungssystem
0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY
entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist.
Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist
genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle
Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt11 :
V (X) + µ2X µX
u
2
2
2
.
h(u, v) = (V (X) + µX )u + 2µX uv + v = (u, v)
v
µX
1
Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische
Form in (u, v) positiv definit, also gilt die Behauptung.
Anmerkung 63 Es gelten die folgenden Aussagen:
Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten
Maßes verteilt, so kann man wegen Anmerkung 11
P das Maß durch Punkte (xi , yi )
angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi =
P ({xi })).
Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche
Gewicht n1 , sodaß unter Verwendung der Gaußnotation:
nE(X) =
X
i
xi =: [x], nE(XY ) =
X
i
xi yi =: [xy], nE(X 2 ) =
X
x2i =: [xx]
i
aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 12 die
Normalgleichungen durch Spezialisierung aus Definition 62 folgen:
11
Taylorformel z.B.
2.3. Kovarianz und lineare Regression
a0 =
89
n[xy] − [x][y]
[y][xx] − [xy][x]
, b0 =
.
2
n[xx] − [x]
n[xx] − [x]2
Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt
werden, um “manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade
wichtiger zu nehmen”.
Regressionskoeffizient: Es heißt
a0 =
cov (X , Y )
,
V (X)
d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X.
Korrelationskoeffizient: Die dimensionslose Größe
ρ :=
cov (X , Y )
σX σY
heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht zeigen
−1 ≤ ρ ≤ 1,
indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die CauchySchwarzsche Ungleichung anwendet.
Man kann zeigen, daß |ρ| = 1 genau dann gilt, wenn Y = aX + b für mit Wahrscheinlichkeit eins gilt. a hat dann das gleiche Vorzeichen wie ρ.
Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß
Z ein N (0, σ)-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen
Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung
[y]
der arithmetischen Mittel x̄ := [x]
n und ȳ := n bekommt man eine empirische
Ausgleichsgerade in der Form
y − ȳ = a(x − x̄).
Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für
V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß
X den Wert x annimmt),
n
s2 =
1 X
(yi − a − bxi )2 .
n−2
i=1
Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y
90
Statistik
nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und
X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 .
Andrerseits sind die Variablen sichtlich nicht unabhängig.
Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [19] nachgelesen werden.
Beispiel 64 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ R2 → R eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvariable mit X, Y unabhängig, so werden
Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt:
1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine
lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f
∂x etc. geschrieben werde
f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ),
wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer
Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches
Problem – gute Kenntnis von f gefordert) und daß weiters die Verteilung von (X, Y )
sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen
kann.
Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ).
2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist
f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 61, sodaß
V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ),
und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz
V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ).
12
In diesem Zusammenhang ist die obige Methode als “Methode der kleinsten Quadrate”, so genannt von
Legendre, der sie zuerst publiziert hat, bekannt ist.
Kapitel 3
Grundlagen
3.1
3.1.1
Logik
Aussagenlogik
In der Aussagenlogik geht es um das Zusammensetzen (mathematischer) Aussagen aus einfacheren (mathematischen) Aussagen, etwa “A und B”, “A oder B”, “aus A folgt B”, “nicht
A”, wobei A und B nicht näher ins Auge gefaßte Aussagen sind, sowie um die Berechnung
des Wahrheitswertes der komplexen Aussage aus jenen von A und B. Diese Wahrheitswerte
sind wahr oder falsch (W, F). Wenn in dieser Weise zwei aus diesen Bestandteilen zusammengesetzte Aussageformen vorliegen, so nennt man sie logisch äquivalent, wenn sie bei jeder
Wahl der Wahrheitswerte der in ihnen vorkommenden Variablen den gleichen Wahrheitswert
haben. Es ist üblich, die Berechunung des Wahrheitswertes der elementaren logischen Operationen aus jenen der vorkommenden Variablen mittels Wahrheitstafel zu beschreiben, wie
dies in der umseitigen Tabelle gezeigt wird.
Kurz zu dem Umstand, daß in der nachfolgenden Tabelle “A ⇒ B” den Wahrheitswert W
hat, falls A F und B W ist: Ein Beispiel mit Aussagen aus der Theorie der ganzen Zahlen:
Wenn X die Menge {0, 1} und A die Aussage “0 = 1” ist, so kann man hieraus “1 = 0”,
und daher durch Einsetzen die wahre Aussge B, die da lautet“0 = 0” bekommen. Somit hat
man aus der falschen Aussage A die wahre Aussage B hergeleitet. Dieses Folgern “⇒” wird
sehr wohl als W bewertet. Das Folgern an sich ist nicht falsch, man hat mit A ja nichts
Unkorrektes getätigt.
Nun die schon angekündigten Wahrheitstabellen:
91
A, B
A, B
A, B
A, B
Disjunktion
∨
Implikation
⇒
Äquivalenz
⇔
A
A oder B
A∨B
A⇔B
A⇒B
A und B
A∧B
A
A
A
A
B
(logisch) äquivalent zu B
ist gleichbedeutend zu B
gilt genau dann, wenn B gilt
ist hinreichend und notwendig für
aus A folgt B
wenn A gilt, so auch B
A ist hinreichend für B
B ist notwendig für A
A impliziert B
A ist stärker als B
B ist schwächer als A
nicht A
Lesart(en)
¬A
Aus(logische)
sage(n) Verknüpfung
Konjunktion
∧
Negation
¬
Bezeichnung
w(A)
W
W
F
F
w(A)
W
W
F
F
w(A)
W
F
w(A)
W
W
F
F
w(A)
W
W
F
F
w(B)
W
F
W
F
w(B)
W
F
W
F
w(A ⇔ B)
W
F
F
W
w(A ⇒ B)
W
F
W
W
w(¬A)
F
W
w(B) w(A ∧ B)
W
W
F
F
W
F
F
F
w(B) w(A ∨ B)
W
W
F
W
W
W
F
F
Wahrheitstafel
92
Grundlagen
Beispiel 65 Beispiele zum Umgang mit logischen Aussagen:
1. Wie kann man die Aussage “ > 0, k > 0 und T ∈ [α, β]” mittels der obigen Symbolik
anschreiben?
Antwort: ( > 0) ∧ (k > 0) ∧ (T ∈ [α, β]).
2. Analog: “x ist entweder Null oder muß die folgenden Bedingungen erfüllen: x < 0, x ist
ganzzahlig und x ist durch 7 teilbar”.
3.1. Logik
93
Antwort: (x = 0) ∨ ((x < 0) ∧ (x ist ganzzahlig) ∧ (x ist durch 7 teilbar))
3. Analog: “Wenn n > 7 ist, so ist n < 0”.
Antwort: (n > 7) ⇒ (n < 0).
4. Man formuliere die nachstehende Aussage als ausgeschriebenen Satz ohne Benützung
der Symbole der Aussagenlogik:
((x > 0) ∧ (y < 0)) ∨ ((x < 0) ∧ (y > 0)).
Antwort: “x positiv und y negativ, oder es ist x negativ und y positiv.”
Zusatzfrage: Ist “xy < 0” logisch äquivalent dazu?
Antwort: Die Frage ist nicht korrekt gestellt, sie kann im Rahmen der Logik nicht
beantwortet werden, sondern lediglich innerhalb der Theorie der reellen Zahlen.
5. Wie müssen die Wahrheitswerte von Aussagen A, B und C beschaffen sein, daß (A ⇒
B) ⇒ C nicht den gleichen Wahrheitswert wie A ⇒ (B ⇒ C) hat?
Antwort: Eine gerne gepflegte Methode besteht in der Diskussion aller 8 Fälle und
Eintragen in eine erweiterte Wahrheitstafel. Die in dieser Form gefundenen Lösungen:
w(A)
F
F
w(B)
W
F
w(C)
F
F
w(A ⇒ B)
W
W
w(B ⇒ C)
F
W
w((A ⇒ B) ⇒ C)
F
F
w(A ⇒ (B ⇒ C))
W
W
6. Man zeige die logische Äquivalenz der Aussagen (A ⇒ B) und (¬A ∨ B), also die
Gültigkeit von (A ⇒ B) ⇔ (¬A ∨ B).
Antwort: Auch hier ist
die Diskussion der 4
Fälle mittels erweiterter
Wahrheitstafel möglich:
w(A)
W
W
F
F
w(B)
W
F
W
F
w(A ⇒ B)
W
F
W
W
w(¬A)
F
F
W
W
w(¬A ∨ B)
W
F
W
W
Die erweiterten Wahrheitstafeln (siehe z.B. Beispiel 65, 5. und folgende) aufzustellen ist für
komplizierter aufgebaute Aussagen mühsam. Daher interessiert man sich für Rechenregeln,
die das Rechnen mit Aussagen ermöglichen. Vorweg noch die folgende Definition:
Definition 66 Eine stets wahre Aussage heißt Tautologie, eine stets falsche Kontradiktion
bzw. Widerspruch.
Da definitionsgemäß zwei Aussagen A und B als logisch äquivalent gelten, wenn w(A) =
w(B) gilt, können die nachstehenden Identitäten, die ∨, ∧, ¬ involvieren, teils mittels Wahrheitstafeln, teils durch formales Herleiten aus bereits Bewiesenem gezeigt werden:
94
Grundlagen
Anmerkung 67 (Logische Äquivalenz und Rechengesetze logischer Verknüpfungen)
A∨B
A∧B
(A ∨ B) ∨ C
(A ∧ B) ∧ C
(A ∨ B) ∧ C
(A ∧ B) ∨ C
A⇒B
¬(¬A)
¬(A ∨ B)
¬(A ∧ B)
(A ∧ B) ∨ A
(A ∨ B) ∧ A
A∨T
A∧T
A∨W
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
B∨A
B∧A
A ∨ (B ∨ C)
A ∧ (B ∧ C)
(A ∧ C) ∨ (B ∧ C)
(A ∨ C) ∧ (B ∨ C)
(¬A) ∨ B
A
¬A ∧ ¬B
¬A ∨ ¬B
A
A
T
A
A
A∧W
⇔ W
Kommutativgesetz
Kommutativgesetz für ∧
Assoziativität von ∨
Assoziativität von ∧
Distributivität von ∧ bezüglich ∨
Distributivität von ∨ bezüglich ∧
wegen Beispiel 65 6.
Doppelnegation
Dualität
Dualität
Verschmelzungsgesetz
Verschmelzungsgesetz
für jede Tautologie T (Definition 66)
für jede Tautologie T
für jeden Widerspruch W (Definition 66)
für jeden Widerspruch W
Beispiel 68 Beispiele sollen den Vorteil des “Rechnens mit Aussagen” gegenüber erweiterten
Wahrheitstafeln illustrieren.
1. Zunächst leite man aus einer Wahrheitstafel die Aussage (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) her.
Diese logische Äquivalenz und Doppelnegation der ersten mit Dualität bezeichneten
Formel verwende man, um die zweite Formel dieser Art herzuleiten.
Antwort: Ersetzt man in der ersten Formel linke und rechte Seite durch die negierten
Formen und danach A durch ¬A sowie B durch ¬B, so egibt sich:
¬(¬(¬A ∨ ¬B)) ⇔ ¬(A ∧ B).
Jetzt verwendet man (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) mit X und Y linke und rechte Seite der
obigen Äquivalenz.
2. Man beweise oder widerlege die logische Äquivalenz von (A ⇒ B) ⇒ C und A ⇒ (B ⇒
C). Im Falle, daß die Aussagen nicht äquivalent sind, gebe man ein einfaches Beispiel
von Aussagen (über natürliche Zahlen) an.
Antwort: Zunächst können beide Terme mittels der Regeln umgeformt werden:
(A ∧ ¬B) ∨ C,
¬A ∨ (¬B ∨ C).
3.1. Logik
95
Jetzt sieht man, daß es genügt, w(C) = w(A) = F zu wählen, dann kann B beliebigen Wahrheitswert annehmen und man hat ein Gegenbeispiel, weil ja der erste Term
den Wahrheitswert F, der zweite W bekommt (vgl. auch Beispiel 65 5). Um ein handfestes Beispiel mit Aussagen über natürliche Zahlen zu bekommen, nimmt man z.B.
A :=“1 = 0”, B :=“1 = 1” und C :=“1 = 0”.
3. Man zeige die Gültigkeit der Kontraposition: “A ⇒ B” ist logisch äquivalent zu “¬B ⇒
¬A”.
Antwort : Es ist w(A ⇒ B) = w(¬A ∨ B) und w(¬B ⇒ ¬A) = w(¬(¬B) ∨ ¬A) =
w(B ∨ ¬A) = w(¬A ∨ B).
4. Hier ein Programmausschnitt zur Definition der logischen (“Bool’schen”) Variablen
‘cond’:
var cond
: boolean;
x,loops
: integer;
userinput : string;
cond:=( (x=10) and ( (userinput=‘abbruch’) or (loops > 100))
and ( (userinput=‘abbruch’) or (x <> 10) ) );
Unter welchen Bedingungen ist der userinput relevant für das Zutreffen von cond? Wie
stellt sich die Bedingung in aussagenlogischer Form dar? Kann sie vereinfacht werden?
Wie sähe eine vereinfachte Programmzeile aus?
Antwort: Der Programmierer versucht, die Variable(n) zu analysieren, indem er sich
überlegt, was passiert wenn/wenn nicht die Eingabe ‘abbruch’ erfolgt. Er erkennt, daß
diese Eingabe nur für x = 10 relevant ist. Hingegen ist die Schleifenkontrolle mittels
loops überflüssig.
Im Folgenden soll das auf aussagenlogischem Weg gezeigt werden:
Nach Einführen der Bezeichnungen A :=“x=10”, B :=“userinput=‘abbruch”’ und
C :=“loops > 100” für die Aussagen findet man als Formulierung von cond:
cond ⇔ A ∧ (B ∨ C) ∧ (B ∨ ¬A).
Nun sollen die Rechengesetze in Anmerkung 67 zur Vereinfachung herangezogen wer-
96
Grundlagen
den:
A ∧ (B ∨ C) ∧ (B ∨ ¬A)
⇔ (A ∧ (B ∨ ¬A)) ∧ (B ∨ C)
⇔
⇔
⇔
⇔
⇔
Ausgangssituation
Kommutativität und Assoziativität von ∧
((A ∧ B) ∨ (A ∧ ¬A)) ∧ (B ∨ C) Distributivität von ∧ bezüglich ∨
(A ∧ B) ∧ (B ∨ C)
Der Widerspruch A∧¬A kann
fortgelassen werden
A ∧ (B ∧ (B ∨ C))
Assoziativität von ∧
(A ∧ (B ∨ (B ∧ C)))
Verschmelzungsgesetz
A∧B
Die Bedingung C ist redundant und als vereinfachte Programmzeile ergibt sich
cond:=(x=10) and (userinput=‘abbruch’);
3.1.2
Prädikatenlogik 1.Stufe
Es werden Elemente betrachtet, d.s. Objekte, die “mathematisch gesprochen” einem Universum der Betrachtung angehören, z.B. die natürlichen Zahlen. Danach gibt es Prädikate, das
sind Eigenschaften, die den Objekten im Universum zukommen können (etwa die Eigenschaft
P (n)=“ n ist gerade ”, die einer Zahl n zukommt). In der Aussagenlogik hat man sich für
Prädikate lediglich um Zusammensetzungen etwa der Art P (n) ∧ Q(k) gekümmert. Nun geht
es auch um das “Quantifizieren”, also die Verwendung von ‘∃’ (Existenzquantor) und ‘∀’
(Allquantor). Als Beispiel
(∀n)(∃k)P (n) ∧ Q(k).
In Worten: Zu jeder natürlichen Zahl n, die P (n) erfüllt, gibt es eine natürliche Zahl k, die
Q(k) erfüllt.
Die Gesetze der Prädikatenlogik 1.Stufe geben den “richtigen Umgang” mit dem Hinschreiben von Aussagen, die ‘∃’ und ‘∀’ enthalten. Deren Wahrheitsgehalt kann nur bei näherer
Kenntnis des Universums geprüft werden. Die danach wahren Aussagen nennt man die Sprache 1. Ordnung über das gegebene Universum. Als wesentliche Anwendung gilt das gezielte
Vereinfachen von Aussagen, ohne den Wahrheitsgehalt zu ändern. Deshalb benötigt man
Umformungen, welche bei jeder Belegung der Variablen (etwa das ‘n’ in P (n)) den Wahrheitsgehalt nicht abändern.
Eine solche Sprache, wie sie zur Beschreibung einfacher (mathematischer) Theorien benützt
wird, muß im Sinne der Prädikatenlogik nach folgenden Grundprinzipien aufgebaut sein:
Definition 69 (Sprache der Prädikatenlogik) Zunächst besteht das Alphabet einer prädikatenlogischen Sprache aus Symbolen folgender Art:
1. Logische Symbole
¬
nicht
⇒
folgt
⇔
gleichbedeutend
∃
es existiert
∀
für alle
=
gleich
3.1. Logik
97
Die Symbole ∃ und ∀ heißen Quantoren, genauer Existenz- beziehungsweise Allquantor.
2. Variablensymbole.
3. Konstantensymbole.
4. Symbole für Prädikate.
5. Funktionssymbole, die spezifisch für die zu beschreibende Sprache (etwa jener der Sätze
über natürliche Zahlen) sind.
Als nächstes wird festgelegt, wie man Terme bildet. Das geschieht rekursiv:
1. Jedes Variablen- und jedes Konstantensymbol ist ein Term.
2. Ist f ein n-stelliges Funktionssymbol und t1 , . . . tn Terme, so ist f (t1 , . . . , tn ) auch ein
Term.
Ein konstanter Term ist ein Term ohne Variablensymbole.
Nun werden Primformeln nach folgenden Regeln gebildet:
1. Gleichungen t1 = t2 , wobei t1 , t2 Terme sind.
2. Ist R ein n-stelliges Prädikat und t1 , . . . , tn Terme, so ist R(t1 , . . . , tn ) eine Primformel.
Nun wird (wieder rekursiv) festgelegt, wie man zu Formeln kommt:
1. Jede Primformel ist eine Formel.
2. Sind F und G Formeln und x ein Variablensymbol, so sind es auch die Ausdrücke ¬F ,
F ⇒ G, F ⇔ G, (∃x)F und (∀x)F .
Die Variable x in (∃x)F bzw. (∀x)F heißt gebunden, wenn vor der Variablen x kein Quantor
steht ist, ist sie frei. Weiters wird statt (∀x)((∀y)F ) die klammerfreie Version (∀x)(∀y)F
geschrieben und ähnlich für mehrere Quantoren. Es ist (∀x)F (bzw. (∃x)F ) genau W, wenn
F für alle (bzw. für ein x) W ist.
Beispiel 70 Beispiele hiezu:
1. Man überlege sich die logische Äquivalenz von ¬(∃x)F und (∀x)¬F . Analog auch die
logische Äquivalenz von ¬(∀x)F und (∃x)¬F .
Antwort: Wenn es kein x gibt, welches F erfüllt, so muß ¬F für jedes x gelten. Also
gilt ‘ ⇒0 . Ist umgekehrt für alle x die Aussage ¬F richtig, so kann es kein x geben, auf
das F zutrifft. Somit hat man ‘ ⇐0 .
Die andere Aussage geht ähnlich.
98
Grundlagen
2. Man gebe (in der Theorie der natürlichen Zahlen) äquivalente Formulierungen für ¬(x <
3) ∧ (x < 7), (∃x)x2 = 4, ¬(∃l) l < 1. Welche der Variablen sind gebunden, welche frei.
Was kann über den Wahrheitswert der Aussagen gesagt werden?
Antworten:
(x = 3) ∨ (x = 4) ∨ (x = 5) ∨ (x = 6) und x ist frei, weil kein Quantor vorkommt.
x = 2 und x ist gebunden. Die neue Formel ist quantorenfrei, man spricht von Quantorenelimination aus (∃x)x2 = 4,
(∀l)l ≥ 1 und l ist eine gebundene Variable.
3. (Negation des -δ Stetigkeitskriteriums) In der Sprache der reellen Analysis (reelle
Zahlen, Funktionen, Stetigkeit, etc.) zeige man durch Anwenden logischer Operationen1 ,
daß
¬ ( (∀ > 0) (∃δ > 0) (∀x) ( (|x| < δ) ⇒ (|f (x) − f (0)| < )) )
|
{z
}
|
{z
}
{z
}
|
logisch äquivalent zu
(∃ > 0)(∀δ > 0)(∃x)
ist.
((|x| < δ) ∧ (|f (x) − f (0)| ≥ ))
Antwort: Es ist hier durchaus angebracht, “Wort und Satzanalyse” zu betreiben. Wir
setzen F für den Term (|x| < δ) und G für (|f (x) − f (0)| < ) und setzen Klammern.
Dann liest sich die Aussage1 als
¬ ( (∀ > 0) ( (∃δ > 0) ((∀x) (F ⇒ G)))) .
|
{z
}
|
{z
}
{z
}
|
Nun benützt man die Regeln bezüglich Negation von Quantoren im untersten Teil des
Kastens in Definition 69 und findet, das “¬” sukkzessive von links nach rechts schiebend
(wir haben auch F ⇒ G in ¬F ∨G umgeschrieben, vergleiche Anmerkung 67) und auch
das 1.te Beispiel:
⇔
⇔
⇔
⇔
3.2
¬( (∀ > 0)
(∃ > 0)
(∃ > 0)
(∃ > 0)
(∃ > 0)
( (∃δ > 0)
(¬(((∃δ > 0)
( (∀δ > 0)
( (∀δ > 0)
( (∀δ > 0)
((∀x)
( (∀x)
(¬((∀x)
((∃x)
( (∃x)
(¬F ∨ G)) ) )
(¬F ∨ G)) ) )
(¬F ∨ G)) ) )
¬((¬F ∨ G)) ) )
(F ∧ ¬G))).
Mengen
Gegenstand der Mengenlehre sind Mengen. Wir wollen der historischen Entwicklung insofern
folgen, als wir alle in Mathematik 1 und 2 betriebene Mathematik akzeptieren (analog wie
1
Die Unterklammerung dient lediglich als Lesehilfe.
3.2. Mengen
99
dies im 19.Jhdt. während der Entwicklung der Mengenlehre durch Georg Cantor durchaus
der Fall war), überlassen es dem Interessierten den Abriss über axiomatische Mengenlehre
(und die fundamentalen Probleme mit deren Nutzung) im Anhang (Unterabschnitt A.1.3)
nachzusehen, und (wie dies bisher zu einem guten Teil auch schon geschehen ist) alle mathematischen Begriffe, etwa Funktionen, Gruppen, Ringe, Körper, Vektorräume, Stetigkeit,
durch mengentheoretische Konstruktionen erklären.
100
3.2.1
Grundlagen
“Naive” Mengentheorie, Mengen, Elemente, Teilmengen
Mengen und Elemente, Aufzählung, Eigenschaft
Mengen sind Zusammenfassungen wohlunterschiedener Objekte, die man ihre Elemente nennt,
d.h., je zwei Elemente einer Menge M sind verschieden und zwei Mengen M und N sind genau
dann gleich, wenn sie die gleichen Elemente enthalten.
Ist die Menge M endlich, so schreibt man M := {x1 , . . . , xn } und spricht von einer “Auflistung
ihrer Elemente”.
Ist A(x) eine Eigenschaft oder Prädikat, die einem Element x zukommt, so versteht man
unter N = {x | A(x)} die Menge jener Elemente x, auf die A(x) zutrifft. Man spricht von
einer Beschreibung: “N wird durch die Eigenschaft A(x) ihrer Elemente x bestimmt.”.
Man schreibt x ∈ M , falls x ein Element von M ist und x 6∈ M für die Aussage ¬(x ∈ M )
(also wenn x kein Element von M ist).
Statt (x ∈ M ) ∧ (y ∈ M ) ∧ (z ∈ M ) schreiben wir des öfteren (x, y, z ∈ M ) etc.
Teilmenge, Obermenge
Wenn alle Elemente einer Menge N auch Elemente einer Menge M sind, so nennt man N
Teilmenge von M und schreibt N ⊆ M .
Es gilt demnach definitionsgemäß
(N ⊆ M ) ⇔ (∀x)(x ∈ N ⇒ x ∈ M ).
Statt N ⊆ M schreibt man auch M ⊇ N und nennt dann M eine Obermenge von N .
Aufgrund der Festlegung, wann zwei Mengen M und N gleich sind, ergibt sich,
(M = N ) ⇔ (M ⊆ N ) ∧ (N ⊆ M ).
Man schreibt N ⊂ M , bzw. M ⊃ N und sagt, N ist echte Teilmenge von M (bzw. M ist
echte Obermenge von N ), wenn N Teilmenge von M ist, jedoch M mindestens ein Element
enthält, das nicht zu N gehört. Als Formel
(N ⊂ M ) ⇔ ((N ⊆ M ) ∧ (∃x)(x ∈ M ∧ x 6∈ N )).
Leere Menge
Die Menge, welche keine Elemente enthält, heißt leere Menge, im Zeichen ∅. Sie kann z.B.
durch
∅ = {x | x 6= x}
definiert werden.
Beispiel 71 Es sollen im Folgenden, wie üblich, N, Q, Z, R und C Symbole für die natürlichen, die ganzen, die reellen, bzw. die komplexen Zahlen sein.
3.2. Mengen
101
1. Man beweise oder widerlege M = N für folgende Mengen. Welche der Aussagen M ⊆ N ,
N ⊆ M , M ⊂ N , N ⊂ M trifft zu und welche dieser Aussagen ist die stärkste von denen,
die zutreffen:
M
N
{3, 5, 7}
{x | x ∈ N ∧ x2 ≤ 50}
∅
{∅}
∅
{x | x ∈ R∧x < 0∧(x2 −4x+
2.4444137 = 0)}
(0, 1]
{x ∈ R | x > x2 ∨ x3 = 1}
2
2
{(p, q) ∈ R | p − 4q = 0} {(p, q) ∈ R2 | (∃x)((x2 + px +
q = 0) ∧ (2x + p = 0))}
Antworten:
{3, 5, 7} =
6 {x | x ∈ N ∧ x2 ≤ 50}.
Um dies zu zeigen, genügt es, ein Element von N anzugeben, das nicht in M liegt. Es ist
x = 1 in N , weil x = 1 die beschreibende Eigenschaft von N erfüllt (es ist 12 ≤ 50), aber
es fehlt in der als Liste gegebenen Menge M . Es ist M ⊆ N , weil für jede der Zahlen
3, 5, 7 die beschreibende Eigenschaft von N zutrifft und es gilt die stärkere Aussage
M ⊂ N , weil 1 ∈ N , aber 1 6∈ M ist.
—————
∅=
6 {∅}, weil die leere Menge keine, jedoch die Menge {∅} immerhin als einziges Element
die leere Menge enthält. Es ist M ⊆ N , weil die leere Menge Teilmenge jeder Menge,
also auch von N ist. Die Aussage M ⊂ N ist stärker als M ⊆ N , und sie gilt, weil das
Element ∅ wohl zu N aber nicht zu M gehört.
—————
∅ = {x | x ∈ R ∧ x < 0 ∧ (x2 − 4x + 2.444317 = 0)}.
Dazu genügt es, sich klarzumachen, daß es kein negatives reelles x gibt, das die beschreibende Eigenschaft von N erfüllt. Das folgt, weil der Ausdruck wie folgt nach
unten abgeschätzt werden kann: |{z}
x2 + (−4x) +2.444137 > 2.444137, also für beliebiges
| {z }
>0
>0
negatives x positiv sein muß.
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
—————
(0, 1] = {x ∈ R | x > x2 ∨ x3 = 1}.
Wir zeigen zunächst M ⊆ N . Sei x beliebig im links offenen und rechts abgeschlossenen
Intervall (0, 1] gewählt. Dann erfüllt es definitionsgemäß die Ungleichungen 0 < x ≤ 1.
Für positives x darf man diese Ungleichung mit x multiplizieren, also bekommt man
0 < x2 ≤ x, somit gilt die erste der Bedingungen in N , falls x < 1 und die zweite,
falls x = 1 ist. Nun ist noch N ⊆ M zu zeigen. Sei zunächst x2 < x, so ist x positiv,
und man kann die Ungleichung mit x1 multiplizieren, um 0 < x < 1, also x ∈ (0, 1) zu
102
Grundlagen
bekommen. Trifft auf ein reelles x die zweite Eigenschaft zu, so ist x = 1, und man hat
x ∈ (0, 1]. Insgesamt hat man N ⊆ M .
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
—————
Es ist M = N . Zunächst zeigen wir M ⊆ N . Ist (p, q) ∈ M , so gilt p2 − 4q = 0. Dann
zeigt die Umformung x2 + px + q = (x + p2 )2 , daß x = − p2 Lösung von sowohl x2 + px + q
als auch 2x + p = 0 ist. Somit ist M ⊆ N .
Um N ⊆ M zu zeigen, nehmen wir (p, q) ∈ N an. Dann gibt es x, welches Lösung der
Gleichungen x2 + px + q = 2x + p = 0 ist. Einsetzen von x = − p2 in der quadratischen
Gleichung zeigt, daß p2 − 4q = 0 gelten muß. Also ist (p, q) ∈ M . Hier eine mögliche
Interpretation2 .
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
Durchschnitt, Vereinigung, Komplement, Mengendifferenz
Es sollen hier die im Titel genannten Mengenoperationen erläutert werden.
Definition 72 (Mengenoperationen) Es seien A und B Mengen.
Vereinigung: Als Vereinigung von A und B bezeichnet man die Menge jener Elemente, die
zu A oder zu B gehören:
A
B
A ∪ B := {x | x ∈ A ∨ x ∈ B},
bzw.
(x ∈ A ∪ B) ⇔ (x ∈ A ∨ x ∈ B)
Durchschnitt: Als Durchschnitt von A und B bezeichnet man die Menge jener Elemente,
die sowohl zu A als auch zu B gehören:
A
B
A ∩ B := {x | x ∈ A ∧ x ∈ B},
2
Man stelle sich vor, daß (p, q) “Parameter” eines “Systems” sind, welches eine “Zustandsvariable” x hat.
Die rellen Wurzeln x der Gleichung x2 +px+q = 0 definieren 0,1,bzw. 2 mögliche Zustände. Ist ∆ := p2 −4q > 0,
so gibt es 2, ist ∆ = 0, einen (weil eine Doppelwurzel auftritt), und ist ∆ < 0 keinen Zustand.
3.2. Mengen
103
bzw.
(x ∈ A ∩ B) ⇔ (x ∈ A ∧ x ∈ B)
Man sagt, A und B sind disjunkt, falls A ∩ B = ∅, also A und B keine Elemente
gemeinsam haben.
Differenz: Als (Mengen)Differenz von A und B bezeichnet man die Menge jener Elemente,
die zwar zu A, nicht jedoch zu B gehören.
A
B
A \ B := {x | x ∈ A ∧ x 6∈ B},
bzw.
(x ∈ A \ B) ⇔ (x ∈ A ∧ x 6∈ B).
Ist B ⊆ A, so wird A \ B auch als Komplement von B in A bezeichnet. Man schreibt
dann CA (B) := A \ B.
Wird eine feste Menge M als Grundmenge ausgezeichnet, d.h., man betrachtet in einem
bestimmten Kontext lediglich Teilmengen von M , so werden wir statt CM (A) auch A0
schreiben.
Beispiel 73 Wie man die vorangegangenen Begriffe zur “modellhaften Beschreibung” verwenden kann, soll das folgende Beispiel zeigen.
1. Zwei nebeneinander postierte Scheinwerfer projizieren nächtens kreisrunde Scheiben auf
eine weiße Wand, und zwar einer in gelb (G) und einer in blau (B). Eine Plane (P) deckt
einen Teil des Strahlenganges ab.
Wie kann man die Lage der Scheiben und jener Teile, die in Mischfarben erscheinen,
mittels Mengen beschreiben? Wie die beleuchtete Fläche – einmal ohne daß die Plane
abdeckt, einmal wenn sie es tut?
Antwort: Die weiße Wand mag für unsere Zwecke als Menge R2 beschrieben werden.
Jeder von einem Scheinwerfer projizierte Scheibe ist dann eine Kreisscheibe, also eine
Punktmenge der Form
{(x, y) | (x − x0 )2 + (y − y0 )2 ≤ r2 }.
Somit hat man zwei solche Kreisscheiben G und B.
Sichtlich ist G∪B die beleuchtete Fläche und G∩B der Bereich, in dem eine Mischfarbe
erscheint.
Die Lage der Scheiben kann unterschiedlich sein. Es kann eine der beiden Scheiben in
der anderen enthalten sein, z.B. G ⊆ B. Keine der Scheiben ist in der anderen zur
104
Grundlagen
Gänze enthalten genau dann, wenn G \ B und B \ G beide nicht leer sind! Schließlich
können die Scheiben disjunkt sein, also B ∩ G = ∅.
Wenn die Plane im Strahlengang ist, so ergibt sich als beleuchtete Fläche
(G ∪ B) \ P,
was zugleich (G \ P ) ∪ (B \ P ) ist. Weiters ist (G ∩ B) \ P jener Flächenanteil, der in
Mischfarbe erscheint.
2. Zeichenprogramme (etwa für Innenarchitekten) erlauben dem Benützer Objekte festzulegen, (etwa beim Grundriss eines Raumes die Position und Form von Möbeln). Es seien
Objekte R (der Raum), sowie T (Tisch), K (Kasten) und S (Sessel) gegeben. Welche
mengentheoretischen Bedingungen kann man für diese vier Objekte angeben, damit sie
(als Punktmengen in der Ebene – Draufsichten) eine Einrichtungsskizze ergeben, wenn
man davon ausgeht, daß die Möbel alle am Fußboden stehen. Wie übersetzt man die
Bedingungen in Umgangssprache)?
Antwort: T ∩S = T ∩K = S ∩K = ∅ und K ∪T ∪S ⊆ R. (Umgangssprache: Die Skizzen
der Möbel dürfen einander nicht überlappen und müssen alle im Raum R drinnen sein.
3. Einige der Axiome der Ebene lauten:
a) Ein Punkt ist etwas, das keine Teile hat.
b) Jede Gerade besteht aus Punkten.
c) Auf jeder Geraden liegen mindestens 2 Punkte.
d) Durch 2 voneinander verschiedene Punkte kann man genau eine Gerade legen.
e) Zwei voneinander verschiedene Geraden schneiden einander in höchstens einem
Punkt.
Wie können diese Aussagen mengentheoretisch formuliert werden?
Antwort:
a) Mengentheoretisch steht man heute auf dem Standpunkt, daß die (Euklidische) Ebene
aus Punkten besteht, somit diese Elemente der Ebene, als Menge aufgefaßt sind –
danach konstruiert man (motiviert durch die elementare Anschauung) eine Sprache im
Sinne von Definition 226, um die Geometrie der (Euklidischen) Ebene zu beschreiben.
Somit soll im weiteren E die Menge aller Punkte, sein.
b) Ist G die Menge der Geraden, so gilt
(∀g ∈ G) g ⊆ E.
c)
(∀g ∈ G) (∃p ∈ E) (∃q ∈ E)
(p 6= q) ∧ ({p, q} ⊆ g).
d)
(∀p ∈ E) (∀q ∈ E) (∃g ∈ G) (∀h ∈ G)
( (p 6= q) ⇒
(
3.2. Mengen
105
({p, q} ⊆ g)
∧
( ({p, q} ⊆ h) ⇒ (h = g) )
)
).
e)
(∀g ∈ G) (∀h ∈ G) (∀p ∈ E) (∀q ∈ E)
(
( ({p, q} ⊆ g ∩ h) ∧ (g 6= h) ) ⇒ (p = q)
).
4. In der (x, y)-Ebene werden die Koordinatenachsen A(bszisse) und O(rdinate) gezeichnet. Welche Gleichungen muß ein Zahlenpaar (x, y) erfüllen, damit der Punkt P mit
den Koordinaten x und y folgende Relation erfüllt:
P ∈ A, P ∈ O, P ∈ A ∩ O, bzw. P ∈ A ∪ O.
Antwort y = 0, x = 0, x = y = 0, xy = 0.
5. Läßt sich die ebene Punktmenge im R2
M := {(x, y) | xy(x2 + y 2 − 1) = 0}
als Vereinigung von Geraden und Kreisen beschreiben?
Antwort: Da xy(x2 + y 2 − 1) = 0 ⇔ (x = 0) ∨ (y = 0) ∨ (x2 + y 2 − 1 = 0), ist
M
= {(x, y) | (x = 0)} ∪ {(x, y) | (y = 0)} ∪ {(x, y) | (x2 + y 2 − 1 = 0)}
= A ∪ O ∪ K((0, 0); 1),
wobei K((0, 0); 1) die Kreislinie mit Mittelpunkt Null und Radius 1 ist.
Die im Unterabschnitt 3.2.1 gegebenen Definitionen der Mengenoperationen erlauben die
Übertragung der Rechengesetze aus Anmerkung 67:
Anmerkung 74 (Rechengesetze für Mengenoperationen)
A∪B
A∩B
(A ∪ B) ∪ C
(A ∩ B) ∩ C
(A ∪ B) ∩ C
(A ∩ B) ∪ C
=
=
=
=
=
=
B∪A
B∩A
A ∪ (B ∪ C)
A ∩ (B ∩ C)
(A ∩ C) ∪ (B ∩ C)
(A ∪ C) ∩ (B ∪ C)
(A0 )0
(A ∪ B)0
(A ∩ B)0
= A
= A0 ∩ B 0
= A0 ∪ B 0
Kommutativgesetz für ∪
Kommutativgesetz für ∩
Assoziativität von ∪
Assoziativität von ∩
Distributivität von ∩ bezüglich ∪
Distributivität von ∪ bezüglich ∩
A ist das Komplement von A0
Dualität, De’Morgan
Dualität, De’Morgan
106
Grundlagen
Viele dieser Identitäten können mit einfachen Zeichnungen “eingesehen” werden. Um jedoch
Fehler zu vermeiden, sind formale Beweise nötig. Wie das gehen kann, soll jetzt gezeigt
werden:
1. Man beweise die Identität A ∪ B = B ∪ A.
Beispiel 75
Antwort: Es genügt, die folgende logische Äquivalenz nachzuweisen:
(∀x)(x ∈ A ∪ B ⇔ x ∈ B ∪ A).
Sei x ein beliebiges Element in der Menge A ∪ B. Dann gelten die folgenden logischen
Äquivalenzen
x∈A∪B
⇔ (x ∈ A) ∨ (x ∈ B) Definition von ∪
⇔ (x ∈ B) ∨ (x ∈ A) Kommutativgesetz für ∨
⇔ x ∈ (B ∪ A)
Definition von ∪
Beginn und Ende dieser Kette stellen die behauptete logische Äquivalenz dar.
2. Man zeige A \ B = A ∩ B 0 , wobei sich die Komplementbildung auf eine beliebige, A ∩ B
umfassende Menge bezieht.
Antwort: Wir zeigen, daß die in Frage kommenden Mengen die gleichen Elemente enthalten und es sei M eine Menge, die A ∪ B umfaßt:
x∈A\B
⇔ (x ∈ A) ∧ (x 6∈ B)
⇔ (x ∈ A) ∧ (x ∈ B 0 )
⇔ x ∈ A ∩ B0
Ausgangssituation
Definition von \
Definition des Komplements
Definition des Durchschnitts
3. Man zeige (A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B für beliebige Mengen A, B und C. Man
skizziere die Situation und formuliere die Aussage in aussagenlogischer Form.
Antwort: Das nachstehende Diagramm bedarf kundiger Betrachtung:
_ _ _ _ _ _ _ _ _ _ _ _ A\B B\A
A∩B
A strichlierte Umrandung
B voll ausgezogene Umrandung
_ _ _ _ _ _ _ _ _ _ _ _
Prädikatenlogische Form der Behauptung:
(∀A)(∀B)
(A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B.
3.2. Mengen
107
Man könnte es wie unter 2. machen, wir wollen aber zeigen, wie man (in Hinblick auf
die gleiche Aufgabe für kompliziertere Identitäten) die in Anmerkung 74 formulierten
Rechengesetze benützen kann. Es sei M := A ∪ B, dann kann man wie folgt vorgehen:
(A \ B) ∪ (B \ A) ∪ (A ∩ B)
= (A ∩ B 0 ) ∪ (B ∩ A0 ) ∪ (A ∩ B)
Ausgangsituation
Mengendifferenz durch
ment ausgedrückt
= ((A ∪ B) ∩ (B 0 ∪ B) ∩ (A ∪ A0 ) ∩(B 0 ∪ A0 )) ∪ (A ∩ B)
| {z } | {z }
=M
Komple-
=M
Distributivgesetz für ∪
= ((A ∪ B) ∩ (B 0 ∪ A0 )) ∪ (A ∩ B) es ist M = A0 ∪ A = B 0 ∪ B und
M ∩ T = T für jede Teilmenge T
von M
0
= ((A ∪ B) ∩ (A ∩ B) ) ∪ (A ∩ B) De’Morgan
= ((A ∪ B) ∪ (A ∩ B)) ∩ ((A ∩ B)0 ∪ (A ∩ B))
|
{z
}
=M
Distributivgesetz für ∪
weil Komplemente einander auf M
ergänzen
weil A ∪ B ⊆ M .
= (A ∪ B) ∩ M
= A∪B
4. Ist die Aussage (∀A)(∀B)(∀C)(A \ B) ∩ (A \ C) = A \ (B ∩ C). korrekt?
Antwort:
Zeichnet man die Mengen etwa wie auf dem Bild auf, sieht man rasch ein, daß die
Aussage falsch sein sollte (Die Mengen A, B und C sind jeweils durch strichlierte,
ausgezogene, bzw. punktierte Linien umrandet) – gut für die Intuition, leider ist es
noch kein Beweis.
_ _ _ _ _ _ _ A
B
_ _ _ _ _ _ _
C
Um zu einem Beweis zu gelangen, muß man die Negation der obigen Aussage zeigen,
also genügt es,
(∃A)(∃B)(∃C)(A \ B) ∩ (A \ C) 6= A \ (B ∩ C).
durch ein Beispiel zu belegen, etwa A := {1, 2}, B := {2} und C := A. Dann ist nämlich
(A \ B) ∩ (A \ C) = ∅ und A \ (B ∩ C) = {1}, also gilt Ungleichheit, wie behauptet.
(Wir haben die Allgemeingültigkeit der obigen Aussage durch Angabe eines Gegenbeispiels widerlegt).
108
Grundlagen
3.2.2
Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge,
Produktmengen
Definition 76 Es sei M eine Menge von Mengen.
Allgemeine Vereinigung: Man definiert
[
M
M ∈M
als die Gesamtheit aller Elemente x, die zu irgendeiner der Mengen M in M gehören.
[
M := {x | (∃M ∈ M) x ∈ M }.
M ∈M
S
Partition : Ist X = M ∈M M und sind je zwei verschiedene Mengen M und M 0 disjunkt,
d.h. gilt M ∩ M 0 = ∅, so nennt man M eine Partition oder disjunkte Zerlegung von X.
Allgemeiner Durchschnitt: Es ist
\
M
M ∈M
die Gesamtheit aller Elemente x, die zu allen Mengen M in M gehören.
\
M := {x | (∀M ∈ M) x ∈ M }.
M ∈M
Beispiel 77
1. Ist G die Menge aller Geraden in der Ebene, so ist diese gleich
also Vereinigung aller in ihr liegenden Geraden.
S
g∈G g,
2. Es sei K eine in der (x, y)-Ebene des R3 liegende Kreislinie und X die Menge aller
zur
S z-Achse parallelen Geraden, welche den Kreis in einem Punkt schneiden, dann ist
x∈X x ein unendlicher vertikaler Hohlzylinder. Es liegt eine Partition des Hohlzylinders
in vertikale Geraden (“Erzeugende”) vor.
3. Ein Stapel Bierdeckel veranschaulicht eine Partition des Stapels in die disjunkten Teilmengen. M ist die Menge der Bierdeckel, X das räumliche Gebilde, welches die Bierdeckel “belegen”.
4. Es sei H eine Menge von Teilmengen h einer Region, sodaßSes in jedemTh einen Sender
gibt, der in ganz h empfangen werden kann. Wie lassen sich h∈H h und h∈H h deuten?
S
T
Antwort: Es ist h∈H h jener Bereich, in dem mindestens einer der Sender, und h∈H h
jener, wo alle Sender empfangen werden können.
3.2. Mengen
109
5. Es sei ein Geradenstück in der Ebene gegeben, welches den Ursprung (0, 0) mit dem
Punkt (1, 0) verbindet. Weiters soll Y die Menge aller Kreisscheiben vom
S Radius 1
sein, deren Mittelpunkte auf dem Geradenstück liegen. Wie kann man y∈Y y und
T
y∈Y y durch endlich viele Bedingungen an die Koordinaten der enthaltenen Punkte
beschreiben?
Antwort:
S
'$
'$
'$
'$
'$
'$
'$
'$
'$
'$
'$
Als Vereinigung 3 y∈Y y = A ∪ B ∪ C mit A :=
r
r
{(x, y) | x2 + y 2 ≤ 1}, B := {(x, y) | (0 ≤ x ≤
2+
1) ∧ (−1 ≤ y ≤ 1)} und
C
=
{(x,
y)
|
(x
−
1)
T
&%
&%
&%
&%
&%
&%
&%
&%
&%
&%
&%
y 2 ≤ 1}. Weiters ist y∈Y y = A ∩ C.
Mehr zu Partitionen siehe Definition 90 und Beispiel 91.
Definition 78 (Potenzmenge) Ist M eine Menge, so bilden alle ihre Teilmengen eine Menge, nämlich die Potenzmenge, abgekürzt durch P(M ):
P(M ) := {T | T ⊆ M }.
Beispiel 79 Ein Beispiel, das zur abzählenden Kombinatorik gehört, vgl. Anmerkung 230.
1. Es sei M eine endliche Menge mit m Elementen. Man soll zeigen, daß P(M ) 2m Elemente hat.
Antwort: Der Beweis gelingt durch vollständige Induktion. Ist die Anzahl m = 0, so
liegt die leere Menge vor, und sie hat nur eine einzige Teilmenge, nämlich ∅, somit hat
P(∅) 20 = 1 Elemente.
Nun sei die Behauptung für jede endliche Menge mit m Elementen bewiesen. Sei X
eine beliebige Menge mit m + 1 Elementen und x ∈ X ein beliebiges Element. Dann
gibt es zwei Arten von Teilmengen von X: solche, die Teilmengen von X \ {x} sind,
und solche, die von der Form T ∪ {x} mit T ⊆ X \ {x} sind. Von beiden Sorten gibt
es 2m Teilmengen, weil ja X \ {x} lediglich m Elemente hat. Somit gibt es insgesamt
2m + 2m = 2 × 2m = 2m+1 Teilmengen in X, w.z.b.w.
2. Auf wieviele Arten kann man aus einer Urne mit k Kugeln einen Teil der Kugeln
herausnehmen?
Antwort: Jeder solche “Teil” ist eine Teilmenge der k Kugeln. Deshalb gibt es 2k solche
Auswahlen.
3
Es ist dies ein Beispiel eines Voronoidiagramms: Dabei möchte man aus einem vorgegebenen Stück Blech
nach Schablone Figuren herausfräsen. Es gibt jedoch entlang des Randes Verluste, sodaß die Figuren verbreitert
gezeichnet werden müssen.
110
Grundlagen
Definition 80 (geordnetes Paar) Sind A und B Mengen und a ∈ A, b ∈ B, so heißt die
Menge (a, b) := {{a}, {a, b}} geordnetes Paar und die Menge aller geordneten Paare
A × B := {(a, b) | a ∈ A ∧ b ∈ B}
das (kartesische) Produkt der Mengen A und B.
Anmerkung 81 Die Definition des geordneten Paars durch eine Menge entspricht axiomatischem Vorgehen. Die wichtigste Eigenschaft eines geordneten Paars ist
(a, b) = (a0 , b0 ) ⇔ (a = a0 ) ∧ (b = b0 ),
die man als naive Definition kennt, und aus der mengentheoretischen Definition sofort
folgt.
Hat A genau m Elemente und B genau n Elemente, so hat A × B genau mn Elemente.
Beispiel 82 Hiezu Beispiele:
1. Es seien X := {A, B, C} Aussagen und W := {W, F}. Welche Deutung kann X × W
gegeben werden?
Antwort: In der nebenstehenden Tabelle kann jedes
Kästchen im rechten unteren Teil durch Angabe der
“Koordinaten” A, B oder C und dem Wahrheitswert
W, F beschrieben werden.
A
B
C
W
F
2. Welche Deutungen kann man E ×E geben, wenn E die Ebene (bestehend aus Punkten)
ist?
Antwort: Es handelt sich um Punktepaare. Ist (P, Q) ein Punktepaar, kann es zur Definition von Endpunkten einer gerichteten Strecke verwendet werden.
3.2.3
Relationen
Relationen beschreiben die Beziehung von Elementen einer Menge A zu denen in einer Menge
B. Es sei A := {QUICKFUNK, SMALLTALK, NOISY, REDEFROH} eine Liste Mobilfunkbetreiber, und B := {Anton, Ida, Max, Moritz} Namen von Personen, so könnte man sich
für die Beziehung “Person b ∈ B ist Teilnehmer von Mobilfunkbetreiber a ∈ A.” interessieren. In der nachstehende Tabelle wird das durch ein ‘x’ ausgedrückt und die nebenstehende
Zeichnung kann auch als Definition interpretiert werden:
3.2. Mengen
111
QUICKFUNK
Anton
QUICKFUNK
SMALLTALK
NOISY
REDEFROH
Ida
x
x
Max
x
x
Moritz
x
x
Anton
OOO
OOO
OOO
OOO
SMALLTALK
Ida
??
??

?? ??

NOISY
Max
?? o
ooo?o?o?

??
ooo
?
ooo
REDEFROH
Moritz Definition 83 (binäre Relation) Sind A und B Mengen, so versteht man unter einer
(binären) Relation von Elementen in A zu solchen in B eine Teilmenge R des kartesischen
Produkts4 A×B. Ist A(x, y) eine Aussage in 2 Variablen, so ist R := {(x, y) ∈ A×B | A(x, y)}
eine Relation. Statt (x, y) ∈ R schreibt man oft xRy.
Analog spricht man von einer k-stelligen Relation, falls R Teilmenge von A1 × A2 × · · · × Ak
ist.
Beispiel 84 Beispiele zu Relationen:
1. Welche Elemente liegen in R für das obige Einführungsbeispiel? Wie übersetzt man die
Skizze in die Beschreibung von R, wie ergibt sich die Skizze bei gegebenem R? Wie
könnte A(x, y) aussehen?
Antwort: R = {(QUICKFUNK, Ida), (SMALLTALK, Ida), (SMALLTALK, Moritz),
(REDEFROH, Ida), (REDEFROH, Max), (REDEFROH, Moritz)}. Für jede Linie von
links nach rechts ergibt sich ein Element in R und umgekehrt.
Die Beschreibung durch A(x, y) gestaltet sich wie folgt:
(∃a)(∃b)((a, b) ∈ R)),
wobei R die obige Liste ist.
Um die Zusammensetzung oder Komposition von Relationen zu verstehen, sei z.B. C :={TU,
Cafe Museum, Floridsdorf, Döbling} und eine Relation S durch die Liste von Paaren {(Anton,
TU), (Anton, Floridsdorf), (Ida, TU), (Ida, Döbling), (Ida, Cafe Museum), (Moritz, Cafe Museum), (Moritz, TU), (Max, Döbling)} gegeben. Interpretation: Orte, wo sich diese Personen
oft aufhalten. Nun kann gefragt werden, welche dieser Orte die Mobilfunkbetreiber erreichen
können sollten.
4
Definition 80
112
Grundlagen
Anton
Cafe Museum
3 N
OOO
p N
OOO
3
Np p OOO
N
3 p
N
OOO
p
p 3
N
_ _3 _ _ _ _ TU
SMALLTALK
Ida
N 3 >>
N N3
>>
N3 N >>
N
>>
33
>>
>>
_ _ _ _ _ Döbling
NOISY
3
>> p Max p
3
>
p
p>
3
ppp >>>
p
p
3
> ppp
_
_
_
_
REDEFROH
Floridsdorf
Moritz QUICKFUNK
Nun kann eine neue Relation RS durch die Paare RS := {(QUICKFUNK, Cafe Museum),
(QUICKFUNK, TU), (QUICKFUNK, Döbling), (SMALLTALK, Cafe Museum), (SMALLTALK, TU), (SMALLTALK, Döbling), (SMALLTALK, Floridsdorf), (REDEFROH, Cafe
Museum), (REDEFROH, TU), (REDEFROH, Döbling), (REDEFROH, Floridsdorf)} festlegen, welche als Zusammensetzung von R mit S bezeichnet wird und z.B. die Interpretation
“Betreiber a steht mit dem Ort c in Relation RS, genau dann, wenn sich in c eine Person b ∈ B öfters aufhält und a dort benützen könnte.” zuläßt. Ganz allgemein lautet die
Definition:
Definition 85 (Zusammensetzung von Relationen) Sind R ⊆ A × B und S ⊆ B × C
Relationen, so versteht man unter Zusammensetzung RS ⊆ A × C die Relation
(a, c) ∈ RS ⇔ ((∃b ∈ B)(a, b) ∈ R ∧ (b, c) ∈ S).
In Worten, wenn es ein b in B mit aRb und bSc gibt.
Anmerkung 86 (inverse Relation)
1. Zu jeder Relation R ⊆ A × B gibt es die Relation R◦ ⊆ B × A mit den Paaren
(b, a), für die (a, b) ∈ R ist.
2. Die Komposition ist assoziativ in dem Sinne daß R(ST ) = (RS)T gilt.
Hier der Beweis für die Assoziativität.
⇔
⇔
⇔
⇔
⇔
aR(ST )d
(∃b ∈ B)aRb ∧ bST d
(∃b ∈ B) aRb ∧ (∃c ∈ C)bSc ∧ cT d
(∃b ∈ B)(∃c ∈ C) aRb ∧ bSc ∧ cT d
(∃c ∈ C) aRSc ∧ cT d
a(RS)T d
3.2. Mengen
113
Ein wichtiger Spezialfall tritt ein, wenn A = B gilt. Z.B. kann A eine Liste von Orten und R
die Relation sein, die angibt, ob es eine Zugsverbindung von Ort a ∈ A nach Ort a0 ∈ A gibt.
Die folgenden Eigenschaften einer solchen Art von Relation haben besonderen Namen:
Definition 87 (Wesentliche Eigenschaften, die eine binäre Relation haben kann)
Man sagt, R ist eine Relation auf der Menge A, falls R ⊆ A × A ist. Die Relation R auf A
erfüllt die Eigenschaft der
Reflexivität:
Symmetrie:
Antisymmetrie:
Transitivität:
(∀a ∈ A)
(∀a, a0 ∈ A)
(∀a, a0 ∈ A)
(∀a, a0 , a00 ∈ A)
aRa
(aRa0 ) ⇒ (a0 Ra)
(aRa0 ) ∧ (a0 Ra) ⇒ a = a0
(aRa0 ) ∧ (a0 Ra00 ) ⇒ aRa00 .
a’
a
a"
a
a’
Reflexivität
a
Symmetrie
Transitivität
Eine Relation R auf einer Menge A kann durch einen gerichteten Graphen, die Elemente
von A als dessen Knoten und die Elemente von R als dessen gerichtete Kanten beschrieben
werden. Ist (a, b) ∈ R, m.a.W. eine Kante, so ist a die Quelle und b das Ziel.
Beispiel 88 Relationen auf einer Menge:
1.
Wie kann die durch die nebenstehende Tabelle gegebene Relation zwischen Städten durch
einen gerichteten Graphen beschrieben werden?
Warum ist die Relation weder reflexiv, noch
symmetrisch, noch transitiv? Warum ist sie antisymmetrisch? Wie erkennt man dies aus der
Tabelle, bzw. anhand des Graphen?
ab
Wien
Wien
Wien
Budapest
an
Rom
München
Budapest
Szeged
Antwort: Die Skizze, ein Graph mit Knoten die Orte und Kanten die Verbindungen lt.
Liste.
München
jTTTT
TTTT
T
Wien
/ Budapest
OOOO
'
Szeged
Rom
Die Relation ist nicht reflexiv, weil (Wien, Wien)6∈ R. Sie ist nicht symmetrisch, weil
zwar (Wien, Budapest)∈ R, nicht jedoch (Budapest, Wien)∈ R gilt. Sie ist nicht transitiv, weil zwar (Wien, Budapest)∈ R, und (Budapest, Szeged)∈ R sind, nicht jedoch
114
Grundlagen
(Wien, Szeged)∈ R ist. Sie ist antisymmetrisch, weil für kein Paar (a, a0 ) ∈ R gleichzeitig auch (a0 , a) ∈ R ist, wie man durch Diskussion der 4 Fälle (die Pfeile) sofort sieht.
Geometrisch sieht man das, weil es keine inversen Pfeile gibt.
3.2.4
Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt
Die in Definition 87 genannten Eigenschaften werden zur Beschreibung von Äquivalenzrelation und Halbordung herangezogen.
Die Idee einer Äquivalenzrelation auf einer Menge A besteht darin, ihre Elemente in “(Äquivalenz)klassen” einzuteilen. Ein Beispiel ist die Einteilung der Teilnehmern eines Sprachkurses
in die 3 Klassen:
{Anfänger, mäßig Fortgeschrittene, Fortgeschrittene}.
Die Elemente einer Klasse sind zueinander “äquivalent” (im Sinne, wie man den Kurs für sie
anlegt).
Bei Halbordnungen geht es um das Festlegen von (Rang)ordnungen. Beim Beispiel bleibend,
könnte man die Teilnehmer nach ihrem Wissenstand ordnen. Man kann auch zunächst A <
M F < F zu ordnen und danach Teilnehmer nach ihrer Klassenzugehörigkeit ordnen.
Definition 89 (Äquivalenzrelation und Halbordnung) Eine Relation auf einer Menge
A, welche reflexiv, symmetrisch und transitiv ist, heißt Äquivalenzrelation5 . Ist a ∈ A, so heißt
die Menge aller a0 mit aRa0 die Äquivalenzklasse von a.
Eine Relation auf einer Menge A, welche reflexiv, antisymmetrisch und transitiv ist, heißt
Halbordnung.
Mit den beiden soeben definierten Begriffen hängen einige Konzepte zusammen, die jetzt
aufgelistet werden und danach in Beispielen erläutert werden sollen.
Definition 90 ad Äquivalenzrelation: Es sei R eine Äquivalenzrelation auf A. Die Menge der Äquivalenzklassen heißt Quotientenmenge6 von R, und wird mit A/R bezeichnet.
Die Menge von Mengen A/R bildet eine Partition von A (Definition 76). Jedes Element
einer Äquivalenzklasse heißt ein Repräsentant dieser Klasse. Eine Funktion s : A/R → A
heißt Schnitt, falls für jedes ā ∈ A/R das Element s(ā) in der Klasse von a liegt. Die
Menge s(A/R) heißt Repräsentantensystem der Äquivalenzrelation R.
Umgekehrt, liegt eine Partition von A vor, so läßt sich auf A eine Äquivalenzrelation
definieren, indem man aRa0 definiert, wenn a und a0 zur gleichen Teilmenge gehören.
Die zu dieser Partition wie oben gebildete Äquivalenzrelation ist dann R.
ad Halbordnung: Ist R
gewählt. Man nennt
5
eine Halbordnung,
Elemente a, a0
∈
so wird oft das Symbol ≤
A vergleichbar, wenn entweder
Vorsicht: Im Zusammenhang mit Datenbanken wird der Terminus Relation gelegentlich für “Relationsschema”, siehe Beispiel 236, gebraucht.
3.2. Mengen
a
a
115
≤ a0 oder a0 ≤ a gilt, andernfalls heißen sie unvergleichbar. Ist
∈ A und B eine Teilmenge von A so gibt es folgende Bezeichnungen:
a ∈ A ist
Notation
Bedingung, Kommentar
Maximum von A max A, min A
falls alle Elemente in x ∈ A mit a ver(bzw. Minimum),
gleichbar sind und x ≤ a (bzw. a ≤ x)
auch
größtes
erfüllen.
(bzw. kleinstes)
Element genannt
maximales (bzw.
minimales) Element
obere
(untere)
Schranke von B
Supremum (Infimum) von B
wenn a ≤ x (bzw. x ≤ a) stets a = x nach
sich zieht.
für alle b ∈ B ist b ≤ a (a ≤ b)
sup B, inf B
falls a das Minimum (Maximum) der Menge der oberen (unteren) Schranken von B
ist
Spezielle Eigenschaften einer Halbordnung in Tabellenform:
Bezeichnung
Bedingung, Kommentar
linear(e Ordnung), Totalfalls je zwei Elemente vergleichbar sind.
ordnung oder Kette,
noethersch oder fundiert
wenn jede echt absteigende Kette endlich ist
Wohlordnung
wenn jede nicht leere Teilmenge ein Minimum besitzt
Eine partielle Ordnung ist eine Relation, die lediglich transitiv und antisymmetrisch
ist. Eine partielle Ordnung ist strikt, wenn kein Element zu sich selbst in Relation
steht. Dies wird meist durch das Symbol ‘<’ bezeichnet.
6
Man stellt sich vor, jede Äquivalenzklasse schrumpft zu einem Punkt.
116
Grundlagen
Die folgenden Skizzen veranschaulichen die Begriffe:
Maximum
obere Schranke zu B
B
2 minimale Elemente,
kein Minimum
sup B
B
noethersch
etc
Unendlicher binärer Baum
nicht noethersch
Beispiel 91
1. Prozentverteilungen verschiedener Bestandteile einer Substanz werden gelegentlich durch eine Kreisscheibe mit verschieden gefärbten, nicht überlappenden Sektoren, deren Winkel Prozentzahlen proportional sind, versinnbildlicht.
Die Sektoren bilden eine Partition. Diese ist zugleich der Quotientenmenge der nachstehenden Relation: 2 Punkte der Kreisscheibe sind äquivalent, wenn sie die gleiche Farbe
haben.
2. Ist die Relation R ⊆ A × A, definiert durch R := {(a, a) | a ∈ A} eine Äquivalenzrelation? Wie kann man die Äquivalenzklassen beschreiben?
Antwort. Es handelt sich um die Gleichheitsrelation. Es ist nämlich aRb genau dann
der Fall, wenn a = b gilt (andere Elemente sind in R nicht enthalten, vgl. Definition
83). Nun ergibt sich sofort, daß die Axiome der Äquivalenzrelation erfüllt sind.
Die Äquivalenzklassen bestehen aus den einelementigen Teilmengen von A.
3. (Isothermen als Äquivalenzklassen) “Isothermen” sind gedachte Linien gleicher
Temperatur, etwa an der Erdoberfläche. Wie kann dieser Begriff im Sinne einer Äquivalenzrelation gedeutet werden? Welche anderen ähnlichen Begriffe und Deutungen sind
Ihnen bekannt?
Antwort: Man definiert für Punkte x, y der Erdoberfläche eine Relation xRy, wenn an
x und y die gleiche Temperatur herrscht. Es entsteht eine Äquivalenzrelation. Die auf
einer Karte erscheinenden Isothermen sind Äquivalenzklassen bezüglich dieser Äquivalenzrelation.
3.2. Mengen
117
Andere Begriffe: Isobaren, Isoklinen. Auch Äquipotentiallinien, bzw. -flächen sind Äquivalenzklassen, welche so zustande kommen. Siehe auch Anmerkung 94.
4. (Stromlinien als Äquivalenzklassen) Wirbelfreie und inkompressible Flüssigkeit,
die stationär in einem Gebiet des Raumes fließt, besitzt Stromlinien, d.s. Linien, welchen
ein in die Flüssigkeit geworfenes Partikel im Zuge der Strömung folgt. Welche Beziehung
zu Äquivalenrelationen kann man herstellen? Welche andere Situationen dieser Art sind
Ihnen bekannt?
Antwort: Aus physikalischen Annahmen folgt, daß Stromlinien den Raum ganz ausfüllen
und je zwei Stromlinien keine Punkte gemeinsam haben, also eine Partition des Raumes
beschreiben. Somit ist jede Stromlinie eine Äquivalenzklasse.
Magnetisches und Elektrostatisches Feld – Feldlinien.
5. In der Ebene (aufgefaßt als Menge von Punkten), werde xRy für Punkte x und y definiert, falls es eine Gerade g mit x ∈ g und y ∈ g gibt. Liegt eine Äquivalenzrelation,
bzw. eine Halbordung vor? Gelingt der Nachweis durch ledigliches Anwenden der Axiome der Ebene aus Beispiel 73 3 unter der Annahme daß die Ebene mindestens 2 Punkte
enthält?
Antwort. Die Reflexivität beweist man so: Sei x ∈ E beliebig. Dann gibt es noch einen
Punkt z 6= x. Somit gibt es eine Gerade g, auf der x liegt. Dann ist für y = x die
Aussage x ∈ g erfüllt, also xRx.
Symmetrie: Wenn xRy, so gibt es g mit (x ∈ g)∧(y ∈ g), also gilt auch (y ∈ g)∧(x ∈ g),
somit yRx.
Transitivität: Seien xRy und yRz. Wenn x 6= z ist, kann man durch x und z wegen d)
in Beispiel 73 auf xRz schließen. Wenn hingegen x = z ist, hat man wegen der schon
bewiesenen Reflexivität auch xRz.
Alle Punkte sind zueinander äquivalent, daher gibt es nur eine Äquivalenzklasse, nämlich
E.
6. (Logische Äquivalenz als Äquivalenzrelation) Es sei L eine gemäß den in Definition 69 angegebenen Forderungen gebildete aussagenlogische Sprache. Ist dann die
logische Äquivalenz ⇔ eine Äquivalenzrelation auf L?
Antwort. Seien A, B und C beliebige Aussagen einer in L formulierten Theorie. Definiert
war A ⇔ B durch das Erfülltsein von w(A) = w(B). Da w(A) = w(A), hat man somit
A ⇔ A, also die Reflexivität. Ist A ⇔ B, so gilt w(A) = w(B), also wegen 1. auch
w(B) = w(A) und deshalb B ⇔ A, also die Symmetrie. Ist A ⇔ B und B ⇔ C erfüllt,
so gilt w(A) = w(B) = w(C), also wegen 1. auch w(A) = w(C), somit A ⇔ C, also die
Transitivität.
Beispiel 92 Beispiele zu Halbordungen:
118
Grundlagen
1. Es sei A die Menge aller Brüche der Form n1 mit n ∈ N, n ≥ 1 und ≤ die übliche
Ordnung (es soll vorausgesetzt werden, daß wir schon bewiesen haben, daß es sich um
eine Halbordnung handelt). Gibt es ein Maximum, bzw. Minimum? Ist die Halbordnung
linear? Liegt eine noethersche Halbordnung vor?
Antwort: Es ist 1 ein Maximum.
Es gibt kein Minimum, weil es zu jedem a ∈ A ein noch kleineres gibt.
Je zwei Elemente sind vergleichbar, also ist die Halbordnung linear.
Es liegt keine noethersche Halbordnung vor, weil A eine unendliche absteigende Kette
ist. Die Halbordnung ist linear.
2. (Teilbarkeit als Halbordnung) Für die Menge aller natürlichen Zahlen ≤ 11 sei eine
Halbordnung m ≤ n definiert, wenn m ein Teiler von n ist. Wie kann man die Relation
durch einen Graphen beschreiben? Wie lauten die maximalen Elemente?
Antwort: Gebräuchlich ist es, als Knoten die Zahlen {1, 2, . . . , 11} zu nehmen und 2
Zahlen nur dann zu verbinden, wenn eine die andere teilt, jedoch kein Teiler “dazwischen
liegt”. Man spricht von einem Hassediagramm für die Halbordnung.
Die maximalen Elemente sind 6, 7, 8, 9, 10 und
11. Die Halbordnung ist
nicht linear, jedoch z.B.
ihre
Einschränkung
auf {1, 2, 4, 8}. Die
Teilbarkeitsordung ist
noethersch,
jedoch
keine Wohlordnung.
8
9>
>>
>>
>>
6>
>>
>>
>>
4
10 @
@@
@@
@@
@
g 11
j7
2
5
3 NNN
ooojjjjjjgjgggggggg
NNN
o
o
g
o
j
NNN
o jj ggg
NNN
ooo jjjggggg
NN oojgojgojgojgjgjgjggg
gj
~~
~~
~
~
~~
1
3. (Hassediagramm) Falls eine Halbordnung ≤ auf einer Menge M lokalfinit, d.h. jede
von einem Element x zu einem Element y bestehende Kette endlich ist, so kann die Halbordnung durch ein Hassediagramm beschrieben werden, indem ein Graph mit Knoten
die Elemente von M und Kanten x → y gezeichnet werden, falls y < x gilt (d.h. y ≤ x
und x 6= y). Dabei wird gerne von “unten nach oben” gezeichnet, d.h. kleinere Elemente
sind weiter unten. Hier Beispiele, wie man die Menge {1, 2, 3} ordnen könnte (die Liste
ist nicht vollständig):
3.2. Mengen
3
2
1
119
3
3
2
1
(b)
(c)
}}
}}
}
}
}}
3
2
1
}}
}}
}
}
}}
1
(a)
3.2.5
(d)
2
(a) ist eine Kette, in (b) und (c)
sind 1 und 2, in (c) auch 2 und 3
unvergleichbar. In (a) und (b) ist 3
ein Maximum (und daher ein maximales Element), in (c) und (d) ein
maximales Element, aber kein Maximum.
In Definition 104 findet man Hassediagramme zur Beschreibung von
Termersetzungssystemen.
Funktionen und Abbildungen
Beim Funktionsbegriff, meist durch y = f (x) notiert, denkt man sich jedem x mittels einer
“Vorschrift”, dem f , ein y zugeordnet. Zu jedem x soll es dabei ein zugeordnetes y geben
und keinem x werden zwei verschiedene y zugeordnet. Dieser Vorstellung folgt man beim
mengentheoretischen Funktionsbegriff:
Definition 93 (Funktionsbegriff) Unter einer Funktion oder Abbildung f mit Definitionsbereich A und Wertebereich B (kurz Funktion f : A → B) versteht7 man eine Relation
R ⊆ A × B mit den folgenden Eigenschaften:
1. Zu jedem a ∈ A gibt es ein b ∈ B mit (a, b) ∈ R
2. Wenn für b, b0 ∈ B ein a ∈ A mit (a, b) ∈ R ∧ (a, b0 ) ∈ R, dann soll b = b0 sein.
Man schreibt dann statt (a, b) ∈ R auch b = f (a) oder auch a 7→ b.
Die Menge R = {(a, f (a)) | a ∈ A} heißt Funktionsgraph.
Man nennt b das Bild von a unter f und a ein Urbild von b. Weiters versteht man für
A0 ⊆ A und B 0 ⊆ B unter f (A0 ) := {f (a) | a ∈ A} das Bild von A0 unter f und unter
f −1 (B 0 ) := {a ∈ A | f (a) ∈ B 0 } das Urbild von B 0 unter f . Recht gebräuchlich ist B A als
Bezeichnung für alle Funktionen mit Definitionsbereich A und Wertebereich B.
Es heißt f injektiv oder auch Injektion, falls stets aus f (a) = f (a0 ) die Gleichung a = a0
folgt. Ist f (A) = B, also jedes b ∈ B in der Form f (a) darstellbar, so nennt man f surjektiv
oder auch Surjektion. Schließlich ist f bijektiv oder auch Bijektion, wenn es sowohl injektiv,
wie auch surjektiv ist. Ist f : A → B eine Bijektion, so heißt die durch g(b) := a, falls f (a) = b
ist, definierte Funktion zu f invers. Sie wird üblicherweise mit f −1 bezeichnet.
Eine partielle Funktion8 f : A → B ist eine Funktion f : C → B mit C ⊆ A.
Anmerkung 94 Jede Funktion f : A → B gibt Anlaß zur Äquivalenzrelation aRa0
genau dann, wenn f (a) = f (a0 ). Es ist dann f (A) zugleich der Quotientenmenge (vgl.
7
8
Man liest das: f ist eine Funktion, bzw. Abbildung, von A nach B
Diese Notation ist z.B. in der Theorie der Datenbanken, aber auch Automatentheorie bequem.
120
Grundlagen
Definition 90 und Beispiel 91 2.). Die Äquivalenzklassen von R sind die Urbilder der
Punkte in B und sie bilden eine Partition.
Umgekehrt gibt es für jede Äquivalenzrelation auf einer Menge M eine Funktion, die
jedem Element seine Äquivalenzklasse zuordnet.
Beispiel 95 Beispiele zum Funktionsbegriff:
1. Es sei R die in der Beschreibung vor Definition 83 gegeben Relation mit den Mobilfunkbetreibern A und Personen B. Warum legt R keine Funktion von A nach B fest?
Antwort: Es ist Bedingung 1. für a =‘NOISY’ und Bedingung 2. für a ∈ {SMALLTALK,
REDEFROH} verletzt.
2. Es sei eine Relation in R3 × R2 definiert, nämlich (x, y, z)R(x0 , y 0 ) falls x = x0 und
y = y 0 ist. Wie zeigt man, daß die Bedingungen dafür, daß R eine Funktion f : R3 → R2
definiert, erfüllt sind? Wie kann man f mit einfachen Worten beschreiben? Es seien die
Punkte A(0, 1, 2), B(5, 3, 7) und C(2, 7, −10) Eckpunkte eines Dreiecks ∆. Wie kann
man f (∆) beschreiben? Wie f −1 {(0, 0), (0, 1)}? Ist f surjektiv? Ist f injektiv?
Antwort(en): Um 1. zu prüfen, wählt man (x, y, z) ∈ R3 beliebig. Danach ist ((x, y, z), (x, y)) ∈
R. Angenommen, für (x, y) und (x0 , y 0 ) gibt es (a, b, c) mit ((a, b, c), (x, y)) ∈ R und
((a, b, c), (x0 , y 0 )) ∈ R. Laut Definition von R hat man x = a, y = b und ähnlich x0 = a,
sowie y 0 = b, sodaß (x, y) = (x0 , y 0 ) folgt. Also ist 2. erfüllt.
Es handelt sich um Parallelprojektion zur z-Achse und offenbar ist f (x, y, z) = (x, y).
Als Bild f (∆) findet man das Dreieck mit den Eckpunkten A0 (0, 1), B 0 (5, 3) und C 0 (2, 7).
Es ist f −1 {(0, 0), (0, 1)} = {(0, 0, z) | z ∈ R} ∪ {(0, 1, z) | z ∈ R} die z-Achse zusammen
mit einer um eine Einheit nach rechts verschobenen.
f ist surjektiv. Um dies zu zeigen, wählt man (x, y) ∈ R2 beliebig. Danach ist f (x, y, 0) =
(x, y), also ist (x, y) im Bild von f .
f ist nicht injektiv. Dazu genügt es, zwei Punkte im Raum mit gleichem Bild anzugeben,
z.B. P (0, 0, 0) und Q(0, 0, 1).
3. In der nachstehenden Tabelle wird der Kaffeverbrauch (Tassen) von Mitarbeitern im
ersten Dritteljahr protokolliert (um später abrechnen zu können), wobei 30 Kaffees pro
Monat frei sind.
Wie kann die nebenstehende Tabelle als
1
2
3
4
Funktion f gedeutet werden? Wie würde man
Max 27 25 17 19
ihren Definitions- bzw. Wertebereich wählen?
Edda 15 18 22 24
Wie kann der Funktionsgraph gesehen werSue
20 23 18 21
den? Ist f injektiv?
Antwort(en): Offenbar wird jedem Paar (i, Person) ein Wert zwischen Null und 30
zugeordnet. Somit erscheint es natürlich, A := {1, 2, 3, 4} × {Max, Edda, Sue}, weiters
3.2. Mengen
121
B := {0, 1, 2, . . . , 30} zu wählen, sowie f (i,Person) den Eintrag der in der Zeile der
Person und in der Spalte i ist, zu definieren.
Der Graph mag als “Klötzchendiagramm” verstanden werden. Jedes Klötzchen so hoch,
als die Kaffeetassenzahl zeigt.
Da keine zwei Tabellenwerte übereinstimmen, ist f injektiv. Da jedoch nur 12 Tabellenwerte existieren und B 30 Elemente hat, kann f nicht surjektiv sein.
In unmittelbarem Zusammenhang mit dem Funktionsbegriff steht die Bildung allgemeinerer
kartesischer Produkte wie folgt:
Definition 96 (Mengenfamilie, Allgemeines kartesisches Produkt) Es seien I und
M Mengen, sowie P(M ) die Potenzmenge von M . Eine Funktion T : I → P(M ) heißt
Mengenfamilie von Teilmengen von M . Es ist üblich Ti statt T (i) zu schreiben und (Ti )i∈I
oder (Ti | i ∈ I) statt T : I → P(M ).
Bei gegebener Mengenfamilie (Ti )i∈I heißt jedes f : I → M mit f (i) ∈ Ti Auswahlfunktion9 .
Es ist üblich fi statt f (i) zu schreiben, sowie (fiQ
)i∈I statt f : I → M und I als Indexmenge
zu bezeichnen. Unter dem kartesischen Produkt i∈I Ti versteht man die Menge aller dieser
Auswahlfunktionen. Falls alle Ti = T alle gleich sind, ist die Notation T I üblich, welches, wie
man sofort sieht, genau die Menge aller
Q Funktionen von I nach T ist.
Ist I = {1, . . . , n}, so schreibt man ni=1 Ai oder A1 × . . . × An und ein Element darin als
(a1 , . . . , an ) = (ai | i = 1, . . . , n) (genannt n-Tupel). Ist Ai = A so schreibt man statt A{1,...,n}
einfach An (n-faches kartesisches Produkt der Menge A).
Sehr viele (mathematische) Begriffe können als Funktionen erklärt werden. Die nachstehende Tabelle bietet einige Beispiele dafür.
9
Die Existenz einer solchen Funktion für nicht abzählbares I benötigt das Auswahlaxiom, siehe die Tabelle
vor Beispiel 229
122
Bezeichnung
{an }∞
∈
n=1
AN ,
Folge
mit Werten
in A
(a1 , . . . , an ) ∈
An
bzw.
(ai )ni=1 ,
n-Tupel
(aij )(i,j)∈I×J
doppelt
indizierte
Menge
x + y Addition (von Vektoren)
~a × ~b äußeres
Produkt
P
n
i=1 ai
Summe
limn→∞ an
f0
Ableitungsfunktion
Rb
f (x) dx
R-Integral
a
Grundlagen
Definitionsbereich
N
Wertebereich
A Menge
Beschreibung
{1, . . . , n}
A Menge
i 7→ ai ∈ A
z.B. Zeilenvektoren
A Menge
(i, j) 7→ aij ∈ A
z.B. Matrizen
V × V , V Vektorraum
V
(x, y) 7→ x + y
R3 × R3
R3
(~a, ~b) 7→ (ijk aj bk )3i=1
An , A ein Vektorraum
alle
konvergenten Folgen
N
{an }∞
n=1 ∈ R
alle f : A → R,
mit A ⊆ R und
f differenzierbar
in A
alle f : [a, b] →
R, die R-integrierbar sind
A
(ai )ni=1 7→
R
{an }∞
n=1 7→ limn→∞ an
AR
f 7→ f 0
R
f 7→
I × J
menge
Index-
Besonderheiten
n 7→ an ∈ A
Rb
a
Pn
i=1
ai
f (x) dx
In Zusammenhang mit dem allgemeinen kartesischen Produkt stehen auch die in der Theorie der Datenbanken verwendeten Relationsschemen, siehe hiezu Unterabschnitt A.1.6.
Anmerkung 97 (Zusammensetzung, Erweiterung und Einschränkung von
Funktionen versus Relationen)
Zusammensetzung von Funktionen : Geht man von der Zusammensetzung RS zweier Relationen10 f : A → B, sowie S der Funktionsgraph von g : B → C ist, so
hat man aRSc, falls es ein b ∈ B gibt mit aRb und bSc. Wegen der Deutung als
Funktionsgraphen heißt das b = f (a) und c = g(b). Dann zeigt man ganz leicht,
daß RS ebenfalls ein Funktionsgraph ist und man bezeichnet die zu RS gehörige Funktion mit gf und nennt sie Hintereinanderausführung, Komposition oder
Zusammensetzung11 , von f und g. Es ist dann gf (a) = g(f (a)) für alle a ∈ A.
3.2. Mengen
123
g
f
)
A
)2
B
C
gf
Sind f, g, h Funktionen, sodaß man gf und hg bilden kann, so kann man auch h(gf )
und (hg)f bilden und es ist h(gf ) = (hg)f , m.a.W., es gilt das Assoziativgesetz.
Hingegen ist gf im allgemeinen nicht dasselbe wie f g.
Einschränkung und Erweiterung (=Fortsetzung): Ist f : A → B eine Funktion,
und C Teilmenge von A, so nennt man die Funktion g : C → B, definiert durch
g(c) := f (c) für alle c ∈ C, die Einschränkung von f auf C, im Symbol f ||C . Ist U
eine A umfassende Menge und h : U → B eine Funktion, deren Einschränkung auf
A mit f übereinstimmt (d.h. (∀a ∈ A)(f (a) = h(a))), so heißt h eine Erweiterung
oder Fortsetzung von f auf U ⊇ A.
Sind R ⊆ A × B, S ⊆ B × C und demnach auch RS Funktionsgraphen12 von f , g und
gf , so sind zwar die Schreibweisen RS und gf für jeweiliges Hintereinanderausführen als
Relationen bzw. Funktionen nicht kohärent, allerdings können aRb, bRc und somit aRSc in
der Sprechweise für Funktionen durch b = f (a), c = g(b) und somit c = gf (a) ausgedrückt
werden.
Beispiel 98 (Schreibweisen)
Es ist gelegentlich wichtig13 ,
aus der Schreibweise zu erkennen, wie Funktionen zusammengesetzt sind, (siehe auch
Beispiel 238 6.).
Ausdruck gf
cos(x3 )
cos3 (x)
cos(x + y)
Idee, Hilfestellung
x 7→ x3 = y, y 7→ cos y
x 7→ cos x = y 7→ y 3
(x, y) 7→ x + y = z 7→ cos z
g
cos
f
∧3
cos
·+·
cos
∧3
Wir schließen diesen Abschnitt mit dem nützlichen Konzept der Verträglichkeit einer Abbildung:
Definition 99 (Verträglichkeit von Funktion mit Relationen) Es sei f : A → B eine
Abbildung und R ⊆ AK sowie S ⊆ B k jeweils k-stellige Relationen. Man sagt, f ist mit den
Relationen verträglich, wenn
(a1 , . . . , ak ) ∈ R ⇒ (f (a1 ), . . . , f (ak )) ∈ S
gilt.
10
Gelegentlich werden wir g ◦ f schreiben.
Definition 85
12
Definition 93
13
etwa beim Gebrauch der Kettenregel
11
124
Grundlagen
Beispiel 100 Hier sei auf m.E. nicht uninteressante Anwendungen hingewiesen:
1. (Mengentheoretisches Modell einer Menge von Aussagen) Es sei M eine feste
Menge und A eine Menge von Aussageformen α(x) mit x einer einzigen Variablen. Nun
definieren wir f : A → P, indem für jedes α ∈ A
f (α) := {m ∈ M | α(m)}
setzen, also alle jene m ∈ M , für die α(m) wahr ist, in eine Menge mit der Bezeichnung
f (α) tun. Die Beziehung f (α(x) ∧ β(x)) = f (α(x)) ∩ f (β(x)) ist eine Umformulierung
der Definition des Durchschnittes aus Definition 72.
Daß aus dem “∧” ein “∩” wird, läßt sich durch die Verträglichkeit von Abbildungen
formulieren:
Ein wenig umständlich definieren wir eine Relation R ⊆ A × A × A, indem
(α(x), β(x), γ(x)) ∈ R ⇔ γ(x) = α(x) ∧ β(x)
gesetzt wird, m.a.W., wenn das Tripel im Funktionsgraphen der Funktion ∧ : A×A → A
liegt. Nicht minder umständlich definieren wir S ⊆ P × P × P durch
(X, Y, Z) ∈ S ⇔ Z = X ∩ Y,
d.h., wenn (X, Y, Z) zum Funktionsgraphen von ∩ : P × P → P liegt. Es ist f mit
den Relationen R und S verträglich, weil (α(x), β(x), γ(x)) ∈ R g.d.w. γ(x) = α(x) ∧
β(x), sodaßf (γ(x)) = {m ∈ M | α(m) ∧ β(m)} = {m ∈ M | α(m)} ∩ {m ∈ M |
β(m)} = f (α(x)) ∩ f (β(x)) g.d.w. (f (α(x)), f (β(x)), f (γ(x))) ∈ S. Somit wird die
Verträglichkeit von f mit R und S ausgedrückt. In Beispiel 117 8. wird sich f als
Halbgruppenhomomorphismus erweisen.
Eine Deutung von f ist die Folgende: Die vorliegende Menge A von Aussageformen
wird mittels einer “Referenzmenge” M in Äquivalenzklassen unterteilt. Zwei Aussageformen sind äquivalent, (wir wollen das durch α ∼ β ausdrücken) wenn sie die gleiche
Teilmenge von M bestimmen, d.h. α(x) ∼ β(x) g.d.w. f (α(x)) = f (β(x)) gilt. Es ist
ohneweiters denkbar, daß die Äquivalenzklasse jener α mit f (α(x))∅ nicht leer oder
sogar ganz A ist. Wenn es gelingt, eine Menge M zu finden, sodaß jede logische Äquivalenzklasse von Aussagen genau eine Teilmenge von M bestimmt, so nennt man f (A)
ein mengentheoretisches Modell von A.
Schlußendlich erweisen sich in unserem Fall R und S als die Funktionsgraphen der
Funktionen ∧ : A × A → A bzw. ∩ : P(A) × P(A) → P(A).
2. Es seien A, M und f wie in 1. Jetzt soll jedoch R ⊆ A × A und S ⊆ P(A) × P(A),
und S := {(X, Y ) | X ⊆ Y } sein. Die Verträglichkeitsbedingung besagt, daß α(x)Rβ(x)
stets
f (α(x)) = {m ∈ M | α(m)} ⊆ {m ∈ M | β(m)} = f (β(x))
nach sich zieht.
3.2. Mengen
125
Wie kann man R verstehen?
Antwort: Es ist α(x)Rβ(x) genau dann, wenn es Teilmengen A ⊆ B ⊆ M mit A =
{m ∈ M | α(m)} und B = {m ∈ M | β(m)} gibt.
Zuletzt darf hingewiesen werden, daß die Verträglichkeitsdefinition allgemeiner so gefaßt werden kann:
Anmerkung 101 (Verträglichkeit von Familie von Funktionen mit Relationenfamilie) Es seien (Ai | i ∈Q
I) und (Bi | i ∈ I)
Q Mengenfamilien und fi : Ai → Bi Funktionen. Weiters seien R ⊆ i∈I Ai und S ⊆ i∈I Bi Relationen. Die Funktionenfamilie
(fi | i ∈ I) ist dann mit R und S verträglich, wenn (ai | i ∈ I) ∈ R stets (fi (ai ) | i ∈ I) ∈ S
nach sich zieht.
Dieses Konzept wird etwa in der Theorie der Datenbanken benützt. Es soll in dieser Vorlesung
im Folgenden keine Rolle spielen.
126
Grundlagen
Kapitel 4
Algebra
In der Algebra geht es im weitesten Sinn um Rechenregeln, wie z.B. Kommutativgesetz,
Assoziativgesetz, Distributivgesetz, die für unterschiedlichste Rechenoperationen mit unterschiedlichsten Sorten von Objekten Gültigkeit haben. Etwa jene mit den üblichen Zahlen (‘+’,
‘−’,‘×’,‘/’), aber auch, beispielshalber mit Mengen (‘∩’, ‘∪’, ‘\’), wie das Assoziativgesetz
(A ∩ B) ∩ C = A ∩ (B ∩ C), (m + n) + k = m + (n + k), . . .
Dementsprechend, welche Arten von Rechenoperationen und Gesetzen gültig sind, werden
bestimmte algebraische Strukturen, wie (Halb)gruppe, Ring, Körper und andere formuliert.
4.1
Freie Monoide und Termersetzung
Dieser Teil zählt nicht zum Prüfungsstoff.
Zunächst will man formulieren, was überhaupt Terme sind, um z.B. (ab)c + 1 zu formulieren. Dazu benützt man ein “Alphabet”, im Beispiel A = {‘(’, ‘)’, ‘+’, ‘1’, ‘a’, ‘b’, ‘c’}, aus
dem “Zeichenketten” (auch “Wörter” oder, wie oben, “Terme” genannt, mit Buchstaben aus
einem Alphabet, dessen Elemente selbst Wörter etwa einer Computersprache, der ‘tokens’
sein können) gebildet werden. Nun kann ‘(ab)c + 1’ als Wort in den Buchstaben von A interpretiert werden. Jedes solche Wort ist eine endliche (Ab)folge von Buchstaben, also eine
Funktion f , die festlegt, welcher der 1.te, 2.te, etc Buchstabe des Wortes ist:
n 1 2 3 4 5 6 7
f (n) ( a b ) c + 1
Da nicht jedes solche Wort “sinnvoll” ist (z.B. ist ‘++’ kein Rechenausdruck), bedarf es
Regeln, welche die zulässigen Wörter, die dann eine Sprache bilden, aussondert. Die regulären
Sprachen sind die einfachsten ihrer Bauart, sie liegen der Backus-Naurform zugrunde, und
finden sich bei Texteditoren (“regular Expressions”). Dabei hat man im Alphabet syntaktische
Variable (z.B. etwa ‘X’ und ‘Y ’ und ein “Startsymbol” ‘S’), sowie terminale Variable (etwa
{a, b, c}) und Regeln, die (als Beispiel) Ersetzungen der Form
S → X, X → aY, Y → c
127
128
Algebra
zulassen. Es wird ein Startsymbol gewählt, etwa S und danach darf man von diesem Symbol
ausgehend, nach Belieben ein in einem Wort vorkommendes X bzw. Y jeweils aY bzw. c
ersetzen, solange, bis keine syntaktischen Variablen mehr vorkommen. Jedes so gewonnene
Wort gehört dann zur durch die Regeln festgelegten reguläre Sprache. Im Beispiel finden wir
S → X → aY → ac
also als einzig zustandekommend ac, somit als durch die Regeln bestimmte Sprache {ac}.
Welche Sprache entsteht, wenn man S → Y statt S → X als 1.te Regel festlegt?
Antwort: Die Sprache besteht aus allen Ausdrücken aaaa . . . ac, mit a beliebig oft. Als
regulärer Ausdruck wird das oft als a+ c angeschrieben.
Man darf sich somit vorstellen, daß “korrekt gebildete Rechenausdrücke” durch gewisse (etwas allgemeinere) Regeln festgelegt werden können, wobei die nun zu definierenden
Termersetzungssysteme hilfreich sind. Sprachtheoretische Präzisierungen und Anwendungen
(Chomskysprachen) können im Anhang in Unterabschnitt A.2.1 gefunden werden.
Definition 102 (freies Monoid) Es sei A eine Menge und es bezeichne n̄ := {1, . . . , n}.
Jede Funktion f : n̄ → X heißt Wort, gebildet aus Buchstaben des Alphabets A. Es werde in
der Form f (1)f (2) · · · f (n) geschrieben, und n heißt Länge von f . Wenn f und g Wörter mit
den Längen m und n sind, so soll die Zusammensetzung1 f g das Wort mit f g(i) = f (i) für i ≤
m und f g(i) := g(i−m) falls i > m ist. Man schreibt f (1) . . . f (m)g(1) . . . g(n) (Juxtaposition
bzw. engl. concatenation). Schließlich soll es das leere Wort mit der Bezeichnung geben,
(etwa die Funktion f : ∅ → A), welche f (1) . . . f (n) = f (1) . . . f (n) = f (1) . . . f (n) genügen
soll. Die entstandene Struktur bezeichnet man mit A∗ und nennt sie freies Monoid über dem
Alphabet A.
Es bezeichnet A+ := A∗ \ {}, d.i. die Menge aller nicht trivialen Wörter. Jede Teilmenge
von A∗ heißt (abstrakte) Sprache.
Für Teilmengen X, Y ⊆ A∗ sei XY := {xy | x ∈ X, y ∈ Y }.
Beispiel 103 Es ist (ab)c + 1 ∈ {a, b, c, (, ), +, 1}∗ .
Einprägsam ist die Beschreibung des freien Monoids durch einen Graphen2 , dessen Knoten
aus den Wörtern in A∗ und Kanten jeweils vom Knoten w zum Knoten wa für a ∈ A führen:
Für A = {a, b, c} ergibt sich bis zur Tiefe 2 ( steht vereinbarungsgemäß in Tiefe 0) der
Graph:
U
iiii UUUU
aa
i
UUUU
iiii
UUUcU
iiii
UUUU
i
b
i
i
a
i
UUUU
i
i
UU*
iiii
t
i
cA
aA
b
@
}} @@@ c
}} AAA c
|| AAA c
}
}
|
@@
}
AA
}
|
AA
b
b
b
@@
}}a
AA
}} a
|| a
AA
}
}
|
}
~
~|
~}
1
2
ab
ac
ba
bb
bc
ca
cb
cc
Dies ist nicht das Zusammensetzen von Funktionen im Sinne von Anmerkung 97
Definition 87
4.1. Freie Monoide und Termersetzung
129
Das Formulieren von Regeln geschieht üblicherweise in Form eines Termersetzungssystems
(TES):
Definition 104 (TES=Termersetzungssystem) Ein Termersetzungssystem (TES) mit
Alphabet A oder Semi-Thuesystem ist eine Relation (Definition 83 und Definition 87) R auf
A∗ . Üblicherweise schreibt man u → u0 statt uRu0 . Sind v, n ∈ A∗ , so sagt man w0 := vu0 n ist
vermittels der Regel u → u0 aus w := vun herleitbar. Gibt es ein k > 0 und Regeln in R sodaß
w → w1 , etc., wk−1 → wk =: w0 , so schreibt man w →∗R w0 , bzw. w →∗ wk und sagt, w0 ist
vermittels des TES R aus w herleitbar3 . Stellt man die Relation im Sinne von Definition 87
als Graphen dar, dessen Knoten die Elemente in A∗ sind, und wo eine Kante von u nach u0
führt, falls u → u0 , so bekommt man den Ableitungsgraphen. Er ist ein Hassediagramm im
Sinne von Beispiel 92 2.,3.
Wir vereinbaren noch, statt u → v1 , u → v2 , . . . , u → vk in kürzerer Form u → v1 |v2 | . . . |vk
zu schreiben und analog u1 → v, u2 → v, . . . , uk → v durch u1 |u2 | · · · |uk → v abzukürzen.
Das TES heißt konfluent, falls es zu
allen u, v, w ∈ A∗ mit w →∗ u und
w →∗ v ein z ∈ A∗ mit u →∗ z und
v →∗ z gibt.
}}
}}
}
}
~}}
uA
AA
AA∗
AA
A
∗
wA
AA
AA∗
AA
}}
}}
}
}~ }
v
∗
z
Es darf angemerkt werden, daß für eine Ordnungsrelation diese Eigenschaft auch als “nach
unten gerichtet” bezeichnet wird.
Beispiel 105 Wenn A = {a, b, c, S, X, Y } und R = {S → Y, X → aY, Y → c} ist, so darf
aXbY → aaY bc → aacbc getätigt werden, also hat man aXbY →∗ aacbc.
Kopfnuss für Tüftler: warum ist das angegebene System konfluent?
Anmerkung 106 (TES, Konfluenz, noethersch und Normalform) Es habe ein
TES auf A∗ die folgenden Eigenschaften:
• Das TES ist konfluent.
• Die Relation ‘→∗ ’ ist antisymmetrisch.
• Die Relation, definiert als x ≤ y, genau dann, wenn entweder x = y oder y →∗ x,
ist noethersch4 .
• R ist jene Relation auf A∗ , welche durch
xRy ⇔ (x = y) ∨ (∃u ∈ A∗ )x →∗ u ∧ y →∗ u
definiert ist.
3
→∗ wird auch transitive Hülle von → genannt.
130
Algebra
Dann ist R eine Äquivalenzrelation (Definition 90) und die minimalen Elemente der
Ordnung sind Repräsentanten von R. Es ist üblich, diese Repräsentanten als Normalform
zu bezeichnen.
Nutzen: Wenn sich eine gegebene Relation R als durch ein TES mit den genannten
Eigenschaften erklärbar erweist, hat man ein algorithmisches Hilfsmittel, Äquivalenzklassen durch Elemente in A∗ eindeutig zu identifizieren und weiters, zu jedem Element in
A∗ seinen eindeutigen Repräsentanten in A∗ zu ermitteln.
Kurz zum Beweis: Reflexivität und
Symmetrie von R sind einsichtig.
Die Transitivität läßt sich aus dem
rechts abgebildeten Diagramm und
Anwenden der Definitionen erkennen:
x?
??
~
??∗
∗ ~~~
??
~
? ~~~~
uA
AA
AA∗
AA
A
y@
@
@@ ∗
@@
@@
}
}}
}
}
}~ }

z
∗
v
∗
w
Als Liste von Anwendungen eines solchen TES innerhalb dieses Skriptums mögen die Beschreibung von Symmetriegruppen in Unterabschnitt 4.2.2, von Monoidhomomorphismen
(freies kommutatives Monoid) in Beispiel 117, dem üblichen “Kongruenzenrechnen” oder
auch “modulo einer Zahl m Rechnen” in Zm , bzw. im Polynomring “modulo einem Polynom
f Rechnen” in Beispiel 139, Beschreiben von algebraischen Erweiterungen eines Körpers
(Anmerkung 142), insbesondere das Rechnen in endlichen Körpern (Beispiel 145, wo IF8 der
Körper mit 8 Elementen behandelt wird), genannt.
Beispiel 107 Beispiele zu TES:
1. Es sei A := {t, a, b, c, d, . . . , x, y, z} ∪ {ä,ö,ü,&auml;,&ouml;, &uuml;}. Nun sei
R := {ä → &auml;, ö → &ouml;, ü → &uuml;}.
Welche Wörter sind aus “hören und erklären” vermittels R herleitbar?
Antwort: Es sind dies die Wörter “hören und erkl&auml;ren”, “h&ouml;ren und erklären” und schließlich “h&ouml;ren und erkl&auml;ren”.
Angemerkt sei, daß “hören und erkl&auml;ren” ein Wort in A∗ ist. Das TES erfüllt
die in der Anmerkung gemachten Voraussetzungen. Die Relation R besteht darin, daß
die Wörter zwar unterschiedlich geschrieben (einmal wie üblich, einmal HTML-mäßig),
jedoch “die selben Wörter sind”. Das TES ermittelt einen Repräsentanten in HTMLForm.
2. Es sei A := {0, 1, +, T, Z, } und es sei R durch
T → Z|T + T, Z → 0|1|0Z|1Z
festgelegt. Welche Wörter der Länge 3 sind aus T herleitbar?
4.1. Freie Monoide und Termersetzung
131
Antwort: Teilgraphen des Ableitungsgraphen können hilfreich sein, wir zeichnen zunächst
einen Teil, der bei Z, und einen, der bei T “beginnt”:
0
oo Z CCC
oo~o~~~
CC
o
o
o ~~
CC
o
o
C!
o
~~~
o
w oo
1
0Z
1Z
Z

T FF
FF
FF
FF
F#
T +T
Nun erkennt man: wo immer Z oder T im rechten Baum steht, kann der linke bzw.
rechte Graph an entsprechender Stelle einfügt werden. Man bekommt auf diese oder
unmittelbare Weise:
{000, 001, 011, 100, 101, 111, 0 + 0, 0 + 1, 1 + 0, 1 + 1, 00Z, 01Z, 10Z, 11Z, 0 + Z, 1 + Z, Z +
0, Z + 1, 0 + T, 1 + T, T + 0, T + 1, Z + Z, T + Z, Z + T, T + T }. Dieses TES erfüllt
die Voraussetzungen der Anmerkung nicht. Seine Daseinsberechtigung wird in Beispiel
238 2. besprochen werden.
3. (Ein TES checkt Assoziativität) Es sei A := {T, x, y, (, ), ∗}, und R bestehe aus den
Regeln: x|y → T, (T ∗T ) → T . Läßt sich aus dem Wort ((x∗y)∗((x∗x)∗((x∗y)∗(y∗x))))
bzw. (x ∗ x ∗ y) das Wort T herleiten?
Antwort: Zunächst findet man eine Kette ((x ∗ y) ∗ ((x ∗ x) ∗ ((x ∗ y) ∗ (y ∗ x)))) →
((T ∗ T ) ∗ ((T ∗ T ) ∗ ((T ∗ T ) ∗ (T ∗ T )))) → (T ∗ (T ∗ (T ∗ T ))) → (T ∗ (T ∗ T )) → (T ∗ T ) →
T . Beim zweiten Wort kann man lediglich x → T und y → T anwenden und erhält
T ∗ T ∗ T , und da gibt es keine Regel, die greift. Deutung: Wenn die “Multiplikation”
’∗’ nicht assoziativ ist (z.B. beim Vektorprodukt), ist das Setzen von Klammern von
Bedeutung. Die vorgelegten Regeln helfen, einen vorgelegten Ausdruck dahingehend
zu checken (“Parsing”). Dieses TES erfüllt die Voraussetzungen der Anmerkung. Das
Formulieren von uRv im Sinne der Anmerkung darf als Kopfnuss überlassen werden,
spielt im weiteren jedoch keine Rolle.
4. (Rechnen modulo 7) Es sei A := Z ∪ {+, T } und für alle i ∈ Z die (unendlich vielen)
Regeln i → i (mod 7), i + j → “Wert von i + j”. Was ergibt Anwendung der Regeln
auf 29 + 37 + 41? Welche Deutung hat man?
Antwort: 29 + 37 + 41 → 1 + 2 + 6 → 3 + 6 → 9 → 2. Das TES erfüllt die Bedingungen
der Anmerkung. Es ist xRy genau dann, wenn x − y durch 7 teilbar ist. Das TES produziert zu jeder Zahl z ∈ Z den kleinten nichtnegativen Rest mod 7 als Repräsentanten
von z. In Beispiel 139 1. wird R als Kongruenzrelation besprochen werden.
5. Es sei A := {hSatzi,hArtikeli, hSubjekti,hPrädikati, hAdjektivi, t, ist, war, rot, grün,
blau, gelb, der, die, das, Kugel, Ball, Ziegel} und Regeln
hSatzi
→ hArtikeli t hSubjekti t hPrädikati t hAdjektivi,
hArtikeli
→ der|die|das,
hSubjekti → Kugel|Ball|Ziegel,
hPrädikati → ist|war,
hAdjektivi → rot|grün|blau|gelb,
Ist “der Kugel ist gelb” aus hSatzi herleitbar?
132
Algebra
Antwort: Sichtlich. Obwohl es im Sinne der deutschen Grammatik falsch ist. Zur Bedeutung von “Prädikat” siehe auch die Fußnote zu Beginn des Abschnittes 3.1.2.
Im Anhang werden in Definition ?? Chomskygrammatiken unter Benützung spezieller TES
erklärt. Die Sprache der formalen Logik, jene von Programmspezifikationen (Backus-Naur
Form) u.v.m. kann damit beschrieben werden.
4.2
Halbgruppen und Gruppen
Hat man in einer Menge eine assoziative Verknüpfung von Elementen, so liegt eine Halbgruppe
vor. Z.B. sind die natürlichen Zahlen hinsichtlich der Addition eine Halbgruppe. Halbgruppen lernt man meist als Halbgruppen von Transformationen einer Menge in sich kennen (z.B.
alle alle 3 × 3-Matrizen, die auf dem R3 wirken und Matrizenmultiplikation), wobei die Verknüpfung von Transformationen deren Hintereinanderausführung ist. Dynamische Systeme
sind spezielle Beispiele einer solchen Situation. Gruppen sind Halbgruppen mit 1-Element
und Inversem zu jedem Element. Sie begegnen einem meist als Symmetriegruppen (etwa von
Rosetten).
·
·
•1
111
11
11
1
• •
·
'!&·%"1#$ '!&·%"1#$
11 11
'!&·%"1#$ '!&·%"1#$ '!&·%"#$
11 11 '!&%"#$ '!&%"#$
·
%
5
6
4
kk 3 SS 2
1
·
DD
7
1
8
9
zz
Sowohl die algebraische Struktur von (Halb)gruppen als auch ihr Wirken als Menge von
Transformationen sind Gegenstand dieses Unterabschnitts.
4.2.1
Definitionen und Allgemeines
Ist M eine beliebige Menge, so können die Abbildungen von M → M gemäß Definition 93
hintereinander ausgeführt werden, wie z.B. die Symmetrien obiger Rosetten. Da wäre M
die Rosette und f typischerweise eine Drehung um passenden Winkel oder Spiegelung. Sind
f und g solche Abbildungen, dann ist gf die Abbildung, die jedem m ∈ M das Element
g(f (m)) zuordnet. Diese Operation ist assoziativ und es gibt ein Einselement, die identische
Abbildung 1M auf M . Wenn nun eine Teilmenge aller Funktionen auf M unter Zusammensetzung “abgeschlossen” ist, hat man ein erstes Beispiel für eine Halbgruppe laut nachstehender
Definition.
N1
1 1
1 1
1 1 1 1
1 1
1 1
1 1
1 1 1 1
1
1
1
1
1
1 1 1
1 1
1
1
1 1
1 1
1 1
1
1
1
1
1
1 1 1
1 1
1 1
1 1
1 1
1 1
1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
NN
N N
NNNN
N
N
NN NN
N N N N
NNNNNNNN
N
N
NN
NN
N N
N N
NNNN
NNNN
N
N
N
N
NN NN NN NN
N N N N N N N N
NNNNNNNNNNNNNNNN
N
N
NN
NN
N N
N N
NNNN
NNNN
N
N
N
N
NN NN
NN NN
N N N N
N N N N
NNNNNNNN
NNNNNNNN
N
N
N
N
NN
NN
NN
NN
N N
N N
N N
N N
NNNN
NNNN
NNNN
NNNN
N
N
N
N
N
N
N
N
NN NN NN NN NN NN NN NN
N N N N N N N N N N N N N N N N
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
Die Selbstähnlichkeiten des Sierpinskidreiecks bilden ein Monoid. Das Schrumpfen um ein Drittel
(etwa auf das rechte untere Teildreieck) hat kein
Inverses.
4.2. Halbgruppen und Gruppen
133
Definition 108 ((Halb)gruppe und Monoid) Eine (2-stellige) Operation auf einer Menge
G ist eine Funktion f : G × G → G. Eine Menge G mit einer Operation f : G × G → G heißt
Halbgruppe, falls das Assoziativgesetz gilt, d.h. f (x, f (y, z)) = f (f (x, y), z) für alle x, y, z ∈ G.
Sie heißt Monoid, falls es ein Einselement gibt, also ein Element e mit f (x, e) = f (e, x) = x
für alle x ∈ G. Gibt es zusätzlich zu jedem x ∈ G genau ein Element x̄ ∈ G mit f (x, x̄) =
f (x̄, x) = e, so nennt man G eine Gruppe. Ist G endlich, so nennt man die Anzahl der
Elemente in G die Ordnung von G.
Halbgruppe
(lediglich assoziative binäre Operation)
Monoid
(Einselement kommt dazu)
Gruppe
(Jedes Element hat Inverses)
Meist benützt man multiplikative Notation, z.B. f (x, y) = xy, und schreibt 1 für e, x−1 für x̄,
xn für x
. . x}, und x−n statt (xn )−1 , bzw. (vorallem im kommutiven Fall) additive Notation.
| .{z
n mal
Die nachstehende Tabelle stellt die multiplikative der additiven Schreibweise gegenüber:
assoziativ
Einselement
Inverses
Kommutativgesetz
Potenz
Negative Potenz
x(yz)=(xy)z
x1=1x=x
xx−1 =x−1 x=1
xy=yx
xn
x−n
x+(y+z)=(x+y)+z
x+0=0+x=x
x+(-x)=-x+x=0
x+y=y+x
nx
-nx
Somit ist das Eingangsbeispiel sogar ein Monoid bezüglich des Hintereinanderausführens
von Funktionen (Symmetrieoperationen) auf M .
Beispiel 109 Einfache Beispiele
1. Die natürlichen Zahlen N bilden eine kommutative Halbgruppe bezüglich ‘+’ und ein
kommutatives Monoid bezüglich ‘×’. (Warum kein Monoid bezüglich ‘+’?)
2. (Rechnen modulo m – Rosetten der Ordnung m )
134
Algebra
Sei m natürliche Zahl und {0, 1, 2, . . . , m − 1}
“Symbole”. Man addiert solche Symbole indem
man sie als Zahlen interpretiert, addiert und
dann den kleinsten nicht negativen Rest r ermittelt. Dieser ist dann wieder ein Symbol. Geometrisch werden hiedurch die Drehungen eines
mit den Knoten {0, 1, 2, . . . , m − 1} beschrifteten, regulären m-Ecks beschrieben. Diese Menge
bildet eine durch (Zm , +) bezeichnete, kommutative Gruppe. Im Bild ist m = 8.

??
??
??
??
??
?
??
??
??
??
??
?

3. Matrizen(halb)gruppen Ist K ein Körper und K n der n-dimensionale Koordinatenraum, so bilden die n × n-Matrizen bezüglich Addition eine kommutative Gruppe und
bezüglich Multiplikation ein Monoid, das für n ≥ 2 stets nichtkommutativ ist.
Die regulären Matrizen bilden bezüglich Multiplikation eine Gruppe, wobei die Einheitsmatrix das Einselement der Gruppe ist.
Definition 110 (Kommutative=abelsche, zyklische (Halb)gruppen, Ordnung eines Elements) Eine Halbgruppe G kommutativ oder abelsch, wenn in ihr das Kommutativgesetz gilt. Sie heißt zyklisch, falls es ein x ∈ G gibt, derart, daß jedes Element eine Potenz
xk mit k ∈ N ist. Ein Monoid G ist zyklisch, falls es ein x ∈ G gibt, sodaß jedes Element eine
Potenz xk mit k ∈ N ∪ {0} ist. Ist G eine Gruppe, so heißt sie zyklisch, wenn es ein Element
x ∈ G gibt, sodaß jedes Element in der Form xk für ein k ∈ Z ist. Ist die Gruppe G = hxi
endlich, so nennt man die Ordnung von G auch Ordnung des Gruppenelements x.
Beispiel 111 Die “einzigen” Beispiele zu zyklischen Gruppen.
Man kann zeigen, daß (additive Schreibweise vorausgesetzt), jede zyklische Gruppe entweder als Rosettengruppe (Restklassenrechnen modulo m wie im vorigen Beispiel – die Ordnung ist m) oder als (Z, +) gedeutet werden kann. Multiplikative Schreibweise G = {z j |
j = 0, 1, 2, . . . , m} (etwa die m-ten Einheitswurzeln in C), bzw. G = {z j | j ∈ Z}, etwa
G = {2j | j ∈ Z}.
Nicht uninteressant ist die folgende Amwendung zyklischer Gruppen beim Diffie-Hellmann
Verfahren.
Beispiel 112 Diskreter Logarithmus und PGP. Ist G = hgi eine zyklische Gruppe der
Ordnung n, so heißt die Abbildung e : Zn → G, die durch e(z) := g z definiert ist, diskrete
Exponentialfunktion. Die Umkehrfunktion heißt diskreter Logarithmus auf G zur Basis g.
Es sei p := 13, so betrachten wir alle Potenzen von 2 (mod 13):
x
2x
0 1 2 3 4 5 6 7 8 9 10 11
1 2 4 8 3 6 12 11 9 5 10 7
4.2. Halbgruppen und Gruppen
135
Hieraus ergibt sich für die zyklische Gruppe der Ordnung 13 eine diskrete Logarithmentafel:
x
log2 (x)
1 2 3 4 5 6 7 8 9 10 11 12
0 1 4 2 9 5 11 3 8 10 7 6
Interessant ist lediglich, daß es für ausreichend große Primzahlen kaum möglich ist, in
angemessener Zeit die obige Logarithmentafel zu erstellen5 . Dies benützt man z.B. beim
Diffie-Hellman Verfahren (Verwendung bei PGP) welches folgendes Problem behandelt:
A und B wollen zwecks Verschlüsselung eine Schlüsselzahl K gemeinsam benützen (etwa um
danach Nachrichten damit zu verschlüsseln, zu senden bzw. zu empfangen und entschlüsseln,
die nur zwischen A und B ausgetauscht werden sollen). Das Problem besteht nun in “unsicherer” Datenleitung, sodaß solches K “abgehört” werden kann.
Beim Diffie-Hellman Verfahren wird ein solches K nach folgender Methode erzeugt, bzw.
zwischen A und B ausgetauscht:
1. Wie in Anmerkung 144 gezeigt werden wird, ist die multiplikative Gruppe von Zp ,
nämlich alle Zahlen {1, . . . , p − 1} bei Multiplikation modulo p eine zyklische Gruppe.
Sie sei unser G.
Rechner A und B einigen sich auf ein Primzahl p, um G := {1, . . . , p − 1} zu benützen,
und ein Element g ∈ G, sodaß G = hgi. z.B. in unserem Fall p = 13 und g := 2.
2. A und B tauschen p, g aus.
3. A und B erzeugen Zufallszahlen a, b ∈ {2, . . . , p − 2}, A sendet g a an B und B sendet g b
an A. Wenn z.B. a := 3 und b := 7 ist, sendet A 23 = 8 an B und jener 27 = 11 an A.
4. Es wird von A das Element (g b )a und von B das Element (g a )b berechnet. Nun haben sowohl A als auch B das gleiche Elment K = g ab errechnet, welches zu weiteren
Methoden des Verschlüsselns benützt werden kann, etwa zur Benützung des El-Gamal
Verfahrens, bei dem noch 2 ≤ K ≤ p − 2 sicherzustellen ist. Das Element K selbst ist
nicht auszutauschen, jedoch darf g K publik gemacht werden, weil man ja annimmt,
daß der g-Logarithmus von g K , nämlich K, nicht leicht berechenbar ist.
In unserem Fall ist K = (23 )7 = 221 = 2 · 1024 · 1024 = 2 · 10 · 10 = 5 (alle Rechnungen
modulo 13) und 2K = 6.
Anmerkung 113 (Allgemeine Produkt- und Summennotation) Ist G kommutatives Monoid und I eine Menge, sowie f : I → G eine Funktion mit Werten in G, so
heißt tr(f ) := {i ∈ I | f (i) 6= 1} (bzw. in additiver Notation {i ∈ I | fQ
(i) 6= 0} Träger von
f . Für eine Funktion f ; I → G mitendlichem Träger
wird
rekursiv
i∈∅ f (i) := 1 (bzw.
P
Q
Q
i∈∅ f (i) := 0) und
i∈I f (i) :=
i∈I\{i0 } f (i) f (i0 ), wobei i0 ∈ I beliebig wählbar
P
ist (bzw.
i∈I\{i0 } f (i) + f (i0 )) definiert.
5
Allerdings hat Briggs ca 1616 nicht ganz 7 Jahre zur Berechnung von 14-stelligen Logarithmen von ca
30000 Zahlen benötigt, – heute braucht man eher länger für das Drucken als für das Rechnen.
136
Algebra
Als Konsequenz des Assoziativ- bzw. Kommutativgesetzes gilt für jede Partition {Il |
l ∈ L} von I


Y
Y Y

f (i) =
f (i) ,
i∈I
l∈L
X
X
i∈Il
bzw. in additiver Notation:
i∈I
f (i) =
l∈L


X

f (i) .
i∈Il
Weiters ergeben sich für f : I × J → G die folgenden Formeln:


!
Y
Y Y
Y Y

f (i, j) =
f (i, j) =
f (i, j) =
(i,j)∈I×J
i∈I
j∈J
j∈J
i∈I
Y
f (i, j),
(j,i)∈J×I
bzw., in additiver Notation:
X
(i,j)∈I×J
f (i, j) =
X
i∈I


!
X
X X

f (i, j) =
f (i, j) =
j∈J
j∈J
i∈I
X
f (i, j).
(j,i)∈J×I
Anmerkung eines Buchhalters: In der Summenschreibweise bedeutet das Partitionieren der
Indexmenge I, daß man die zu addierende Posten f (i) in Gruppen zusammenfaßt (Gruppe
im buchhalterischen Sinn) und danach die Werte der Gruppensummen addiert. Das Produkt
I × J bedeutet, daß die Werte f (i, j) in einem Tableaux (Mathematiker sprechen wohl eher
von Matrix vgl. 3.tes Beispiel in der Tabelle vor Anmerkung 97) angeordnet sind, danach
Zeilensummen ermittelt und schließlich die Zeilensummen addiert werden. Wenn man in
analoger Weise Spaltensummen addiert, kommt man zum gleichen Ergebnis.
4.2.2
Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und
Wirkungen
Setzt auf Z eine Relation ‘≡’durch k ≡ l fest, falls k und l den gleichen (nicht negativen
Rest) bei ganzzahliger Division durch m ergeben, so hat man das einfachste Beispiel einer
Kongruenzrelation. Falls z.B. m = 8 ist, so ist 17 ≡ 9 ≡ 1 ≡ −7 etc. Man denke an die
Drehungen eines regulären m-Ecks. Man erkennt, daß k ≡ l genau dann gilt, wenn k − l ein
Vielfaches von m ist. Deshalb macht man sich schell klar (zumindest am Beispiel), daß k ≡ l
stets k + s ≡ l + s nach sich zieht.
4.2. Halbgruppen und Gruppen
137
Definition 114 (Kongruenzen in einer (Halb)gruppe) Eine Kongruenzrelation auf einer Halbgruppe G ist eine Äquivalenzrelation ≡, derart, daß u ≡ u0 und v ≡ v 0 stets uv ≡ u0 v 0
nach sich zieht.
Ein Halbgruppenhomomorphismus f : G → G0 erfüllt für alle g, h ∈ G die Bedingung
f (gh) = f (g)f (h). Ein Monoidhomomorphismus erfüllt zusätzlich f (1G ) = 1G0 . Sind G und
G0 Gruppen, so ist f ein Gruppenhomomorphismus, wenn f Monoidhomomorphismus ist.
Ein Homomorphismus, der eine Bijektion ist, heißt Isomorphismus.
Beispiel 115 Einfache Beispiele
1. Auf Z ist durch x ≡ y falls x − y durch m ∈ N teilbar ist, eine Kongruenzrelation
bezüglich ‘+’ gegeben. Die Äquivalenzklassen bestehen jeweils aus jenen Zahlen, die
bei Division durch m den gleichen Rest lassen (geometrisch: das reguläre m-Eck aus
einer vorgegebenen Anfangsposition in die gleiche Endposition bringen).
Dadurch wird der Homomorphismus f , der jedem k ∈ Z den kleinsten nichtnegativen
Rest zuordnet bestimmt.
Der Kern von f , d.i. jene Elemente x mit f (x) = 0, sind alle durch m teilbaren Zahlen.
2. Auf der Halbgruppe aller n×n-Matrizen mit Eintragungen im Körper K bezüglich Multiplikation wird durch A ≡ B ⇔ det(A) = det(B) eine Halbgruppenkongruenzrelation
festgelegt. Der zugehörige Homomorphismus f ist die Determinantenfunktion (wegen
des Multiplikationssatzes für Determinanten).
Beschränkt man sich auf die invertierbaren Matrizen, so entsteht eine Gruppenkongruenzrelation. Der Kern von f , d.i. jene Elemente A mit f (A) = 1, besteht aus allen
Matrizen mit Determinante gleich 1.
Anmerkung 116 (Kongruenz und (Halb)gruppenhomomorphismus) Es ist
üblich, schlicht von Homomorphismus zu sprechen, wenn keine Verwechslung zu befürchten ist.
Die Begriffe Kongruenz und Homomorphismus sind in folgendem Sinne äquivalent: Ist
≡ eine Kongruenzrelation auf G, so kann eine Multiplikation auf G/ ≡ durch ḡḡ 0 := gg 0
definiert werden, und f : G → G/ ≡, definiert durch f (g) := ḡ (die Äquivalenzklasse von
g) erweist sich als Homomorphismus. Es wird G/ ≡ mit dieser neuen Multiplikation als
Quotienten- oder Faktor(halb)gruppe bezeichnet.
Ist umgekehrt f : G → G0 ein Homomorphismus, so ist die Relation g ≡ g 0 falls
f (g) = f (g 0 ) ist, eine Kongruenzrelation auf G.
Beispiel 117
1. (Freies kommutatives Monoid und Kongruenz) Es sei X ∗ das freie
Monoid über dem Alphabet X (siehe Definition 102). Wir definieren eine Kongruenz
durch xy ≡ yx für alle x, y ∈ X. Als Quotient bekommt man jetzt ein kommutatives
Monoid. Wählt man eine lineare Ordnung auf X, so kann jedes Element eindeutig
mk
1 m2
durch ein Potenzprodukt xm
1 x2 . . . xk mit x1 < x2 < . . . < xk anschreiben. Das TES
138
Algebra
yx → xy für alle x < y erweist sich als konfluent, antisymmetrisch und noethersch6 . Die
vom TES erzeugte Kongruenzrelation auf X ∗ besteht genau darin, Wörter in Relation
zu setzen, wenn sie durch Vertauschen ihrer Faktoren in X auseinander hervorgehen.
Nun bekommt man Repräsentanten in X ∗ : Ist etwa x < y < z so ergibt sich
zyxxxyz → zxyxxyz → xzyxxyz → · · · → x3 y 2 z 2 .
Das so entstandene Monoid heißt freies kommutatives Monoid über dem Alphabet X.
2. Es sei G ein beliebiges Monoid, {e} das triviale Monoid (d.h. ee = e) und f : G → {e}
durch f (g) := e für alle g ∈ G gegeben. Dann ist f ein Monoidhomomorphismus, den
man trivial nennt.
3. (Restklassenaddition in Z modulo m) Es sei (Z, +) die Gruppe der ganzen Zahlen
mit der Addition. Sei m > 0 in Z. Es sei x ≡ y, falls es ein k ∈ Z mit y = x + km gibt.
Dies ist die übliche Kongruenzrelation mod m. Die Menge der Äquivalenzklassen ist
{0̄, . . . , m − 1}. Die Addition in Z/ ≡ ist definiert als x̄+ȳ := x + y. Es sei f : Z → Z/ ≡
die Abbildung, die jedem z ∈ Z das Element z̄ zuordnet.
Wie kann man die Addition in Zm ausdrücken?
Jede Zahl z ∈ Z ist eindeutig in der Form z = km + r mit k ∈ Z und 0 ≤ r ≤ m − 1
darstellbar. Es sei r(z) die Bezeichnung für den Rest bei vorgegebenem z. Nun definieren
wir als TES:
(∀z ∈ Z)z → r(z)
Dieses TES erweist sich als noethersch, antisymmetrisch und konfluent und impliziert
die Kongruenzrelation im Sinne von Anmerkung 106.
Auf Zm = {0, 1, . . . , m − 1} wird durch
x+y
x ⊕ y :=
x+y−m
falls x + y < m
sonst
eine Addition definiert, sodaß (Zm , ⊕) eine kommutative Gruppe ist (bitte checken!).
Dann ist r : Z → Zm ein Gruppenhomomorphismus, weil laut Definition r(x + y) =
r(x) ⊕ r(y) gilt.
4. (Charakterisierung der zyklischen Gruppen) Wie kann man die zyklischen Gruppen charakterisieren. Welche Rechengesetze sind möglich?
Antwortfindung: Es ist G = {xl | l ∈ Z}. Wenn G 6= {1}, sind 2 Fälle denkbar.
Fall 1 ist, wenn es ganze Zahlen k 6= l mit xk = xl gibt. Dann ist xk−l = 1. Somit
ist die Menge {n ∈ N | n > 0 ∧ xn = 1} nicht leer und besitzt ein kleinstes Element,
nennen wir es m. Sei H := {1, x, . . . , xm−1 }. Wir behaupten, daß H eine Untergruppe7
von G ist. Sind nämlich xk , xl ∈ H, so auch xk+l , sofern k + l < m, bzw. xk+l−m , sofern
6
7
Definition 104
Definition 118
4.2. Halbgruppen und Gruppen
139
k + l ≥ m ist. Es ist auch x−k = x−k xm = xm−k ∈ H, sofern k ≥ 1 ist. Somit ist H
Untergruppe. Ist nun g = xk ∈ G beliebig (also nicht notwendig 0 ≤ k ≤ m − 1), so
kann ähnlich wie in 3. ein s ∈ {0, . . . , m−1} und l ∈ Z mit k = s+ml gefunden werden,
sodaß xk = xk xml = xs ∈ H gilt. Schließlich überlegt man sich noch, daß xk = xl mit
k, l ∈ {0, 1, . . . , m − 1} stets k = l nach sich zieht: anderfalls, wenn k > l wäre, hätte
man xk−l = 1, und weil 0 < k − l < m ist, hätte man einen Widerspruch.
Fall 2 ist, wenn keine 2 Potenzen xk , xl übereinstimmen, sofern k 6= l ist. Dann ist G
eine multiplikative Version von Z.
Antwort: Wir haben gezeigt, daß jede zyklische Gruppe isomorph zu entweder Zm für
ein positives natürliches m (wobei Z1 = Z) oder zur trivialen Gruppe, nämlich {0} ist.
5. (Restklassenaddition in R mod 2π) Es sei G := R mit der Addition. Es sei r ≡ s,
falls es ein k ∈ Z mit s = r + 2kπ. Liegt eine Äquivalenzrelation vor? Wenn ja, wie
kann die Quotientengruppe R/2πZ := R/ ≡ beschrieben werden?
Antwort: Zunächst muß gezeigt werden, daß eine Äquivalenzrelation vorliegt. r ≡ r,
weil r = r + 2 × 0 × π gilt, also k = 0 genommen werden kann. Somit ist ≡ reflexiv. Ist
r ≡ s, so ist s = r + 2kπ, also r = s + 2 × (−k) × π, also s ≡ r. Somit ist ≡ symmetrisch.
Ist r ≡ s und s ≡ t, so existieren k, l ∈ Z mit s = r + 2kπ und t = s + 2lπ. Demnach
ist t = r + 2kπ + 2lπ = r + 2(k + l)π, somit r ≡ t. Also ist ≡ auch transitiv.
Noch zu zeigen, daß die Kongruenzbedingung gilt: Ist r ≡ s und r0 ≡ s0 , so gibt es
k, k 0 ∈ Z mit s = r + 2kπ und s0 = r0 + 2k 0 π. Dann ist s + s0 = r + r0 + 2(k + k 0 )π, also
r + r 0 ≡ s + s0 .
Nun ist {x̄ | x ∈ [0, 2π)} = {x̄ | x ∈ [−π, π)} = R/2πZ. Ähnlich wie im vorigen Beispiel
kann nun eine neue Addition ⊕ auf z.B. [0, 2π) durch
x+y
falls x + y < 2π
x ⊕ y :=
x + y − 2π sonst
erklärt werden. Danach ist f : R → [0, 2π) ein Gruppenhomomorphismus, der geometrisch gesehen, die Addition von Winkeln modulo 2π beschreibt.
6. (Exponential- und Logarithmusfunktion als Homomorphismen) Es sei G := R
und H := R+ die Menge der positiven reellen Zahlen. Weiters sei f : R → R+ durch
f (x) := ex definiert. Nun läßt sich die bekannte Formel ex+y = ex ey als Gruppenhomomorphismus von (R, +) nach (R+ , .) interpretieren.
Es läßt sich der natürliche Logarithmus ln : R+ → R als Gruppenhomomorphismus
interpretieren, weil die für alle positiven x, y erfüllte Gleichung ln(xy) = ln x + ln y
geradewegs die Bedingung dafür ist, daß ln ein Homomorphismus ist. Da ln und exp
zueinander inverse Funktionen sind, sind sie Isomorphismen.
7. (Determinantenfunktion als Homomorphismus) Ist G die Menge der reellen n×nMatrizen mit der Multiplikation, so erfüllt det : G → R bekanntlich den Determinantenmultiplikationssatz, d.h.
det(AB) = det(A) det(B).
140
Algebra
Das ist gleichbedeutend damit, zu sagen, daß det : G → R ein Monoidhomomorphismus
ist, wenn R als Monoid mit der Multiplikation aufgefaßt wird.
8. Es sei alles wie in Beispiel 100, 1., insbesondere sei, wie eben dort, A eine Menge von
Aussageformen von der Form α(x) mit x einer Variablen und M eine Menge. Wegen
Anmerkung 67 ist (A, ∧) und wegen Anmerkung 74 ist (P(M ), ∩) eine kommutative
Halbgruppe. Demnach erweist sich das im zitierten Beispiel definierte f mit f (α) :=
{m ∈ M | α(m)} als Halbgruppenhomomorphismus.
4.2.3
Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler
Definition 118 (Unter(halb)gruppe, Teilmonoid) Eine Teilmenge H einer Halbgruppe
G heißt Unterhalbgruppe, falls aus x, y ∈ H stets xy ∈ H folgt. Ist G ein Monoid, so ist H
Teilmonoid, falls H Unterhalbgruppe und 1 ∈ H ist. Ist G Gruppe, so heißt H Untergruppe,
falls H Teilmonoid und mit jedem x ∈ H auch x−1 ∈ H ist.
Definition 119 (Nebenklassen(zerlegung)) Ist G eine Gruppe, H eine Untergruppe, und
x ∈ G so heißt xH := {xh | h ∈ H} Linksnebenklasse von H. Die zugehörige Äquivalenzrelation xRy, definiert durch xH = yH ergibt eine Partition von G, die man Zerlegung von G in
Linksnebenklassen nennt und als G \ H bezeichnet8 . Es ist (G, G \ H) eine Gruppenwirkung,
wenn man g(xH) := (gx)H definiert. Jeder Schnitt (siehe Definition 90) s : G \ H → G heißt
Nebenklassenrepräsentantensystem.
Beispiel 120 Einfache Beispiele
1. Ist H = mZ die Untergruppe aller durch m ∈ N teilbaren Zahlen in (Z, +), so besteht
die Nebenklasse 1 + H, das ist jene die 1 enthält, aus allen Zahlen der Form 1 + km.
Für m = 3 sind das alle “fetten” Punkte:
...
•−2
·−1
·0
•1
·2
·3
•4
...
Offenbar kann man Z in genau drei Nebenklassen zerlegen: 3Z, 1 + 3Z und 2 + 3Z.
Da G kommutativ ist x + H = H + x die gleiche Nebenklasse.
2. Ist G = R und H = {2πk | k ∈ Z}, so ist die Nebenklasse 1 + H die Menge aller reellen
Zahlen der Form 1 + 2kπ mit k ∈ Z, d.i. 1 + 2πZ. Eine 2π-periodische Funktion nimmt
somit auf der ganzen zu 1 gehörigen Nebenklasse stets den gleichen Wert an! Skizzieren
Sie die Nebenklasse in ähnlicher Weise wie im vorigen Beispiel.
Hier gibt es zu jeder Zahl 0 ≤ x < 2π genau eine Nebenklasse der Form x + 2πZ.
3. Es sei G aller regulären 2 × 2 reellen Matrizen und H die Untergruppe der oberen
Dreiecksmatrizen. Da die Gruppe G nicht kommutativ ist, kann man für Nebenklassen
nicht xH = Hx erwarten.
8
Leider das gleiche Symbol wie bei der Mengendifferenz.
4.2. Halbgruppen und Gruppen
141
a b
0 1
Nehmen wir x =
, so ist Hx die Menge aller Matrizen der Form
=
0 c
1 0
c a
0 1
a b
0 b
und Hx jene der Bauart
=
, wobei a, b, c in R
b 0
1 0
0 c
a c
und ac 6= 0 ist. Für a = b = c = 1 erkennt man, daß tatsächlich xH 6= Hx gilt.
0 1
1 0
Anmerkung 121 (Komplexprodukt,
von
Teilmenge
erzeugte
Unter(halb)gruppe) Das Komplexprodukt AB zweier Teilmengen A und B einer
Halbgruppe G ist durch
AB := {ab | a ∈ A ∧ b ∈ B}
definiert (in additiver Notation A + B = {a + b | a ∈ A ∧ b ∈ B}). Weiters wird rekursiv
A1 := A und An+1 := An A definiert und für Monoide A0 := {1}.
Ist A Teilmenge einer Halbgruppe (eines Monoids, einer Gruppe mit a ∈ A ⇒ a−1 ∈ A),
so versteht man unter der/dem S
von A erzeugten S
Unterhalbgruppe (Untermonoid, bzw.
∞
n
n (hAi :=
A
Untergruppe) die Menge hAi := ∞
n=0 A für Monoid und Gruppe, um
n=1
auch das Einselement einzuschließen).
Man darf An als {a1 a2 . . . an | (∀i)1 ≤ i ≤ n ∧ ai ∈ A} ansehen, also sich ähnlich wie die
Wörter von der Länge n im freien Monoid vorstellen.
Es mag eine gute Übung sein, die Begriffe in additiver Notation zu formulieren.
Beispiel 122 Einige Beispiele:
1. (Z, +) ist Untergruppe von (R, +).
2. (N, ·) ist Teilmonoid9 . von (Z, ·).
3. (N ∪ {0}, +) ist Teilmonoid von (Z, +).
4. Die Menge der geraden Zahlen in N ist bezüglich der Multiplikation Unterhalbgruppe
von Z, jedoch kein Teilmonoid (es fehlt das 1-Element!).
5. Ist jede Untergruppe einer zyklischen Gruppe zyklisch? Ist jede Unterhalbgruppe einer
Halbgruppe zyklisch?
Antwort: Für Halbgruppen ist das nicht immer der Fall: Die Teilmenge {2k + 3l |
k, l ∈ N} ist eine nicht zyklische Unterhalbgruppe des Monoids (N, +), nämlich die von
A := {2, 3} erzeugte Unterhalbgruppe. Man findet A = N \ {1} = {2, 3, 4, . . .}
Weil G zyklische Gruppe ist, ist jedes Element in G Potenz eines Elements x ∈ G. Ist
{1} =
6 H eine Untergruppe, so gibt es ein h ∈ H, mit kleinstmöglichem k, sodaß h = xk
ist. Ist y ∈ H beliebig, so ist y = xn . Nun benützt man Division mit Rest, um n in der
Form n = kl + r mit 0 ≤ r ≤ k − 1 anzuschreiben. Dann ist
xn = xkl+r = (xk )l xr
9
Es ist wie in [30] die Menge der natürlichen Zahlen gleich N = {1, 2, 3, . . .}
142
Algebra
also
xr = xn (xk )−l ∈ H
wegen der Abgeschlossenheit unter der Gruppenmultiplikation. Weil aber 0 ≤ r < k ist,
muß r = 0 und somit ist y eine Potenz von xk , d.h. H ist zyklisch.
Wie Nebenklassenzerlegung nach einer Untergruppe entsteht, kann in Beispiel 247 ermessen
werden.
Ist G endlich, so ergibt sich sofort der Satz von Lagrange:
Anmerkung 123 (Satz von Lagrange) Die Ordnung10 jeder Untergruppe einer endlichen Gruppe G ist ein Teiler der Gruppenordnung. Insbesondere ist die Ordnung jedes
Elements der Gruppe ein Teiler der Gruppenordnung. Weiters, wenn xm = 1 ist dann ist
die Ordnung von x ein Teiler von m.
Beweis: Es muß nur gezeigt werden, daß für alle x ∈ G die Nebenklasse xH gleich viele
Elemente wie H enthält. Ist x ∈ H, so ist das klar. Andernfalls definieren wir eine Abbildung
f : H → xH, indem f (h) := xh gesetzt wird. Es ist f injektiv, weil aus f (h) = f (h0 ) sofort
xh = xh0 also h = h0 folgt. Da f surjektiv ist, ist f bijektiv.
Die nächste Behauptung besagt für ein beliebiges Element g ∈ G, daß seine Ordnung11 ,
d.i. die Ordnung von H := hgi die Gruppenordnung teilt, somit folgt dies aus dem Satz von
Lagrange. Schließlich sei xm = 1 und k die Ordnung von x. Dann kann mittels Division mit
Rest ein 0 ≤ r < k und q ∈ Z mit m = kq + r gefunden werden. Somit ist 1 = xm = xkq+r =
(xk )q xr = 1k xr = xr , also xr = 1. Weil aber k die Ordnung von x ist, und 0 ≤ r < k gilt,
muß r = 0 sein, und k Teiler von m. W.z.b.w.
Um den Begriff des Normalteilers einer Gruppe zu verstehen, vorweg ein Beispiel:
Beispiel 124 (Motivation des Normalteilers) Ist G eine Gruppe und ≡ eine Kongruenzrelation, so bilden die Elemente N := {n ∈ G | n ≡ 1} eine Untergruppe: Die Reflexivität
besagt 1 ≡ 1, also 1 ∈ N . Sind m, n ∈ N , dann ist m ≡ 1 und n ≡ 1, somit, wegen der
Kongruenzeigenschaft, mn ≡ 1, also mn ∈ N . Schließlich folgt aus n ≡ 1 wegen der Kongruenzeigenschaft auch n−1 n ≡ n−1 , also n−1 ≡ 1, somit n−1 ∈ N .
Unser N hat noch eine Eigenschaft: Aus n ≡ 1 und x ∈ G folgt x−1 n ≡ x−1 und durch
Multiplizieren von rechts mit x sofort x−1 nx ≡ 1, also ist mit n ∈ N stets xnx−1 ∈ N , also
xN x−1 ⊆ N . Andrerseits, wenn man x durch x−1 ersetzt, erkennt man x−1 N x ⊆ N , bzw.
durch Multiplikation von links mit x und von rechts mit x−1 bekommt man N ⊆ xN x−1 .
Insgesamt hat man also xN x−1 = N .
Ist umgekehrt N eine Untergruppe mit xN x−1 = N für alle x ∈ G, so ist die durch x ≡N y,
falls xy −1 ∈ N definierte Relation eine Kongruenzrelation auf G.
10
11
Definition 108
Definition 110
4.2. Halbgruppen und Gruppen
143
Definition 125 (Normalteiler, Quotientengruppe) Eine Untergruppe N einer Gruppe
G heißt Normalteiler von G, im Zeichen N / G, falls eine der folgenden äquivalenten Bedingungen gilt:
• Für alle g ∈ G ist gN g −1 = N .
• Für alle g ∈ G ist gN = N g := {ng | n ∈ N }.
• Die in Definition 119 beschriebene Äquivalenzelation auf G, nämlich x ≡ y genau dann,
wenn xN = yN gilt, ist eine Kongruenzrelation.
• Es gibt eine Kongruenzrelation ≡ auf G mit N = {x ∈ G | x ≡ 1}.
• Es gibt einen Gruppenhomomorphismus f : G → G0 mit N = {x ∈ G | f (x) = 1}. (In
diesem Fall nennt man N = f −1 (1) den Kern von f ).
Die Menge der Äquivalenzklassen12 bezüglich der von N bestimmten Kongruenz sind die Nebenklassen mod N und die Quotientenmenge wird mit G/N bezeichnet und Quotientengruppe
oder auch Faktorgruppe genannt. Auf ihr ist klassenweise Multiplikation definiert im Sinne
von Anmerkung 116.
Beispiel 126 Beispiele hiezu:
1. Ist G kommutativ, so ist jede Untergruppe Normalteiler, jedoch nicht umgekehrt.
z.B.: Die Quaternionengruppe G = {±1, ±i, ±j, ±k} kann durch eine Kongruenzrelation, die durch das konfluente, antisymmetrische und noethersche TES
ji → −ij, ki → −ik, kj → −jk, ii → −1, jj → −1, kk → −1
im Sinne von Definition 104 festgelegt wird, definiert werden. Sie ist nicht kommutativ,
jedoch ist jede Untergruppe Normalteiler.
2. Es sei ein gleichseitiges Dreieck mit Eckpunkten A, B, C in der Ebene gegeben. Die
Symmetrien, welche dieses Dreieck in sich überführen, können durch Permutationen
dieser Eckpunkte beschrieben werden und wir geben zunächst die Identität, Spiegelung
an der Seitensymmetralen durch die Seite AB und Drehung um 120 Grad an:
C C B A B
A B
A C
I :=
, s :=
, d :=
C
C
A B
B A
BC A
12
Definition 90
144
Algebra
C
A
C
s
B
B
A
A
d
B
C
Nun bekommt man entweder ähnlich wie zu Beginn von Unterabschnitt 4.2.2 oder
durch Rechnen mit den Permutationen, daß
G = {I, d, d2 , s, sd, sd2 }
und es gilt s2 = (sd)2 = d3 = I. Ein noethersches, antisymmetrisches und konfluentes
TES13 , welches die Kongruenz im Sinne von Anmerkung 106 ergibt, ist
s2 → I, d3 → I, ds → sd2 .
Nun sei H := {I, s}, dann ist H eine Untergruppe. Um zu zeigen, daß H kein Normalteiler ist, bemerken wir Hd = {d, sd}, jedoch dH = {d, ds} = {d, sd2 }, also dH 6= Hd
ist.
Die Menge N := {I, d, d2 } ist eine Untergruppe, wie man leicht einsieht. Wir wollen
zeigen, daß N /G ist. Es ist sN = {s, sd, sd2 } und N s = {s, ds, dds}, und weil ds → sd2 ,
bzw. dds → dsd2 → sdddd → sd gilt, hat man sN = N s. Da G sechs Elemente hat,
kann N nur zwei Nebenklassen, nämlich N und sN haben. Somit ist N / G gezeigt.
¯
Nun hat G/N genau 2 Elemente, I¯ und s̄ und es gilt s̄s̄ → I.
4.2.4
Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe
von Quotienten
Die Konstruktion der ganzen Zahlen aus den natürlichen und der Brüche aus den ganzen
Zahlen (ungleich Null) haben eine Gemeinsamkeit, nämlich im ersten Fall N mit der Addition,
im zweiten Z \ {0} als Halbruppe mit Kürzungseigenschaft zu einer Gruppe zu erweitern:
Definition 127 (Kürzungseigenschaft in Halbgruppe) In einer Halbgruppe G gilt die
Links- bzw. Rechtskürzungseigenschaft, wenn aus ab = ac (bzw. ba = ca) stets b = c gefolgert
werden darf.
Beispiel 128 Als wichtigstes Beispiel nehme man das freie (kommutative) Monoid über einem Alphabet X. Es hat sowohl die Links- als auch Rechtskürzungseigenschaft. Insbesondere
hat N bezüglich der Addition (als freies Monoid über dem Alphabet {1}) diese Eigenschaft.
Natürlich hat jede Gruppe die Rechts- und Linkskürungseigenschaft.
Weiters hat N bezüglich der Multiplikation die (Links)kürzungseigenschaft.
13
Definition 104
4.2. Halbgruppen und Gruppen
145
Anmerkung 129 (Erweitern von ’+’ zu ’-’ bzw ’×’ zu ’/’ in kürzbarer Halbgruppe) Es sei (G, ·) eine kommutative Halbgruppe mit Kürzungseigenschaft. Dann gibt
es eine Gruppe G̃ und einen injektiven Halbgruppenhomomorphismus φ : G → G̃. Ist G
ein Monoid, so kann G̃ als Menge aller “Brüche” der Form (g, h) mit g, h ∈ G angesehen
werden, wobei (g, h) ≡ (g 0 , h0 ) gesetzt wird, falls gh0 = g 0 h ist14 .
In additiver Schreibweise hätte man (g, h) ≡ (g 0 , h0 ) genau dann, wenn g + h0 = g 0 + h.
Beweis: Zunächst kann man “künstlich” ein Einselement “hinzufügen”. Es sei e 6∈ G ein Element (z.B. die Menge {G}), so erweitert man die Operation in G, indem man eg = ge = g
für alle g ∈ G und ee = e definiert. Danach hat G ∪ {e} immer noch die entsprechenden
Kürzungseigenschaften. Ab nun nehmen wir an, daß G bereits ein kommutatives Monoid mit
Kürzungseigenschaft ist. Nun bildet man G × G und definiert (g, h)(g 0 , h0 ) := (gg 0 , hh0 ). Es
ist nicht schwierig einzusehen, daß G × G eine kommutative Halbgruppe mit Kürzungseigenschaft ist. Wir sagen (g, h) ≡ (g 0 , h0 ), falls gh0 = g 0 h gilt. Es liegt eine Kongruenzrelation vor:
aus (g, h) ≡ (g 0 , h0 ) und (u, v) ≡ (u0 , v 0 ) schließt man wegen gh0 = g 0 h und uv 0 = u0 v auf
(gu)(h0 v 0 ) = (g 0 u0 )(hv), also (gu, hv) ≡ (g 0 u0 , h0 v 0 ). Somit läßt sich die Quotientenhalbgruppe15 G̃ := G/ ≡ bilden. In G̃ gibt es ein Einselement, nämlich die Äquivalenzklasse von (e, e).
Ist (g, h) Repräsentant einer Klasse in G̃, so ist offenkundig (g, h)(h, g) = (gh, gh) ≡ (e, e),
also ist jedes Element in G̃ invertierbar, somit G̃ eine kommutative Gruppe. Wir definieren φ : G → G̃ durch φ(g) := (g, e) (man denke an Brüche g1 ). Die Homomorphieeigenschaft ist unmittelbar einzusehen. Wir wollen zeigen, daß φ injektiv ist und nehmen an, daß
φ(g) = (g, e) = (g 0 , e) = φ(g 0 ) gelte. Dann ist ge = g 0 e, also g = g 0 , also φ tatsächlich injektiv.
w.z.b.w.
Die nachstehende einfache Beobachtung spielt eine Rolle bei der Konstruktion endlicher
Körper (Anmerkung 144 und nicht nur dort):
Anmerkung 130 Eine endliche Halbgruppe mit Kürzungseigenschaft ist eine Gruppe.
Beweis: Sei G eine solche Halbgruppe. Zunächst zeigen wir, daß G ein Einselement hat. Sei
a ∈ G beliebig und k, r ∈ N minimal mit ak = ak+r . Dann ist offenbar ar ein Kandidat für
ein Einselement. Um dies nachzuweisen bilden wir ak b = ak ar b, und benützen die Kürzungseigenschaft, um b = ar b abzuleiten. Nun sei f : G → G durch f (x) := ax definiert. Es ist f
injektiv, weil f (x) = f (y) g.d.w. ax = ay, also x = y gilt. Da G endlich ist, ergibt sich aus
der Injektivität f (G) = G, also gibt es ein b ∈ G mit f (b) = 1, d.h. ab = 1.
w.z.b.w.
0
Intuition: man denke an hg = hg 0 , was genau dann der Fall ist, wenn obige Bedingung gilt. In multiplikativer Notation verwendet man diese Konstruktion beim Übergang von den ganzen Zahlen zu den rationalen
Brüchen, m.a.W. Erweitern von Z \ {0}, um “Dividieren” zu können. Die Relation (g, h) ≡ (g 0 , h0 ) läuft genau
darauf hinaus, zu sagen, daß “g und h im gleichen Verhältnis wie g 0 und h0 stehen, also kommensurabel im
hellenistischen Sinn” sind. Siehe auch Unterabschnitt A.2.7.
In additiver Notation hat man den Übergang von N zu Z, um die Subtraktion einführen zu können, d.i.
(g, h) ≡ (g 0 , h0 ) bedeutet (nach vollbrachter Konstruktion) g − g 0 = h − h0 , also “Gleichheit der Differenz”.
15
Unglückliches Zusammentreffen verschiedener Bedeutungen des Wortes Quotient.
14
146
Algebra
4.3
Ringe und Körper
4.3.1
Definitionen und Allgemeines
Ringen begegnet man zunächst in der Analysis: Ist z.B. I := [0, 1] das Intervall der Länge
1, und betrachtet man die stetigen Funktionen, so weiß man, daß man mit f, g stetig, die
Funktion f ± g, bzw. f g bilden kann (als (f ± g)(x) := f (x) ± g(x)), bzw.16 f g(x) := f (x)g(x)
und diese Funktionen auch wieder stetig sind. Allerdings kann man f /g nicht in der gleichen
Weise bilden (z.B. dann nicht, wenn g in I eine Nullstelle hat). Die stetigen Funktionen auf I,
die ganzen Zahlen Z, die Menge der n × n-Matrizen erlauben ein ‘+’ und ein ‘·’ und Regeln,
die dem Konzept des Ringes entsprechen:
Definition 131 Die Ringaxiome : Ein Ring (R, +, ·) ist eine Menge R zusammen mit
zweistelligen Operationen + : R × R → R und · : R × R → R, derart daß die folgenden
Eigenschaften gelten:
• (R, +) ist eine kommutative Gruppe, die additive Gruppe
• (R, ·) ist eine Halbgruppe.
• Es gelten die Distributivgesetze:
(∀a, b, c ∈ R) a(b + c) = ab + ac ∧ (a + b)c = ac + bc.
Spezielle Elemente eines Ringes: Für
womöglich erfüllen, gibt es gesonderte
Bedingung an a, b, c ∈ R
c = ab
0 = ab und a 6= 0 und b 6= 0
1 = ab
weitere Eigenschaften, die Elemente im Ring
Bezeichnungen:
Benennung von a, b
a ist linker, b rechter Faktor oder Teiler von
c
a ist linker, b rechter Nullteiler.
a ist Links-, b Rechtseinheit
Im kommutativen Fall spricht man von Einheiten statt Linkseinheiten.
Ringe mit speziellen Eigenschaften:
Bedingung
(R, ·) ist Monoid
∀a, b ∈ R ab = 0 ⇒ a = 0 ∨ b = 0
R \{0} ist nullteilerfrei und kommutativ
R \ {0} ist bezüglich Multiplikation
eine Gruppe
R \ {0} ist bezüglich Multiplikation
eine kommutative Gruppe
16
Bezeichnung für R
R hat ein Einselement
R ist nullteilerfrei
R heißt Integritätsbereich oder -ring
R ist ein Schiefkörper
R ist ein Körper
Wie in Definition 93 angemerkt, würde man für die Komposition von f mit g, sofern sie definiert ist,
entsprechend g ◦ f schreiben.
4.3. Ringe und Körper
147
Nullteilerfreie Ringe mit 1: Für weitere Eigenschaften, die ein solcher Ring oder seine
Elemente womöglich erfüllen, gibt es gesonderte Bezeichnungen:
Bedingung an a, b, c, p ∈ R bzw. R
c = ab ⇒ a oder b ist Einheit
R kommutativ, p Teiler von ab impliziert stets p Teiler von a oder b
Jede Struktur auf
tieferem Niveau
“erbt” die Eigenschaften einer
höheren, mit ihr
durch eine Linie
verbundenen.
Bezeichnung
c ist irreduzibel oder unzerlegbar
p ist Primelement
ll
lll
lll
l
l
l
lll
hat 1 Element
R ist Ring
RRR
RRR
RRR
RRR
R
nullteilerfrei
ll
lll
l
l
lll
lll
kommutativ
ll
lll
l
l
lll
lll
Schiefkörper X
Integritätsbereich
XXXXX
QQ
XXXXX
QQQ
XXXXX
QQ
XXXXX
XXXXX QQQQQ
XXXXX Q
XX
Körper
Beispiel 132 Es gibt vielfältige Beispiele zu Ringen:
1. Es ist Z mit der üblichen Addition und Multiplikation ein Integritätsbereich mit Einselement. Die geraden Zahlen bilden einen Integritätsbereich ohne Einselement.
2. Q, R und C sind Körper.
3. Es sei
R := {
a b
c d
| a, b, c, d ∈ R}.
R mit der koordinatenweisen Addition von Matrizen und dem üblichen Matrizenmultiplizieren ist ein (nicht kommutativer) Ring mit Einselement. Die Matrizen
1 0
0 0
A :=
, B :=
0 0
1 0
ergeben als Produkt die Nullmatrix, also hat der Ring Nullteiler. Wir vermerken noch,
daß BA nicht die Nullmatrix ist.
Analoges gilt in Matrizenringen von n × n-Matrizen über einem beliebigen Körper,
sofern n > 1 ist.
4. Es sei, wie in der Einleitung, I = [0, 1] das Einheitsintervall und R die Menge der auf I
stetigen Funktionen mit Werten in R. Definiert, man wie üblich, (f + g)(x) := f (x) +
g(x) und f g(x) := f (x)g(x), so kann die übliche Aussage, daß “Punktweise Addition
148
Algebra
(Subtraktion) sowie Multiplikation von auf I stetigen Funktionen eine stetige Funktion
ergibt” so ausgesprochen werden, daß R ein kommutativer Ring mit Einselement ist.
Hat R Nullteiler?
Antwort: Es sei f (x) := 12 − x für 0 ≤ x ≤ 12 und f (x) := 0 für 21 ≤ x ≤ 1. (Skizze!).
Danach sei g(x) := f (1 − x). Es sind f und g beide stetig auf I. Da f g(x) = 0 für alle
x ∈ I ist, sind f und g Nullteiler.
5. (Quaternionenschiefkörper) R. Hamilton gelang es, die Konstruktion der komplexen
Zahlen als Paare reeller Zahlen zu verallgemeinern. Dabei ließ er das Kommutativgesetz
fallen und fand Rechenregeln für Paare von komplexen Zahlen (Überstreichen bedeutet
im folgenden Konjugation, also x + iy := x − iy):
∀a, b, a0 , b0 ∈ C : (a, b) + (a0 , b0 ) := (a + a0 , b + b0 )
(a, b)(a0 , b0 )
:= (aa0 − bb̄0 , ab0 + ā0 b).
Es stellt sich heraus, daß C×C mit dieser Addition und Multiplikation ein Schiefkörper
ist, allerdings – ohne mehr Theorie zu betreiben, ist der Nachweis eher “längere Rechnerei”. Der Schiefkörper ist als Hamiltonquaternionen bekannt.
Eine reelle Beschreibung des Quaternionenschiefkörpers bekommt man, indem man im
Polynomring R[i, j, k] ein Ideal mittels des sich als konfluent und noethersch erweisenden TES (jenes aus Beispiel 126 1.)
i2 → 1, j 2 → 1, k 2 → 1, k → ij, ki → −ik, kj → −jk, ji → −ij
definiert.
Ein Ergebnis der klassischen Algebra besagt, daß jeder endliche Schiefkörper ein Körper
ist.
6. Es sei (Zm , +) der Restklassenring (mod m). Addition und Multiplikation werden
wie in Z, jedoch danach durch Subtraktion von Vielfachen von m auf ein Ergebnis in
[0, m − 1] ausgeführt. Wie kann man der Zahl m anmerken, ob Zm Nullteiler hat?
Antwortfindung: Ist m = m1 m2 eine Faktorzerlegung, so gilt (mod m) die Gleichung
m̄1 m̄2 = 0̄. Hat umgekehrt m keine solche Zerlegung, so ist m eine Primzahl. Wäre
x̄ȳ = 0̄, so müßte definitionsgemäß ein k ∈ Z mit xy = km existieren. Da m prim ist,
müßte entweder x oder y von m geteilt werden, was bedeutet, daß x̄ oder ȳ Null ist.
Antwort: Zm ist genau dann ein Integritätsbereich, wenn m prim ist.
Ist für primes p der Ring Zp ein Körper?
Antwortfindung: Es ist Zp ein Integritätsbereich, wie soeben festgestellt worden ist.
Wenn man zeigen will, daß ein Körper vorliegt, ist es nötig zu beliebigem x ∈ Zp mit
x 6= 0 die Existenz eines Elements y ∈ Zp mit xy = 1 nachzuweisen. Dies folgt aber aus
Anmerkung 130, weil Zp \ {0} eine endliche Halbgruppe mit Kürzungseigenschaft, und
somit eine Gruppe ist.
Antwort: (Zp , +, ·) ist ein Körper. Er heißt Primkörper zur Charakteristik p.
4.3. Ringe und Körper
149
Wie läßt sich der endliche Körper mit minimaler Anzahl von Elementen beschreiben?
Antwort: Es muß ein Nullelement, 0 und ein Einselement 1 geben. Daß es tatsächlich
einen Körper mit 2 Elementen gibt, zeigt Z2 mit der Addition und Multiplikation:
0 · 0 = 0 · 1 = 0 und 1 · 1 = 1, sowie Addition modulo 2. Der so gebildete Körper IF2 hat
Charakteristik 2.
7. Gilt der binomische Lehrsatz in jedem kommutativen Ring?
Antwortfindung: Wenn ab = ba ist, so hat man (a + b)2 = (a + b)(a + b) = a2 + ab +
ba + b2 = a2 + 2ab + b2 . Danach vollständige Induktion, so wie man es für R oder Q
gewöhnt ist.
Die Beobachtung kann interessant sein: Wenn z.B. die quadratischen Matrizen (oder
allgemeiner – Operatoren) A und B kommutieren, so ist z.B. (A + B)3 = A3 + 3A2 B +
3AB 2 + B 3 .
Ist etwa ∆ eine k × k obere Dreiecksmatrix mit Hauptdiagonale Nullen und k ≤ n, so
ist
n
X
n j n−j
n
(λI + ∆) =
λ ∆ .
j
j=n−k
8.
√
Die Zahlen der Form 21 (k+i 3l) mit
k, l ganzzahling bilden einen Ring.
Zeigen Sie das. Versuchen Sie auch,
diesen Ring im beigefügten Bild zu
“sehen”.
150
4.3.2
Algebra
Abstrakte Polynomdefinition als Terme
Polynome sind grundsätzlich “Terme” in der Sprache der Ringe.
Wenn man den Ausdruck 5x2 y +
7z hinschreibt, so sind x, y, z syntaktische Variablen17 , 2, 7, + Terminalzeichen, und man hat den
rechts skizzierten Ableitungsbaum.
Fügt man an das Polynom noch
einen weiteren Term an, sodaß etwa
5x2 y + 7z + 3xyx entsteht, so ist der
Baum von der ganz rechts abgebildeten Gestalt. Hierin sind T1 , T2 und
T3 Terme in der Sprache des freien
Monoids {3, 5, 7, x, y, z}∗ .
+
@@
@@
~~
~
@@
~~
@@
~
~
~
· CC
· ??
??
CC

CC
??

C
??

z
·
7
5
B
|| BBB
|
BB
||
BB
||
B
||
x
·?
|| ???
|
??
|
??
||
||
x
+
AA
AA
AA
AA
+
CC
CC
CC
CC
5T1
3T3
7T2
y
In diesem Sinne ist jedes Polynom eine mit Koeffizienten behaftete Summe von “Potenzprodukten”, wie es die übliche Schreibweise zum Ausdruck bringt. Diese Auffassung führt zu
folgenden zunächst sehr abstrakt klingenden Definitionen:
Definition 133 (Formale Potenzreihen und Polynome in nicht kommutierenden
Variablen) Ist R ein Ring und X eine Menge, sowie X ∗ das freie Monoid18 , so heißt jede
Funktion f : X ∗ → R (formale) Potenzreihe in den Variablen X. Der Träger von f ist die
Menge T (f ) := {m ∈ X ∗ | f (m) 6= 0}. Ist der Träger endlich, so heißt f Polynom.
Ähnlich wie im Beispiel der Einleitung definiert man (f + g)(m) := f (m) + g(m). Die
Multiplikation wird jedoch in Anlehung an das Cauchyprodukt durch
X
f g(m) :=
f (k)g(l)
{k,l∈X ∗ |kl=m}
festgelegt. Man beachte, daß es nur endlich viele Möglichkeiten geben kann, ein festes Wort
im freien Monoid als Produkt von zwei Wörtern anzuschreiben. Daher ist die Menge {k, l ∈
X ∗ | kl = m} endlich.
∗
Mit diesen Definitionen wird RX zum Potenzreihenring (in den nichtkommutierenden
Variablen X). Die Potenzreihen mit endlichem Träger bilden den Ring der Polynome (in den
∗
Variablen X) – er wird mit RhXi bezeichnet. Es ist üblich, die Notation RhhXii := RX zu
verwenden, und jedes f formal als
X
fm m
m∈X ∗
anzuschreiben.
Addition und Multiplikation nehmen hiedurch die vertraute Form
X
X
X
fm m +
gm m =
(fm + gm )m
m∈X ∗
17
Definition 237
m∈X ∗
m∈X ∗
4.3. Ringe und Körper
151
und

(
X
k∈X ∗
fk k)(
X
l∈X ∗
gl l) =

X
X

m∈X ∗
fk gl  m
{k,l∈X ∗ |kl=m}
an. Schließlich, wenn man die gleichen Konstruktionen mit dem freien kommutativen Monoid über X ausführt (jetzt dürfen alle Variablen kommutieren, vgl. die Konstruktion in
Beispiel 117 1.), so spricht man vom Ring der formalen Potenzreihen bzw. Polynomen in den
kommutierenden Variablen X und schreibt R[[X]] bzw. R[X].
Anmerkung 134 (Universelle Eigenschaft des Potenzreihenrings bzw. Polynomrings) Es gibt analog zur Diskussion in Beispiel 246,7 eine universelle Eigenschaft
von RhXi bzw. R[X]: Jede Abbildung f : X → S, wobei S ein Ring (bzw. ein kommutativer Ring) ist, hat eine eindeutige Erweiterung zu einem Homomorphismus f ; RhXi → S
(bzw. f : R[X] → S).
Das gilt, weil Polynome Terme sind, in die man “universell” einsetzen kann.
Beispiel 135 Hier einige Beispiele:
1. Bekanntlich läßt sich eine in einem Bereich analytische Funktion in eine Potenzreihe
P
(−1)i x2i+1
entwickeln, z.B. ist sin x = ∞
i=0 (2i+1)! . Die übliche Schreibweise wäre (in allgemeiP
i
ner Form) f (x) = ∞
i=0 ai x . In der obigen Auffassung wird das so ausgedrückt, daß
a : {x}∗ → R eine Funktion ist. Also wäre z.B. beim Sinus a(x3 ) = − 61 .
2. Es ist 2X + 3Y ∈ ZhX, Y i. Da X und Y nicht kommutieren, findet man (2X + 3Y )2 =
4X 2 + 6Y X + 6XY + 9Y 2 .
3. Erlaubt man im vorigen Beispiel XY = Y X, so rechnet man in Z[X, Y ] und es ergibt
sich 4X 2 + 12XY + 9Y 2 .
4. Jede an einem Punkt unendlich oft differenzierbare Funktion gibt Anlaß zur Definition
einer formalen Potenzreihe, nämlich, wenn f an 0 unendlich oft differenzierbar ist, so
ergibt sich eine formale Potenzreihe, in der x die Rolle einer Variablen spielt:
T (f ) :=
∞
X
f (i) (0)
i=0
i!
xi .
Man kann zwar hier keine Werte einsetzen (um z.B. f zu approximieren), das Rechnen
in formalen Potenzreihen kann jedoch nützliche Dienste beim Berechnen von Ableitungen höherer Ordnung leisten, sogar für in einer Umgebung von Null analytische
Funktionen:
18
Definition 102
152
Algebra
Es seien f =
1
1−x
und g = cos x. Man berechne die 5.te Ableitung (f · g)(5) (0).
Antwortfindung: Cauchymultiplikation formaler Potenzreihen ergibt:
T (f g) = (1 + x + x2 + x3 + x4 + x5 + · · ·)(1 −
4
2
= · · · + x x24 − x3 x2 + x5 + · · ·
1
= · · · + 24
− 12 + 1 x5 + · · ·
x2
2
+
x4
24
+ · · ·)
Teile der Rechnung, die für den Term mit x5 unerheblich sind, wurden durch ‘· · ·’ angedeutet. Jetzt besinnt man sich auf die Taylorformel, der man entnimmt, daß der
Koeffizient von x5 im Taylorpolynom vom Grad 5 für eine beliebige 5 mal an 0 diffe(5)
(5)
renzierbare Funktion h von der Form h 5!(0) ist, und findet (f ·g)5! (0) = 13
24 .
Antwort: (f · g)(5) (0) =
4.3.3
13×5!
24
= 65.
Ringe von Quotienten in einem Integritätsbereich.
Der Übergang von den ganzen Zahlen zu den rationalen, aber auch von den Polynomen zu
den rationalen Funktionen gehorcht einem allgemeinen Schema, das jetzt erläutert werden
soll.
Ist R ein Integritätsbereich, so hat R \ {0} die Kürzungseigenschaft (Definition 127) und
man kann die Konstruktion aus Anmerkung 129 dazu benützen, um eine Gruppe S̃ und eine
Injektion φ : R \ {0} → S̃ zu definieren. Erklärt man noch (0, 1) ≡ (0, r) für alle r 6= 0, so
läßt sich eine Addition durch
(r, s) ⊕ (r0 , s0 ) := (rs0 + r0 s, ss0 )
definieren, sodaß R̃ := S̃ ∪ {(0, 1)} zu einem Ring wird.
Als Beispiel, daß das alles funktioniert, zeigen wir, daß ⊕ wohldefiniert ist: Ist nämlich
(r, s) ≡ (r1 , s1 ) und (r0 , s0 ) ≡ (r10 , s01 ), so hat man die Beziehungen rs1 = r1 s und r0 s01 =
r10 s0 , sodaß man (rs0 + r0 s, ss0 ) ≡ (r1 s01 + r10 s1 , s1 s01 ) nachweisen muß, also die Gleichung
(rs0 +r0 s)s1 s01 = (r1 s01 +r10 s1 )ss0 aus den genannten Beziehungen zu folgern sind, eine harmlose
Rechenübung. Ähnlich weist man die Gültigkeit der Rechengesetze im Ring19 R̃ nach.
Da, wie in Anmerkung 129 gezeigt worden ist, φ eine Injektion von R in R̃ veranlaßt, und
S̃ = R̃ \ {(0, 1)} eine Gruppe ist, wird R̃ zu einem Körper. Er heißt Quotientenkörper20 des
Integritätsbereichs R.
Es ist üblich, statt (r, s) die Bruchschreibweise rs zu benützen, wobei r Zähler und s Nenner des Bruches rs ist. In dieser Schreibweise gelten die aus dem Schulunterricht geläufigen
Rechenregeln für Brüche (= Quotienten):
a a0
+ 0
b
b
a a0
b b0
19
=
=
ab0 + a0 b
bb0
aa
bb0
Definition 131
Der Quotientenkörper ist kein Quotientenring im Sinne von Anmerkung 138, sondern ein Körper, dessen
Elemente formale Quotienten aus Ringelementen sind!
20
4.3. Ringe und Körper
153
Beispiel 136 (Quotientenkörper)
1. Geht man von R := Z aus, so ergibt sich der Körper der rationalen Zahlen Q.
2. Geht man von R := k[x] (dem Polynomring in einer Variablen mit Koeffizienten im
Körper k) aus, so bekommt man den Körper k(x) der rationalen Funktionen21 über k.
3. Geht man von R := k[X] (dem Polynomring in den kommutierenden Variablen X mit
Koeffizienten im Körper k) aus, so bekommt man den Körper k(X) der über k rationalen
Funktionen.
4.3.4
Kongruenzen in kommutativen Ringen mit Einselement, Ideale
Der elementare Begriff der Kongruenz von ganzen Zahlen, nämlich a ≡ b (mod m), falls
a − b durch m teilbar ist, erfüllt die erste der nachstehenden Eigenschaften:
Definition 137 Es sei R ein kommutativer Ring mit Einselement.
Kongruenzrelation ≡ auf R: ist eine Äquivalenzrelation, die zusätzlich
(∀r, r0 , s, s0 )(r ≡ r0 ) ∧ (s ≡ s0 ) ⇒ (r + s ≡ r0 + s0 ) ∧ (rs ≡ r0 s0 )
erfüllt.
Ideal: Ein Ideal J in R ist eine Teilring von R, für den mit r ∈ R und j ∈ J stetst rj und
jr beide in J liegen.
Ringhomomorphismus: f : R → S ist ein Ringhomomorphismus, wenn für alle a, b ∈
R stets f (a + b) = f (a) + f (b), f (ab) = f (a)f (b), und, im Falle der Existenz eines
Einselements in R auch S ein Einselement, nämlich f (1R ) hat.
Anmerkung 138 (Kongruenz – Homomorphismus – Ideal) Die Begriffe Ringkongruenz, Ideal und Homomorphismus sind in folgendem Sinne äquivalent:
1. Ist ≡ eine Ringkongruenz, so ist J := {r ∈ R | r ≡ 0} ein Ideal. Z.B., bei der
Kongruenzrelation “modulo m” in Z ist J die Menge aller Vielfachen von Z. Ähnlich
wie bei den Normalteilern kann man durch x̄ + ȳ := x + y und x̄ȳ := xy eine neue
Addition und Multiplikation auf der Menge der Äquivalenzklassen R/ ≡ definieren,
und es erweist sich R/ ≡ als ein Ring, den man üblicherweise mit R/J bezeichnet
und Quotientenring22 nennt. Im Beispiel erhält man Zm .
Die Abbildung, die jedem r ∈ R seine Äquivalenzklasse (genannt Kongruenzklasse)
zuordnet, ist ein Ringhomomorphismus.
21
Es sind dies leider keine Funktionen, sonder eher Terme, auch wenn man sie per Gepflogenheit so nennt.
154
Algebra
2. Ist J ein Ideal, so soll r ≡J r0 gelten, wenn x−y ∈ J ist. Nun überlegt man sich ähnlich wie bei den Normalteilern (vgl. Definition 125), daß ≡J eine Kongruenzrelation
auf R ist, deren Ideal geradewegs J ist.
3. Nun sei f : R → S ein Ringhomomorphismus. Dann ist f −1 (0) = {r ∈ R | f (r) = 0}
ein Ideal, der Kern von f .
Ist f eine Bijektion, so spricht man von einem Ringisomorphismus, bzw. Körperisomorphismus, wenn R ein Körper ist.
Schließlich erweist sich der Durchschnitt beliebig vieler Ideale als Ideal, sodaß es insbesondere ein kleinstes Ideal im Ring gibt, welches eine vorgegebene Teilmenge A des
Ringes enthält. Dieses Ideal nennt man das von A erzeugte Ideal und bezeichnet es mit
hAiR , bzw. mit hAi, falls klar ist, welcher Ring R gemeint ist.
Besteht A = {a} aus einem einzigen Element, so heißt hai ein Hauptideal. In der
Literatur, wie etwa in [1] oder [32], werden Hauptideale eher mit (a) bezeichnet.
Beispiel 139 Beispiele hiezu:
1. Wie lassen sich die Kongruenzrelationen auf Z beschreiben?
Antwortfindung: Man muß nach den Idealen J von Z Ausschau halten. Ist J 6= {0} ein
solches Ideal, so gibt es eine kleinste positive Zahl m in J. Ist k ∈ J positiv, so kann
man durch Division mit Rest k in der Form k = ml + r mit 0 ≤ r < m darstellen. Weil
aber k und m in J liegen, ist das für r auch der Fall. Wegen der Minimalität von m ∈ J
muß r = 0 sein.
Antwort: Jedes Ideal in Z besteht aus Vielfachen einer festen Zahl.
2. Wie lassen sich die Kongruenzrelationen auf k[x], mit k ein Körper, beschreiben?
Antwortfindung: Man muß nach Idealen in k[x] Ausschau halten. Ist J 6= {0} ein solches
Ideal, so gibt es ein Polynom m in J von kleinstem Grad. Ist nun p ∈ J, so kann mittels
Division mit Rest für Polynome eine Darstellung p = ml + r gefunden werden, wobei
r entweder Null ist, oder kleineren Grad als m hat. Da p ∈ J und m ∈ J, ist auch
p − ml ∈ J, also r ∈ J. Allerdings hat r kleineren Grad, falls es nicht Null wäre.
Dementsprechend kann nur r = 0 gelten.
Antwort: Zu jedem Ideal in k[x] gibt es ein Polynom m, sodaß alle Polynome im Ideal
von der Form km für ein k ∈ k[x] sind.
Gibt es ein konfluentes, antisymmetrisches und noethersches TES, welches die durch J
bestimmte Kongruenzrelation nach sich zieht?
Antwort: Ist m = xk + m0 mit m0 = 0 oder kleinerem Grad als k ein Polynom kleinsten
Grades in J, so definiert man xk → −m0 . (das läuft auf Polynomdivision durch m mit
Rest hinaus).
22
Nicht mit Quotientenkörper – Abschnitt 4.3.3 – verwechseln.
4.3. Ringe und Körper
155
3. Wie lassen sich Ideale in einem euklidischen Ring beschreiben?
Antwortfindung: Sei {0} =
6 J ein Ideal und a ∈ J ein Element mit minimalem Wert für
θ(a). Dann gibt es für beliebiges j ∈ J Elemente q, r ∈ R mit j = aq + r. Es ist wegen
der Idealeigenschaft auch r ∈ J und wäre r 6= 0, so könnte man θ(r) < θ(a) erreichen,
ein Widerspruch. Somit ist r = 0 und j = qa.
Antwort: Jedes Ideal ist ein Hauptideal.
Definition 140 (Hauptidealring) Ein Integritätsbereich R, in dem jedes Ideal Hauptideal
ist, heißt Hauptidealring.
Anmerkung 141 Wegen Beispiel 139 3. ist jeder euklidische Ring ein Hauptidealring.
Der Ring {2k | k ∈ Z} ist Hauptidealring, jedoch nicht euklidisch, weil er kein 1-Element
besitzt.
4.3.5
Kommutativer Polynomring, Algebraische Körpererweiterung
Wir wollen (sehr kurz) auf Polynomfaktorisierung in k[x] eingehen, sowie auf die Konstruktion
von algebraischen Erweiterungskörpern von k.
Anmerkung 142 Ist k ein Körper und f ∈ k[x] irreduzibel, so ist K := k[x]/hf i ein
Körper, eine sogenannte algebraische Körpererweiterung. Die Zuordnung c 7→ cx0 ergibt
eine Injektion von k in K. Weiters ist K ein endlichdimensionaler k-Vektorraum mit einer
Basis
{1, x̄, . . . , x̄n−1 }
wobei n der Grad von f ist.
Ist f = xn + r mit r = 0 oder r vom Grad n − 1, so läßt sich durch xn → −r
ein konfluentes, noethersches, antisymmetrisches TES im Sinne von Anmerkung 106
festlegen, welches die Menge der Polynome vom Grad höchstens n − 1 zusammen mit
dem Nullpolynom zu einem Repräsentantensystem von k[x]/hf i macht.
Beweis: Zunächst behaupten wir, daß K ein Integritätsbereich ist. Angenommen āb̄ = 0̄.
Dann gibt es Polynome a, b, c mit ab = cf . Wegen Anmerkung 266 ist f ein Teiler von a oder
b, also o.B.d.A. kann man die Existenz von d ∈ k[x] mit a = f d annehmen. Dann ist ā = 0̄,
somit K nullteilerfrei.
Es genügt, für jedes ā 6= 0̄ ein Inverses in K zu finden, m.a.W. die diophantische Gleichung
ax + bf = 1 in k[x] als lösbar nachzuweisen. Da f irreduzibel und a 6∈ hf i ist, sind a
und f relativ prim, sodaß (etwa mittels erweitertem euklidischem Kettenalgorithmus, siehe
Unterabschnitt A.2.7) entsprechendes x und y gefunden werden können.
Schließlich ordnen wir jedem c ∈ k das konstante Polynom c und diesem seine Kongruenzklasse zu. Man sieht leicht ein, daß kein c in hf i liegen kann, somit k ∩ hf i = {0} gilt. Deshalb
kann k als Teilkörper von K aufgefaßt werden.
156
Algebra
Angenommen, die angegebenen Elemente sind k-linear abhängig. Dann gibt es eine Relation
0=
n−1
X
ci x̄i .
i=0
Pn−1
Dann gilt für das Polynom g := i=0 ci xi die Beziehung ḡ = 0̄, also g ∈ hf i. Somit ist g
zerlegbar als g = f a, und weil f irreduzibel ist, muß es ein Teiler von g sein. Das geht jedoch
nicht, weil g kleineren Grad hat. Ein Widerspruch. w.z.b.w.
Beispiel 143 (Beispiele zu algebraischen Körpererweiterungen u.A.) :
1. Es sei R[x] der Polynomring mit reellen Koeffizienten und J jenes Ideal, das von x2 + 1
erzeugt wird. Ist R[x]/J ein Körper?
Antwortfindung: Das TES ergibt x2 → −1. Somit kann jedes Element in R[x]/J durch
ein lineares Polynom in x beschrieben werden. Das Polynom x2 + 1 ist reell irreduzibel,
sodaß R[x]/hx2 + 1i ein Körper ist.
Die Multiplikation verläuft so:
(a + bx)(a0 + b0 x) = aa0 + (ab0 + a0 b)x + bb0 x2 → aa0 − bb0 + (ab0 + a0 b)x
√
d.i. man hat aus den reellen Zahlen C durch Adjunktion von −1 = x̄ konstruiert.
Antwort: R[x]/hx2 + 1i ist ein zu C isomorpher Körper.
2. Kann ein Erweiterungskörper von Z7 mittels eines irreduziblen quadratischen Polynoms
gefunden werden? Ist der Erweiterungskörper auch endlich?
Antwort(findung): Auf gut Glück versuchen wir es mit f := x2 + 1. Es genügt, festzustellen, daß (±1)2 = 1, (±2)2 = 4 und (±3)2 ≡ 2 (mod 7) gilt, also f irreduzibel
über Z7 ist. Somit ist Z7 [x]/hx2 + 1i ein solcher Erweiterungskörper. Als Basis hat man
{1, x̄}, also hat der Körper 49 Elemente.
P
3. (Formales Differenzieren) Ist f ∈ R[x] so läßt sich f = j fj xj formal differenzieren
P
(siehe hiezu auch Anmerkung 268), indem man f 0 := j≥1 jfj xj−1 setzt.
Wie kann man
n(1 + x)
n−1
n
X
n k
x=
k
x
k
k=1
herleiten?
Pn
n k
n =
Antwort: Man startet mit dem binomischen Lehrsatz:
(1
+
x)
x und
k=0
k
differenziert links und rechts, um n(1 + x)n−1 = k nk xk−1 zu finden. Links und rechts
mit x multiplizieren ergibt das Resultat.
Analog erhält man
2
n(n − 1)x (1 + x)
n−2
+ nx(x + 1)
n−1
=
n
X
k=1
n k
k
x
k
2
4.3. Ringe und Körper
157
4. (Identitäten für die hypergeometrische Verteilung). Man beweise, daß für alle
M ,s und a in N
X 1 s a − s s
=m
k a
k
m−k
a
s
k
und
X
k
a−s
m (m − 1)(s − 1)
1 s
=s
+1
k a
k
m−k
a
a−1
s
2
gilt.
Antwortfindung. Beide Identitäten ergeben sich ähnlich wie im vorigen Beispiel aus
einer geschickten Interpretation der Cauchymultiplikation (siehe Definition
133). Wir
a−s
m
und
b
führen das hier nur für die erste Identität vor.P
Setzt man ak := kP
l :=
l ,
k
so würde P
die Cauchymultiplikation von f := k ak xk mit g := l bl xl ein Polynom
h = f g = t ct xt ergeben und
X
ct =
ak bt−k .
k
xm
Deshalb ist der Koeffizient von
geradewegs die gesuchte Summe. Aus dem vorigen
Beispiel erkennt man sofort f = s(1 + x)s−1 x und g = (1 + x)a−s , sodaß h = m(1 +
x)s+a−1 x ist. Somit ist cm = m s+a−1
der gesuchte Koeffizient. Division durch ka
m−1
ergibt die Behauptung.
Für die zweite Identität findet man ähnlich f = s(s − 1)x2 (1 + x)s−2 + sx(1 + x)s−1 , g
ist das gleiche geblieben,
und h = f g = s(s − 1)x2 (1 + x)a−2 + sx(1 + x)a−1 . Demnach
a−2
a−1
ergibt sich cm = 1a s(s − 1) m−2
.
+ s m−1
(s)
4.3.6
Endliche Körper
Endliche Körpern spielen eine Rolle in der Kodierungstheorie. Dort möchte man wissen, wie
man in einem solchen Körper “rechnen” kann.
Anmerkung 144 (Fakten über endliche Körper) Folgendes kann über einen endlichen Körper F gesagt werden:
1. Jeder endliche Integritätsbereich (sieh Definition 131) ist ein Körper und es gibt
genau eine Primzahl p mit einem zu Zp isomorphen Teilkörper.
Für dieses p gilt px = |x + x +
{z· · · + x} = 0 für alle x ∈ F . Weiters gilt
p
mal
(x + y)p = xp + y p .
2. Die Abbildung φ : F → F , definiert durch x 7→ xp ist ein Isomorphismus (genannt
Frobeniusautomorphismus).
158
Algebra
n
3. Es gibt ein positives natürliches n, sodaß xp − x = 0 für alle x ∈ F gilt.
4. Ist n kleinstmöglich gewählt, so erweist sich die Menge der invertierbaren Elemente,
F \ {0} als zyklische Gruppe von der Ordnung23 pn − 1.
n
5. Es gibt ein in Zp [X] unzerlegbares Polynom g, ein Teiler von X p −1 − X, derart,
daß F als Ring isomorph zu Zp [X]/hgi ist. Ist g = xm + r, wobei r = 0 oder
nur Terme mit Grad ≤ m − 1 enthält, so ist durch xm → −r ein konfluentes,
antisymmetrisches und noethersches TES im Sinne von Anmerkung 106 gegeben
(weil algebraische Erweiterung vorliegt, ganz genau so wie in Anmerkung 142),
welches die Menge der Polynome vom Grad kleiner als jener von g zusammen mit
dem Nullpolynom zu einem Repräsentantensystem von F = Zp [X]/hgi in Zp [X]
macht, wobei es bequem ist, statt ‘X’ den Buchstaben ‘x’ zu verwenden.
Insbesondere gibt es bis auf Isomorphie nur einen Körper mit q := pn Elementen, der
gewöhnlich als IFq oder auch als GF(q) (für Galoisfeld) bezeichnet wird. Die Primzahl p
heißt Charakteristik von IFq , im Zeichen p = charIFq .
Zu vermerken ist auch, daß IFp = Zp , sodaß die multiplikative Gruppe {1, . . . , p − 1}
zyklisch ist.
Beweis:
1. Der Nachweis geht genauso wie im 2.ten Teil von Beispiel 132 6. Der Teilkörper besteht
aus allen Elementen der Form k · 1F := 1F + 1F + · · · + 1F mit k = 0, 1, . . . , p − 1
|
{z
}
k
mal
und 1F das Einselement in F . Wenn nun x ∈ F ist, so hat man px = x
· · + x} =
| + ·{z
p
mal
x (1 + · · · + 1) = x · 0 = 0, wie behauptet.
|
{z
}
p
mal
Um (x + y)p = xp + y p zu zeigen, bemerken wir zunächst, daß k! für 0 ≤ k ≤ p − 1 in
Zp kein Nullteiler
(keiner der Faktoren ist es) ist. Deshalb ist x := k!1F ∈ F \ {0} und
somit kp x = p!1F = 0 für 1 ≤ k ≤ p − 1. Danach ergibt der binomische Lehrsatz24
Behauptung. Ist F ein endlicher Integritätsbereich, so ist F \ {0} eine endliche Halbgruppe mit Kürzungseigenschaft. Deshalb ist sie wegen Anmerkung 129 eine Gruppe
und somit F ein Körper.
2. Die Abbildung φ : F → F , die durch φ(x) := xp definiert ist, ist wegen 1. ein Homomorphismus. Ihr Kern ist trivial, weil xp = 0 natürlich x = 0 zur Folge hat, also ist sie
eine Bijektion.
23
24
Definition 108
Vgl.Beispiel 132 7.
4.3. Ringe und Körper
159
3. Da F endlich ist, ist die von φ erzeugte zyklische Halbgruppe endlich. Es gilt die
Kürzungseigenschaft, weil φ ein Isomorphismus ist. Demnach ist wegen Anmerkung
129 hφi eine endliche Gruppe. Sei n die Ordnung von φ. Umformuliert heißt das, daß
n
(∀x ∈ F ) xp = x
gilt.
4. Es ist F ein IFp -Vektorraum. Deshalb besitzt er eine endliche Basis und hat daher die
Ordnung q := pk für ein passendes k ≥ 1. Somit ist die Ordnung der multiplikativen
Gruppe von F , d.i. |F \ {0}| genau q − 1, also genügen alle Elemente von F \ {0} der
Gleichung xq−1 = 1 wegen Anmerkung 123. Deshalb genügen alle x ∈ F der Gleichung
xq − x = 0. Dies ist gleichbedeutend mit φk (x) = x, und da die Ordnung von φ gleich
n ist, gilt k ≥ n. Wegen Anmerkung 129 und (xq − x)0 = −1 hat die Gleichung keine
mehrfachen Wurzeln, also genau die q Elemente von F als Nullstellen.
Andrerseits hat der Frobeniusautomorphismus die Ordnung n, was darauf hinausläuft,
n
daß jedes Element von F auch der Gleichung xp − x = 0 genügt. Da diese Gleichung
nicht mehr als pn Wurzeln haben kann, hat F höchstens pn Elemente, somit hat man
pn ≤ pk , also n ≤ k und daher ist n = k.
Nun wählen wir in F \ {0} ein Element f mit größtmöglicher Ordnung s und wir wollen
zeigen, daß s = q − 1 gilt. Es ist f q−1 = 1, also s ein Teiler von q − 1. Angenommen es
ist s < q − 1. Da das Polynom xs − 1 = 0 in F nicht mehr als s Wurzeln haben kann,
gibt es dann ein Element a ∈ F mit as − 1 6= 0. Dieses a hätte größere Ordnung im
Widerspruch zur Annahme über f . Somit ist F \ {0} zyklisch.
Mit diesem Wissen ausgestattet, kann man grundsätzlich alle endlichen Körper konstruieren.
Beispiel 145 (Konstruktion eines Körpers mit 8 Elementen) Als Beispiel nehmen wir
p = 2 und n = 3, also genügen alle Elemente von F der Gleichung x8 − x = 0. Andrerseits
wissen wir, daß IF8 genau 8 Elemente hat. Deshalb muß IF8 von der Form IF8 = IF2 [x]/hx3 +
ax2 +bx+ci sein, wobei x3 +ax2 +bx+c keine Nullstellen in IF2 haben kann. Jetzt zerlegen wir
x8 − x = x(x7 − 1) = x(x − 1)(x6 + x5 + x4 + x3 + x2 + x + 1) = x(x − 1)(x3 + x2 + 1)(x3 + x + 1)
in über IF2 unzerlegbare Polynomfaktoren und erkennen Kandidaten für x3 +ax2 +bx+c. Nun
gehen wir genauso vor wie bei Beispiel 139 2., nämlich, wir bilden IF2 [x] und erzeugen eine
Kongruenz durch Vorgabe von x3 ≡ x + 1 (die andere Wahl, nämlich x3 ≡ x2 + 1 geht auch),
indem wir sie durch ein noethersches, antisymmetrisches und konfluentes TES, nämlich
x3 → x + 1
festlegen25 .
Wie multipliziert man z.B. (x2 + x + 1)(x + 1)?
Antwort: x3 + x2 + x + x2 + x + 1 = x3 + 1 → x + 1 + 1 = x.
25
Anmerkung 106
160
Algebra
Wie kann man
x+1
x2 +1
in der Form a + bx + cx2 anschreiben?
Antwortfindung: Wir wissen x+1 = (x2 +1)(a+bx+cx2 ) = ax2 +bx3 +cx4 +a+bx+cx2 →
(a + c)x2 + b(x + 1) + c(x2 + 1) + a = ax2 + cx + a + b. Koeffizientenvergleich ergibt a = 0,
b = c = 1. Eine andere Methode wäre mittels erweitertem euklidischem Algorithmus (siehe
Unterabschnitt A.2.7). Es ist üblich die Elemente von IF8 als Wörter der Länge 3 mit Buchstaben 0, 1 anzuschreiben, also z.B. 1 = 001, x = 010, x2 = 100. Dann ist z.B. x2 + 1 = 101
und x + 1 = 011, die Summe ist x2 + x = 110.
Man bestimme alle Potenzen von x
Antwort: Man findet ohne Mühe
x0
x1
x2
x3
x4
x5
x6
=
=
=
= x3 →
=
= x3 + x2 →
= x3 + x2 + x → x + 1 + x2 + x =
1
x
x2
x+1
x2 + x
x2 + x + 1
x2 + 1
Wie kann dies für Personen A und B zur Kommikation ohne Einsichtnahme dritter verwendet
werden?
Antwort: Die Personen A und B einigen sich auf den Körper IF8 . Nun nimmt A seine
Bitfolge, etwa 011, die er senden will. Sie entspricht 1 + x. Sein Kodiergerät multipliziert sie
mit x, bekommt x2 + x = 110 heraus und dieses Wort wird an B geschickt. Nun bekommt B
das Signal 110, welches x2 +x ist. Sein Gerät multipliziert es mit x2 +1, d.h. (x2 +x)(x2 +1) =
x4 + x3 + x2 + 1 = (x + 1)x3 + x2 + x → (x + 1)2 + x2 + x = x2 + 1 + x2 + x = 1 + x.
Einwand?
Ja, aber man kennt ja die Länge der Wörter! Ist ja nicht schwer, IF8 zu “erraten”. Dies
umgeht man, indem man Körper beliebiger Charakteristik p nimmt, deren Arithmetik implementiert, sodaß die Länge der Bitfolgen nicht unmittelbar etwas mit der Arithmetik des
Körpers zu tun hat.
Beispiel 146 (Zyklische Codes) Endliche Körper spielen eine wichtige Rolle in der Kodierungstheorie. Wir wollen dies für den Körper IF8 unter Zuhilfenahme der obigen Rechnungen
zeigen.
1. Zunächst haben wir (auch in Beispiel 269) die Zerlegung
x7 − 1 = (x3 + x + 1)(x3 + x2 + 1)(x + 1)
gefunden, wobei “−1 = 1” in IF2 schon berücksichtigt ist. Es sei g := (x3 +x2 +1)(x+1)
und h := (x3 + x + 1), sodaß insbesondere x7 − 1 = gh eine Faktorzerlegung ist.
2. Nun will Sender A eine Nachricht als Folge von 01-Folgen fester Länge n an Empfänger
B senden, allerdings muß er noch Extrainformation senden, sodaß B zumindest erkennen kann, ob er (bei gestörtem Empfang) einen typischen Nachrichtenblock von A
bekommt, oder eben doch etwas “Gestörtes”.
4.3. Ringe und Körper
161
Sein Sendegerät interpretiert jede feste 01-Folge p als Polynom vom Grad höchstens
n − 1 mit Koeffizienten in IF2 (allgemeiner in IF2k ). Nun multipliziert sein Sendegerät
das Polynom p mit obigem g und reduziert es modulo x7 − 1, d.h. Benützung des TES
x7 → 1. In diesem Sinne wird z.B. das Wort 0111 als p := x2 + x + 1 interpretiert, ergibt
nach Multiplikation pg = (x2 + x + 1)(x3 + x2 + 1)(x + 1) = x6 + x5 + x2 + 1 und dieses
Polynom ist schon reduziert. Somit wird von A das Wort 1100101 an B gesendet.
3. Das Empfangsgerät von B bekommt nun im fehlerfreien Fall das Wort w = 1100101.
Die weitere Vorgangsweise ist grundsätzlich die, w wieder als Polynom x6 +x5 +x2 +1 zu
interpretieren und den Vorgang von As Gerät rückgängig zu machen, im vorliegenden
Fall also durch h zu dividieren. Man vermutet richtig, daß das immer dann geht, wenn
man sich auf höchstens quadratische Polynome beschränkt, also n = 3 wählt.
4. Um dies zu klären, gehen wir auf die nachstehenden Fragen ein:
Falls A beliebig lange 01-Folgen sendet, also der Grad n von p beliebig sein kann, welche
Art von Wörtern kommen bei B an?
Antwort: Im Quotientenring R := IF2 [x]/(x7 − 1) bedeutet Multiplizieren eines Polynoms q mit x und danach Reduzieren lediglich “Rotieren nach links” des Wortes,
z.B.:
Ist q = 1100100, also q = x6 + x5 + x2 so wäre xq = x7 + x6 + x3 → x6 + x3 + 1,
entspräche also 1001001.
Somit ist mit jedem Wort q, das B empfangen kann, auch jedes “zyklisch permutierte”
Wort möglich. Deshalb der Name “Zyklischer Code” für die Menge aller dieser von B
empfangbaren Wörter. Man kann dies in der Tabelle auf der nächsten Seite sehen.
Wie kann B feststellen, ob die Nachricht q von der Form q = pg
(mod x7 − 1) ist?
Antwortfindung: Ist q = pg +r(x7 −1), so ergibt Multiplikation mit h wegen x7 −1 = gh
sofort qh = (p + r)(x7 − 1), also läßt es sich qh →∗ 0 reduzieren. Ist umgekehrt qh →∗ 0,
so gibt es ein Polynom s mit qh = s(x7 −1), also ist qh = sgh und wegen der eindeutigen
Faktorzerlegung in IF2 [x] bekommt man q = sh.
Antwort: Genau dann ist q von der Form q = ph (mod x7 − 1), wenn qh →∗ 0 ist. Das
Polynom h heißt Kontrollpolynom.
Kann es vorkommen, daß pg = p0 g für verschiedene Wörter p 6= p0 , die A senden
möchte? Wenn ja, wie kann man eine Übersicht darüber bekommen?
Antwortfindung: Leider ja, z.B. wird das Wort g nach Multiplikation mit h zu gh =
x7 − 1 →∗ 0. Ist umgekehrt ph →∗ 0, so gibt es ein Polynom r mit ph = r(x7 − 1), und
demnach ist ph = rgh, also p = rg.
Antwort: Genau die Polynome im Hauptideal (g), d.i. von der Form gr mit einem
Polynom r werden als Nullpolynom gesendet. Genau die Polynome p0 = p + gr mit
einem Polynom r werden nach dem Senden als das Wort ph (mod x7 − 1) gesendet.
Unter welchen Umständen kann der von As Gerät getätigte Prozess von Bs Gerät
rückgängig gemacht werden?
162
Algebra
Antwort: Offenbar genügt es, daß A sich auf Polynome vom Grad ≤ 2 beschränkt, dann
wird nach Multiplikation mit h höchstens ein Polynom vom Grad 6 daraus, das nach
Division durch h auf Bs Gerät das von A seinem Gerät zur Sendung übergebene Wort
ergibt. Das Beispiel q = x2 + x + 1 unter 2. zeigt das ganz deutlich.
Zusammenfassung: A sendet Wörter der Länge n = 3 (interpretierbar als Polynome vom
Grad ≤ 2), nachdem er sie mit h multipliziert hat. Danach checkt B das empfangene Wort
durch Multiplikation mit g und Reduzieren mod x7 − 1 und wenn das geht, dividiert er das
empfangene Wort durch g, um As Wort zu bekommen.
Der Vorteil der endlichen Körper IFq in gerader Charakteristik ist die schnelle Implementierbarkeit der Arithmetik. Das trifft auch auf die (zyklische) Polynomarithmetik zu.
Anmerkung zur Fehlererkennung (mehr dazu ist im Abschnitt über normierte lineare
Räume geplant, wo das thematisch besser hinpaßt):
Wenn man davon ausgehen darf, daß höchstens eine Stelle in einem gesendeten Wort falsch
ist, kann B das stets erkennen? Auch wenn 2 Fehler gemacht werden?
Antwortfindung: Betrachten wir die nachstehende Tabelle, in der zunächst das Polynom
von A, dann seine Deutung als Binärwort, danach das mit g multiplizierte Polynom, und
schließlich das an B gesendete Binärwort steht.
0
1
x
x2
1+x
1 + x2
x + x2
1 + x + x2
000
001
010
100
010
011
110
111
0
x4 + x2 + x + 1
x5 + x3 + x2 + x
x6 + x4 + x3 + x2
x5 + x4 + x3 + 1
x6 + x3 + x + 1
x6 + x5 + x4 + x
x6 + x5 + x2 + 1
0000000
0010111
0101110
1011100
0111001
1101110
1110010
1100101
Die Minimalzahl an Stellen, an denen in der linken Spalte Binärwörter sich unterscheiden,
ist eins. Würde man solche Wörter senden, reicht ein falsches Bit, um es nicht von einem
anderen möglichen korrekten Wort zu unterscheiden.
Im rechten Teil hat sich die Minimalzahl der Stellen, an denen sich 2 Binärwörter unterscheiden vergrößert: Wörter, die sich vorher nur um eine Stelle unterscheiden, müssen sich
nach Multiplikation mit g = x4 + x2 + x + 1 an zumindest drei Stellen unterscheiden. In der
Tabelle ist das klar zu erkennen, je zwei Wörter in der rechten Spalte unterscheiden sich an
mindestens 3 Stellen.
Antwort: Deshalb können Wörter mit einem, sogar mit zwei Fehlern von B erkannt werden
(und notfalls nachgefragt werden).
Kapitel 5
Metrische Räume
5.1
5.1.1
Metrische Räume
Grundlegende Definitionen
Definition 147 Ein metrischer Raum besteht aus:
Raum : Einer Menge X, dem Raum, und Elementen, den Punkten.
Abstand/Metrik : Einer Abbildung d : X × X → R, der Metrik oder Abstandsfunktion
mit folgenden Eigenschaften:
1. d(x, y) ≥ 0 für alle x, y ∈ X (Abstand ist
niemals negativ).
2. d(x, y) = 0 genau dann, wenn x = y ist.
3. Für alle x, y ∈ X ist d(x, y) = d(y, x)
(Symmetrie).
4. Für alle x, y, z ∈ X gilt d(x, z) ≤ d(x, y) +
d(y, z) (Dreiecksungleichung – Skizze)
x
z?
???

??d(y, z)

??
d(x, z)
?

jj y
j

j
j

j
jjjjj
jjjjjj d(x, y)

jj
Beispiel 148 Vorweg einfache Beispiele:
1. (Euklidische Metrik)
(y1 , y2 )
Für die Punkte x = (x1 , x2 ) und y = (y1 , y2 ) der Ebene
X := R2 ist der “vertraute” euklidische Abstand d(x, y) :=
p
(x1 − y1 )2 + (x2 − y2 )2 eine Metrik.
ww
ww
w
ww
ww
(x1 , x2 )www
w
ww
2. Ist X := R und d(x, y) := |x − y| für x, y ∈ R (Absolutbetrag der Differenz), so gelten
die Axiome eines metrischen Raumes.
163
164
Metrische Räume
3. Es sei X die Menge aller n-stelligen 01-Folgen, die wir als Elemente in {0, 1}∗ auffassen,
d.h. in der Form 0001101 · · · 01 (Wörter der Länge n) angeschrieben denken. Nun definiert man d(x, y) als Anzahl der Stellen, an denen sich Wörter x und y unterscheiden.
Es sind die Axiome erfüllt. (Hammingdistanz).
4. Es sei X eine beliebige Menge und d(x, y) = 1 genau dann wenn x 6= y, bzw. d(x, x) = 0.
Die Axiome kann man sehr leicht nachvollziehen. Es ist dies die diskrete Metrik.
5. (Metrik auf dem Kreis)
Auf dem Kreis vom Radius 1 soll eine Distanz d(x, y) zwischen Punkten x, y als
die kürzere der beiden Bogenlängen der
Bögen von x nach y bzw. y nach x (im
Uhrzeigersinn gemessen) definiert. Man
überlegt sich, daß eine formale Definition des Kreises durch Beschreiben als Intervall [0, 2π) und eine Distanzfunktion
durch d(x, y) := min{|x − y|, 2π − |x − y|}
gegeben ist. Durch Fallunterscheidungen
prüft man, daß ([0, 2π), d) die Axiome eines metrischen Raumes erfüllt.
5.1.2
ifda_ ]ZXUSPMJ
GC
qnk
t
• @x;
zw
84
~
1.
,)
'$
"
!
#
%(
*
03
6:
• y
=A
}
EI
x
LOR
ru
TWY[^`cegjlo
|
0
•
x
•
y
Konvergenz
Definition 149 Die folgenden Begriffe sind in jedem metrischen Raum (X, d) für eine Folge
{xn }∞
n=1 formulierbar:
Konvergente Folge: Die Folge {xn }∞
n=1 ist konvergent mit Grenzwert x, im Zeichen x =
limn→∞ xn , falls limn→∞ d(xn , x) = 0 gilt.
Cauchyfolge: Die Folge {xn }∞
n=1 ist Cauchyfolge, wenn zu jedem noch so kleinen positiven
ein N ∈ N mit d(xn , xm ) < für alle m, n ≥ N gibt.
Beispiel 150 Einfache Übungsaufgaben.
p
2 und d(~
1. Es sei X
:=
R
x
,
~
y
)
:=
(x1 − y1 )2 + (x2 − y2 )2 . Ist die Folge ~xn =
1
π
(n sin n , cos( n )) konvergent? Wenn ja, welchen Grenzwert hat sie?
Antwort: Als Grenzwerte der Koordinaten ergibt sich beide male 1. Um die DN genau
nachzuvollziehen, muß jetzt
1
2
π
1
2
2
lim (n sin
− 1) + (cos( ) − 1)
=0
n→∞
n
n
gezeigt werden.
◦
2π
5.1. Metrische Räume
165
Aus der Konvergenz von |n sin n1 − 1| und | cos( πn ) − 1| gegen Null bei n → ∞ folgt
aus den üblichen Rechenregeln für konvergente Folgen im R1 , daß der obige Grenzwert
gleich (1, 1) ist.
+
2. (“klein
und groß?” abhängig von der Metrik) Ist auf X := R durch d(x, y) :=
1 1
n+1
x − y eine Metrik gegeben? Ist die Folge {an }∞
n=1 mit an := n } bezüglich dieser
∞
Metrik konvergent? Ist die Folge {bn }∞
n=1 mit bn := n konvergent? Ist die Folge {an }n=1
∞
eine Cauchyfolge? Ist die Folge {bn }n=1 eine Cauchyfolge?
Antwort: Wie die Metrik zustandekommt,
zeigt die nebenstehende Abbildung. Es
mag hilfreich sein, selbst Skizzen anzufertigen, welche die Konvergenzaussagen verdeutlichen.
O
d(x, y) Graph von y =
1
x
•
•
y
x
Nachweis der Axiome
d(x, y) ≥ 0 ist sicher stets richtig. Symmetrie ist auch
der Metrik.
1 1
klar. Aus d(x, y) = x − y = 0 schließt man x = y. Die Dreiecksungleichung ergibt sich
aus der für den Absolutbetrag:
1 1 1 1 1 1 1 1 1 1
d(x, z) = − = − + − ≤ − + − = d(x, y) + d(y, z).
x z
x y y z
x y
y z
Jetzt zu den Konvergenzuntersuchungen: Im Fall der Folge {an }∞
n=1 erhofft man als
Grenzwert 1 und betrachtet
1
1
1
d(an , 1) = n+1 − =
.
n
1 n + 1
1
Es ist limn→∞ d(an , 1) = limn→∞ n+1
= 0 (im üblichen Sinn), also gilt im Sinne der
Definition unserer Metrik limn→∞ an = 1.
Auch die Definition der Cauchyfolge läßt sich bei {an }∞
n=1 nachvollziehen:
1
1 |m − n|
d(an , am ) = n+1 − m+1 = · · · =
.
n
(m
+
1)(n + 1)
m
Ist dann > 0 vorgegeben, dann kann z.B. N ∈ N so gewählt werden, daß N > 2 gilt.
Sind dann m und n beide ≥ N , so kann der Ausdruck ganz rechts weiter abgeschätzt
werden, nämlich
|m − n|
1
1
2
≤
+ ≤
< .
(m + 1)(n + 1)
m n
N
Somit liegt eine CF vor.
Die Folge {bn }∞
n=1 mit bn = n erweist sich ebenfalls als CF. Wählt man > 0 beliebig
und N > 2 , so findet man für alle m, n ≥ N die Abschätzung
1
1
1
1
2
d(bm , bn ) = − ≤
+ ≤
< .
m n
m n
N
166
Metrische Räume
Die Folge konvergiert nicht: Angenommen x ∈ R+ wäre ein Grenzwert. Dann ist
1
1
1
0 = lim d(bn , x) = lim − = · · · = ,
n→∞
n→∞ n
x
x
wobei “. . .” entsprechendes Anwenden der Grenzwertregeln im üblichen Sinn konvergenter Folgen bedeutet. Jedenfalls hat 0 = x1 keine Lösung x in R+ – die Folge konvergiert
nicht.
3. Es sei auf den Wörtern der Länge n wie in Beispiel 148 3. die Hammingdistanz gegeben.
Wie kann limn→∞ xn = x ausgedrückt werden?
Antwort: Die Konvergenz ist genau dann gegeben, wenn ab einem Index N stets x = xn
für n ≥ N gilt. Die gleiche Antwort bekommt man in Beispiel 148 4. für die diskrete
Metrik.
4. Wie kann man in 5. von Beispiel 148 nachweisen, daß limn→∞ (2π − n1 ) = 0.
Antwort: d(0, xn ) = min{|xn |, |2π−xn |} = min{2π− n1 , n1 } = n1 . Hieraus folgt limn→∞ d(0, xn ) =
0, was zu zeigen war.
Definition 151 (Vollständigkeit) Der Raum X heißt bezüglich der Metrik d vollständig,
falls jede Cauchyfolge konvergent ist. Man sagt dann auch, daß (X, d) vollständig ist.
Anmerkung 152 Es gelten folgende Fakten in einem metrischen Raum (X, d):
1. Jede konvergente Folge {xn }∞
n=1 ist auch Cauchyfolge.
2. Nicht jede Cauchyfolge muß notwendigerweise konvergieren (vgl. Beispiel 150,
2.). Ist (X, d) jedoch vollständig, so konvergiert (auf Grund der Definition der
Vollständigkeit) jede Cauchyfolge {xn }∞
n=1 gegen ein x ∈ X.
Es soll der Nachweis für 1. erbracht werden: Angenommen, die Folge {xn }∞
n=1 konvergiert. Nun sei > 0 vorgegeben. Um die CF-Eigenschaft zu beweisen, muß ein N ∈ N mit
d(xm , xn ) < für alle m, n ≥ N gefunden werden. Weil limn→∞ d(xn , x) = 0 gibt es N ∈ N
mit d(xn , x) < 2 für alle n ≥ N . Dann ist für alle m, n ≥ N sowohl d(xn , x) < 2 als auch
d(xm , x) < 2 , sodaß die Dreiecksungleichung für all diese m, n die geforderte Ungleichung
d(xm , xn ) ≤ d(xm , x) + d(x, xn ) <
ergibt. Somit ist {xn }∞
n=1 eine Cauchyfolge.
+ =
2 2
5.1. Metrische Räume
167
˜
Anmerkung 153 (Vervollständigung) Zu (X, d) kann eine Vervollständigung (X̃, d)
konstruiert werden mit folgenden Eigenschaften:
1. X kann als Teilmenge von X̃ betrachtet werden.
˜ y) = d(x, y) (X ist isometrisch in X̃ eingebettet).
2. Wenn x, y ∈ X, so ist d(x,
3. Jede Cauchyfolge in X̃ (und somit jede in X) konvergiert in X̃ bezüglich der Metrik
˜ M.a.W. der Raum (X̃, d)
˜ ist vollständig.
d.
4. Zu jedem x̃ ∈ X̃ gibt es eine Cauchyfolge {xn }∞
n=1 mit Werten in X, die im Sinne
der Metrik d˜ gegen x̃ konvergiert. (Man sagt auch, die Einbettung von X liegt dicht
in X̃).
Eine gängige, mengentheoretisch fundierte Konstruktion der Vervollständigung findet man
∞
in Unterabschnitt A.3.1. Sie beruht im Prinzip darauf, Cauchyfolgen {xn }∞
n=1 und {yn }n=1
als äquivalent zu erachten, wenn d(xn , yn ) nach Null konvergiert (was ja auf die Folgen zutrifft, falls sie gegen den gleichen Grenzwert in X konvergieren). Diese Äquivalenzklassen von
Cauchyfolgen sind in ihrer Gesamtheit zwar schwer vorstellbar, am besten, man denkt sich
jede Klasse durch eine “Lieblingsfolge”, die zum “ideellen Grenzwert” strebt, repräsentiert.
Beispiel 154 Die nächsten Beispiele sollen Intuition wecken.
1. (Vervollständigung eines metrischen Raumes durch Zugabe
eines Punktes)
1 1
+
In Beispiel 150 2. war X = R und die Metrik d(x, y) := x − y gegeben. Inspektion
des Beispiels läßt erkennen, daß alle Cauchyfolgen in dieser Metrik entweder Cauchyfolge im üblichen Sinn und Grenzwert (auch im üblichen Sinn) ungleich Null, oder (im
üblichen Sinn) gegen Unendlich strebende Folgen sind. Es erscheint naheliegend, formal
einen Punkt x̃ zu R+ “am rechten Ende” hinzuzufügen (oft, und wir tun das auch hier,
mit der Bezeichnung “∞”) und die Metrik d wie folgt zu einer Metrik d˜ auszudehnen,
˜ y) := d(x, y) genommen wird und
indem für x, y ∈ R+ als Metrik d(x,
˜ ∞) := 1 , d(∞,
˜
d(x,
∞) := 0
x
˜ ganz leicht nach.
festgelegt wird. Man prüft die Metrikaxiome für (R+ ∪ {∞}, d)
√
2. ( 2 als Äquivalenzklasse von Cauchyfolgen – Babylonische Methode) Beim
Übergang von den rationalen Zahlen Q zu R ist es die Cantorsche Methode, welche in
verallgemeinerter Form die Konstruktion in Unterabschnitt A.3.1 ist.
√
√
Wenn z.B. jemand das Symbol 2 hinschreibt und danach etwa 2 = 1.414213562,
denkt man eher an eine Folge von rationalen Zahlen
(1.0, 1.4, 1.41, 1.4142, 1.41421, 1.414213, 1.4142135, 1.41421356, 1.414213562, . . .),
168
Metrische Räume
die bei erschöpftem Bedarf an Genauigkeit abgebrochen wird.
Jemand kann aber auch, die Babylonische Methode benützend, eine Folge rationaler
1
für n ∈ N festlegen, die bekanntermaßen
Zahlen durch x0 := 1, xn := 21 xn−1 + xn−1
√
gegen 2 konvergiert, man findet als neue Folge
3
17
577
( = 1.5,
≈ 1.4166667,
≈ 1.1414215686, . . .),
2
12
408
√
eine wesentlich rascher zum gleichen “ideellen” Grenzwert 2 konvergente Folge.
√
√
Es ist diese Idee, die Zahl 2 als√Gesamtheit aller nach 2 konvergenten Folgen rationaler Zahlen anzusehen, welche 2 zum Körper der rationalen Zahlen “hinzufügt”.
3. (Raum stetiger Funktionen – nicht vollständig in der L1 -Metrik) Es geht darum, daß Integralnormen Räume stetiger Funktionen im Allgemeinen nicht vollständig
2
machen. Das
qRjetzt zu präsentierende Beispiel funktioniert auch für die L -Metrik, nämlich
1
2
d(f, g) :=
0 |f (x) − g(x)| dx).
Nun zum Beispiel selbst. Auf X := C[−1, 1],
R 1dem auf dem Intervall [−1, 1] stetigen
Funktionen, soll eine Metrik durch d(f, g) := −1 |f (x) − g(x)| dx definiert werden. Wir
werden in Beispiel 194 4. zeigen, daß tatsächlich eine Metrik auf X vorliegt. Geometrisch ist klar, was die Metrik “mißt”: die “absolute” Fläche, die vom Graphen von f ,
jenem von g und den in −1 und 1 errichteten Ordinaten liegt.
Nun soll der Graph der Funktion fn durch den Streckenzug, der die Punkte (−1, −1),
(− n1 , −1), ( n1 , 1) und (1, 1) verbindet, gegeben sein (der ausgezogene Streckenzug). Die
Deutung der Metrik im Auge behaltend ergibt sich für m, n ∈ N der Wert von d(fn , fm )
als zweimal der Flächeninhalt des schmalen Dreiecks in der oberen Halbebene das von
2 strichlierten und einer ausgezogenen Linie berandet
wird.
Dessen Höhe ist 1 und die
1
1
Basis hat Länge n1 − m
. Somit ist d(fn , fm ) = n1 − m
und man erkennt, daß die
Folge {fn }∞
bezüglich
dieser
Metrik
eine
Cauchyfolge
ist.
n=1
_ _ _
1
− n1 − m
1
1
m
n
_
_ _
−1
1
Daß die Folge in X = C[−1, 1] nicht konvergiert, erahnt man aus der Skizze, weil die
Flanken des mittleren Teiles immer steiler werden, und die Grenzfunktion dadurch kaum
stetig werden kann (am Nullpunkt “auseinandergerissen”). Wir wollen den Nachweis
führen, er ist typisch im Umgang mit Metriken auf Funktionenräumen.
5.1. Metrische Räume
169
Angenommen, es gibt eine stetige Funktion f ∈ C[−1, 1], gegen welche die Folge konvergiert. Es sei 1 > a > 0. Ist dann n > a1 , so ist fn (x) = 1 für |x| ≥ a. Deshalb
muß
Z
Z
1
1
|1 − f (x)| dx = d(fn , f )
|1 − f (x)| dx ≤
a
−1
für alle diese
R 1n gelten. Weil nun für n → ∞ der Wert rechts gegen Null konvergiert,
ergibt sich a |1 − f (x)| dx = 0, und weil f als stetig angenommen wird, ergibt sich
hieraus f (x) = 1 für alle a ≤ x ≤ 1. Dies gilt bei beliebigem positiven a, sodaß f (x) = 1
für alle x > 0 folgt.
Analog zeigt man f (x) = −1 für alle x < 0. Solches f kann an 0 nicht stetig sein. Also
konvergiert die Cauchyfolge {fn }∞
n=1 nicht, sodaß X := C[−1, 1] nicht vollständig ist.
Probleme beim Vervollständigen dieses Raumes:
(a) Für die eine vorliegende CF könnte man einige neue Funktionen “hinzufügen”,
indem man an Null den Funktionswert beliebig festlegt. Dann hätte man einen
Funktionenraum, bei dem man an z.B. endlich vielen Stellen Werte abändern darf.
Dann muß man aber Funktionen als äquivalent ansehen, wenn sie bis auf endlich
viele Stellen gleich sind.
(b) Hat man eine passende Klasse gefunden, so müßte danach der Integralbegriff neu
formuliert werden (dies wird durch das Lebesgueintegral geleistet), weil man ja die
Metrik definiert wissen will.
Es erscheint zweckmäßig, jedes Element der Vervollständigung durch eine Folge von Approximationen als bestimmt zu sehen – dies ist auch der Gesichtswinkel der abstrakten
Konstruktion in Unterabschnitt A.3.1. Es ist auch der Gesichtswinkel, der bei numerischen Methoden vorliegt. Eine Beschreibung der zu approximierenden Elemente gelingt
etwa dann, wenn der zu vervollständigende metrische Raum in isometrischer Weise als
Teilmenge eines vollständigen Raumes aufgefaßt werden kann. In Anmerkung 206 wird
z.B. ein nicht vollständiger Funktionenraum in den Dualraum eines (durchaus nicht
vollständigen) Funktionenraumes isometrisch eingebettet – und weil man, wie dort gezeigt wird, weiß, daß der Dualraum stets vollständig ist, ist der Abschluß des eingebetteten Raumes auch gleich die Vervollständigung.
5.1.3
Fixpunktsatz von Banach und Anwendungen
Die Idee der Fixpunktsuche besteht im Lösen von x = f (x) (x ist Fixpunkt), indem man
einen Startwert x0 festlegt, und dann iterativ x1 = f (x0 ), x2 = f (x1 ), · · · bildet. So hofft
man, Approximationen von x zu bekommen. Sehr viele Gleichungssysteme lassen sich in eine
Fixpunktaufgabe umwandeln. Z.B. ist x2 +x−3 = 0 in die Gleichung x = 3−x2 umwandelbar.
Wir werden den Banachschen Fixpunktsatz vorführen, seine Anwendungen umfassen
• Nullstellensuche im Rn .
• Newtonmethode.
170
Metrische Räume
• Relaxationsmethoden, numerische lineare Algebra.
• Beweistechnik beim Hauptsatz der impliziten Funktionen.
• Existenz- und Eindeutigkeitsatz bei Systemen gewöhnlicher Differentialgleichungen und
Verfahren von Picard-Lindelöf.
Auf all dies soll im vorliegenden Unterabschnitt eingegangen werden.
Anmerkung 155 (Banachscher Fixpunktsatz) Es sei (X, d) ein vollständiger metrischer Raum und f : X → X eine kontrahierende Abbildung, d.h., es existiert ein λ < 1
mit d(f (x), f (y)) ≤ λd(x, y) für alle x, y ∈ X (hieraus folgt, daß λ ≥ 0 ist). Dann gilt:
1. f ist stetig.
2. Es existiert genau ein p ∈ X mit p = f (p), ein Fixpunkt von f .
3. Ist x0 ∈ X beliebig, so wird durch die Rekursion xn := f (xn−1 ), wobei n ∈ N läuft,
eine gegen p konvergente Folge definiert.
4. Der Fehler der Approximation kann wie folgt abgeschätzt werden:
d(p, xn ) ≤
d(x0 , x1 )λn
.
1−λ
Der Nachweis folgt in Beispiel 271.
Beispiel 156 Einige Beispiele.
1. (Lineare Funktion im R1 ) Das einfachste Beispiel ist von der Bauart f (x) = ax + b
und die Fixpunktaufgabe x = ax + b.
Welche Lösungen hat die Fixpunktaufgabe?
b
Antwort: Offenkundig ist x = 1−a
für a 6= 1 eindeutig bestimmte Lösung der Aufgabe,
während für a = 1 nur für b = 0 Lösungen (alle x ∈ R) existieren, weil ja f dann die
Identität ist.
Man berechne 3 Werte der Iteration für f (x) = 14 x − 15
2 und Startwert x0 := 20, bzw.
für f (x) := 3x + 60 und Startwert x0 := −25? Konvergiert die Folge der Werte gegen
den Fixpunkt x∗ ?
Antwort(findung): In der Skizze sieht man links die Situation (a, b) = ( 14 , − 15
2 ) und
rechts (a, b) = (3, 60). Jeweils vom Startwert x0 ausgehend findet für den Fixpunkt x∗
(in der Skizze mit einem Stern auf der Abszisse symbolisiert) und die ersten paar Werte
der “Näherungen”:
x∗
x0
x1
x2
x3
x4
−10
20 −2.5 −8.125 −9.53125 −9.8828125
−30 −24 −15
15
105
375
5.1. Metrische Räume
171
y=x
O

x0 x1
x2

•
∗ • •

y = 3x + 60
y=x
O

(x , x1 )
0
gggg•
g
g
g
g
gggg

ggggg
g

g
g
g
gggg
y = x − 15
ggggg (x1 , x2 )
∗•

•
4
2
/
/
(Iterationsschritt) Die Skizze veranschaulicht die Iteration. Man geht von einem Wert
x der Abszisse aus, schneidet die dort errichtete (punktiert gezeichnete) Ordinate mit
dem Graphen von f , um den Schnittpunkt (x, f (x)) zu erhalten, legt durch diesen
Schnittpunkt eine achsenparallele Gerade, die man mit der Mediane y = x schneidet,
um den Punkt (f (x), f (x)) zu erhalten, den man auf die Abszisse projiziert, um somit
den Iterationsschritt geometrisch nachvollzogen zu haben.
Für welche Werte (a, b) liegt eine Kontraktion vor? Welches der beiden Beispiele ist
Kontraktion?
Antwort: Es ist f (x) − f (x0 ) = a(x − x0 ), sodaß genau dann eine Kontraktion vorliegt,
wenn |a| < 1 ist.
Wie kann der FPS in den Beispielen angewendet werden?
Antwort: Für a =
1
4
kann X := R and λ :=
1
4
gewählt werden.
Man erkennt im linken Bild für a = 41 , wie die Iteration zum Fixpunkt konvergiert
(Treppenzug von links nach rechts verfolgen und die fetten Punkte als gegen den Stern
konvergente Folge erkennen).
Für a := 3 kann der Fixpunktsatz nicht verwendet werden, weil f nicht kontrahiert.
Man sieht das auch: im rechten Bild “läuft die Iteration davon”. (Ein guter Trick ist
es, die Rolle von x und y zu vertauschen.)
Wie lauten im linearen Fall die Formeln für xn ? Wie kann man aus ihnen direkt die
Konvergenz der Iteration bei beliebigem Startwert x0 entscheiden?
Antwort:
xn = an x0 + (1 + a + · · · + an−1 )b,
und wenn a 6= 1 ist, gilt
xn = an x0 +
1 − an
b.
1−a
woraus die Kontraktionsbedingung sich als zur Konvergenz der Folge {xn }∞
n=1 äquivalente Bedingung erweist, außer wenn b = 0 und a = 1 ist.
172
Metrische Räume
2. (Fixpunktsatz und babylonische Methode des Wurzelziehens) Welche Konvergenzaussage kann mittels des Fixpunktsatzes
√ für die in Beispiel 154 2. zitierte babylonische Methode,Approximationen
von 2 durch Vorgabe eines Startwertes x0 und
1
2
Iteration xn := 2 xn−1 + xn−1 zu gewinnen, getroffen werden?
Antwortfindung: Es ist nicht schwer, auf f (x) = 12 x + x2 zu kommen. Für den zu
definierenden Raum X ⊆ R
erfüllt sein. Im
√ müssen die entsprechenden Bedingungen
∞
vorliegenden Fall kann nur 2 Fixpunkt sein, falls die Folge {xn }n=1 konvergiert. Deshalb erscheint es sinnvoll X als Teilmenge von R+ zu wählen, sodaß f auf ganz X
definiert ist. Um λ zu erahnen, kann man
f (x) − f (y)
x−y
betrachten, was geometrisch der Steigung einer Sehne des Graphen von f bedeutet. Ihr
Anstieg läßt sich durch |f 0 (x)| für x ∈ X abschätzen. Nimmt man nun an, daß in ganz
X die Abschätzung |f 0 (x)| ≤ λ gilt, so folgt aus dem MWS der DR
f (x) − f (y) = f 0 (ξ)(x − y)
mit einem ξ ∈ (x, y), somit
|f (x) − f (y)| ≤ λ|x − y|,
d.i. eine Abschätzung, wie sie im FPS bezüglich der Abstandsmetrik benötigt wird.
Dies vor Augen bestimmt man
f 0 (x) = · · · =
1
1
− 2.
2 x
Man möchte nun ein λ < 1 garantieren, daß für alle x im (noch nicht bestimmten) X
die Abschätzung
1
1
−λ ≤ − 2 ≤ λ
2 x
gilt. Versuchen wir λ := 21 , dann ist der rechte Teil der Ungl. schon erfüllt und es
verbleibt,
in äquivalenter Form x2 ≥ 1, also x ≥ 1. Das “Gefühl stimmt noch”, weil ja
√
2 diese Ungleichung erfüllt. Die zweite Forderung steckt “heimlich” in f : X → X,
d.h. aus x ∈ X muß auch f (x) ∈ X ableitbar sein, sodaß sich die folgende Frage ergibt:
Folgt aus x ≥ 1 stets f (x) = 12 x + x2 ≥ 1?
Die Antwort hierauf sind (im vorliegenden Fall) Äquivalenzumformungen:
f (x) ≥ 1 ⇔ x2 − 2x + 2 ≥ 0 ⇔ (x − 1)2 + 1 ≥ 0,
somit erfüllt das Intervall X := [1, ∞) die Voraussetzungen des Fixpunktsatzes für
λ := 12 .
5.1. Metrische Räume
173
Antwort: Für jedes x0 ∈ [1, ∞) konvergiert die Folge xn :=
1
2
xn−1 +
2
xn−1
gegen
√
2.
Wendet man von x0 := 1 ausgehend, 3 Schritte an, d.h. ermittelt man x3 , welche
Genauigkeit gibt der FPS an und welche Genauigkeit wurde in Beispiel 154 2. gefunden?
√
Antwort: Es ist | 2 − x3 | ≤
3
|1− 23 |( 12 )
1− 21
=
1
8
= .125, also (so die Aussage des FPS), darf
man nicht einmal der ersten Nachkommastelle trauen (es könnte sogar die führende 1
falsch sein), die Genauigkeit im angegebenen Beispiel sind jedoch jedenfalls 6 gesicherte
Stellen.
Kommentar: Die gelegentliche “Genauigkeitsunterschätzung” des FPS ist bekannt, besser ist jene, die man mittels Newtonalgorithmus bekommt, vgl. Beispiel 157 und dort
den entsprechenden kurzen Abschnitt hiezu.
Beispiel 157 Hier ist eine Auswahl “prominenter” Anwendungen des Fixpunktsatzes von
Banach (Anmerkung 155), wobei der vorgesetzte Stern ‘*’ andeutet, daß benötigte Begriffe
später kommen.
Formulierung des FPS für stetig differenzierbares f im Rn : Ist D ⊆ Rn konvex und
abgeschlossen, sowie f : D → D auf einer D umfassenden offenen Teilmenge U von Rn
stetig differenzierbar und gilt λ := supx∈D kf 0 (x)k < 1, so erfüllt f die Voraussetzungen
des Fixpunktsatzes für X := D und das angegebene λ.
* Hierin ist kf 0 (x)k eine (Operator)norm der Funktionalmatrix (für eine Matrix A ist
kAk := max{~x|k~xk=1} kA~xk, siehe Anmerkung 200), die sich für n = 1 als Betrag der zu
einer Zahl degenerierten Matrix A entpuppt.
Im Beispiel f (x) = 12 (x + x2 ) wurde der Fixpunktsatz mittels x = f (x) zur Nullstellenbestimmung von x2 − 2 = 0 in Beispiel 156 2. herangezogen. Für D := [1, ∞) haben
wir λ := supx∈D |f 0 (x)| = supx∈D | 21 − x12 | = 12 . Die stetige Differenzierbarkeit ist auf
U := R+ erfüllt und U ⊃ D. Es verbleibt der Nachweis f (D) ⊆ D, der in Fixpunktanwendungen meist Geschick erfordert, und für den auf Beispiel 156 2. zurückverwiesen
werde.
Nullstellenverfahren, Relaxationsmethoden: Um Nullstellen von g : X → X mit X ⊆
Rn zu bestimmen, wird die Aufgabe g(x) = 0 sehr oft mittels Relaxation in x = x +
H(g(x)) umformuliert. Nun erhofft man, daß f (x) := x + H(g(x)) die Voraussetzungen
des Fixpunktsatzes erfüllt.
Schnell erklärt ist das am Beispiel der Fixpunktsuche von x = 3x + 60 aus Beispiel 156
1. Offenbar kann die Aufgabe als Nullstellensuche von g(x) := 2x + 60 = 0 angesehen
werden. Danach auch als Fixpunktaufgabe x = x − 13 (2x + 60). Somit ist H(x) = 31 x
und f (x) = 13 x − 20. Mit D := R1 und wegen λ := supx∈R |f 0 (x)| = 13 < 1 ist der FPS
von Banach jetzt anwendbar.
Bezug zum Newtonverfahren: Hiebei ist f : U → U ⊆ Rn , eine (meist) zweimal stetig
partiell differenzierbare Funktion und von einem Punkt x0 ∈ U ausgehend, möchte man,
174
Metrische Räume
die Taylorentwicklung
0 ≈ f (xn ) ≈ f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ),
benützend, die rechte Seite zur Gleichung umformulieren, sodaß
xn = xn−1 − f 0 (xn−1 )−1 f (xn−1 )
entsteht. Für n = 1 entsteht die gewohnte Formel
xn = xn−1 −
f (xn−1 )
.
f 0 (xn−1 )
Es liegt daher nahe, die Abbildung F (x) := x − f 0 (x)−1 f (x) ins Auge zu fassen und
von ihr (nebst der Invertierbarkeit von f 0 (x) jene Bedingungen aufzuerlegen, daß der
FPS anwendbar wird.
Die übliche rasche Konvergenz des Verfahrens kann z.B. durch folgende Bedingungen,
die ich hier lediglich für n = 1 (siehe jedoch z.B. Seite 104 in [22]) formuliere:
Es sei I ein offenes Intervall im R1 , und f , dessen Nullstelle x∗ , d.i. Lösung von
f (x∗ ) = 0 gesucht werde, erfülle für alle x ∈ I folgende Bedingungen:
• |f 00 (x)| ≤ γ.
• Es existiert β > 0 mit |f 0 (x)| ≥ β1 .
0) 1
• Es sei α := ff0(x
(x0 ) und q := αβγ < 2 .
• [x0 − 2α, x0 + 2α] ⊆ I.
Dann hat f in I genau eine Nullstelle x∗ , die durch das Newtonverfahren approximiert
wird. Die Fehlerrate kann durch
n −1
|xn − x∗ | ≤ 2αq 2
abgeschätzt werden (quadratische Konvergenz).
Im Beweis spielt eine “tüftelige” Anwendung des Fixpunktsatzes die wesentliche Rolle.
√
Als Beispiel diene f (x) = x2 − 2 mit Nullstelle x∗ = 2, und es soll mit Beispiel 156
2. verglichen werden. Die Newtoniteration ergibt sich zu
f (xn−1 )
1
2
=
xn−1 +
,
xn = xn−1 − 0
f (xn−1 )
2
xn−1
d.i. genau die Formel aus dem zitierten Beispiel.
Dort war x0 = 1. Demnach bekommt man α = 21 . Danach ergibt sich f 0 (x) = 2x ≥ 1,
also β = 1. Schließlich, weil f 00 (x) = 2 ist, hat man γ = 2. Dann ist 1 = q > 12 und
deshalb keine weitere Aussage möglich.
5.1. Metrische Räume
175
Wählt man hingegen x0 = 23 (d.h. wir führen den 1.ten Schritt aus), so ergibt sich
10 3
2
1
5
0 2
und somit, weil [ 32 − 12
, 2 − 10
α = 12
12 ] ⊆ ( 3 , ∞) gilt, und f ( 3 ) = 3, also β = 3
5 1
5
genommen werden kann, hat man q = 12
3 · 2 = 18 .
Um mit die Fehlerabschätzung mit jener vom zitierten Beispiel zu vergleichen, nehmen
wir hier x2 = 1.41421568 (welches mit dem x3 aus dem zitierten Beispiel übereinstimmt)
und man hat
22 −1
√
5
5
|x2 − 2| ≤ 2
≈ 0.008930612711,
12 18
m.a.W. zumindest die ersten 2 Nachkommastellen sind gesichert. Tatsächlich sind es
die unterstrichenen, jedenfalls ist die hier abgegebene Schätzung realistischer als jene
im zitierten Beispiel.
Hauptsatz der impliziten Funktionen: Hier wird der FPS als Beweisdetail benützt.
Ist F : U (x0 , y0 ) ⊆ Rn × Rm → Rm mit U (x0 , y0 ) offen und F stetig differenzierbar,
sowie F (x0 , y0 ) = 0 und Fy (x0 , y0 ) invertierbar, so gibt es eine Umgebung von W (x0 )
und eine eindeutige Lösungsfunktion h : W (x0 ) → Rm von F (x, y) = 0, d.h. es ist
F (x, h(x)) = 0 für alle x ∈ W (x0 ).
Das entscheidende Beweisdetail benützt die Formulierung
y = y − Fy (x, y)−1 F (x, y),
um geeignet die Funktion f mit f (h)(x) := h(x) − Fy (x, h(x))−1 F (x, h(x)) auf einem
geeigneten metrischen Raum von Kandidaten h zu definieren. Danach wird mittels
f gezeigt, daß Iteration auf die Lösungsfunktion h führt und somit deren Existenz
gesichert. Siehe z.B. in [37] Seite 150.
* Operatorgleichung x + Ax = y : Es sei (V, k · k) ein Banachraum und A : V → V ein
linearer Operator mit kAk := sup{v∈V |kvk=1} kAvk < 1 (vgl. Anmerkung 200), so kann
(I + A)x = y
durch die sogenannte Neumannreihe (im wesentlichen geometrische Reihe)
∞
X
x=(
Aj )y
j=0
eindeutig gelöst werden. Der Fixpunktsatz liefert einen Beweis für Existenz und Eindeutigkeit der Lösung und auch für die Konvergenz der Neumannreihe, indem man sie
als Ergebnis der folgenden Iteration formuliert:
xn = Axn−1 + y
Die gleiche Art der Rechnung wie in Beispiel 156 1. ergibt
xn = An x0 + (I + A + · · · + An−1 )y,
176
Metrische Räume
und ist kAk < 1, so ist für f (x) := Ax + y die Abschätzung
kf (x) − f (x0 )k = kAx − Ax0 k ≤ kAkkx − x0 k
gültig, sodaß für X := V und λ := kAk der FPS anwendbar ist.
Gewisse Erneuerungs- und Volterra-Integralgleichungen können solcherart behandelt
werden. Sie treten z.B. bei Markovprozessen auf.
Nachiteration linearer Gleichungssysteme: Der Bezug zum FPS möge am oft verwendeten Gauß-Seidelverfahren angedeutet werden. (Das Jacobiverfahren ist ähnlich gebaut).
Um das lineare Gleichungssystem y = Ax für A eine n×n (reelle oder komplexe) Matrix
nach x aufzulösen, geht man (schematisch) wie folgt vor:
• Die Matrix A wird in der Form A = AL + D + AR zerlegt, wobei D der Diagonalanteil und AL , bzw. AR untere bzw. obere Dreiecksmatrix sind.
• Die Gleichung wird in äquivalenter Form als
x = −(D + AL )−1 AR x + (D + AL )−1 y
angeschrieben, wobei man lediglich die Invertierbarkeit von D voraussetzen muß.
• Als Rekursion findet man bei vorliegendem Startwert x0 für n ∈ N
(D + AL )xn = −AR xn−1 + y,
ein System, welches leicht zu lösen ist, weil links eine untere Dreiecksmatrix steht.
Z.B. für das System

   
2 −1
0
x
x̃
 −1




2 −1
y
ỹ  ,
=
0 −1
2
z
z̃
das bei Diskretisierung der 2.ten Ableitung einer Funktion in einer Variablen entsteht, findet man solcherart


 

  
2
0 0
xn
0 1 0
xn−1
x̃
 −1
2 0   yn  =  0 0 1   yn−1  +  ỹ  ,
0 −1 2
zn
0 0 0
zn−1
z̃
und man sieht, daß solche Systeme durch “Vorwärtseinsetzen” schnell lösbar sind.
Unter sehr technischen Bedingungen (etwa den Sassenbergbedingungen, die im
Bspl. erfüllt sind) kann man zeigen, daß der FPS im anwendbar wird.
Nachiteration wird gelegentlich in der Form
xn = xn−1 + ωD−1 (y − Axn−1 )
ausgehend von einem auf anderem Wege gefundenen, “nahe” der gesuchten Lösung
liegenden Startwert x0 angewendet, wobei der Relaxationsparameter ω geeignet zu
wählen ist. Genaueres siehe z.B. in [22], ab Seite 60.
5.1. Metrische Räume
177
* Picard-Lindelöf: Existenz und Eindeutigkeit von Anfangswertproblemen (AWP):
Ist [0, a] mit a > 0 ein Intervall, und U offene Teilmenge von Rn , sowie f : I × U → U
stetig mit kf (s, x) − f (s, y)k ≤ C|x − y| für alle s ∈ I und x, y ∈ U , so führt das
Anfangswertproblem
ẋ = f (t, x), x(0) = x0
auf die Integraldarstellung
t
Z
x(t) = x0 +
f (s, x(s)) ds.
0
Die Grundidee der Picarditeration besteht, von der Kurve x0 (t) = x0 , die im Raum
C(I, U ) der stetigen Funktionen von I nach U liegt, ausgehend, die Iteration
Z
xn (t) := x0 +
t
f (s, xn−1 (s)) ds
0
zu untersuchen. Dies führt dazu, den Banachraum X := (C(I, U ), k · k) mit kxk :=
supt∈I |x(t)|, wobei der Betrag für die euklidische Länge von x(t) steht, einzuführen
und dort F : X → X als
Z t
F (x)(t) := x0 +
f (s, x(s)) ds
0
zu definieren. Danch ergibt sich im Rn die Abschätzung
Z t
Z t
C|x(s)−y(s)| ds| ≤ aCkx−yk,
|F (x)(t)−F (y)(t)| = | (f (s, x(s)−f (s, y(s))) ds| ≤ |
0
0
sodaß für λ := aC < 1 der FPS die Konvergenz zu einem eindeutigen Fixpunkt, der
somit eindeutig bestimmten Lösung des AWPs ergibt.
Die Punkte des Raumes X sind Funktionen, die auf I definiert, stetig sind und Werte
Rint U annehmen, und das f aus dem FPS die Integraltransformation x 7→ (t 7→ x0 +
0 f (s, xn−1 (s)) ds) von X = C(I, U ) in sich selbst.
5.1.4
Offene, abgeschlossene, beschränkte, dichte und kompakte Teilmengen eines metrischen Raumes
Definition 158 Eine Teilmenge A eines metrischen Raumes (X, d) ist
Offene Kugel K(x0 , r): falls sie von der Gestalt A = K(x0 , r) := {x ∈ X | d(x, x0 ) < r}
ist. Es ist r der Radius und x0 der Mittelpunkt. Insbesondere (für r ≤ 0) erweist sich
die leere Menge als offene Kugel.
offen: Wenn A leer ist, oder wenn zu jedem Punkt a ∈ A ein r > 0 existiert, sodaß die
offene Kugel K(a, r) ganz in A liegt.
178
Metrische Räume
beschränkt: wenn es eine offene Kugel K(x0 , r) mit A ⊆ K(x0 , r) gibt, d.h., wenn es r ∈ R
und x0 ∈ X gibt, sodaß für alle a ∈ A stets d(x0 , a) < r gilt.
abgeschlossen (in X): Wenn für jede gegen einen Punkt x ∈ X konvergente Folge
{an }∞
n=1 , deren sämtliche Folgenglieder an in A liegen, ihr Grenzwert x = limn→∞ an
zu A gehört.
folgenkompakt: wenn A abgeschlossen ist und jede Folge {an }∞
n=1 von Punkten an ∈ A
eine konvergente Teilfolge besitzt.
dicht: Wenn für jedes x ∈ X jedes positive r die offene Kugel K(x, r) mindestens einen
Punkt von A enthält. Dies bedeutet, daß man jedes x in X beliebig genau durch Elemente in A approximieren kann.
Beispiel 159 Einfache Beispiele:
1. In R mit d(x, y) := |x − y| ist jede “offene Kugel” ein Intervall der Form (x0 − r, x0 + r).
Jedes Intervall der Form [a, b] ist abgeschlossen.
p
In R2 mit d((x, y), (u, v)) := (x − u)2 + (y − v)2 ergeben sich “randlose Kreisscheiben” mit Radius r um den Mittelpunkt (x0 , y0 ) als “offene Kugeln”. Ab n ≥ 3 ergeben
sich in der entsprechenden Metrik (Hyper)kugeln.
2. Ist die Metrik diskret, d.h. d(x, y) = 1, genau dann, wenn x 6= y und d(x, x) := 0, so ist
K(x0 , r) = {x0 }, wenn r < 1 und X sonst.
3. Die rationalen Zahlen sind dicht in R, weil in jedem noch so kleinen Intervall K(x, r) =
(x − r, x + r) um eine beliebige reelle Zahl x auch rationale Zahlen liegen.
4. Wichtig ist die dichte Einbettung eines metrischen Raumes in seine Vervollständigung
(siehe Anmerkung 153).
Anmerkung 160 Die folgenden Aussagen sind Konsequenzen der Definitionen:
1. Jede offene Kugel ist offen.
2. Eine Menge ist genau dann offen, wenn sie Vereinigung offener Kugeln ist.
3. Die Vereinigung beliebig vieler und der Durchschnitt endlich vieler offener Mengen
ist offen.
4. Der Durchschnitt beliebig vieler und die Vereinigung endlich vieler abgeschlossener
Mengen ist abgeschlossen.
5. Das Komplement einer offenen (abgeschlossenen) Menge ist abgeschlossen (offen).
5.1. Metrische Räume
179
6. Jede kompakte Menge ist beschränkt und abgeschlossen (aber im allgemeinen nicht
umgekehrt).
Schließlich sei noch der Satz von Heine-Borel vermerkt (M2 ET): Eine Teilmenge von
(Rn , d) bzw. (Cn , d) mit d die euklidische Metrik ist genau dann kompakt, wenn sie
beschränkt und abgeschlossen ist.
Nachweise dieser Aussagen findet man in Beispiel 272.
Definition 161 (Stetigkeit) Eine Abbildung f : (X, d) → (Y, δ) ist (folgen)stetig an x0 ∈
X, falls für jede gegen x0 konvergente Folge {xn }∞
n=1 die Gleichung
f (x0 ) = f ( lim xn ) = lim f (xn )
n→∞
n→∞
stetige Funktion gilt.
Anmerkung 162 Die folgenden Aussagen für eine Abbildung f : (X, d) → (Y, δ) sind
Konsequenzen der Definitionen:
1. f ist genau dann stetig, wenn das Urbild jeder offenen (abgeschlossenen) Menge
offen (abgeschlossen) ist.
2. Ist f stetig, so ist der Graph {(x, f (x)) | x ∈ X} eine abgeschlossene Teilmenge von
X × Y ist, wobei als Metrik in X × Y die Funktion
d((x, y), (x0 , y 0 )) := d(x, x0 ) + d(y, y 0 )
dient.
3. Ist f stetig, so ist das Bild einer kompakten Menge stets kompakt.
4. (Weierstraß) Ist X kompakt und f : (X, d) → (R, | · |) stetig, so gibt es ein x∗ ∈
X mit supx∈X |f (x)| = f (x∗ ). Ist insbesondere {xn }∞
n=1 eine gegen ein x0 ∈ X
konvergente Folge in X mit
lim f (xn ) = sup |f (x)|,
n→∞
x∈X
so ist supx∈X |f (x)| = f (x0 ).
5. (Stetige Fortsetzung einer auf dichter Teilmenge gleichmäßig stetigen Funktion). Ist
Y vollständig, D dicht in X, so läßt sich jede auf D gleichmäßig stetige Funktion
zu einer auf ganz X gleichmäßig stetigen Funktion erweitern.
180
Metrische Räume
Beispiel 163 Einige einfache Beispiele sollen konkreten Nutzen andeuten:
1. Warum ist {(x, y) ∈ R2 | x2 + y 2 = 1} abgeschlossen?
Antwort: Die Abbildung f : R2 → R, gegeben durch f (x, y) := x2 + y 2 − 1, ist stetig
(sogar differenzierbar). Da {0} eine abgeschlossene Teilmenge von R ist, ergibt das
Stetigkeitskriterium die Abgeschlossenheit von
f −1 ({0}) = {(x, y) | f (x, y) = 0} = {(x, y) | x2 + y 2 = 1}.
Warum ist die Menge {(x, y) | 1 < x2 + y 2 < 4} offen?
Antwort: Die Abbildung f : R2 → R, gegeben durch f (x, y) = x2 + y 2 , ist stetig.
Weiters ist die Menge (1, 4) ein offenes Intervall in R und somit
f −1 ((1, 4)) = {(x, y) | f (x, y) ∈ (1, 4)} = {(x, y) | 1 < f (x, y) < 4} = {(x, y) | 1 < x2 +y 2 < 4}
offen.
2. Man zeige, daß es (x∗ , y ∗ ) mit sup{(x,y)|x2 +y2 =1} xy = x∗ y ∗ und (x∗ )2 + (y ∗ )2 = 1 gibt.
Wie kann (x∗ , y ∗ ) gefunden werden?
Antwort. Der Kreis S := {(x, y) | x2 + y 2 = 1} ist kompakt, weil abgeschlossen und
beschränkt. Die Funktion f , definiert durch f (x, y) := xy nimmt wegen des Satzes
von Weierstraß auf S ihr Supremum an und daher gibt es (x∗ , y ∗ ) mit den geforderten
Eigenschaften.
Um (x∗ , y ∗ ) zu finden, eignet sich die Methode der Lagrangeschen Multiplikatoren, d.h.
man bildet Φ(x, y, λ) := xy + λ(x2 + y 2 − 1), differenziert nach x, y, setzt Null und
findet y + 2λx = x + 2λy = x2 + y 2 − 1 = 0, also (nach elementarer Rechnung) x = ±y.
Als Supremum findet man schließlich den Wert 21 , der an der Stelle (x∗ , y ∗ ) = ( √12 , √12 )
angenommen wird.
3. (Bestapproximation) Es sei K eine kompakte Teilmenge von (X, d) und x ∈ X, gibt
es ein k ∈ K, welches von x minimalen Abstand hat? Ist die Aufgabe eindeutig lösbar?
Antwort: Es sei f : K → R durch f (k) := d(k, x) definiert. Da f stetig auf der
kompakten Menge ist, nimmt sie dort wegen des Satzes von Weierstraß ihr Minimum
an.
Die Lösung muß nicht eindeutig sein, es genügt hiezu für K := {(x, y) | x2 + y 2 = 1},
d.i. die Einheitskreislinie in der Ebene (beschränkt+abgeschlossen, also kompakt) und
den Mittelpunkt, sowie die euklidische Metrik zu nehmen.
Beispiel 164 Nachweis der Behauptungen in Anmerkung 162. Zunächst die Charakterisierungen der Stetigkeit:
1. Es sei f folgenstetig und V offen in Y . Es soll gezeigt werden, daß f −1 (V ) offen ist.
Sei x ∈ f −1 (V ) und y := f (x). Nun sei Un := K(x, n1 ). Die Idee des BW besteht darin,
5.1. Metrische Räume
181
ein N zu finden, für das UN in f −1 (V ) enthalten ist. Wir zeigen das indirekt: falls jede
Kugel Un ein Element xn mit f (xn ) 6∈ V enthält, so ergibt sich aus d(x, xn ) < n1 , daß
limn→∞ xn = x ist. Dann ist limn→∞ f (xn ) = f (x) ∈ V 0 , da ja das Komplement V 0 von
V abgeschlossen ist, ein Widerspruch, weil ja f (x) ∈ V ist.
Es sei nun das Urbild f −1 (V ) jeder offenen Menge offen in X. Nun sei B beliebige
abgeschlossene Teilmenge von Y . Dann ist f −1 (B 0 ) offen in X und weil f −1 (B 0 ) =
(f −1 (B))0 (wie man aus den Definitionen der entsprechenden Komplementbildungen in
Y bzw. X sofort entnimmt), ist f −1 (B) somit abgeschlossen.
Schließlich sei das Urbild f −1 (B) jeder abgeschlossenen Teilmenge von Y abgeschlossen
in X. Nun sei {xn }∞
n=1 eine gegen x ∈ X konvergente Folge. Wir wollen limn→∞ f (xn ) =
f (x) zeigen. Es sei B := {f (xn ) | n ∈ N} der Abschluß der Bildmenge der Folge {xn }∞
n=1 .
Das Urbild von B ist abgeschlossen, und die Folge {xn }∞
ist
in
diesem
Urbild
enthaln=1
ten. Daher liegt x in diesem Urbild. Deshalb muß es eine Teilfolge der Folge {xn }∞
n=1
geben, deren Bilder gegen f (x) konvergiert. Da unsere gegen x konvergente Folge beliebig gewählt war, und sie stets eine eine Teilfolge enthält, deren Bilder gegen f (x)
konvergieren, ist limn→∞ f (xn ) = f (x).
2. Es sei f stetig. Nun sei {(xn , yn )}∞
n=1 eine konvergente Folge von Punkten im Graphen
G(f ), d.h. yn = f (xn ). Wegen der Stetigkeit hat man
lim d(xn , x) = lim d(f (xn ), f (x)) = 0,
n→∞
n→∞
sodaß in der Produktmetrik
lim (d(xn , x) + d(f (xn ), f (x))) = 0
n→∞
folgt. Deshalb ist limn→∞ (xn , yn ) = (x, f (x)) ∈ G(f ), sodaß der Graph von f eine
abgeschlossene Teilmenge von X × Y ist.
3. Es sei K kompakte Teilmenge von X und f stetig. Dann ist zu zeigen, daß jede Folge
{f (kn )}∞
n=1 mit kn ∈ K eine konvergente Teilfolge besitzt, und weiters, daß jede konvergente Folge von Elementen in f (K) gegen ein Element in f (K) konvergiert. Da K
kompakt ist, gibt es eine konvergente Teilfolge und wegen der Stetigkeit von f konvergiert die Folge der Bilder. Sei nun {f (kn )}∞
n=1 eine gegen y ∈ Y konvergente Folge.
Wir wollen zeigen y ∈ f (K). Da K kompakt ist, gibt es eine gegen ein k ∈ K konvergente Teilfolge der Folge {kn }∞
n=1 , deren Bildfolge wegen der Stetigkeit von f gegen
f (k) ∈ f (K) konvergiert. Diese Bildfolge konvergiert als Teilfolge von {f (kn )}∞
n=1 gegen
y, sodaß y = f (k) ∈ f (K) liegt. konvergiert.
4. Man verwendet die vorherige Situation mit Y := R. Dann ist f (X) eine kompakte
Teilmenge von R, welche beschränkt und abgeschlossen ist. Sie besitzt deshalb ein
Maximum, d.i. es gibt ein x∗ mit f (x∗ ) = max f (X).
5. Zunächst zeigt man die Konvergenz der Folge {f (dn )}∞
n=1 für jede gegen ein x ∈ X
∞
konvergente Folge {dn }n=1 . Ist x ∈ D, so ergibt sich dies aus der Stetigkeit von f .
182
Metrische Räume
Nun sei x 6∈ D. Da f auf D gleichmäßig stetig ist, ist die Folge der {f (dn )}∞
n=1 eine
Cauchyfolge und somit gegen ein y ∈ Y konvergent, weil Y vollständig ist. Danach
definiert man als Erweiterung f˜(x) := limn→∞ fn (dn ).
5.1.5
Approximationssatz von Stone-Weierstraß
Dieser Satz ist theoretische Grundlage für viele Approximationsfragen. Wie unten noch auszuführen, folgt aus diesem Satz, daß sich jede stetige 2π-periodische Funktion durch eine
Reihe von der Bauart einer Fourierreihe (allerdings nicht genau die Fourierkoeffizienten)
gleichmäßig approximieren läßt, wenn die Funktionswerte in den Endpunkten übereinstimmen. In der Fourieranalysis wird dieses Faktum dazu benützt, die Approximierbarkeit von
quadratisch integrierbaren
Funktionen mittels Fourierreihen im Sinne der quadratischen KonqR
Pn
2π
in 2
vergenz (limn→∞
k=−n cn e | dx = 0) herzuleiten. Siehe Beispiel 223 1.
0 |f (x) −
Anmerkung 165 Es handelt sich um folgende Begriffe und Aussagen:
Ausgangssituation : ist ein kompakter topologischer Raum X und eine Teilmenge S
von reell- bzw. komplexwertigen auf X stetigen Funktionen.
S ist punktetrennend, wenn es zu je zwei Punkten x 6= x0 in X eine Funktion f in S
mit f (x) 6= f (x0 ) gibt.
Approximationssatz I: Ist S ein reeller Vektorraum punktetrennender Funktionen,
der mit je 2 Funktionen f und g die Funktion max{f, g} enthält, und dem die
konstante Funktion 1 angehört, so kann jede auf X stetige Funktion gleichmäßig
durch Funktionen in S approximiert werden.
Approximationssatz II : Ist S eine Familie punktetrennender Funktionen, welche die
konstante Funktion 1 enthält, so kann jede stetige Funktion auf X gleichmäßig
durch Polynomausdrücke in S approximiert werden.
Approximationssatz komplexe Version: Ist S eine Familie punktetrennender
Funktionen, welche die konstante Funktion 1 enthält und mit jedem s auch die
konjugierte, so kann jede stetige Funktion auf X gleichmäßig durch Polynomausdrücke in S approximiert werden.
Der Beweis kann z.B. in [14] gefunden werden.
Beispiel 166 Die prominentesten Situationen sind die folgenden:
Polynomapproximation auf kompaktem Intervall I: Jede auf dem kompakten Intervall I stetige Funktion kann gleichmäßig durch Polynome approximiert werden.
Hier besteht S aus allen Polynomen. Es ist 1 ein Polynom und jeder Polynomausdruck
in Polynomen ein Polynom, also kann II herangezogen werden.
5.1. Metrische Räume
183
Trigonometrische Polynome: Man betrachtet alle Ausdrücke
N
X
1
a0 +
An cos nx + Bn sin nx,
2
n=1
die wegen der trigonometrischen Identitäten bei Multiplikation wieder so eine Summe
ergeben. Somit besagt II, daß jede auf [0, 2π] stetige Funktion gleichmäßig durch solche
trigonometrischen Summen approximiert werden kann.
(Trigonometrische) Exponentialsummen: Man betrachtet auf [0, 2π] als Familie S alle
Funktionen
N
X
cn einx
n=−N
mit komplexen Koeffizienten cn , welche die Voraussetzungen der komplexen Version
erfüllen. Demnach kann jede auf [0, 2π] stetige Funktion gleichmäßig durch solche Polynome approximiert werden.
Hutfunktionen: Es sei (beispielhalber) I = [0, 1] und man betrachtet alle Hutfunktionen
mit Teilungspunkten an Vielfachen von Potenzen von 21 (“dyadischen Punkten”). Diese Familie erfüllt zusammen mit der konstanten Funktion 1 die Voraussetzungen von
I, sodaß jede stetige Funktion gleichmäßig durch Hutfunktionen approximiert werden
kann. In effizienter Weise wird dies bei FEM-Methoden benützt.
184
Metrische Räume
Kapitel 6
Lineare Funktionalanalysis
6.1
Vektorräume
6.1.1
Grundlagen, Axiome
Definition 167 (K-Vektorraum) Ein K-Vektorraum oder linearer Raum über dem Skalarkörper K besteht aus folgenden Bestandteilen:
1. Dem Körper K.
2. Einer abelschen Gruppe (V, +).
3. Einer Abbildung · : K ×V → V , die als Multiplikation von Elementen in V mit Skalaren
bezeichnet wird, sodaß für alle k, l ∈ K und alle u, v ∈ V , sowie die 1 in K die folgenden
Gleichungen gelten:
1·v
= v
(k + l) · v = k · v + l · v
k · (u + v) = k · u + k · v
(kl) · u
= k · (l · v).
Wir werden das ‘·’ oft weglassen.
Beispiel 168 Grundlegende Beispiele:
1. (Koordinatenraum) Es ist K n der Koordinatenraum, aufgefaßt als Zeilen bzw. Spalten (etwa n = 3)


v1
~v := (v1 , v2 , v3 ), eher jedoch ~v = (v1 , v2 , v3 )T =  v2  ,
v3
wobei ‘T ’ Transponieren bedeutet, d.h. Übergang von jeweils Zeilend-/Spalten- zu
Spalten-/Zeilendarstellung. Addiert, bzw. Multipliziert mit Skalaren wird komponentenweise. Grundsätzlich ist es egal, ob man den Koordinatenraum als Menge von Zeilen185
186
Lineare Funktionalanalysis
oder Spaltenvektoren auffaßt, jedoch legt es Matrizenrechnung nahe, Vektoren als Spalten (und später die linearen Funktionale oder auch Kovektoren als Zeilen) aufzufassen.
Der Koordinatenraum K n kann als Funktionenraum von auf einer n-elementigen Menge
definierten Funktionen mit Werten in K angesehen werden, wie das nächste Beispiel
zeigt.
2. (Funktionenräume K X ) Ist X eine beliebige Menge, so wird die Menge aller Kwertigen Funktionen zu einem K-Vektorraum, wenn man für f, g ∈ K X und k ∈ K die
Funktionen f + g bzw. k · f durch (f + g)(x) := f (x) + g(x) und (k · f )(x) := k · f (x)
festlegt1 .
Es ist üblich, statt K {1,...,n} einfach K n zu schreiben, da jedes f ∈ K {1,...,n} durch
das n-Tupel (f (1), . . . , f (n)) ∈ K n eindeutig festgelegt ist. Umgekehrt läßt sich jedes
n-Tupel (k1 , . . . , kn ) als Funktion f : {1, . . . , n} → K auffassen, indem man f (i) := ki
definiert.
Im Fall K = R und n = 2 zeigt die folgende Skizze, wie man das Element (3, 4) ∈ R2
links als Element im Koordinatenvektorraum interpretiert und rechts als Funktion auf
der zweielementigen Menge {1, 2}. Der Leser möge für sich selbst die Situation n = 3
skizzieren.
·
·4
(3,C 4)
·3
·
•
(0, 0)
·
1
·
2
(3, 4) ∈ R2
Graph der Funktion f mit f (1) := 3, f (2) := 4
Gibt es die beiden Sichtweisen auch für unendliches X, etwa für X := N?
Antwort: Wenn X = N ist, so ist K N der Vektorraum der unendlichen Folgen {kn }∞
n=1 ,
wobei für f ∈ K N das Tupel durch kn := f (n) festgelegt ist. Man bräuchte offenbar
unendlich viele “Achsen”, sodaß die übliche im R3 gebräuchliche Sichtweise von “Vektoren” zeichnerisch schwer realisierbar ist. Hingegen kann die Folge als Graph skizziert
werden, in der nachstehenden Skizze sieht man die ersten 8 Glieder der reellen Folge
xn := n1 angedeutet.
1
Links sind ‘+’ bzw. ‘·’ die neu definierten Operationen auf K X , und rechts Operationen in K.
6.1. Vektorräume
187
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
Wie kann man die Operationen ‘+’ und ‘·’ geometrisch interpretieren?
Antwort: Die geometrische Interpretation im Rn erlaubt die Sichtweise der aus der
Physik gewohnten “Vektoraddition”, jene als Graph von Funktionen jene der “linearen
Überlagerung” von Funktionen. Für die Addition der Elemente ~c = ~a + ~b von Vektoren im R2 wird die obige Interpretation als Funktionsgraph rechts wiedergegeben. Die
punktierte Linie soll
die “Koordinaten”
der Vektoren
erkennbar machen. Hier
lediglich
4
2
2
.
und ~c = ~a + ~b =
, ~b =
für Vektoren ~a =
3
0
3
·
a1
a1 + b1
~c
~
~a =
~c = ~a + b =
a2
a2 + b2
;
D·
ww·
·
w
~a
w
w
w
ww
w
w
ww
ww
w
ww
www
w
w
wwww
w
w
w
/·
~b =
b1
b2
·
·
1
~b
·
2
Beispiel 169 (Raum der Testfunktionen) Es sei C ∞ (R) die Menge der auf ganz R definierten, beliebig oft in jedem x ∈ R differenzierbaren Funktionen (wie z.B. sin(x)).
Ist C ∞ (R) ein reeller Vektorraum?
Antwort: Man hat sich zu überlegen, daß mit f, g beliebig oft differenzierbar, auch kf + lg
beliebig oft differenzierbar ist. Für die erste Ableitung verwendet man
(kf + lg)(x + h) − (kf + lg)(x)
f (x + h) − f (x)
g(x + h) − g(x)
=k
+l
h
h
h
woraus beim Grenzübergang h → 0 die Existenz des Grenzwertes auf der linken Seite folgt
und zudem die bekannte Regel (kf + lg)0 = kf 0 + lg 0 bestätigt wird. Nun verwendet man
vollständige Induktion.
188
Lineare Funktionalanalysis
Ist die Teilmenge D(R), die Menge der Testfunktionen, welche definitionsgemäß aus allen
Funktionen in C ∞ (R) besteht, die außerhalb eines beschränkten Intervalls Null sind, ein
linearer Teilraum von C ∞ (R)?
Antwort: Ja. Verschwindet nämlich f außerhalb des beschränkten Intervalls I und g außerhalb des beschränkten Intervalls J, so verschwindet kf + lg außerhalb der Menge I ∪ J. Nun
sei a := min{x | x ∈ I ∪ J} und b := max{x | x ∈ I ∪ J}, so verschwindet f + g außerhalb
des Intervalls [a, b] und dieses Intervall ist beschränkt.
Gibt es überhaupt Testfunktionen außer der trivialen Funktion, die identisch Null ist?
Antwort: Ja, es gibt eine Funktion ψ, die auf dem Intervall (0, 1) positiv und sonst Null
ist, eine sogenannte Beulenfunktion.
1
Hier ist die übliche Konstruktion. Zunächst definiert man φ(x) := e− x , falls x > 0 ist,
und φ(x) = 0 sonst. Die Funktion ist an Null stetig, weil limh→0+ x1 = +∞, und somit das
Minus dazu führt, daß die Exponentialfunktion gegen Null strebt. Für x 6= 0 ist die Funktion
sichtlich beliebig oft differenzierbar (links von Null ergibt sich stets Null, rechts “horrende”
Ausdrücke der Gestalt (n ∈ N)
Polynom(x)e−1/x
.
xn
(∗)
−1
Für x = 0 muß die Grenzwertdefinition der Ableitung herangezogen werden: φ(h)−φ(0)
= e hh
h
und die Regel von De L’Hospital zeigt, daß der Grenzwert Null wird. Die gleiche Art der
Überlegung zeigt, daß die Funktion in (∗) ebenfalls die Ableitung Null an Null hat. Es mag
noch hilfreich sein, zu vermerken, daß die Funktion φ, wie bemerkt, “unendlich” flach an 0
ist, danach monoton ansteigt und sich der Asympote y = 1 von unten her nähert.
Nun kann ein ψ mit den behaupteten Eigenschaften durch ψ(x) := φ(x)φ(1 − x) festgelegt
werden. Es hat die Gestalt einer Beule, daher der Name.
6.1.2
Teil-, Quotienten- und Komplementärraum
Definition 170 (Teil-, Quotienten-, und Komplementärraum)
(Linearer) Teilraum: Eine Teilmenge U eines K-Vektorraums V heißt (linearer) Teilraum
von V , falls U eine der folgenden äquivalenten Bedingungen erfüllt:
• U ist eine Untergruppe von V und K · U := {k · u | k ∈ K, u ∈ U } ⊆ U .
• Für alle u, v ∈ U und alle k, l ∈ K gehört k · u + l · v zu U .
• Für alle u, v ∈ U und alle k ∈ K gehören u + v und k · u zu U .
Quotientenraum: Ist U ein Teilraum von V so kann die Quotientengruppe V /U , nämlich
die Menge aller Mengen der Form v + U = {v + u | u ∈ U } (genau wie in Definition
125) als K-Vektorraum auffassen, indem man
(v + U ) + (w + U ) := (u + w) + U, k(v + U ) := kv + U
definierta .
6.1. Vektorräume
189
Komplementärraum: Ein Teilraum W von V heißt Komplemetärraum zu U (oder oft
kurz Komplementb ), falls eine der folgenden äquivalenten Bedingungen erfüllt ist:
• Jede Nebenklasse von U hat genau einen Schnittpunkt mit W , d.h. für alle v ∈ V
besteht (v + U ) ∩ W aus genau einem Element.
• Jedes Element v in V hat eine eindeutige Darstellung
v =u+w
mit u ∈ U und w ∈ W .
• U ∩ W = {0} und U + W := {u + w | u ∈ U, w ∈ W } = V . Man drückt dies auch
durch V = U ⊕ W aus, und bezeichnet V als direkte Summe der Teilräume U und
V.
Bitte nicht mit Komplement einer Menge verwechseln!
V
0
U
Im Bild ist U ein 2-dimensionaler Teilraum des
(etwa die (x, y)-Koordinatenebene), V ein Komplementärraum zu U
(zusammen spannen sie den R3 auf und haben nur den Nullvektor gemeinsam). Das
(mengentheoretische) Komplement zu U , im Zeichen R3 \ U , entsteht, indem man die
ganze Ebene U aus dem R3 entfernt.
R3
a
b
Auf jeweils der linken Seite ist das nicht eingeklammerte ‘+’ (bzw. nicht explizit angeschriebene ‘·’) als zu definieren zu verstehen, rechts ist das ‘+’ (bzw. ‘·’) jenes in V .
Man muß sich Wohldefiniertheit überlegen. Für ‘+’ besteht das darin, v 0 ∈ v + U und
w0 ∈ w + U beliebig vorzugeben, und zu vermerken, da v 0 + w0 ∈ (v + w) + U ist, somit
(v 0 + U ) + (w0 + U ) = (v + U ) + (w + U ) gilt. Analog für k(v + U ).
Nicht mit dem mengentheoretischen Komplement A \ B = {a ∈ A | a 6∈ B} zu verwechseln.
Beispiel 171 Einführende Übungen hiezu.
1. Ist die Gerade U := {(x, x) | x ∈ R} ein linearer Teilraum von R2 ?
Antwort(findung): Das ist der Fall, der Nachweis soll mittels der dritten Formulierung
190
Lineare Funktionalanalysis
erbracht werden: Sind u := (x, x) und v := (y, y) Elemente in U , so ist u + v =
(x + y, x + y) ∈ U . Weiters ist für reelles r stets r · u = r · (x, x) = (rx, rx) ∈ U .
Wie kann der Quotientenraum V /U beschrieben werden? Welche geometrische Deutung
kann gegeben werden?

Antwort: Der Quotientenraum besteht aus
der Menge aller zu U parallelen Geraden.
“Schrumpft” man jede dieser Geraden auf einen
Punkt der x-Achse (angedeutet durch die punktierte Linie), so erweist sich V /U als zu R isomorpher Vektorraum.
Wie sehen Komplementärräume zu U aus?
Antwort: Jede Gerade durch den Ursprung, mit Ausnahme von U erweist sich als Komplementärraum. Mit der ersten Form der DN sieht man das am einfachsten ein.
2. Ist die Menge U der ungeraden, auf dem reellen Intervall [−1, 1] definierten reellwertigen
Funktionen Teilraum von R[−1,1] ?
Antwort: Ja. Wir wollen die DN in der zweiten Form benützen. Sind u, v ungerade
Funktionen, so erfüllen sie für alle x ∈ [−1, 1] die Gleichung u(x) = −u(−x), bzw.
v(x) = −v(−x). Deshalb gilt für alle r, s ∈ R und alle x ∈ [−1, 1]
(ru+sv)(x) = ru(x)+sv(x) = r(−u(−x)+s(−v(−x)) = −(ru(−x)+sv(−x)) = −(ru+sv)(−x),
sodaß ru + sv ∈ U ist.
Wie kann die Tatsache, daß jede Funktion eine eineutige Zerlegung in einen geraden
und einen ungeraden Anteil hat, im Sinne von Komplementärräumen gesehen werden?
Antwort: Ist G die Menge der geraden Funktionen, so ist K X = U ⊕ G, m.a.W. G ist
Komplementärraum zu U und U einer zu G.
3. Für eine Funktion f ∈ K X ist {x ∈ X | f (x) 6= 0} der Träger von f .
Ist die Menge W aller Funktionen in K X mit endlichem Träger ein linearer Teilraum?
Antwort: Ja. Wir verwenden die DN in der dritten Form. Sind u, v ∈ K X solche Funktionen und A ⊆ X, B ⊆ X die Träger von u und v, so verschwinden beide Funktionen
u und v außerhalb der Menge A ∪ B, sodaß der Träger von u + v sichtlich in A ∪ B
enthalten ist. Deshalb ist der Träger von u + v endlich und somit gehört u + v zu W .
Schließlich überlegt man sich daß der Träger von ku gleich jenem von u ist, sobald k 6= 0
ist.
Wenn X unendlich ist, ist dann die Teilmenge jener f von K X , welche unendlichen
Träger haben, ein linearer Teilraum?
Antwort: Nein. Sei z.B. f jene Abbildung, die jedem x ∈ X den Wert f (x) := 1
zuordnet. Der Träger von f ist dann ganz X, ist also unendlichen. Auch die Funktion
6.1. Vektorräume
191
g := −f hat X als Träger. Der Träger der Summe von f + g = 0 ist leer, also endlich.
Die Funktionen mit unendlichem Träger bilden somit keine abelsche Gruppe und daher
keinen Teilraum (1.te Charakterisierung) von K X .
4. Wie beweist man die Äquivalenz der Kennzeichnung eines Komplementärraumes W zu
U?
Antwort: Es gelte die erste Kennzeichnung. Sei nun v ∈ V beliebig. Dann ist v + U
die eindeutig bestimmmte Nebenklasse, zu der v gehört. Es sei w(v) das eindeutig
bestimmte Element in (v + U ) ∩ W . Da w(v) ∈ v + U ist, gibt es ein u ∈ U mit
w(v) = v + u. Deshalb ist v = u + (−w(v)) eine Summe aus einem Element in U
und einem in W . Angenommen, v = u0 + w0 ist eine beliebige Summendarstellung mit
u0 ∈ U 0 und w0 ∈ W . Dann ist w0 = v + (−u0 ) ∈ v + U und w0 ∈ W , sodaß w = w0 sein
muß. Dann ist auch u = u0 und die 2.te Kennzeichnung gilt.
Es gelte die zweite Kennzeichnung für W . Angenommen x ∈ U ∩W . Dann sind 0 = x+0
und 0 = 0 + x Zerlegungen des Nullvektors in einen Anteil in U und einen in W und
wegen der Eindeutigkeit kann dann nur x = 0 gelten. Da jedes Element v ∈ V (sogar
eindeutig) als ein v = u + w mit u ∈ U und w ∈ W darstellbar ist, ist V = U + W . Die
3.te Kennzeichnung ist erfüllt.
Es gelte die 3.te Kennzeichnung für W . Für eine beliebige Nebenklasse v +U betrachten
wir (v + U ) ∩ W und wollen zeigen, daß diese Menge genau ein Element enthält. Seien
w, w0 ∈ (v + U ) ∩ W . Dann gibt es u, u0 ∈ U mit
v = u + w = u0 + w0 ,
sodaß Subtraktion auf u − u0 = w0 − w ∈ U ∩ W = {0} führt. Deshalb ist u = u0 und
insbesondere w = w0 , sodaß die 1.te Kennzeichnung bewiesen ist.
Anmerkung 172 Ist {Ui | i ∈ I} eine Familie von Teilräumen von V , so ist
Teilraum von V .
T
i∈I
Ui ein
Beweis: Die dritte
T Charakterisierung eines Teilraumes benützend,Tsoll lediglich der Nachweis für
u
+
v
∈
i∈I Ui erbracht werden, falls beide, u und v in
i∈I Ui liegen (jener für
T
ku ∈ i∈I Ui geht ähnlich): Es ist
T
T
(u ∈ i∈I Ui ) ∧ (v ∈ i∈I Ui )) ⇔ (∀i ∈ I) ((u ∈ Ui ) ∧ (v ∈ Ui ))
⇒ (∀i ∈ I) Tu + v ∈ Ui
⇔ u + v ∈ i∈I Ui
Beispiel 173 Beispiele zu hauptsächlich Teilräumen von Funktionenräumen.
1. Es sei V die Menge der aur [0, 2π] definierten reellen Funktionen, d.h. V = R[0,2π] .
Ist die Menge C[0, 2π] der auf [0, 2π] stetigen Funktionen ein linearer Teilraum von V ?
192
Lineare Funktionalanalysis
Antwort: Zum Nachweis der ersten Teilbehauptung werde Definition 170, dritte Charakterisierung herangezogen (wir werden lediglich “u + v stetig” vorzeigen, ku geht
genauso). Eine Funktion f ist an x0 bekanntlich stetig, genau dann, wenn für jede ganz
in [0, 2π] befindliche Folge {xn } mit limn→∞ xn = x0 auch limn→∞ f (xn ) = f (x0 ) gilt.
Sind nun u, v stetig an x0 und {xn } eine gegen x0 konvergente Folge, so gilt wegen der
Grenzwertregeln
lim (u+v)(xn ) = lim (u(xn )+v(xn )) = lim u(xn )+ lim v(xn ) = u(x0 )+v(x0 ) = (u+v)(x0 ).
n→∞
n→∞
n→∞
n→∞
Somit hat man gezeigt, daß für jedes feste x0 ∈ [0, 2π] die an diesem Punkt stetigen
Funktionen einen linearen Teilraum Ux0 von V bilden. Weil
\
U x0
C[0, 2π] =
x0 ∈[0,2π]
genau die Menge der auf [0, 2π] stetigen Funktionen ist, ist wegen Anmerkung 172 die
Menge C[0, 2π] linearer Teilraum von V .
Ist U := {f ∈ V | f (0) = f (2π)} ein linearer Teilraum von V ? Ist Wx0 := {f ∈ V |
f (x0 ) = 0} ein linearer Teilraum von V ? Ist M := {f ∈ V | f (0) = f (2π) = 0} linearer
Teilraum? Ist C0 [0, 2π] := {f ∈ U | f (0) = f (2π) = 0} linearer Teilraum?
Antwort: Um die erste Frage mit ‘Ja’ beantworten zu können, soll Definition 170,
dritte Charakterisierung herangezogen werden: Es seien k, l ∈ R und u, v ∈ U . Dann
ist u(0) = u(2π) und v(0) = v(2π). Deshalb ist
(ku + lv)(0) = ku(0) + lv(0) = ku(2π) + lv(2π) = (ku + lv)(2π).
Somit ist U linearer Teilraum.
Es werde die zweite Charakterisierung zum Nachweis dafür, daß Wx0 linearer Teilraum
ist, herangezogen. Sind k, l ∈ R und u, v ∈ Wx0 so ist
(ku + lv)(x0 ) = ku(x0 ) + lv(x0 ) = 0,
also ku + lv ∈ Wx0 .
Weil M = W0 ∩ W2π , folgt aus der vorigen Teilbehauptung und weil wegen Anmerkung
172 der Durchschnitt linearer Teilräume linearer Teilraum ist, daß M linearer Teilraum
ist.
In analoger Weise ergibt sich C0 [0, 2π] = C[0, 2π]∩M , sodaß C0 [0, 2π] linearer Teilraum
ist.
6.1.3
Lineare Hülle, Unabhängigkeit, Basen, Dimension
6.1. Vektorräume
193
Definition 174 (Lineare (Un)abhängigkeit, Basis)
Linearkombination: Ist V ein K-Vektorraum und ist W ⊆ V eine endliche, nicht leere
Teilmenge, so heißt jeder Ausdruck
X
v=
kw w
w∈W
mit kw ∈ K eine Linearkombination der Elemente von W . Ist W die leere Menge, so
wird
X
kw w := ~0
w∈∅
definiert. Es heißt kw Koeffizient von w. Man sagt auch, daß v aus den Elementen in
W linear kombinierbar ista .
Lineare Hülle: Die Menge aller Linearkombinationen von Elementen einer einer nicht leeren Teilmenge X ist ein linearer Teilraum, der mit L(X) bezeichnet werden soll und
heißt der von X aufgespannte oder erzeugte lineare Teilraum von V , und wird auch
lineare Hülle von X genannt. Falls X leer ist, definiert man L(X) := {0}. Die Menge
X nennt man auch Erzeugendensystem von U := L(X).
Elementaroperationen mit Erzeugendensystemen:
• Weglassen des Nullvektors: Ist U = L(X), so ist U = L(X \ {0}).
• Addieren von skalaren Vielfachen eines festen Vektors in X zu allen anderen: Es
sei U = L(X). Ist x0 ∈ X und λ : X \ {x0 } → K, sowie Y := {x0 } ∪ {x + λ(x)x0 |
x ∈ X, x 6= x0 }, so ist U = L(Y ).
Lineare (Un)abhängigkeit: Eine Teilmenge X ⊆ V heißt linear abhängig, falls es eine
endliche Teilmenge W ⊆ X und Elemente kx ∈ K gibt, die nicht alle Null sind, sodaß
X
kw w = 0
w∈W
giltb .
Falls X nicht linear abhängig ist, so heißt X linear unabhängig. Die leere Menge ist
stets linear abhängig. Man beachte, daß jede Menge X mit 0 ∈ X linear abhängig ist.
Basis : Jede der folgenden Eigenschaften kennzeichnet eine nicht leere Teilmenge X von V
als Basis von V :
• X ist linear unabhängig, jedoch X ∪ {v} linear abhängig für jedes v ∈ V \ X.
• Jedes v ∈ V ist mit eindeutig bestimmten Koeffizienten kx als Linearkombination
X
v=
kx x
x∈X
darstellbar (dabei sind gemäß DN der Linearkombination alle bis auf endlich viele
kx Null).
194
a
b
Lineare Funktionalanalysis
Man stellt sich am besten vor, daß jedes w mit einem Koeffizienten “skaliert” wird, und
danach die skalierten Vektoren (bzw. Funktionen) addiert werden.
Andere Redensart: 0 kann in nicht trivialer Weise durch Elemente in X linear kombiniert
werden.
Beispiel 175 Einfache Beispiele zu den Begriffen:

  
1
0
3



1. Es sei K := R und V := R . Weiters sei W := { 2 , 0 }. Welcher der Vektoren
3
1
     
1
0
1
in { 1  ,  0  ,  2 } ist eine Linearkombination von Elementen in W ?
1
0
2


v1
Antwortfindung: Jede Linearkombination v :=  v2  von Elementen in W hat die
v3
Gestalt


 
  

v1
1
0
k1
 v2  = k1  2  + k2  0  = 
.
2k1
v3
3
1
3k1 + k2
Somit fällt die Antwort genau dann mit “Ja” aus, wenn man die drei Gleichungen
v1 = k1 , v2 = 2k1 , v3 = 3k1 + k2
(6.1)
simultan lösen kann. Man kann nun 
jedender 3 Vektoren
  der Angabe
  hernehmen und zu
0
1
0





0
lösen versuchen. Man erkennt, daß
= 0 · 2 + 0 · 0  (also Koeffizienten
0
3
1
 
 
 
1
1
0
k1 = k2 = 0), bzw.  2  = 1 ·  2  + (−1) ·  0  (Koeffizienten k1 = 1, k2 = −1)
2
3
1
gilt.
Welcher der 3 Vektoren liegt im von W aufgespannten linearen Teilraum?
Antwort: Genau jene, welche Linearkombinationen von Vektoren in W sind! Somit der
Nullvektor und (1, 2, 2)T .
Kann man den Koordinaten v1 , v2 , v3 irgendwie ansehen, ob (v1 , v2 , v3 )T im von W
aufgespannten Teilraum liegt?
Antwort: Das ist genau dann der Fall, wenn v2 = 2v1 , wie sich aus den Gleichungen in
(6.1) ergibt.
Sind die Vektoren in W linear unabhängig?
6.1. Vektorräume
195
Antwort: Man muß herausfinden, ob (0, 0, 0)T = k1 (1, 2, 3)T + k2 (0, 0.1)T lediglich die
triviale Lösung k1 = k2 = 0 hat, und das ist der Fall, wie man aus den Gleichungen
0 = k1 , 0 = 2k1 , 0 = 3k1 + k2 abliest.
  
    
1
−1
1
0
(Elementaroperationen). Es sei X := { 1  ,  2  ,  4  ,  0 } und U =
1
1
3
0
L(X). Kann man ein Erzeugendensystem mit 1 oder 2 Elementen von U angeben?
Antwort: Wir benützen die Elementaroperationen. Zunächst kann der Nullvektor weggelassen werden. Danach sei λ((−1, 2, 1)T ) := 1 und λ((1, 4, 3)T := −1 (wir wollen die
erste Koordinate der beiden Vektoren zu Null machen). Es ergibt sich
     
1
0
0
U = L(Y ) wobei Y = { 1  ,  3  ,  3 }.
1
2
2
Jetzt empfiehlt sich x0 := (0, 3, 0)T , sowie λ((1, 1, 1)T ) := 0 und λ((0, 3, 2)T ) := −1 zu
wählen (wir wollen den letzten Vektor zu Null machen und dann mit der ersten Regel
entfernen), man findet:
   
1
0



U = L(Z) wobei Z = { 1 , 3 }.
1
2
Es ist somit Z ein Erzeugendensystem mit 2 Elementen. Daß es kein Erzeugendensystem
P = {(a, b, c)T } geben kann, sieht man (ohne Benützung von weiterer Theorie) so ein:
Wäre U = L({(a, b, c)T ), so müßte es Zahlen p, q ∈ R mit
 
   
 
a
0
a
1
 1  = p b ,  3  = q b 
c
2
c
1
geben, somit die Gleichungen 1 = ap = bp = cq (insbesondere a 6= 0) und 0 = aq,
3 = bq, 2 = cq gelten, woraus wegen a 6= 0 sofort q = 0 folgt, im Widerspruch zu z.B.
3 = bq.
Ist W eine Basis des von W aufgespannten linearen Teilraums?
Antwort: Die Menge W ist linear unabhängig, wie eben gezeigt worden ist. Ist nun v in
der linearen Hülle, also v T = k1 · (1, 2, 3)T + k2 · (0, 0.1) = (k1 , 2k2 , 3k1 + k2 )T , so ergäbe
die lineare Abhängigkeit von (1, 2, 3)T , (0, 0.1)T und v T , daß W Basis ist. Das läßt sich
jedoch aus
k1 · (1, 2, 3)T + k2 · (0, 0.1)T + (−1) · v T = (0, 0, 0)T
ablesen, weil der letzte Koeffizient, nämlich (−1) 6= 0 ist.
2. (Lineare (Un)abhängigkeit in einem Funktionenraum) Es sei V := R[0,2π] (d.i.
die Menge aller Abbildungen f : [0, 2π] → R). Man beantworte der Reihe nach folgende
Fragen:
196
Lineare Funktionalanalysis
Ist T := {1} ∪ {cos(nx) | n ∈ N} ∪ {sin(nx) | n ∈ N} eine linear unabhängige Teilmenge
von V , wenn man diese Funktionen lediglich auf [0, 2π] betrachtet? Ist T eine Basis von
V ? Liegt cos3 (x) in der linearen Hülle von T ?
Antwort: Offensichtlich ist T eine Teilmenge. Um die lineare Unabhängigkeit zu zeigen,
muß man eine eine typische Linearkombination
N
0=
a0 X
+
(an cos(nx) + bn sin(nx))
2
n=1
ansehen und beweisen, daß alle Koeffizienten Null sind2 .
Nun integriert man den Ausdruck von 0 bis 2π und findet solcherart a0 = 0. Die
Orthogonalitätsrelationen
Z
2π
Z
cos(nx) sin(mx) dx = 0,
0
2π
Z
cos(nx) cos(mx) =
0
2π
sin(nx) sin(mx) = 2πδmn ,
0
wobei δmn = 1 für m = n und 0 für m 6= n, wurden vom Leser möglicherweise schon
erwartet, sie ergeben der Reihe nach an = bn = 0 für alle n ∈ N, also ist die Menge T
linear unabhängig.
Die Funktion f (x) := x ist nicht in der linearen Hülle von T , weil jede Funktion g in T
die Bedingung g(0) = g(2π) erfüllt, wie man sich leicht überlegt, und f (0) = 0, jedoch
f (2π) = 2π 6= 0. Insbesondere kann f nicht als Linearkombination von Elementen in T
dargestellt werden, somit ist T keine Basis von V .
3
Wir zeigen, daß cos3 (x) in der linearen Hülle von T liegt. Es ist cos3 (x) = 21 (eix + e−ix ) =
1 3ix
+ e−3ix + 3eix + 3e−ix ), wie sich aus der Formel von De Moivre und dem bi8 (e
nomischen Lehrsatz ergibt. Nochmalige Anwendung von De Moivre ergibt cos3 (x) =
1
4 (cos(3x) + 3 cos(x)). Dieser Ausdruck läßt sich als Linearkombination der Elemente
in {cos(x), cos(3x)} auffassen, und weil diese Menge Teilmenge von T ist, ist cos3 (x) in
der linearen Hülle von T .
Anmerkung 176 Elementaroperationen mit Basen: Ist X eine Basis V und wendet man eine Elementaroperation im Sinn von Definition 174 an, so entsteht wieder
eine Basis von V .
Basis in K n : Im K n bilden die Elemente ei := (0, . . . , 0, |{z}
1 , 0, . . . , 0)T (wobei T transi
ponieren, also Übergang zu Spaltenvektorschreibweise bedeuten soll) eine Basis. Alle
Basen X von K n haben die gleiche Anzahl, nämlich n.
2
Zuvor ist es angebracht, die aus der Theorie der Fourierreihen gebräuchliche Schreibweise der Linearkombination mit der “abstrakten” zu vergleichen: z.B.: k1 = a20 , kcos(nx) = an , ksin(nx) = bn ,
6.1. Vektorräume
197
Basis in beliebigem V : Besteht V lediglich aus dem Nullvektor, so wird X = ∅ als
Basis gewählt. Danach läßt sich mit Mitteln der Mengenlehre (Lemma von Zorn)
die Existenz einer Basis X für jeden beliebigen Vektorraum zeigen. Auch hier gilt,
daß jede Basis die gleiche Kardinalität hat. Sie heißt Dimension von V .
P
Ist X = {e1 , . . . , en } endlich,
so
wird
aus
der
“abstrakten
Schreibweise”
x∈X kx x
P
die gewohnte Schreibweise ni=1 ki ei .
Es hat K n die Dimension n.
Beliebiges V aufgefaßt als Funktionenraum: Unter 3. in Beispiel 171 wurde für eine beliebige Menge X der Teilraum von K X von Funktionen mit endlichem Träger
beschrieben. Der Basisbegriff erlaubt es, jeden Vektorraum als Raum von Funktionen mit endlichen Trägern zu interpretieren: Ist nämlich X eine festgewählte Basis
von V , so hat läßt sich jeder Vektor v ∈ V in eindeutiger Weise linearkombinieren,
d.h.
X
v=
kx x
x∈X
wobei höchstens endlich viele kx 6= 0 sind. Nun betrachtet man in K X den Teilraum
U aller Funktionen f , für welche der Träger {x ∈ X | f (x) 6= 0} endlich ist. Offenbar
entsprechen (nach der Festlegung der Basis X) die Elemente in V eineindeutig jenen
von U .
Ist X endlich, so hat natürlich jedes f ∈ K X endlichen Träger.
Basiserweiterung: Jede Basis X eines Teilraumes U von V kann zu einer solchen von
V erweitert werden.
Die nachstehenden Beispiele streichen typische Anwendungssituationen heraus, bzw. beeinhalten Beweisdetails.
Beispiel 177 (Nachweis für die Basiserweiterung)
Wie zeigt man, daß jede Basis X eines linearen Teilraumes U von V zu einer Basis von V
erweitert werden kann?
Antwort: Zunächst hat V /U eine Basis Z̄. Nun wählt man in jeder Nebenklasse z̄, die ja
lt. DN von der Form v + U ist, ein Element z. Die solcherart entstandene Menge heiße Z.
Es wird behauptet, daß X ∪ Z eine Basis von V ist, die X erweitert
P (d.h. umfaßt). Es muß
gezeigt werden,
daß
jedes
v
∈
V
eine
eindeutige
Darstellung
v
=
w∈X∪Z kw w besitzt. Es
P
P
ist vP+ U =
z̄∈
PZ̄ kz z̄. Daher ist v − z∈Z kz z ∈ U als Linearkombination in der Form
v − z∈Z kz z = x∈X
P kx x anschreibbar. Setzt man kw := kx falls w ∈ X und kw = kz , wenn
z ∈ Z ist, so ist v = w∈X∪Z kw w.
P
Die lineare Unabhängigkeit der MengePX∪Z sieht man
P wie folgt ein: Wenn 0 = w∈X∪Z kw w
so folgt wegen X ⊂ U zunächst 0 = z∈Z kz z̄ = z̄∈Z̄ kz z̄, also
P wegen der linearen Unabhängigkeit von Z̄, daß alle kz = 0 sind. Deshalb verbleibt 0 = x∈X kx x, und da X eine
198
Lineare Funktionalanalysis
Basis (und somit linear unabhängig) ist, sind alle kx = 0. Wie schon bemerkt, ist die eindeutige Linearkombinierbarkeit von Vektoren durch Vektoren in X ∪ Z gleichbedeutend dazu,
daß X ∪ Z linear unabhängig ist.
Beispiel 178 (Treppenfunktionen) Es sei I = [a, b] ein abgeschlossenes Intervall und
a = x0 < x1 · · · < xn = b eine Intervallteilung. Eine Funktion, die auf jedem Teilintervall
Ii := (xi−1 , xi ) mit i ∈ {1, . . . , n} konstant ist, heißt Treppenfunktion zur gegebenen Teilung.
Ist die Menge der Treppenfunktionen zu gegebener Teilung ein Vektorraum?
Antwort: Ja. Sind nämlich f und g auf jedem Intervall der angegebenen Art konstant, so
offenkundig auch kf + lg.
Ist dieser Vektorraum endlichdimensional? Wenn ja, wäre eine Basis interessant!
Antwort: Es sei φi die Funktion, welche an der
Stell xi den Wert 1 und sonst Null annimmt.
◦
◦
1
Weiters sei ψi die Funktion, die auf dem offenen
Intervall (xi−1 , xi ) den Wert 1 und sonst Null
·
•
•
·
annimmt (nebenstehende Skizze). Man überlegt
x
x
sich nun, daß {ψi | i = 1, . . . , n} ∪ {φi | i =
a
i−1
i
b
0, . . . n} eine Basis bildet. Die Dimension ist, wie
man unschwer sieht, 2n + 1.
Beispiel 179 (Hutfunktionen) In Kapitel 7 wird ein simples mathematisches Modell der
eingespannten Saite unter Belastung entwickelt werden. Als Approximation der “Durchbiegung” verwendet ma eine stetige, stückweise lineare Funktion, deren Werte an den Enden
Null ist (eingespannt – Randbedingung) und durch Werte ui an n − 1 Stützstellen xi definiert
ist.
o·?
In der nebenstehenden Skizze ist die Länge der Seite mit 1
·OOOOO
?
OoOOo o

?
OOO

Einheit, n = 3, x1 = .25 und x2 = .75 und man sieht zwei
o

?
OO
_ _ o o

_
·
·
·
·
stetige, stückweise lineare Funktionen, die an den Stützstellen jeweils entweder den Wert Null oder Eins annehmen.
0
.25
.75
1
Wie kann eine stetige stückweise lineare Funktion u bei vorgegebenem Funktionswert ui an
der Stelle xi beschrieben werden?
6.1. Vektorräume
199
Antwort: Auf dem Intervall [xi−1 , xi ] wird f
durch eine Gerade durch die Punkte (xi−1 , ui−1 )
und (xi , ui ) beschrieben, wobei u0 = un = 0
gelte. Die nebenstehende Skizze ergibt die Gleichung
tan(αi ) =
(xi , u· i )
t
tt (x, u)•t ttt
(xi−1 , ui−1 )
u − ui−1
ui − ui−1
=
x − xi−1
xi − xi−1
tt
tt t
tt
t
t
ttαi
t
·_t _ _ _ _ _ _ _ _·
xi − xi−1
aus der für i = 1, . . . , n − 1 die stückweise Beschreibung
u(x) = ui−1 +
ui − ui−1
(x−xi−1 ) für xi−1 ≤ x < xi
xi − xi−1
ui − ui−1
·
xi−1
·
xi
folgt.
Bilden die stetigen stückweise linearen Funktionen mit vorgegebenen Stützstellen einen linearen Vektorraum?
Antwort: Ja, der Beweis folgt.
Es sei I das Intervall, auf dem die Funktionen definiert sind. Wie schon gezeigt worden
ist, ist die Menge C0 (I) der stetigen Funktionen mit Randwerten Null ein linearer Teilraum
von RI . Eine Funktion heißt bekanntlich stückweise linear auf I, wenn es eine Teilung des
Intervalls I gibt, sodaß die Funktion auf jedem Teilintervall linear ist. Das reelle Vielfache
einer stückweise linearen Funktion ist es offenbar auch (mit den gleichen Teilungspunkten).
Sind f und g stückweise linear mit Teilungen des Intervalls I, so ist f + g stückweise linear
auf jedem Intervall, welches als Durchschnitt von Teilungsintervallen von f und g entsteht.
Somit bilden die stückweise linearen Funktionen einen linearen Teilraum von RI . Wird noch
vereinbart, daß die Stützstellen für alle Funktionen die gleichen sind, so gilt das auch. Die
Menge der stetigen stückweise linearen Funktionen zu fester Teilung bildet nun als Durchschnitt linearer Teilräume selbst einen linearen Teilraum von RI .
Es sei für i = 1, . . . , n − 1 die i.te Hutfunktion Hi jene stetige stückweise lineare Funktion, die
an der Stützstelle xi den Wert 1 und an allen anderen Stützstellen den Wert Null annimmt
(Siehe die erste der beiden zum Beispiel gehörigen Skizzen, wo für n = 3 beide Hutfunktionen
H1 und H2 skizziert worden sind.). Bildet die Menge der Hutfunktionen {Hi | i = 1, . . . , n −
1} eine Basis des Raumes der stetigen stückweise linearen Funktionen mit vorgegebenen
Stützstellen xi ?
Antwort: Ja. Zunächst ist bei Vorgabe der Stützstellen (xi , ui ) mit u0 = un = 0 die hiedurch
eindeutig festgelegte stetige stückweise lineare Funktion f von der Form
f=
n−1
X
ui Hi .
i=1
Dies sieht man ohne Rechnung ein: Die Funktion auf der rechten Seite ist stetig und stückweise linear. Sie nimmt an den Stützstellen genau dieselben Werte wie f an, ist daher mit f
200
Lineare Funktionalanalysis
identisch. Um die lineare Unabhängigkeit zu prüfen, nehme man
0=
n−1
X
ci Hi
i=1
für gewisse ci ∈ R an. Einsetzen von x = xj für j ∈ {1, . . . , n − 1} ergibt
0=
n−1
X
ci Hi (xj ) = cj ,
i=1
woraus die lineare Unabhängigkeit folgt.
6.1.4
Lineare Abbildung, Kern, Bild und Rang
Lineare Abbildungen treten sehr häufig auf. Als simples Beispiel nenne ich die Differentialgleichung y 00 − 2y 0 + y = x2 . Dann ist y 7→ y 00 − 2y 0 + y eine lineare Abbildung vom Raum
der 2-mal stetig differenzierbaren Funktinen auf R in die Menge der stetigen Funktionen. Sie
hat als Kern genau die Lösungen der homogenen DGL, also eine Basis des Kerns bestehend
aus {ex , xex }. Offenbar liegt x2 im Bild der linearen Abbildung, weil die partikuläre Lösung
yp (x) = x2 + 4x + 6 die gegebene inhomogene Gleichung erfüllt.
Andere Beispiele ähnlicher Art sind (mit geeigneter Präzisierung) der Laplaceoperator ∆,
2
der Wellenoperator ∆ − c12 ∂∂2 t .
Definition 180 (Lineare Abbildung, Kern und Bild) Sind U, V beides K-Vektorräume,
so heißt eine Abbildung f : U → V linear (genauer K-linear) wenn sie für alle k, l ∈ K und
alle u, v ∈ U eine der nachstehenden äquivalenten Bedingungen erfüllt:
• f ist ein Homomorphismus abelscher Gruppen und f (ku) = kf (u).
• f (ku + lv) = kf (u) + lf (v) (“Man kann die Operationen ‘+’ und ‘·’ durch das f
durchziehen”);
• f (ku) = kf (u) und f (u + v) = f (u) + f (v), also homogen vom Grad 1 und additiv ist.
Die Menge ker(f ) := {u ∈ U | f (u) = 0} ist der Kern von f und f (U ) := {f (u) | u ∈ U } ist
das Bild von U unter f , auch als R(f ) (wie “range”) bezeichnet.
Ist U Teilraum von H, so ist f eine partielle Funktion im Sinne von Definition 93 und wird
linearer Operator von H nach V geannt mit Definitionsbereich D(f ) := U und Wertebereich.
Beispiel 181 Es empfiehlt sich, die Linearität von L(y) := y 00 − 2y 0 + y nachzurechnen. Z.B.
ist L(y1 +y2 ) = (y1 +y2 )00 −2(y1 +y2 )0 +(y1 +y2 ) = y100 +y200 −2y10 −2y20 +y1 +y2 = L(y1 )+L(y2 ).
Hier noch weitere elementare Übungsaufgaben.
1. Welche der nachstehenden Abbildungen von R3 nach R2 sind linear? f ((x, y, z)T ) =
(x, z)T . Die Abbildung g ist wie folgt definiert: Gegeben ist ein Vektor ~a im R3 und
danach soll g(~x) := f (~a ×~x) sein (Vektorprodukt). Weiters soll h((x, y, z)T ) := (|x|, |x+
y|)T .
6.1. Vektorräume
201
Antwort: Die Linearität von f würde formal so bewiesen werden:






kx1 + ly1
y1
x1
kx
+
ly
1
1
=
f (k  x2  + l  y2 ) = f ( kx2 + ly2 ) =
kx3 + ly3
kx3 + ly3
y3
x3




x1
y1
x1
y1
k
+l
= kf ( x2 ) + lf ( y2 ).
x3
y3
x3
y3
Das Vektorprodukt ~a × ~b erfüllt bekanntlich die Regeln
~a × (~x + ~y ) = ~a × ~x + ~a × ~y , ~a × k~x = k ~a × ~x,
die wir uns zunutze machen:
g(~x + ~y ) = f (~a × (~x + ~y )) = f (~a × ~x + ~a × ~y ) = f (~a × ~x) + f (~a × ~y ) = g(~x) + g(~y ).
Analog zeigt man g(k~x) = kg(~x) für alle k ∈ R und ~x ∈ R3 .
Um zu zeigen, daß h nicht linear ist, genügt es nachzuweisen, daß h(k~x) 6= kh(~x)
passieren kann. Man wähle z.B. k := −1 und ~x := (1, 0, 0)T .
2. Welche der nachstehenden Abbildungen vom Raum C 1 [0, 1] der auf (0, 1) stetig differenzierbaren, auf [0, 1] stetigen und mit Ableitungen stetig fortsetzbar auf die Randpunkte nachRC[0, 1] bzw. nach R sind linear? a) F (f ) := f 0 , b) G(f ) := f (0) − f (1),
1
c) H(f ) := 0 f (x)φ(x) dx, wobei φ eine fest vorgegebene auf [0, 1] stetige Funktion
R1
ist, d) K(f )(x) := 0 k(x, y)f (y) dy, wobei k : [0, 1] × [0, 1] → R stetig sein soll, e)
R1p
L(f ) := 0 1 + f 0 (x)2 dx.
Antwort: Der Nachweis, daß a),c),d) alle linear sind, besteht im Rekapitulieren von
Rechenregeln der Differential- und Integralrechnung. In a) hat man für k, l ∈ R und
f, g ∈ C 1 [0, 1]
F (kf +lg)(x) = (kf +lg)0 (x) = kf 0 (x)+lg 0 (x) = kF (f )(x)+lF (g)(x) = (kF (f )+lF (g))(x),
und weil die Rechnung für alle x ∈ [0, 1] gilt, ergibt sich F (kf + lg) = kF (f ) + lF (g),
d.h. die Linearität in a).
Analog geht man in c),d) vor. Bei b) ergibt G(kf + lg) = (kf + lg)(0) − (kf + lg)(1) =
k(f (0) − f (1)) + l(g(0) − g(1)) = kG(f ) + lG(g) die Linearität von G.
Um die Linearität von L zu widerlegen, wählen wir f (x) := 0 und k := 0. Wäre L
linear, so hätte man
Z 1p
Z 1p
0=0
1 + 02 dx = 0L(0) = L(0 · 0) =
1 + 02 dx = 1,
0
ein Widerspruch.
0
202
Lineare Funktionalanalysis
3. (Riemannintegral und Quotientenräume) Bekanntlich ändert sich der Wert des
Rb
R(iemann)-Integrals a f (x) dx für eine R-integrierbare Funktion nicht, wenn man die
Funktion an endlich vielen Stellen abändert. Dies führt auf folgende Fragen in der Terminologie der linearen Vektorräume
Bilden die Menge R[a, b] der auf einem gegebenen Intervall [a, b] R-integrierbaren Funktionen einen Vektorraum? Es sei U die Menge aller Funktionen auf [a, b], deren Träger
endlich ist (d.h. die nur an endlich vielen Punkten einen Wert nicht Null annehmen).
Ist U ein linearer Teilraum von R[a, b]? Wie läßt sich die Aussage über das Abändern
von Werten auf einer endlichen Teilmenge in der Terminologie der Vektorräume interpretieren?
Antwort: Der übliche Nachweis der Linearität des R-Integrals zeigt auch,
daß R[a, b] ein R-Vektorraum ist. Die Funktionen mit endlichem Träger
bilden einen Vektorraum, wie unter 3. ausgeführt worden ist. Sie sind
alle R-integrierbar und der Wert des Integrals gleich Null. Deshalb läßt
sich das R-Integral als lineare Funktion auf R[a, b]/U auffassen, hier mit
Rb
Iab bezeichnet, jedoch in der Praxis auch mit a ), siehe nebenstehendes
Diagramm.
Rb
/
;R
vv
v
v
vv
vv I b
v
a
v
R[a, b]
a
R[a, b]/U
Anmerkung 182 (Kern und Bild, Matrixdarstellung) Die folgenden Fakten werden oft benützt:
Kern: Der Kern einer linearen Abbildung f : U → V ist ein linearer Teilraum von U
und das Bild einer von V .
BW: Mit u, v ∈ ker f hat man f (ku + lv) = kf (u) + lf (v) = 0, also ku + lv ∈ ker f
für alle k, l ∈ K. Ähnlich geht der Nachweis für das Bild.
Die Dimension des Kerns von f ist der Defekt von f , jene des Bildes R(f ) der Rang
von f .
Matrixdarstellung: Ist f : U → V eine K-lineare Abbildung und sind X und Y
Basen von U bzw. V , so läßt sich f (x) für jedes x ∈ X aus den Elementen in Y
linearkombinieren:
X
f (x) =
fxy y.
y∈Y
Sind insbesondere U und V endlichdimensional und ist |X| = n und |Y | = m,
und numeriert man die Basiselemente X = {e1 , . . . , en }, sowie Y = {f1 , . . . , fn }, so
können die fxy in Form einer m × n-Matrix A angeordnet werden:


a11 · · · a1n

..
.. 
A =  ...
.
. 
am1 · · · amn
6.1. Vektorräume
203
wobei aij := fei fj ist. Somit ist für i = 1, . . . , n
f (ei ) =
m
X
aij fj .
j=1
Dies wird zur Auffindung einer Matrixdarstellung von f wie folgt verwendet: Man
drückt den i.ten Basisvektor von U als Linearkombination der Basiselemente von
V aus und ordnet die Koeffizienten als Spalte, die man als i.te Spalte der Matrix
anschreibt.
Beispiel 183 Elementare Übungsaufgaben.
1. (Drehmatrix) Es sei f : R3 → R3 dadurch gegeben, daß jeder Vektor ~x um 30 Grad
gedreht werde. Der Drehwinkel sei 30 Grad, die Drehachse identisch mit der z-Achse
und wenn man von oben auf die z-Achse blickt, soll entgegen dem Uhrzeigersinn gedreht
werden. Ist f linear? Wie sieht die Matrix bezüglich der kanonischen Basis aus?
Antwort: Die Linearität muß aus der Abbildungsvorschrift erkennbar gemacht werden.
Wenn ~a und ~b entsprechend gedreht werden, dann auch k~a und ~a + ~b. Insofern leuchtet
T wird
die Linearität ein. Nun soll die Matrix aufgestellt werden. Der Vektor (1, 0, 0)√
1
T
offenbar (Skizze bitte selbst machen) in den Vektor (cos 30, sin 30, 0) = 2 (1, 3, 0)T
√
übergeführt. Entsprechend wird (0, 1, 0)T in (− sin 30, cos 30, 0)T = 21 (− 3, 1, 0)T übergeführt. Schließlich wird (0, 0, 1)T als Drechachse in sich selbst übergeführt. In Übereinstimmung mit der Theorie ergeben sich die Spalten der Matrix als die soeben bestimmten Bilder der Einheitsvektoren ausgedrückt durch eben jene:
√


1 − 3 0
1 √
A=
3
1 0 .
2
0
0 2
2. (Approximation eines Randwertproblems und lineare Abbildung) Es sei U
der Raum aller Polynome u vom Grad ≤ 3 mit u(0) = u(1) = 0 (Randbedingung der
eingespannten Saite) und X := {x(1 − x), x2 (1 − x)}. Ist X eine Basis von U ? Weiters
sei V der Raum aller Polynome vom Grad höchstens 2 mit der Basis Y := {1, x, x2 }.
Es sei A(u)(x) := (1 + x)u00 (x) ein Differentialoperator. Ist A : U → V eine lineare
Abbildung? Wenn ja, gebe man eine Matrizendarstellung von A bezüglich der Basen X
und Y an.
Antwort: X ist eine Basis. Jedes Polynom, das an 0 und 1 verschwindet, hat den Teiler
x(1 − x), somit ist jedes beliebige Polynom u ∈ U von der Bauart u(x) = x(1 −
x)(ax + b) = bx(1 − x) + ax(1 − x)x, also Linearkombination der Elemente in X.
Die lineare Unabhängigkeit von X prüft man in üblicher Weise: angenommen 0 =
ax(1 − x) + bx(1 − x)x, so kann man entweder Koeffizientenvergleich machen, oder z.B.
204
Lineare Funktionalanalysis
x = 2 einsetzen, um 0 = −2a − 4b, und x = −1, um 0 = −2a + 2b und somit a = b = 0
herauszubekommen, also die lineare Unabhängikeit von X.
Überprüfen der Linearität von A: A(ku+lv)(x) = (1+x)(ku+lv)00 (x) = k(1+x)u00 (x)+
l(1 + x)v 00 (x) = (kA(u) + lA(v))(x), und weil das für alle x ∈ [0, 1] gilt, hat man
A(ku + lv) = kA(u) + lA(v), die Linearität von A.
Das Auffinden einer Matrix geschieht durch Anwenden von A auf die Elemente in X
und Ausdrücken der Ergebnisse als Linearkombination der Elemente in Y , und die
entstehenden Koeffizienten als Spalten der Matrix zu nehmen:
A(x(1 − x)) = (1 + x)(x − x2 )00 = (1 + x)(−2) = (−2) · 1 + (−2) · x + 0 · x2 ,
A(x(1 − x)x) = (1 + x)(x2 − x3 )00 = (1 + x)(2 − 6x) = 2 · 1 + (−4) · x + (−6) · x2 ,
woraus man, wenn A nun zugleich auch die Matrix bezeichnet,


−2 −2
A =  −2 −4 
0 −6
gewinnt.
Welchen Vorteil kann die Matrizendarstellung bringen?
Antwort: Jemand möchte A(u) = v mit vorgegebenem v ∈ V lösen. Statt die Differentialgleichung zu lösen, löst er (etwa für v(x) = 1 − x + 3x2 ) die Matrizengleichung



1
−2 −2  −2 −4  a =  −1  ,
b
3
0 −6

und stellt sofort fest, daß das gar nicht geht.
3. Es sei I := (0, 1), das offene Einheitsintervall und H := C(I), der Raum der stetigen Funktionen. Ist f : H → RI , definiert durch f (u) := u0 (Ableitung) ein linearer
Operator? Man beschreibe D(f ).
Antwort: Die Linearität der Ableitung und die Tatsache, daß Summe und skalares Vielfaches von auf I differenzierbaren Funktionen selbst differenzierbar sind, bedeutet, daß
auf D(f ), der Menge aller differenzierbaren Funktionen, ein linearer Operator vorliegt.
6.1.5
Dualraum, Dualität
Definition 184 Es seien U, V ein K-Vektorräume.
lineare Funktionale, Linearformen, Dualraum: Jede K-lineare Abbildung von U →
K heißt lineares Funktional, bzw. (üblicherweise eher für endlich dimensionales U ) Linearform auf U . Die Menge aller linearen Funktionale auf U ist der (algebraische)
6.1. Vektorräume
205
Dualraum, der mit U ∗ bezeichnet werden soll. Es ist U ∗ ein linearer Teilraum von K U
(unter der punktweisen Addition bzw. Multiplikation mit Skalaren von Funktionen vgl.
auch Beispiel 168 2.).
Duales System von Funktionalen: Ist X eine Basis von U , so werden Funktionale δx
durch δx (y) := 1 falls x = y und δx (y) = 0, falls y 6= x ist definiert. Die Menge
X ∗ := {δx | x ∈ X} ist genau dann eine Basis von U ∗ , wenn U endliche Dimension hat
und heißt dann die zu X duale Basis (oder auch Kobasis) von U ∗ .
Duale Abbildung: Es sei f : U → V eine K-lineare Abbildung.
Es wird jedem v ∗ ∈ V ∗ unter Beachtung des nebenstehenden kommutativen Diagramms durch f ∗ (v ∗ )(u) := v ∗ f (u) = v ∗ (f (u)) das
lineare Funktional f ∗ (v ∗ ) zugeordnet. Die Abbildung f ∗ erweist sich
als K-lineare Abbildung von V ∗ nach U ∗ (bitte selbst nachprüfen).
f
/V
AA
A
v∗
f ∗ (v ∗ ) AA UA
A
K
Beispiel 185 Einfache Übungsaufgaben hiezu:

 
  
1
−1
1
1. Man bestimme alle linearen Funktionale auf R3 . Zur Basis  2  ,  1  ,  1 
3
1
1
gebe man die duale Basis an.


x1
Antwort: Der R3 ist der Koordinatenraum aller  x2  mit x1 , x2 , x3 ∈ R. Jedes
x3
lineare Funktional ist von der Form




x1
x1
f ( x2 ) = a1 x1 + a2 x2 + a3 x3 = (a1 , a2 , a3 )  x2  .
x3
x3
Insbesondere kann (R3 )∗ als zeilenweise geschriebener Koordinatenraum angesehen werden, wenn man die Konventionen der Matrizenrechnung in Betracht zieht.
Um die duale Basis zu finden, genügt es offenbar, die Zeilen der Lösung A der Matrizengleichung

 

1 −1 1
1 0 0
1 1  =  0 1 0 ,
A 2
3
1 1
0 0 1


1 −1 1
1 1  zu bestimmen. Die Inverse ergibt sich zu
mithin der Inversen von  2
3
1 1


0 −1
1
1 − 21  ,
A−1 =  − 12
1
2 − 23
2
206
Lineare Funktionalanalysis
sodaß sich als duale Basis die Zeilen dieser Matrix ergeben.
Es sei f : R3 → R2 die Projektion auf (x1 , x2 )-Ebene. Im R2 sei die kanonische Basis
vorgegeben und das Funktional v ∗ (x, y) := 3x − 5y. Wie lautet f ∗ (v ∗ )?
Antwort: Verwendet man auch im R3 die kanonische Basis, so hat f die Matrizendarstellung
1 0 0
Af =
.
0 1 0
(Wie üblich wendet man f der Reihe nach auf die Basis (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T
an, um dadurch die Spalten der Matrix Af zu erhalten, indem man das jeweilige Ergebnis durch die kanonische Basis in R2 ausdrückt, bzw. hier einfach abliest.)
Insbesondere ist f ∗ (v ∗ ) = v ∗ f (Zusammensetzung von Abbildungen), also







x1
x1
x1
x1
1
0
0
 x2  = (3, −5, 0)  x2  ,
f ∗ (v ∗ )( x2 ) = v ∗ (f ( x2 )) = (3, −5)
0 1 0
x3
x3
x3
{z
} x3
|

ausmultiplizieren
somit ist f ∗ (v ∗ ) = (3, −5, 0).
2. (Duale Basis und Auswerten von Integralen) Es sei U die Menge der höchstens
quadratischen Polynome mit Koeffizienten in R. Es ist U ein 3-dimensionaler reeller
Vektorraum. Als Basis werde X := {1, x, x2 } gewählt.
R∞
Ist durch J(u) := 0 e−x u(x) dx ein lineares Funktional J auf U gegeben? Wenn ja,
wie läßt es sich durch die duale Basis ausdrücken?
Antwort: Ja. Sichtlich ist J(u) ∈ R und Konvergenz sowie Linearität der Integration
ergeben die Linearität von J. Um den zweiten Teil der Aufgabe zu lösen, reicht es, J der
Reihe nach auf 1, x und x2 anzuwenden, weil hiedurch die Werte von 1∗ (1), x∗ (x) und
(x2 )∗ (x2 ) bestimmt werden. Partielle Integration liefert J(1) = J(x) = 1 und J(x2 ) = 2.
somit ergibt sich als Antwort zum 2.ten Teil
J = 1∗ + x∗ + 2(x2 )∗ .
Gibt es eine Situation, wo diese Beschreibung von J hilfreich ist?
Antwort: Angenommen, jemand muß für die Polynome u ∈ {1 − x + x2 , 3 + 5x + 7x2 }
(und noch ein paar mehr) das Integral J(u) bestimmen. Es ergibt sich


 
1
3
J(1 − x + x2 ) = (1, 1, 2)  −1  = 2, J(3 + 5x + 7x2 ) = (1, 1, 2)  5  = 22,
1
7
und wer es nicht glaubt, integriert schön brav.
6.1. Vektorräume
207
Es sei V die Menge aller linearen Polynome und K das soeben beschriebene Funktional,
eingeschränkt auf V . Weiters sei f : U → V die lineare Abbildung, welche jedem u das
differenzierte Polynom u0 ∈ V zuordnet. Wie lautet f ∗ (K)?
R∞
Antwort: Genau wie vorher muß man f ∗ (K)(u) = K(f (u)) = K(u0 ) = 0 u0 (x)e−x dx
bestimmen. Man findet (partielle Integration) als Ergebnis K(u0 ) = J(u), also f ∗ (K) =
J.
Beispiel 186 (Erste
Variation bzw. Richtungsableitung als lineare Funktionale)
R1
Es sei J(y) := 0 L(x, y, y 0 ) dx, wobei L hinreichend oft stetig differenzierbar sei. Somit ist
J unter entsprechenden Annahmen über die vorkommenden Funktionen ein (nicht lineares)
Funktional.
Als klassische Variationsaufgabe gilt die Maximierung/Minimierung von J(y), wobei y :
[0, 1] → R in einer vorgegebenen Klasse von Funktionen liegt. Als einfachstes Beispiel
sei bei vorgegebenen
Funktionswerten y(0) := y0 und y(1) := y1 die Länge des Graphen
R1p
J(y) := 0 1 + (y 0 )2 dx möglichst kurz, wobei als Klasse der Funktionen z.B. alle stetig
differenzierbaren Funktionen genommen werden können. Im 18.Jhdt wurde von L. Euler
die Variationsrechnung begründet, die (in moderner Fassung) zunächst die Vorgabe einer
C ∞ -Formfunktion φ mit φ(0) = φ(1) = 0 erfüllt vorsieht, somit in D([0, 1]) liegt. Nun wird
die Funktion F () := J(y + φ)
y+εφ
y
φ
x
a
b
betrachtet, die im Falle y eine Lösung ist, an der Stelle = 0 ein lokales Extremum besitzt.
Das gilt für jedes solche φ. Der Ausdruck
d
δJ(φ) :=
J(u + φ)
d
=0
wird als erste Variation oder Richtungsableitung3 des Funktionals J in Richtung φ bezeichnet.
Sichtlich ist δJ, sofern definiert, ein Element des Dualraumes von D([0, 1]).
Es soll das Bilden der 1.ten Variation anhand einiger weniger Beispiele geübt werden.
3
Sie wird als Gâteauxableitung bezeichnet, wenn man die Richtungsableitung als normierten Vektor ansehen
möchte. Normieren kann man hier nicht, weil ja keine Norm gegeben ist.
208
Lineare Funktionalanalysis
Rb
Es sei L(x, y, z) := 21 p(x)z 2 − f (x)y. Wie kann für J(y) := a L(x, y, y 0 ) dx die erste Variation
berechnet werden?
Antwort: Es muß nur eingesetzt werden.
Rb
J(y + φ) = a ( 21 p(x)((y(x) + φ(x))0 )2 − f (x)(y(x) + φ(x))) dx
Rb
= a (21 p(x)(y 0 (x))2 − f (x)(y(x))) dx
Rb
+ a (p(x)y 0 (x)φ0 (x) − f (x)φ(x)), dx
R
b
+2 a 12 p(x)(φ0 (x))2 dx
Rb
Rb
= J(y) + a (py 0 φ0 − f φ) dx + 2 a 12 pφ0 2 dx
Hieraus ergibt sich in ganz elementarer Weise (Differenzieren nach und danach Null setzen,
d.i. den “Koeffizienten” von nehmen:
Z b
(py 0 φ0 − f φ) dx
δJ(φ) =
a
als 1.te Variation.
Angenommen, p ist stetig differenzierbar und man sucht nur Lösungen, die mindestens 2-mal
stetig differenzierbar sind. Kann δJ zur Herleitung einer DGL für y herangezogen werden?
Antwort: Ja, es gilt (im offenen Intervall) −(py 0 )0 − f = 0 (Randbedingungen waren y(a) =
y0 , y(b) = y1 ), also ein Randwertproblem.
BW: Zunächst folgt mittels partiellen Integrierens (wir integrieren nach φ0 ):
Rb
py 0 φ0 dx − a f φ dx
b R b
Rb
py 0 φa − a (py 0 )0 φ dx − a f φ dx
| {z }
R b=0
= a (−(py 0 )0 − f )φ dx.
δJ(φ) =
=
Rb
a
Jetzt erweist sich unter den gemachten Voraussetzungen ψ := −(py 0 )0 − f auf dem offenen
Intervall (a, b) als stetig. Wir behaupten, daß ψ = 0 gilt. Wenn nicht, gibt es ein x0 ∈ (a, b)
mit ψ(x0 ) 6= 0 und wir nehmen einfachheitshalber ψ(x0 ) > 0 an. Dann gibt es wegen der
Stetigkeit von ψ ein Teilintervall (x0 −η, x0 +η) von (a, b) auf dem ψ > 0 ist. Mittels der Testfunktion aus Beispiel 169 konstruiert man durch Skalieren eine Testfunktion φ, die auf genau
dem gleichen Intervall positiv ist. Danach ergibt sich δJ(φ) > 0 für dieses φ, ein Widerspruch.
Rb
Es sei jetzt J(y) := a L(x, y, y 0 ) dx, wobei L stetig differenzierbar sei. Wie lautet die entsprechende Formel für die 1.te Variation?
Rb
Antwort: Es ist δJ(φ) = a (Ly (x, y, y 0 )φ + Ly0 (x, y, y 0 )φ0 ) dx.
BW: Zunächst berechnen wir die Ableitung nach . Es ist
Rb
d
d
0
0
d J(y + φ) = Rd a L(x, y + φ, y + φ ) dx
b ∂
= a ∂
(L(x, y + φ, y 0 + φ0 )) dx
Rb
= a Ly (x, y + φ, y 0 + φ0 )φ + Ly0 (x, y + φ, y 0 + φ0 )φ0 dx
6.1. Vektorräume
209
Nun setzt man = 0 und bekommt den obigen Ausdruck.
Unter der Annahme, daß L stetig differenzierbar (als Funktion in 3 Variablen) und 2-mal
d
stetige Lösungen gesucht werden, soll die Eulergleichung Ly − dx
Ly0 = 0 hergeleitet werden.
Rb
BW: Es geht ganz analog wie vorhin. Lediglich der Term a Ly0 (x, y, y 0 )φ0 dx wird nach φ0
b R b d
partiell integriert und ergibt Ly0 (x, y, y 0 )φa − a dx
Ly0 (x, y, y 0 ) φ dx. Hierin verschwindet
der erste Term, weil φ(a) = φ(b) = 0 gilt, und somit ergibt sich insgesamt
Z b
d
0
0
Ly (x, y, y ) −
Ly0 (x, y, y ) φ(x) dx = 0
dx
a
woraus genauso wie oben auf das Verschwinden des Differentialausdrucks in (a, b) geschlossen
wird.
Wenn man 2-mal stetig differenzierbare Funktionsgraphen y(x) zuläßt, bekommt man mit dieser Methode tatsächlich
R 1 p genau die Gerade y = x als kürzeste Verbindung von (0, 0) und (1, 1)
im Falle J(y) = 0 1 + (y 0 )2 dx (Länge des Funktionsgraphen von y) und Randbedingungen
y(0) = 0, bzw. y(1) = 1, wie es die Anschauung erwarten läßt?
Antwort: Man bekommt zunächst, daß unter den 2-mal stetig differenzierbaren Kurven
bestenfalls die Gerade y = x Lösung sein kann.
0
BW: Es ist Ly = 0 und Ly0 = √ y 0 2 . Die Eulergleichung ergibt sich zu
1+(y )
!0
y0
p
= 0,
1 + (y 0 )2
p
sodaß es eine Konstante c mit y 0 = c 1 + (y 0 )2 geben muß. Als Konsequenz ergibt sich
(y 0 )2 = c2 (1 + (y 0 )2 ), also y 0 konstant, d.h. es kommen lediglich Geraden als Lösung in Frage.
Die einzige Gerade, welche die Randbedingungen erfüllt, ist von der Form y = x.
Angemerkt soll werden, daß die Methode keinen Beweis dafür liefert, ob J tatsächlich ein
Minimum besitzt, so naheliegend dies auch erscheinen mag.
Anmerkung 187 (Dualitätstheorie) Die wesentlichen Aussagen über Dualität und
duale Abbildungen werden durch Dualitätstheorie für K-Vektorräume beschrieben:
Annullator: Für eine Teilmenge X von V wird die Menge aller Funktionale v ∗ , für die
X im Kern von v ∗ liegt, als Annullator X 0 von X bezeichnet. Er ist ein linearer
Teilraum von V ∗ .
Für eine Teilmenge Y von V ∗ soll der Annullator Y0 die Menge aller Elemente v ∈ V
sein, für die u∗ (v) = 0 für alle u∗ ∈ Ũ gilt, kürzer
Y0 =
\
ker(u∗ ).
u∗ ∈Ũ
Man beachte, daß L(X)0 = X 0 und L(Y )0 = Y0 gilt.
210
Lineare Funktionalanalysis
Dualität von Teilräumen von V und V ∗ : Jeder Teilraum von V (bzw. V ∗ ) ist eindeutig durch seinen Annullator in V ∗ (bzw. in V ) bestimmt, etwas formaler:
Startet man von einem Teilraum U von V (bzw. Ũ von V ∗ ), und bildet den Annullator U 0 (bzw. Ũ0 ), so ist U = (U 0 )0 bzw. (Ũ0 )0 = Ũ .
Ist U 0 Teilraum von U , so ist U 0 Teilraum von (U 0 )0 .
“Annullator des Annullators eines Teilraumes ist eben dieser Teilraum.” Der Nachweis kommt in Beispiel 190.
Dualität und lineare Abbildungen: Ist f : U → V eine K-lineare Abbildung und
f ∗ : V ∗ → U ∗ die duale Abbildung so ist
f (U ) = X0 ,
wobei L(X) = ker(f ∗ ). Mit anderen Worten, die Gleichung v = f (u) hat eine
Lösung u ∈ U genau dann, wenn man eine Basis X des Kerns von f ∗ angeben
kann, derart, daß für alle x∗ ∈ X stets x∗ (v) = 0 gilt.
Nachweis: Weil ker(f ∗ ) = {v ∗ ∈ V ∗ | ∀u ∈ U f ∗ (v ∗ )(u) = v ∗ (f (u)) = 0} = f (U )0 ,
ergibt die Dualität von Teilräumen f (U ) = (f (U )0 )0 = ker(f ∗ )0 = {v ∈ V | ∀u∗ ∈
ker f ∗ ist u∗ (v) = 0}.
Bilinearform und Dualität: Es ist auch üblich, die Bilinearform (v ∗ , v) 7→ v ∗ (v) als
Funktion von V ∗ × V → K in recht verbreiteter Notation (etwa in der Theorie
der Distributionen) als Funktion h·, ·i : V ∗ × V → K durch hv ∗ , vi := v ∗ (v) zu
definieren. Diese Funktion heißt bilinear, weil sie in jedem der beiden Argumente
linear ist, wenn das andere Argument festgehalten wird.
Die zu f duale Abbildung f ∗ erfüllt hf ∗ (v ∗ ), ui = hv ∗ , f (u)i für alle v ∗ ∈ V ∗ und
alle u ∈ U .
Gelegentlich wird der Annullator U 0 = {v ∗ ∈ V | hv ∗ , U i = 0} von U als Orthogonalraum von U in V ∗ bezüglich dieser Bilinearform angesehen (und auch mit U ⊥
bezeichnet), bzw. Ũ0 = {v ∈ V | hŨ , vi = 0} (und mit Ũ ⊥ bezeichnet).
Beispiel 188 (Geometrische Deutung der Dualität im R3 ). Im K n lassen sich die
Ideen ähnlich verstehen. Es sei U ein 1-dimensionaler Teilraum, also eine Gerade durch den
Ursprung. Sie ist der Durchschnitt aller jener Ebenen, die durch diese Gerade gehen. Jede
dieser Ebenen hat einen Normalvektor, und alle diese Normalvektoren liegen in einer Normalebene auf die Gerade durch den Ursprung. Diese Normalebene ist das U 0 . Vektoren (a, b, c)
in U 0 (als Zeilen gedeutet) sind ja geradewegs durch die Bedingung ax + by + cz = 0 für
alle (x, y, z)T auf der Geraden festgelegt. Geht man nun von U 0 aus, so ist (U 0 )0 als Menge
jener Vektoren, die in all jenen Ebenen liegen, welche Kern von einem u∗ ∈ U 0 sind, offenbar
geradewegs die Ausgangsgerade. Die Dualität besagt eben lediglich, daß die Normalebene auf
die Gerade diese festlegt, und umgekehrt, die Normalebene durch die Gerade festliegt.
6.1. Vektorräume
211
U
U
U
Ker(u^*)
U^0
u^*
Ebenen, die U enthalten
Normalvektoren, die U^0 aufspannen
U^0
Die Deutung von h·, 
·i ist 
in V := R3 wie folgt: Die Elemente von V ∗ sind Zeilen (a, b, c)
x
und jene in V Spalten  y . Danach ist
z


x
h(a, b, c),  y i = ax + by + cz.
z
Im endlichdimensionalen Fall ist der Dualraum im wesentlichen der Gleiche wie der Ausgangsraum (genauer, sie sind algebraisch isomorph). Im nächsten Beispiel zeigen wir, daß
das für unendlich dimensionale Vektorräume nicht einmal für einen endlichen Skalarkörper
richtig sein kann.
Beispiel 189 Es sei K = IF2 der Körper mit 2 Elementen (d.i. Z modulo 2) und wir betrachten die Menge V aller f ∈ K N mit endlichem Träger. Man kann sich diese Menge als
alle Polynome mit Koeffizienten in IF2 vorstellen. Dann ist {xj | j ∈ N} ∪ {1} eine Basis von
V (es ist zwar x0 = 1, jedoch 0 6∈ N wie in Math.1 ET). Es leuchtet ein, daß V abzählbar
ist. Es ist jedoch V ∗ nicht abzählbar: Sei nämlich eine beliebige Folge {an }∞
n=0 von Zahlen
an ∈ IF2 gegeben. Davon gibt es sicher mehr als abzählbar viele. Jede solche Folge legt aber
auch ein Funktional fest, indem jedem Basiselement xn der Wert an zugewiesen wird.
Beispiel 190 (Nachweis für die Dualitätsaussage) Der Nachweis für die Dualität von
Teilräumen und Annullatoren ist wie folgt: Es sei U Teilraum von V und X eine Basis von U 0 .
Dann ist x∗ (u) = 0 für alle x∗ ∈ X und alle u ∈ U . Deshalb ist U in X0 = (L(X))0 = (U 0 )0
212
Lineare Funktionalanalysis
enthalten. Angenommen es gibt ein u ∈ U \ (U 0 )0 . Dann gibt es eine Basis B von U , die
man zu einer Basis B ∪ {u} von L(U ∪ {u}) erweitern kann, welche schließlich zu einer Basis
B ∪{u}∪C von ganz V erweiterbar ist. Definiert man nun die Abbildung φ : B ∪{u}∪C → K,
indem man φ(b) = φ(c) = 0 für alle b ∈ B und alle c ∈ C und φ(u) = 1 setzt, so ist φ zu
einem linearen Funktional erweiterbar (Basiseigenschaft!). Sichtlich liegt U im Kern von φ
(weil die Basis B von U annulliert wird). Deshalb ist φ ∈ U 0 . Dann sollte aber φ(u) = 0 sein,
weil ja u ∈ (U 0 )0 gewählt worden ist, ein Widerspruch.
Der Nachweis für (Ũ0 )0 = Ũ verläuft ähnlich.
Beispiel 191 (Dualität und Gleichungen)
Es sei f : R3 → R2 die durch die bezüglich der kanonischen Basis festgelegte Matrix
1
1 −1
A=
−1 −1 1
definierte lineare Abbildung. Für welche Vektoren ~b =
b1
b2
kann die Gleichung
A~x = ~b
gelöst werden? Man überlege die Aufgabe elementar und erkläre die Aussage über Dualität
und lineare Abbildungen in Anmerkung 187.
1
(x1 + x2 − x3 ), wie man sofort mittels Matrizenrechnung
Antw.: Offenbar ist A~x =
−1
1
~
)
einsieht. Deshalb kommen als Vektoren b lediglich Vektoren in der linearen Hülle L(
−1
in Frage. Das ist gleichbedeutend damit, daß b1 + b2 = 0 gilt.
Nun zur Erklärung der Dualitätsaussage: Man betrachtet lineare Funktionale y (als Zeilenvektoren) mit yA = 0 und findet somit eine Basis von Lösungen
1
1 −1
(y1 , y2 )
= (0, 0).
−1 −1 1
Elementare Rechnung ergibt
{(1, 1)}
als solch eine Basis. Deshalb kann für einen vorgegebenen Vektor ~b die Lösbarkeit von A~x = ~b
getestet werden, indem man
(1, 1)~b = b1 + b2 = 0
überprüft. Genau dann, wenn diese Gleichung gilt, ist die Lösbarkeit gegeben.
Beispiel 192 (Linearer Code) Es soll K := IF2 der Körper mit 2 Elementen sein. Weiters
soll f : IF23 → IF24 durch f ((x1 , x2 , x3 )T ) := (x1 , x2 , x3 , x1 + x2 + x3 )T . definiert sein.
Wie lautet eine Basis von ker(f ∗ )?
6.1. Vektorräume
213
Antwort: Bezüglich der kanonischen Basen in U

1 0
 0 1
A=
 0 0
1 1
:= IF23 und V := IF24 ergibt sich als Matrix

0
0 

1 
1
(das übliche Rezept: Die Abbildung f der Reihe nach auf (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T
anwenden und die entstehenden Spaltenvektoren als Spalten von A auffassen.)
Wird V ∗ als Raum von Zeilenvektoren aufgefaßt, so findet man eine Basis von ker(f ∗ ) am
einfachsten, indem man die Matrix A zunächst transponiert, somit eine Basis des Lösungsraumes
AT ~y = 0
bestimmt (das sind gewisse Vektoren im R3 ) und danach diese Basisvektoren (“rück”)transponiert,
konkretermaßen:



 y1
 
1 0 0 1 
0

y2   
T



0 1 0 1 
0
A ~y =
=
y3 
0 0 1 1
0
y4
Es ist nicht schwer, als Basis des Kerns von AT die einelementige Menge
{(1, 1, 1, 1)}
auszumachen.
Nun kommt die eigentliche Deutung im Kontext mit der Kodierungstheorie: Jemand will
3-stellige Bitcodes, genauer, Wörter der Länge 3 im freien Monoid über dem Alphabet {0, 1}∗
senden und versieht sie mit einem Extrabit (Paritycheck), sendet also Wörter der Länge 4
nach folgendem Prinzip:
3
• Die 3-stelligen
 Wörter werden als Elemente in IF2 aufgefaßt. So entspricht z.B. 101 dem
1
Vektor  0 .
1
• Jedem Wort 100, 010 bzw. 001 wird (in unserem Beispiel) das ungerade Bit, nämlich 1
angehängt. Danach deutet man diesen Vorgang als Festlegen einer linearen Abbildung
f : IF23 → IF24 , nämlich genau jene von oben.
Die lineare Abbildung f ergibt somit eine Vorschrift, welches Bit an ein Wort, etwa 110,
angehängt wird, nämlich die letzte Koordinate des Bildes f ((1, 1, 0)T ) = (1, 1, 0, 0)T ,
d.h. ‘0’, also hat man danach das Wort 1100. Die Menge aller dieser Wörter wird
(linearer) Code genannt. Lediglich Wörter in C werden gesendet (und sollten empfangen
werden).
Nun wird das Wort 1100 gesendet (Extrainformation das Extrabit am Ende des Wortes).
214
Lineare Funktionalanalysis
• Angenommen, beim Empfänger kommt ein möglicherweise verändertes Wort (z.B. ein
Bit wird falsch übertragen) an, etwa 1110. Wie kann er feststellen, ob das Wort überhaupt zum Code gehört (wenn nicht, so ist mit Sicherheit ein Übertragungsfehler vorgefallen).
Zum Code gehört das empfangene Wort, wenn es, als Vektor in IF24 gedeutet im Bild
von f liegt. Dies läßt sich aber sofort testen, indem man die Elemente der Basis des
Kerns von f ∗ als Zeilenvektoren deutet (in unserem Fall lediglich das (1, 1, 1, 1), es ist
nur ein Basiselement vorhanden) und auf das vorgegebene Wort “anwendet”. Für das
Wort 1110 ergibt Matrizenmultiplikation
 
1
 1 

(1, 1, 1, 1) 
 1  = 1 6= 0,
0
sodaß das Wort 1110 als fehlerhaft erkannt wurde.
Die Terminologie ist in der Literatur
(z.B. in http://www.inf.fh-flensburg.de/lang/algorithmen/code/linear.htm)
wie folgt: Das Bild von f heißt (linearer) Code und wird üblicherweise als Zeilen geschrieben. Die Matrix AT heißt in diesem Kontext Generatormatrix und der Code entsteht durch Linksmultiplikation mit Zeilen, z.B. ist


1 0 0 1
(1, 1, 0)  0 1 0 1  = (1, 1, 0, 0)
0 0 0 1
das Codewort 1100. Die Basis des Kerns von f ∗ (unser (1, 1, 1, 1)) wird nunmehr als
Spalte geschrieben und die Matrizenrechnung eben “andersherum” ausgeführt, nämlich
als
 
1
 1 

(1, 1, 0, 1) 
 1  = 1 6= 0,
1
somit ist 1101 nicht im Code. Die Matrix H := (1, 1, 1, 1) wird als Kontrollmatrix
bezeichnet.
6.2
Normierte lineare Räume, Banachräume
p
Die übliche Länge eines Vektors im R3 , definiert durch k~v k = v12 + v22 + v32 (“Satz von
Pythagoras”) erfüllt die nachstehenden Eigenschaften. Die erste besagt, daß die Länge des
Vektors niemals negativ ist, die zweite, daß beim Skalieren eines Vektors mit dem Skalar k
die Länge des skalierten Vektors das |k|-fache des unskalierten Vektors ist, und die dritte
Eigenschaft ist im Bild dokumentiert. Vektorräume, die eine solche Normfunktion besitzen,
nennt man normierte Vektorräume:
6.2. Normierte lineare Räume, Banachräume
6.2.1
215
Norm, Vollständigkeit
Definition 193 Es sei V ein Vektorraum mit Skalarkörper K einer der Körper R oder C
und für k ∈ K sei |k| der Betrag von k.
Normierter Vektorraum: Unter einer Norm auf V versteht man eine Funktion k · k :
V → R mit folgenden für alle u, v ∈ V und k ∈ K geltenden Eigenschaften:
• kuk ≥ 0 und kuk = 0 genau dann, wenn u = 0
ist. (Definitheit)
• kkuk = |k|kuk. (Homogeneität)
• ku + vk ≤ kuk + kvk. (Dreiecksungleichung)
u E= + v
{
v E {{{{
{
{oo7
{o{o{ou
{
o
o{
Dreiecksungleichung
Die durch d(u, v) := ku − vk definierte Funktion ist eine Metrik und heißt durch die
Norm k · k induziert. Das Paar (V, k · k) heißt normierter Vektorraum.
Banachraum: Ist der normierte lineare Raum in der induzierten Metrik vollständig, so
heißt er Banachraum. Man kann zeigen, daß dann K entweder R oder C sein muß. Jeder
abgeschlossene Teilraum eines Banachraumes ist selbst vollständig in der induzierten
Norm.
Beispiel 194 Einfache Beispiele:
1. Es sei K := R und V := R. Weiters sei kvk := |v|, also der übliche Betrag einer reellen
Zahl (ihr Absolutbetrag). Man verifiziert
• |kv| = |k||v| und |u + v| ≤ |u| + |v| für alle rellen Zahlen k, u, v, also die Gültigkeit
der Gesetze einer Norm.
• Die induzierte Metrik d(u, v) = |u − v| ist die übliche Abstandsmetrik (Abstand
zweier Zahlen auf der Zahlengeraden).
• R ist somit ein reller Banachraum.
Ähnlich überlegt man sich das für C. Es ist C sowohl als reeller, als auch komplexer
Banachraum auffaßbar, wobe C als reeller Banachraum die Dimension 2 hat.
2. Es sei V = R2 , aufgefaßt als Vektorraum mit Skalarkörper K = R. Nun sei die Funktion
k · k : V → R durch k(x, y)k := max{|x|, |y|} definiert.
216
Lineare Funktionalanalysis
y
x
In
der
Skizze sieht man einen Vektor
x
. Seine Norm ergibt sich, wie im
y
Bild angegeben als Betrag der betragsgrößten Komponente.
||(x,y)||=|x|
Liegt eine Norm vor?
Antwort: (Definitheit) Die Funktion ist nichtnegativ und Null genau dann, wenn der
Vektor (x, y) = (0, 0).
(Homogeneität) Für alle k 6= 0 ist |x| ≤ |y| genau dann, wenn |k||x| = |kx| ≤ |ky| =
|k||y|, sodaß im Falle k(x, y)k = |y| die geforderte Gleichung kkuk = |k|kuk gilt. Ist
|y| ≥ |x| so geht man analog vor, um diese Gleichung nachzuweisen.
(Dreiecksungleichung) Es seien u := (u1 , u2 ) und v = (v1 , v2 ). Die Dreiecksungleichung
für die Betragsfunktion von Zahlen ergibt für i ∈ {1, 2}
|ui + vi | ≤ |ui | + |vi | ≤ max{|u1 |, |u2 |} + max{|v1 |, |v2 |} = kuk + kvk.
Hieraus ergibt sich insbesondere
ku + vk = max{|u1 + v1 |, |u2 + v2 |} ≤ kuk + kvk.
Ist (V, k · k) ein Banachraum?
Antwort: Es sei {un }∞
n=1 , mit un := (xn , yn ) eine Cauchyfolge. Dann ist
|xn − xm | ≤ kun − um k, |yn − ym | ≤ kun − um k,
∞
sodaß sowohl {xn }∞
n=1 als auch {yn }n=1 CF in R sind. Da R vollständig ist, gibt es
Limiten sodaß man den Vektor u := (x, y) mit x := limn→∞ xn und y := limn→∞ yn
definieren kann. Wir zeigen die Konvergenz der Folge {un }∞
n=1 gegen u im Sinne der
gegebenen Norm: sei > 0, so gibt es ein N ∈ N mit |xn − x| < und |yn − y| < für
n ≥ N . Dann ist
kun − uk = max{|xn − x|, |yn − y|} < für diese n, somit ist die CF konvergent, somit R2 bezüglich der Norm Banachraum.
Man skizziere die Einheits“kugel”, d.i. die Menge K(0, 1) := {u | kuk ≤ 1}.
Man überlegt sich sofort, daß (x, y) ∈ K(0, 1) genau dann liegt, wenn
sowohl |x| ≤ 1, also auch |y| ≤ 1 gilt. Es ist somit K(0, 1) = {(x, y) |
|x| ≤ 1 ∧ |y| ≤ 1}, ein Quadrat mit der Seitenlänge 2.
Anmerkungen zum Beispiel:
(-1,1)
(1,1)
(-1,-1)
(1,-1)
6.2. Normierte lineare Räume, Banachräume
217
Rn mit der Würfelnorm : Analog erweist sich für (x1 , . . . , xn ) ∈ Rn die Funktion
k(x1 , . . . , xn )k := max{|xi | | i = 1, . . . , n} als Norm und Rn ist ein Banachraum.
Eine Folge konvergiert bezüglich der Norm, wenn sie “koordinatenweise” konvergiert. Als Einheitskugel entsteht im R3 ein Würfel, und ein “Hyperwürfel” in
höheren Dimensionen.
Reellwertige beschränkte Funktionen mit Supremumsnorm: Schließlich ist es
mit der gleichen Art von Überlegungen möglich, für eine beliebige Menge X nachzuweisen, daß die Menge B(X, R) der beschränkten, reellwertigen Funktionen,
d.i. die Menge aller f ∈ RX , für welche kf k∞ := supx∈X |f (x)| existiert, daß
(B(X, R), k · k∞ ) ein Banachraum ist. Für X := {1, 2} kehrt man zum Ausgangsbeispiel des R2 zurück.
3. (Stetige Funktionen und Supremumsnorm) Es sei I = [0, 1] das Einheitsintervall
und V := C(I, R) die Menge aller stetigen, reellwertigen, auf I definierten Funktionen.
Es werde kf k := supx∈I |f (x)| definiert.
Ist hiedurch eine Norm definiert und C(I, R) ein normierter Vektorraum?
Antwort: Ja. Wir gehen die einzelnen Punkte durch.
(Wohldefiniertheit) Zunächst ist zu zeigen, daß für auf I stetiges f supx∈I |f (x)| nicht
womöglich +∞ ist. Es ist I ein kompaktes Intervall und nach dem Satz von Weierstraß
(Anmerkung 162 4.) ist f deshalb beschränkt.
(Definitheit) Sichtlich ist die Funktion k · k nicht negativ. Angenommen kf k = 0 und
es sei x ∈ I. Dann ist |f (x)| ≤ supx∈I |f (x)| = kf k = 0, also f die Nullabbildung.
(Homogeneität) Es sei k ∈ R. Dann ist |kf (x)| = |k||f (x)| für alle x ∈ I. Hieraus
entnimmt man für alle x ∈ I sowohl
|k||f (x)| = |kf (x)| ≤ sup |kf (x)| = kkf k,
x∈I
als auch
|kf (x)| = |k||f (x)| ≤ |k| sup |f (x)| = |k|kf k,
x∈I
und geht man jeweils links zum Supremum über, ergeben sich die Ungleichungen |k|kf k ≤
kkf k und kkf k ≤ |k|kf k, aus denen die Gleichheit |k|kf k = kkf k folgt.
(Dreiecksungleichung) Es seien f, g ∈ C(I). Dann gilt für alle x ∈ I
|f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ sup |f (t)| + sup |g(t)| = kf k + kgk,
t∈I
t∈I
sodaß man auch links zum Supremum übergehen kann.
Es ist die Supremumsnorm eine Norm und deshalb C(I) ein normierter linearer Raum.
Ist C(I) mit dieser Norm ein Banachraum, m.a.W., ist er vollständig?
Antwort: Ja. Hier der Beweis. Es sei {fn }∞
n=1 eine Cauchyfolge. Dann ist für jedes x ∈ I
auch die Folge der Werte {fn (x)}∞
eine
CF. Wegen der Vollständigkeit von R gibt es
n=1
somit einen Grenzwert f (x) für jedes x ∈ I.
218
Lineare Funktionalanalysis
Um die Stetigkeit von f an der Stelle x ∈ I zu zeigen, muß zu beliebigem > 0 ein
δ > 0 mit
|h| < δ ⇒ |f (x + h) − f (x)| < garantiert werden (Stetigkeitsdefinition). Weil {fn }∞
n=1 eine CF ist, gibt es N ∈ N mit
kfn − fm k < 3 für alle m, n > N . Dann ist auch für alle x ∈ I und diese m, n stets
|fn (x) − fm (x)| < 3 , woraus für m → ∞ die Ungleichung |fn (x) − f (x)| < 3 folgt. Sei
n ≥ N fest gewählt. Da fn an x stetig ist, gibt es ein δ mit |fn (x + h) − fn (x)| < 3 für
alle h mit |h| < δ. Damit ergibt sich
|f (x+h)−f (x)| ≤ ||f (x+h)−fn (x+h)|+|fn (x+h)−fn (x)|+||fn (x)−f (x)| < + + = 3 3 3
für alle solchen h, also die Stetigkeit von f an x.
Anmerkung zum Beispiel: Die Anmerkung vom vorigen Beispiel einbeziehend, erweist sich B(I, R) mit der Supremumsnorm als Banachraum. Nimmt man das als gegeben an, verbleibt lediglich der Nachweis, daß jeder Grenzwert von stetigen Funktionen
auf I wieder stetig ist.
4. (Stetige Funktionen und
R 1 Integralnorm) Auf dem Raum C(I, R) werde die Funktion k · k1 durch kf k1 := 0 |f (x)| dx erklärt.
y
f
1
x
0
Norm: Beträge der Flächen addieren
Ist k · k1 eine Norm?
Antwort: Ja. Hier der Nachweis der einzelnen Punkte.
(Wohldefiniert) Da jede stetige Funktion f R-integrierbar ist, ist es auch |f |, sodaß kf k1
wohldefiniert ist.
(Definitheit) Da |f (x)| ≥ 0 für alle x ∈ I gilt, kann das Integral nie negativ sein.
Angenommen kf k1 = 0. Angenommen es existiert x0 ∈ I mit f (x0 ) 6= 0. Dann gibt es
wegen der Stetigkeit von f ein δ mit |f (x)| ≥ 12 |f (x0 )| für |x − x0 | < δ. Deshalb ist
Z
0 = kf k1 =
1
Z
min{x0 +δ,1}
|f (x)| dx ≥
0
|f (x)| dx ≥ 2δ
max{x0 −δ,0}
ein Widerspruch. Somit ist f die Nullabbildung.
|f (x0 )|
= f (x0 )δ > 0,
2
6.2. Normierte lineare Räume, Banachräume
219
(Dreiecksungleichung) Sie folgt aus Sätzen der Integralrechnung:
Z 1
Z 1
Z 1
kf + gk1 =
|f (x) + g(x)| dx ≤
|f (x)| dx +
|g(x)| dx = kf k1 + kgk1 .
0
0
0
Ist (C(I, R), k · k1 ) ein Banachraum?
Antwort: Nein, der Nachweis wurde in Beispiel 154 3. geführt.
Anmerkungen zum Beispiel: Die Vervollständigung dieses Raumes bezüglich der
k · k1 Norm heißt L1 (I, R). In der Maßtheorie werden die Elemente von L1 (I, R) als
Funktionen beschrieben, die bis auf eine Nullmenge definiert sind, und die im Sinne
des Lebesgueintegrals absolut integrierbar sind. Für die weiteren Entwicklungen (und
Praxis numerischer Methoden) genügt es vorerst, die Elemente von L1 (I, R) sich durch
geeignete stetige Funktionen hinreichend genau approximiert zu denken.
6.2.2
Abgeschlossene Teilräume, Dimension
Anmerkung 195 Folgende Fakten für abgeschlossene Teilräume, d.s. Teilräume, die im
normierten Vektorraum V zugleich abgeschlossen sind, gelten:
Normen im Rn : Im Rn sind alle Normen äquivalent zur Maximumsnorm, d.h. es gibt
positive Konstanten c, C mit
c max{|xi | | i = 1, . . . , n} ≤ k~xk ≤ C max{|xi | | i = 1, . . . , n}.
Endlich-dimensionale Teilräume: sind stets abgeschlossen, auch dann, wenn V nicht
vollständig ist.
Folgenkompaktheit im Teilraum: Ein Teilraum L eines normierten linearen Raumes V ist genau dann folgenkompakt bezüglich beschränkter Teilmengen, d.h., jede
beschränkte Folge enthält eine konvergente Teilfolge, wenn er endliche Dimension
hat.
Beispiel 196 Hier die Beweise:
Äquivalenz der Normen im Rn : Zunächst ergibt sich aus
X
X
k~x − ~y kV = k
(xi − yi )~ei kV ≤
|xi − yi |kei kV ≤ max{|xi − yi | | i = 1, . . . , n}C
i
i
für C := N max{k~ei kV | i = 1, . . . , n} sowohl die Behauptung für die Schranke nach
oben (für ~y = ~0) als auch die Stetigkeit der Funktion φ(~x) := k~xkV . Deshalb ist im
Rn die Menge K := {~x | k~xkV = 1} beschränkt und abgeschlossen, also kompakt.
Demnach besitzt die Funktion φ wegen des Satzes von Weierstraß (Anmerkung 162 4.)
ein Minimum c auf K, welches nicht Null sein kann. Deshalb ist k~xkV ≥ c. Nun ersetzt
1
man ~x := max{|yi ||i=1,...,n}
~y und erhält die behauptete Äquivalenz von Normen im Rn .
220
Lineare Funktionalanalysis
Abgeschlossenheit von endlich-dim. Teilräumen: Es sei L endlichdimensionaler Teilraum des normierten Raumes (V, k·kV ) und B eine beliebige Basis von L. Dann
P induziert
die Norm k · kV eine Norm auf L, welche nach dem vorigen zur für ~x = b xb b ∈ L
durch
k~xkL := max{|xb | | b ∈ B}
gegebenen äquivalent ist. Deshalb ist jede bezüglich der V -Norm konvergente Folge
auch bezüglich der L-Norm konvergent, also insbesondere der GW in L und somit L
abgeschlossen.
Folgenkompaktheit für beschränkte Teilmengen im Teilraum ⇒ endlichdimensional:
Es sei L zunächst ein beliebiger endlich-dimensionaler Teilraum von V , der nach vorigem abgeschlossen ist. Falls L 6= V , so ergibt sich aus Anmerkung 274, daß stets ein
y 6∈ L mit kykV = 1 und kl − ykV ≥ 21 für alle l ∈ L gefunden werden kann. Angenommen, der Raum hat unendliche Dimension. Dann kann damit induktiv eine Folge von
Elementen yn der Länge 1 und Teilräume Ln = L(y1 , . . . , yn ) mit kyn − yj kV ≥ 21 für
alle j < n gewonnen werden. Hieraus ergibt sich sofort daß für alle i, j stets kyi − yj k≥ 12
ist. Eine solche Folge ist somit zwar beschränkt, kann aber keine konvergente Teilfolge
enthalten, ein Widerspruch.
6.2.3
Lp und lp Normen
Im Abschnitt über Hilberträume wird das im Folgenden zu findende p = q = 12 sein. Die hier
vorgestellten Räume sind klassische Standardbeispiele der Funktionalanalysis.
Anmerkung 197 Die folgenden Ungleichungen spielen eine wichtige Rolle:
Young : Es sei f : [0, ∞) → [0, ∞) streng monoton und stetig, weiters f (0) = 0 und
limx→∞ f (x) = ∞, sowie g die Umkehrfunktion zu f . Dann ist für alle u, v ≥ 0
stets
Z u
Z v
uv ≤
f (x) dx +
g(y) dy .
| 0 {z
} | 0 {z }
1
2
Hölder, Integralform: Sind f, g beide auf dem Intervall [a, b] stückweise stetige, reellwertige Funktionen, und p > 1 sowie q durch die Gleichung p1 + 1q = 1 festgelegt,
so ist
Z b
p1 Z b
1q
Z b
p
q
|f (x)g(x)| dx ≤
|f (x)| dx
|g(x)| dx
.
a
a
a
Falls p = q = 2, erhält man die Cauchy-Schwarzsche Ungleichung (Anmerkung 215)
in Integralform.
6.2. Normierte lineare Räume, Banachräume
221
Minkowski, Integralform: Auf dem Raum der auf [a, b] stetigen Funktionen ist durch
b
Z
|f (x)|p dx
kf kp :=
p1
a
eine Norm definiert. Man nennt sie die Lp -Norm.
Minkowski, Summenform: Ist I eine endliche Menge, so wird auf RI durch
!1
p
kakp :=
X
|ai |p
i∈I
eine Norm festgelegt, welche lp -Norm genannt wird.
Lp und lp : Die Vervollständigung des Raumes der stetigen Funktionen bezüglich der Lp Norm heißt Lp (-Raum) und des Raumes der Folgen {xn }∞
n=1 mit fast allen Glieder
gleich Null, heißt lp (-Raum). Wenn kfn − f kLp → 0, so spricht man von Konvergenz
im Lp -Mittel, für p = 2 auch von Konvergenz im quadratischen Mittel, wobei man
üblicherweise noch durch die Länge des Integrationsintervall dividiert (sie ist in
unserem Beispiel 1).
Beispiel 198 Hier sind Beweisskizzen der Ungleichungen.
Young: Geometrisch ist der Sachverhalt einleuchtend:
O
x = g(y)
y = f (x)
y
Die Fläche des Rechtecks mit den Seiten u, v ist
nicht größer als die Fläche unterhalb des Graphen von f (bis u) plus die Fläche links vom
Graphen von g (bis v).
v _ _ _ _ __ _ _ _
2 2
1
0
u
/x
Hölder: Zunächst wählt man in der Youngschen Ungleichung als Funktion f (x) := xp und
findet durch elementares Integrieren
uv ≤
up v q
+ .
p
q
Rb
1
Setzt man jetzt Jp (f ) := a (|f (x)|p dx) p , um die Schreibarbeit zu reduzieren, und
(x)|
g(x)
u := |f
Jp (f ) , v := Jq (g) und integriert von a bis b, so ergibt sich
Rb
a
|f (x)g(x)| dx
≤ 1,
Jp (f )Jq (g)
222
Lineare Funktionalanalysis
woraus die Ungleichung folgt.
Minkowski, Integralform: Die Ungl. von Minkowski ist die Dreiecksungleichung, die nun
zu beweisen ist. Man geht von |f (x)+g(x)|p = |f (x)+g(x)||f (x)+g(x)|p−1 ≤ |f (x)||f (x)+
g(x)|p−1 + |g(x)||f (x) + g(x)|p−1 aus und wendet auf der rechten Seite für jeden Summanden auf die beiden Faktoren die Höldersche Ungleichung an. Man findet (mit etwas
Akribie) kf + gkpp ≤ kf kp k|f + g|p−1 kq + kgkp k|f + g|p−1 kq . Der Ausdruck k|f + g|p−1 kq
p
entpuppt sich bei entsprechendem Einsetzen als kf + gkpq wobei auch q(p − 1) = p (als
Konsequenz von p1 + 1q = 1) benützt wird. Danach zieht man links und rechts die p.te
Wurzel.
Minkowski, Summenform: Es genügt, I := {1, 2, . . . , n} und somit Folgen (a1 , a2 , . . . , an )
zu betrachten. Auf dem Intervall [0, n] werde nun f (x) := ai definiert, falls i − 1 ≤ x < i
gilt. Nun ergibt sich die Lp -Norm geradewegs als lp -Norm und die Minkowskiungleichung
für Folgen ergibt sich als Konsequenz.
6.2.4
Soboleffnormen
Da im Sinne von Lp -Normen konvergente Funktionenfolgen im allgemeinen bestenfalls bis auf
Lebesguenullmengen definiert sind, benötigt man zur Formulierung von Randwertproblemen
Banachräume, die durch entsprechende Integralnormen kalkülmäßig leichter zu beherrschen
sind (etwa wegen geeigneter Integrationsroutinen) als Räume mit gleichmäßiger Konvergenz,
deren Konvergenzbegriff zu restringiert ist (schlechte Konvergenz – schwierige Approximationsprobleme). Deshalb wurden Räume definiert, welche Integralnormen auch von Ableitungen
berücksichtigen. Hier soll das einfachste Beispiel (nämlich p = 1) präsentiert werden, welches
bereits aufzeigt, daß man die Elemente des Raumes als stetige Funktionen interpretieren
kann.
Beispiel 199
1. (Der Soboleffraum W11 (I)), ein Banachraum stetiger Funktionen mit
einer Integralnorm). Es sei C k (I, R) mit I = [0, 1] der Raum der stetigen, auf (0, 1)
k-mal stetig differenzierbaren (d.h. Ableitungsfunktion dort stetig) und mit in die Endpunkte 0 und 1 stetig fortsetzbaren Ableitungen.
Es sei kf k :=
R1
0
|f (x)| dx +
R1
0
|f 0 (x)| dx. Liegt eine Norm vor?
Antwort: Ja, der Nachweis verläuft recht ähnlich wie in Beispiel 194 4.
Ist C 1 ([−1, 1], R) mit der Norm kf k :=
liegt ein Banachraum vor?
R1
−1 |f (x)| dx +
R1
−1 |f
0 (x)| dx
vollständig, d.h.
Antwort: Nein. Es sei fn := x2n−1 und wir betrachten die Folge {fn }∞
n=1 . Es ergibt sich
nach etwas elementarem Integrale ausrechnen
1
1 1
1 kfn − fm k = 2 −
+
−
2n − 1 2m − 1 n − 1 m − 1 und mit Mitteln der Analysis überlegt man sich, daß dieser Ausdruck für m, n beide
hinreichend groß, selbst beliebig klein wird, m.a.W., daß eine Cauchyfolge vorliegt.
6.2. Normierte lineare Räume, Banachräume
223
Ähnlich wie in Beispiel 194 4. ergibt sich, daß die einzig mögliche Grenzfunktion links
von 0 den Wert −1 und rechts davon 1 annehmen muß. Dann ist, genau wie im zitierten
Beispiel, die Grenzfunktion nicht stetig. Somit ist der Raum nicht vollständig.
Anmerkung: In analoger Weise kann gezeigt werden, daß C 1 (I, R) mit der obigen Norm
nicht vollständig ist.
Auf C 1 (I, R) werde die Funktion φ(f ) :=
einer Norm erfüllt φ?
R1
0
|f 0 (x)| dx betrachtet. Welche Eigenschaften
Antwort: (Wohldefiniert) Es ist f 0 stetig, somit kann das Integral gebildet werden.
0
(Definitheit
R 1 – Nein) Es ist |f (x)| ≥ 0, also φ(f ) ≥ 0 stets. Jedoch für f (x) := 1 ist
φ(f ) = 0 |0| dx = 0 obwohl f nicht die Nullfunktion ist.
(Dreiecksungleichung) Ihr Nachweis folgt aus den Regeln der Integralrechnung analog
wie in Beispiel 194 4.
Es sei nun C01 (I, R) der Teilraum von C 1 (I, R) mit u(0) = u(1) = 0 (homogene Randbedingungen). Ist φ eine Norm auf diesem Teilraum?
Antwort: Ja. Wegen des vorigen Punktes ist lediglich zu zeigen,R daß φ(f ) = 0 stets
1
f = 0 nach sich zieht. Das ist jedoch der Fall, weil 0 = φ(f ) = 0 |f 0 (x)| dx zunächst
0
f = 0, also f = c, mit einer Konstanten c nach sich zieht, und weil wegen der Randbedingungen dann f = 0 folgt.
(Poincarésche Ungleichung) Es werde die Norm φ(f ) ab jetzt mit k · k11 bezeichnet.
Man zeige die Poincarésche Ungleichung
kf k∞ ≤ kf k11 .
Aus ihr folgere man, falls {fn }∞
n=1 bezüglich der Norm φ Cauchyfolge ist, so auch
bezüglich der Supremumsnorm.
Rx
Antwort: Ist f ∈ C01 (I, R), so gilt wegen f (x) = 0 f 0 (t) dt die Integralabschätzung
Z x
Z 1
0
|f (x)| ≤
|f (t)| dt ≤
|f 0 (t)| dt = kf k11
0
0
für alle x ∈ I gültig. Hieraus ergibt sich die Poincarésche Ungleichung
kf k∞ ≤ kf k11 .
1
Ist nun {fn }∞
n=1 bezüglich der Norm k · k0 eine CF, so ergibt die Abschätzung kfn −
1
fm k∞ ≤ kfn − fm k0 , daß sie auch CF bezüglich der Supremumsnorm ist.
(Vervollständigung von C01 (I, R) in C0 (I, R)) Kann die Vervollständigung von
C01 (I, R) als Teilraum von C0 (I, R) aufgefaßt werden?
Antwort: Ja. Gemäß des Vervollständigungsprozesses wird jeder Klasse von Cauchyfolgen in C01 (I, R) ein Grenzelement in der (abstrakten) Vervollständigung zugewiesen.
224
Lineare Funktionalanalysis
Da jedoch jede Klasse von solchen CF auch eine solche in C0 (I, R) ist, und dort genau
ein Grenzwert vorhanden ist, darf man die Vervollständigung als Teilraum ansehen.
Anmerkung: Die Norm kgk10 ist durch Grenzwertbildung zugänglich (was man in der
Praxis kaum zu tun braucht).
2. (Soboleffraum H k (I) = Wk2 (I))
Analog wie vorher sei I := [0, 1] und V := C k (I) der Raum im Inneren von I mindestens
k-mal stetig differenzierbaren und stetiger Fortsetzung der j.ten Ableitungen an den
Rand für j ≤ k − 1. Man zeige, daß
s
Z 1
kf k :=
(|f (x)|2 + |f 0 (x)|2 + · · · + |f (k) (x)|2 ) dx
0
die Eigenschaften einer Norm erfüllt.
Antwort: Ja, die Beweisführung ist völlig analog zur entsprechenden für W11 (I).
Die Vervollständigung dieses Raumes entsprechend oft differenzierbarer Funktionen ist
der Soboleffraum H k (I). Ähnlich wie bei W11 (I) erweisen sich seine Elemente als im
klassischen Sinn k − 1 mal stetig differenzierbar.
3. (Der Raum H01 (I) – eingespannte Saite)
qR
1 0
2
Es sei ψ(f ) :=
0 |f (x)| dx. Welche Eigenschaften einer Norm sind erfüllt? Für
welche Funktionen in C 1 (I) ist ψ(f ) = 0?
Antwort: Die positive Definitheit ist nicht erfüllt, weil z.B. jede konstante Funktion f
den Wert ψ(f ) = 0 ergibt. Ist umgekehrt ψ(f ) = 0, so folgt aus der Stetigkeit der
Ableitung, daß f 0 = 0, also f konstant sein muß.
Es sei C01 (I) die Menge der stetig differenzierbaren Funktionen, die an den Intervallenden Null ist (“eingespannte Saite”). Man zeige eine Poincarésche Ungleichung
kf k∞ ≤ ψ(f ).
Aus ihr soll abgeleitet werden, daß ψ eine Norm ist.
Rx
Antwort: Es ist f (x) = 0 f (t).1 dt und Anwenden der Cauchy-Schwarzschen Ungleichung (vgl Anmerkung 197 die Höldersche Ungleichung für p = q = 2 oder, beim 2.ten
Mal durchlesen Anmerkung 215) ergibt sich
p
|f (x)| ≤ ψ(f ).
Somit darf aus ψ(f ) = 0 auf f = 0 für f ∈ C0 (I) geschlossen werden.
Kann die Vervollständigung von C01 (I) als Teilraum von C0 (I) angesehen werden?
Antwort: Ja, die Begründung ist analog wie im vorigen Item des Beispiels.
6.3. Stetige lineare Operatoren
225
Numerische Verfahren (etwa die Ritzmethode) konstruieren Approximationen im Sinne
der k · k10 -Norm. Diese Näherungsfunktionen sind dann automatisch Näherungen im Sinne der
Supremumsnorm der stetigen Lösungsfunktion. Insbesondere läßt sich hiedurch das maßtheoretische Problem einer womöglich nur bis auf Lebesguenullmenge definierten Lösungsfunktion
f vermeiden. Ein Vorteil des letztgenannten
Soboleffraumes liegt in der Existenz eines inneR1
ren Produkts (nämlich hf, gi = 0 f 0 g 0 dx), welches bei FEM auf quadratische Formen führt,
wie wir in Kapitel 7 ausführen wollen.
6.3
6.3.1
Stetige lineare Operatoren
Stetigkeit=Beschränktheit, Operatornorm
Anmerkung 200 Die folgenden Eigenschaften eines linearen Operators A : U → V sind
für normierte K-Vektorräume (U, k · kU ) und (V, k · kV ) gleichwertig:
1. Stetigkeit: Für jede gegen ein u ∈ U konvergente Folge {un }∞
n=1 konvergiert die
∞
Folge {Aun }n=1 gegen Au.
2. Folgenstetigkeit in einem Punkt: Es gibt eine gegen ein u ∈ U konvergente Folge
∞
{un }∞
n=1 , für die {Aun }n=1 gegen Au konvergiert.
3. Gleichmäßige Stetigkeit auf U : A ist auf U gleichmäßig stetig.
4. Lipschitzstetigkeit: Es gibt ein λ mit kAu1 − Au2 kV ≤ λku1 − u2 kU .
5. Beschränktheit I: Das Bild jeder in U beschränkten Menge ist beschränkt.
6. Beschränktheit II: Das Bild der Einheitskugel in U ist beschränkt, d.h. es existiert
C mit kAukV ≤ CkukU .
Sind die Räume U, V zusätzlich vollständig (also Banachräume), so ist noch äquivalent
dazu, daß:
7. Abgeschlossener Graph: Der Graph G(A) := {(u, Au) | u ∈ U } ist eine abgeschlossene Teilmenge von U × V bezüglich der Norm k(u, v)kU ×V := kukU + kvkV .
Operatornorm: Die Zahlen supkukU ≤1 kAukV und supkukU =1 kAukV stimmen überein
und werden als Operatornorm bezeichnet, kurz kAkVU oder auch kAk, wenn über die auf
U bzw. V gewählten Normen kein Zweifel besteht. Der Operator heißt dann stetig oder
beschränkt und es gilt für alle u ∈ U stets
kAukV ≤ kAkVU kukU .
Beispiel 201 Bevor wir Nachweise geben, einfache Beispiele:
226
Lineare Funktionalanalysis
1. Erfüllt die lineare Abbildung A : R → R, gegeben durch A(x) = 3x die 7 Kriterien.
Antwort: Zunächst ist R ein reeller Banachraum, also ist es sinnvoll, alle 7 Kriterien
zu checken. Es sind 1. und 2. leicht einzusehen. 4. ist für λ := 3 erfüllt, und weil aus
Lipschitzstetig stets die gleichmäßige Stetigkeit folgt, ist auch 3. erfüllt. Ist |x| ≤ C für
eine Konstante C, so ist kAxk = |3x| ≤ 3C, also das Bild jeder beschränkten Menge,
und insbesondere, der “Einheitskugel”, d.i. A([−1, 1]) = [−3, 3] beschränkt, also gelten
5. und 6. Schließlich besteht der Graph von A aus allen Punkten (x, Ax) = (x, 3x) mit
x ∈ R, und wenn (xn , 3xn ) eine konvergente Folge ist, so ist der GW von der Form
(x, 3x), gehört also wieder zum Graphen, es gilt somit auch 7.
Welchen Wert hat kAk?
Antwort: kAk = sup|x|≤1 3|x| = 3.
2. (Alle linearen Abbildungen zwischen endlich-dimensionalen Räumen sind
stetig) Es sei A : Cn → Cm gegeben. Welche der Bedingungen 1.-7. erfüllt A?
Antwort: Weil Cn und Cm beides Banachräume sind, ist es sinnvoll, auch 7. mit einzubeziehen. Wiederum sind 1. und 2. sofort einsichtig – lineare Abbildungen im Koordinatenraum sind stetig, das weiß man! Wir wollen 6. nachweisen. Dazu vermerkt man, daß jede
abgeschlossene Kugel in Cn kompakt ist, sodaß ihr Bild wegen Anmerkung 162 3. ebenfalls kompakt, und somit beschränkt ist. Hieraus folgt 5., weil ja jede beschränkte Menge in Cn in einer Kugel enthalten ist. Insbesondere ist kAk wohldefiniert
und
man hat
u1 −u2
kAxk ≤ kAk für alle x mit kxk ≤ 1. Ist u1 6= u2 , so ist deshalb kA ku1 −u2 k k ≤ kAk,
woraus wegen der Linearität von A sofort kA(u1 − u2 )k ≤ kAkku1 − u2 k folgt, also
für λ := kAk die Lipschitzstetigkeit, d.i. 4. Da aus “Lipschitzstetig” stets “gleichmäßig
stetig” folgt, gilt auch 3. Die Abgeschlossenheit des Graphen sieht man ähnlich wie in
1. ein.
3. Es sei A : R2 → R2 ein linearer Operator, der bezüglich kanonischer Basen durch die
Matrix
2 1
A :=
,
0 1
gegeben ist. Wie kann seine Norm bestimmt werden?
p
x
Antwort: Die “Einheitskugel” wird hier durch die Ungleichung k
k = x2 + y 2 ≤
y
1 bestimmt, ist somit eine Kreisscheibe. Ihr Bild unter A ist die Menge
2x + y
{
| x2 + y 2 ≤ 1}.
y
p
Weil die Kreisscheibe kompakt ist, ergibt sich kAk = maxx2 +y2 =1 (2x + y)2 + y 2 und
somit erscheint es sinnvoll, die Aufgabe als Extremwertaufgabe zu formulieren: Gesucht
ist das Maximimum von
x
f (x, y) := kA
k2 = (2x + y)2 + y 2
y
6.3. Stetige lineare Operatoren
227
unter der Nebenbedingung
g(x, y) = 1 − (x2 + y 2 ) = 0.
Die Multiplikatormethode von Lagrange führt dazu
Φ(x, y, λ) := (2x + y)2 + y 2 + λ(1 − (x2 + y 2 ))
nach x und y zu differenzieren, Null zu setzen und die Nebenbedingung verwendend,
die Lösungen von
0 = 4x + 2y − λx
0 = 2x + 2y − λy
0 = x2 + y 2 − 1
zu ermitteln. Man hat somit ein Eigenwertproblem
x
x
4 2
=λ
y
y
2 2
vor sich und findet aus
Gleichung (die λ2 − 6λ + 4 = 0 lautet)
√ der charakteristischen
√
die Werte λ ∈ {3 + 5, 3 − 5}. Multipliziert man die 1. der Gleichungen mit x, die
2. mit y, addiert, und setzt die 3.te ein, so ergibt sich λ = x(4x + 2y) + y(2x + 2y) =
2
2
2
4x2 + 4xy +
√2y = (2x + y) + y = f (x, y), sodaß die gesuchte Lösung für die Norm
kAk = 3 + 5 ist.
Anmerkungen: Warum bezüglich der hier gewählten euklidischen Norm ein Eigenwertproblem entsteht, läßt sich kurz so umreißen: Die Matrix AT A ist positiv semidefinit
und somit kann sie durch eine orthogonale Matrix auf Diagonalgestalt gebracht werden
mit nicht negativen Elementen in der Diagonale. Ordnet man diese der Größe nach, so
wird schnell klar, daß der größte von ihnen das Quadrat der Norm sein muß.
Bezüglich der Würfelmetrik auf R2 ist die gleiche Aufgabe ungleich schwieriger. Es
soll noch vermerkt werden, daß die Quadratwurzeln der Eigenwerte die Längen der
Halbachsen der Ellipse des Bildes des Einheitskreises und die Eigenvektoren die Achsenrichtungen sind.
4. (Norm eines Funktionals
auf lp ) Es soll für p > 1 auf R2 die lp -Norm gewählt
√
x
∗
werden, also k
kp := p xp + y p . Wie kann für ein beliebiges Funktional f ∈ R2
y
nicht Null, gegeben als f (x, y) := ax + by die Norm kf k berechnet werden, wobei in R
die Betragsnorm gewählt wird?
Antwort: Die Vorgangsweise kann ähnlich wie im vorigen Beispiel gewählt werden. Es
soll f (x, y) := ax + by unter der Nebenbedingung g(x, y) = 1 − xp − y p = 0 maximal
gemacht werden, wobei der Einfachheit halber a ≥ 0 und b ≥ 0 und dementsprechend
insbesondere x ≥ 0 und y ≥ 0 gefordert werden kann. Die Kompaktheit der “Einheitssphäre” {(x, y) | xp + y p = 1} ergibt die Existenz des Maximums, sodaß die Methode
228
Lineare Funktionalanalysis
von Lagrange, d.h. Ansatz Φ(x, y, λ) := ax + by + λ(1 − xp − y p ), nützlich erscheint.
Differenzieren und Nullsetzen ergibt a − λxp−1 = b − λy p−1 y = 1 − xp − y p = 0, woraus
1
1
a p−1
b p−1
x = λp
, y = λp
, woraus man (bitte selbst die elementaren Zwischenschritte der Rechnung durchführen) mit der Bezeichnung q :=
1
1
p + q = 1)
1
− p−1
1 = xp + y p = (λp)
p
p−1
(das ist gleichwertig zu
k(a, b)kqq
bekommt, aus der man den Wert von f an der Extrumsstelle
kf k = f (x, y) = ax + by = (λp)
1
− p−1
(aq + bq ) = · · · =
√
q
x
y
ermitteln kann:
aq + bq = k(a, b)kq .
Anmerkungen: Zunächst folgt aus der Bedeutung der Norm von f die Ungleichung
√
√
|ax + by| ≤ p xp + y p q xq + y q .
Dies ist jedoch (für n = 2) eine diskrete Version der Hölderschen Ungleichung aus
Anmerkung 197, aus der man die Minkowskiungleichung (in der Summenform) leicht
herleiten kann.
Für p = 2 ist auch q = 2, sodaß in diesem Fall die Norm im Dualraum die “gleiche” wie
im Ausgangsraum ist, eine Beobachtung, die für Hilbertraummethoden ?? eine Rolle
spielt.
Angemerkt
darf auch kf k = |a| + |b| werden, falls man in R2 die Würfelnorm, also
x
k: = max{|x|, |y|} wählt.
k
y
Definition 202 Ein Operator A : U → V heißt Isometrie, falls für alle u ∈ U stets kuk =
kAuk gilt. Man beachte, daß jede Isometrie Kern Null hat.
6.3.2
(Topologischer) Dualraum
In Definition 184 wurde der algebraische Dualraum V ∗ eines linearen Vektorraumes V als
Menge der linearen Abbildungen von V mit Werten im Skalarkörper vorgestellt, die linearen
Funktionale. Bei der Verwendung normierter linearer (Funktionen)räumen betrachtet man
sehr oft die stetigen linearen Funktionale.
Definition 203 (topologischer Dualraum V 0 ) Ist (V, k·kV ) ein normierter linearer Raum
mit Skalarkörper K (= R oder C), so ist der aus allen stetigen linearen Funktionalen bestehende Teilraum von V ∗ der (topologische) Dualraum von V . Er soll mit V 0 bezeichnet
werden.
6.3. Stetige lineare Operatoren
229
Anmerkung 204 (topologischer Dualraum V 0 ) Zusammenstellung von Fakten:
Norm für stetige Funktionale: Wird im Einklang mit Anmerkung 200 die Operatornorm kv 0 kV 0 := supkvkV ≤1 |v 0 (v)| verwendet, so ist (V 0 , k · kV 0 ) ein Banachraum.
Der Nachweis ist in Unterabschnitt A.4.1 zu finden.
(Topologisch) duale Abbildung: Ist A : U → V stetige lineare Abbildung, und v 0
stetiges lineares Funktional auf V , so wird durch A0 (v 0 )(u) := v 0 (A(u)) die (topologisch) duale Abbildung
A0 : V 0 → U 0
festgelegt (vgl. die Skizze in Definition 184, in der A die Rolle von f und v 0 die von
v ∗ zu übernehmen hat). Sie ist beschränkt, es gilt sogar kA0 k = kAk.
Den Beweis findet man in Unterabschnitt A.4.1.
Beispiel 205 (Stetige und unstetige lineare Funktionale)
1. Es sei I := [0, 1] und C(I) der Raum der stetigen Funktionen Rmit der Supremumsnorm.
1
Welche der nachstehenden Funktionale sind stetig? J1 (f ) := 0 f (x) dx, δ(f ) := f (0)
Antwort: Da J stetig mit J beschränkt für lineare Operatoren gleichwertig ist, genügt
es, die Existenz von C ∈ R mit |J(f )| ≤ Ckf k nachzuweisen.
R1
Da |J1 (f )| ≤ 0 |f (x)| dx ≤ kf k ist, kann C = 1 gewählt werden und somit ist J1 stetig.
Da |δ(f )| = |f (0)| ≤ kf k, gilt, kann C = 1 gewählt werden, und somit ist δ (die
“Deltafunktion”
als lineares Funktional interpretiert, man schreibt ja das gerne als
R∞
f (0) = −∞ δ(x) dx, ein reiner Formalakt!) ist stetig.
Welche Norm haben J1 bzw. δ?
Antwort: Wir wissen schon |J(f )| ≤ 1 für alle f mit kf k = 1 und J = J1 bzw. J = δ.
Deshalb ist kJk ≤ 1. Wählt
R 1 man für f die konstante Funktion 1, so ergibt sich kf k = 1.
Weil auch 1 = |J1 (f )| = 0 1 dx = |δ(1)| ist, ergibt sich 1 ≤ kJk ≤ 1, also kJk = 1 für
J = J1 bzw. J = δ.
R1
Es werde jetzt C[0, 1] mit der Integralnorm kf k1 := 0 |f (x)| dx (vgl. Item 4 in Beispiel
194) betrachtet. Man untersuche die Stetigkeit von J1 und δ und bestimme gegebenenfalls die Norm.
Antwort: Für J1 ergibt sich
Z 1
|J1 (f )| ≤
|f (x)| dx = kf k1 ,
0
woraus man kJk ≤ 1 schließt, ähnlich wie vorhin. Wählt man f konstant gleich 1, so
ergibt sich analog wie vorhin kJ1 k = 1.
230
Lineare Funktionalanalysis
Die “δ-Funktion” (vgl. Anmerkung
277) ist nicht stetig in unserer Norm! Es sei fn (x) :=
R1
(1−x)n . Dann ist kfn k1 = 0 (1−x)n dx = n1 . Wäre nun δ stetig, so müßte limn→∞ δ(fn ) =
0 gelten. Es ist jedoch δ(fn ) = fn (0) = 1, also der Grenzwert gleich 1.
qR
1 0
2
Es werde C0 (I) mit der Soboleffnorm kf k10 :=
0 |f (x)| dx wie in Beispiel 199.2
versehen. Ist das durch δ 1 (f ) := f ( 12 ) definierte Funktional δ 1 linear und stetig?
2
2
Antwort: Die Linearität istRrecht einfach zu beweisen. (In der Diracschreibweise würde
∞
man das Funktional durch −∞ f (x)δ(x − 21 ) dx ausdrücken, rein formal!). Um die Stetigkeit nachzuweisen, beachtet man
1
|δ 1 (f )| = |f ( )| = |
2
2
Z
1
2
Z
0
f (x) dx| ≤
1
|f 0 (x)| · 1 dx,
0
0
und nun kann man mittels Cauchy-Schwarscher Ungleichung (in Integralform, vgl. etwa Anmerkung 197) der Term rechts durch kf k10 abgeschätzt werden. Also ist das
Funktional stetig!
Anmerkung 206 (Vervollständigung durch isometrische Einbettung in einem
Dualraum) Ist (V, k · kV ) ein zu vervollständigender normierter (Funktionen)raum, und
läßt er sich als Teilraum des Dualraumes eines normierten Vektorraums (W, k · kW auffassen, derart daß für alle v ∈ V stets kvkV = kvkW 0 (Norm im Dualraum) gilt, so ist die
Vervollständigung von V bezüglich k · kV gleich der Menge aller Häufungspunkte in W 0
bezüglich k · kW 0 .
Beispiel 207 Als klassische Anwendung zeigen wir:
1. Beschreibung von Lq für q > 1 als Dualraum von Lp ). Es sei V = C([0, 1]) der
1
R
p
1
p
Raum der stetigen Funktionen und auf ihm für p > 1 die Norm kf kp := 0 |f (x)| dx
gegeben. (Dies ist die Lp -Norm, siehe Anmerkung 197). Man zeige, daß für q, definiert
durch p1 + 1q = 1 und stetiges g das lineare Funktional J, definiert durch J(f ) :=
R1
0
0 g(x)f (x) dx stetig ist und die Norm von J sich als kJkV = kgkq ergibt.
Antwort(findung): Zunächst liest man aus der Integralform der Hölderungleichung (bei
vertauschten Rollen von f und g)
Z
|J(f )| = |
1
Z
1
g(x)f (x) dx| ≤
0
|g(x)f (x)| dx ≤ kgkq kf kp
0
ab. Somit ist J beschränkt und kJkV 0 ≤ kgkq .
Die umgekehrte Ungleichung ist für g = 0 klar und für g 6= 0 gewinnt man sie mit
p
der
einem Kunstgriff: Wir betrachten f := |g|q−1 sign g. Zunächst ist wegen q = p−1
6.3. Stetige lineare Operatoren
231
Exponent> 0 und weiters ist |f |p = |g|q . Dies setzen wir in die grundlegende Ungleichung für die Norm, nämlich |J(f )| ≤ kf kp kJkV 0 ein und bekommen
Z
1
g(x)|g|
q−1
0
Z
sign g dx ≤
1
q−1
||g|
p
sign g|
p1
kJkV 0 .
0
Die linke Seite erweist sich als kgkqq , und die rechte Seite nach etwas Rechnung als
kgk1−p
p kJkV 0 . Danach wird aus der Ungleichung
kgkqq ≤ kgk1−p
p kJkV 0 ,
woraus Division die umgekehrte Ungleichung kgkq ≤ kJkV 0 ergibt.
Wie kann man Lq nun als Raum linearer Funktionale verstehen?
Antwort: Es wurde gezeigt,
R 1 daß jedes g ∈ C[0, 1] als lineares Funktional auf C[0, 1] durch
die Bedingung Jg (f ) := 0 g(x)f (x) dx aufgefaßt werden kann. Dies kann als Abbildung
J : C(I) → C(I)0 verstanden werden, nämlich J(g) = Jg . Im Vorangegangenen wurde
kJ(g)k = kgkq gezeigt. Deshalb ist J eine Isometrie. Der Abschluß des Bildes von J
(also die Menge aller Häufungspunkte) in C(I)0 ist somit als Banachraum isomorph zu
Lq , der Vervollständigung von C(I) unter der Lq -Norm.
2. (Variationsaufgabe eingespannte Saite und isometrische Einbettung) Es sei
I = [0, 1] und p stückweise stetig
R 1 auf I und nach unten durch eine positive Konstante
beschränkt. Nun soll J(y) := 0 L(x, y, y 0 ) dx für L(x, y, y 0 ) := 12 (y 0 )2 − f (x)y minimiert
werden (Vgl. das Variationsproblem in Beispiel 186), wobei noch y(0) = y(1) = 1 als
Randbedingungen gestellt werden (mit Kraftdichte l belastete, an den Enden eingespannte
R 1 0 0 Saite). Wie dort gezeigt, interessiert man sich für die 1.te Variation δJ(φ) :=
0 (py φ + f φ) dx, die man Null setzt. Dabei verlangt man von φ stetig differenzierbar
zu sein und die Randbedingungen
zu erfüllen. Auf C0 (I) werde wie in Beispiel 199 die
qR
1
0
2
Soboleffnorm kφk10 :=
0 |φ (x)| dx definiert. Es sei f stückweise stetig. Man zeige,
daß für beliebiges y ∈ C01 (I) das Funktional δJ(y) stetig ist.
R1
Antwort: Die Stetigkeit von J(φ) := 0 py 0 φ0 dx läßt sich wie folgt nachweisen:
Z 1
Z 1
0
0
|J(φ)| ≤
p(x)|y ||φ | dx ≤ kpk∞
|y 0 ||φ0 | dx ≤ kyk10 kφk10 ,
0
0
wobei kpk∞ := supx∈I |p(x)| die Supremumsnorm4 ist, und beim letzten Term die
Cauchy-Schwarzsche Ungleichung (vgl. Anmerkung 197) in Integralform bzw. die Definition der Norm benützt wurden.
R1
Die Stetigkeit des zweiten Anteils des Funktionals δJ(y) ist 0 f (x)φ(x) dx. Man findet
Z 1
Z 1
|
l(x)φ(x) dx| ≤ kf k∞
|φ(x)| dx,
0
4
siehe die Anmerkung zu Beispiel 194.2.
0
232
Lineare Funktionalanalysis
und da |φ(x)| ≤ kφk10 wegen der Poincaréungleichung, ergibt sich schließlich insgesamt
die Stetigkeit von δJ(y).
(Schwache Lösung) Welchen Wert hat die bisherige “Turnübung”?
Antwort: Es erscheint sinnvoll, alle bezüglich der Norm k · k10 stetigen linearen Funktionale v 0 auf C01 (I) zu suchen, für die
Z 1
v 0 (φ) +
lφ dx = 0
0
für alle φ ∈ C01 (I) gilt. Jedes solche v 0 heißt schwache Lösung des Variationsproblems.
In Kapitel 7 wird gezeigt werden, wie man mittels des Darstellungssatzes von Riesz
grundsätzlich v 0 beschreiben kann. Hierauf fußen wohl auch FEM-Methoden. Andrerseits ist jedes solche v 0 als stetige Funktion auffaßbar, ein entscheidendes Faktum
für die physikalische Interpretation. Deshalb wird jede numerische Methode (FEMRitzverfahren) darauf abzielen, Abschätzungen der k · k∞ für die Güte der Näherung
anzugeben. Es ist dieser Punkt, bei dem die Rolle der Hutfunktionen zu tragen kommt.
6.3.3
Kompakte Operatoren
Kurze Vorgeschichte: das Randwertproblem y 00 = f (x) wobei y(0) = y(1) = 0 gilt, führt
unter entsprechenden Voraussetzungen auf eine geschlossene Integralformel5 für die Lösung,
nämlich
Z
1
y(x) =
K(x, u)f (u) du,
0
wobei
x
K(x, u) =
u(x − 1) 0 ≤ x ≤ u ≤ 1 oberes Dreieck: 1
x(u − 1) 0 ≤ u ≤ x ≤ 1 unteres Dreieck: 2
1
2
u
Das K wird oft als Greenfunktion bezeichnet und der Integraloperator, der vorgegebener InhoRt
Hier ist die Herleitung: Zunächst ergibt Integration y 0 (t) =
f (u) du + c mit noch zu
0 R
Rt
x
bestimmender Konstante c. Nochmaliges Integrieren ergibt y(x) =
dt 0 f (u) du + cx, wo0
R1 Rt
bei schon y(0)
=
0 erfüllt ist. Damit y(1)
=
0 gilt, muß c
:=
− 0 dt 0 f (u) du
gewählt werden. Die beiden iterierten Integrale können in einfache Integrale verwandelt werden.
5
t
x
u
x
Rx Rt
R
Es ist 0 dt 0 f (u) du =
f (u)d(u, t) wobei R B das in der
B
Skizze
auftretende
Dreieck
ist.
Dann
ist jedoch B f (u)d(u, t) =
Rx
Rx
Rx
dt
=
(u
−
x)f
(u)
du.
Beim
2.ten Integral ist x = 1
du
f
(u)
0
u
0
und die gleiche Umformung funktioniert. Danach ergibt sich die Definition von K durch Fallunterscheidungen.
6.3. Stetige lineare Operatoren
233
mogeität des Randwertproblems die offenbar eindeutige Lösung zuordnet, als Greenoperator.
Auch beim Dirichlet- bzw. Neumannproblem, welches bei der Berechnung des Potentials eines
Feldes bei homogenen Randdaten und vorgegebener Ladungsdichte auftritt, ergibt sich eine
(wesentlich kompliziertere) Integraldarstellung der Lösung.
Eine Annehmlichkeit dieser Integraloperatoren ist ihre sogenannte Kompaktheit, nicht zu
verwechseln mit jener von Mengen im metrischen Raum. Als Konsequenz dieser Kompaktheit
ergibt sich die Existenz von Eigenwerten und Räumen, auf die in Unterabschnitt 7.2.4, bei
der Konstruktion der Rieszabbildung für das Problem der eingespannten Saite eingegangen
werden soll. Wir wollen diese wichtigen Eigenschaften hier kurz zusammenfassen.
Definition 208 (Kompakter linearer Operator) Ein linearer Operator A : U → V ist
∞
kompakt, wenn für jede in U beschränkte Folge {un }∞
n=1 die Folge {Aun }n=1 eine in V konvergente Teilfolge besitzt.
Anmerkung 209 (Kompakter linearer Operator – Fakten) Wesentliche Fakten
für einen kompakten Operator K : U → V sind:
Stetigkeit: K stetig. (Nicht jeder stetige Operator ist kompakt).
Endliche Dimension von Kernen von I − σK: Der Lösungsraum von
(I − σK)u = 0
ist für beliebiges σ ∈ C endlich-dimensional.
Diese Aussage impliziert die endliche Dimension jedes Eigenraumes E(λ) = {u |
(K − λI)u = 0} für λ 6= 0.
Konvergenz: Bezüglich der Supremumsnorm bilden die kompakten Operatoren einen
abgeschlossenen Teilraum des Raumes der beschränkten Operatoren, d.h. wenn
Kn → K im Sinne von kKn − Kk → 0, so ist K kompakt, sofern es die Kn sind.
Dualer Operator K 0 , Fredholmeigenschaft von K: Der duale Operator K 0 ist
kompakt. Es ist das Bild R(I − K) gleich dem Annulator des Kerns von I − K 0 und
somit ein abgeschlossener Teilraum von V . Es gibt Teilräume M von U und N von
V , sodaß
I − K : ker(I − K) ⊕ M → R(I − K) ⊕ N,
wobei M abgeschlossen und N endlichdimensional sind und I − K eine stetige
Bijektion von M auf R(I − K) ist.
Die Nachweise finden sich in Beispiel 275.
234
Lineare Funktionalanalysis
Beispiel 210 Paradebeispiele kompakter Operatoren sind von der Form
Z
(Ku)(x) := K(x, t)u(t) dt,
I
wobei an u, an den Integralkern K(x, t) und an den Wertebereich V geeignete Voraussetzungen
gestellt werden. Auch hier wird uns der Abschnitt über die Saite Kapitel 7 die 1-dimensionale
Version typischer Anwendungen liefern.
Hier ist ein elementares Schulbeispiel, welche durchaus Standardüberlegungen widerspiegelt:
Es sei U = V = C(I) mit I = [0, 1] und auf U . V die Supremumsnorm gegeben. Weiters sei
K : I × I → R stetig. Ist der wie oben definierte Operator kompakt?
Hinweis: Zunächst zeige man dies für K(x, t) = xk f (t) und verwende danach den Satz von
Stone-Weierstraß.
R1
Antwort(findung): Es ist Ku(x) = xk 0 f (t)u(t) dt. Insbesondere liegt Ku im eindimensionalen Teilraum von C(I), der von xk erzeugt wird. Ist danach {un }∞
n=1 beschränkt, so ist die
R1
Menge der Werte der Integrale { 0 f (t)un (t) dt | n ∈ N} beschränkt, somit kann eine konvergente Teilfolge dieser Wertemenge gefunden werden. Somit konvergiert die entsprechende
Teilfolge der Kun gegen ein xk r mit r ∈ R. Deshalb ist solches K kompakt.
Hieraus ergibt sich die Kompaktheit von K für jeden Kern ein Polynom in den 2 Variablen
x und t, weil ja jede Linearkombination kompakter Operatoren kompakt ist.
Schlußendlich verwendet man den Satz von Stone-Weierstraß, um zu beliebigem, stetigem
K(x, t) ein Polynom P (x, t) zu finden, welches im Sinne der Supremumsnorm hinreichend
nahe ist. Für diese Näherung P (x, t) ergibt sich die Abschätzung
R1
|Ku − P u|(x) = | 0 (K(x, t) − P (x, t))u(t) dt
R1
≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I} 0 |u|(t) dt
≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk.
Deshalb kann man links zur Supremumsnorm übergehen, bekommt
kKu − P uk ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk,
sodaß wegen der Definition der Operatornorm
kK − P k ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}
gilt. Weil hierin der Ausdruck rechts durch geeignete Wahl von P (x, t) beliebig klein gemacht
werden kann, wird K durch kompakte Operatoren der Bauart P im Sinne der Operatornorm
approximiert, ist also nach obigem selbst ein kompakter Operator.
6.4
Hilberträume
Hilberträume sind Banachräume, deren Norm durch ein inneres Produkt induziert
wird. Im
p
3
2
R , welcher ein sehr einfaches Beispiel ist, wäre dieses “Induzieren” durch k~ak= a1 + a22 + a23 =
6.4. Hilberträume
235
p
h~a, ~ai gegeben. Diese Form des Norminduzierens geht in jedem (Prä)hilbertraum. Das im
R3 bestgeübte innere Produkt (Skalarprodukt) ist das einfachste Beispiel und erlaubt, geometrische Intuition auch für Hilberträume unendlicher Dimension zu entwickeln. Dies betrifft
• Winkel und Länge von Vektoren (dabei spielt die Ungleichung von Cauchy–BunyakovskiĭSchwarz die Hauptrolle).
• Orthogonalität, Orthogonalprojektion, Zerlegen eines Vektors in Orthogonalkomponenten.
• Orthogonalisierungsverfahren von Gram-Schmidt.
• Minimierung positiv definiter quadratischer Funktionen. Im Rn ist jede quadratische
Funktion von der Bauart f (~x) = ~xT A~x + 2~bT ~x + c, und wenn A positiv definit ist, kann
man ein inneres Produkt (“Energieprodukt”) durch h~x, ~y iA := ~xT A~y festlegen und
quadratisches Ergänzen ergibt f (~x) = k~xk2A + f (m),
~ wobei m
~ = −A−1~b der Mittelpunkt
des Kegelschnittes mit der Gleichung f (~x) = 0 ist. Man erkennt die Minimumeigenschaft
des Mittelpunkts sofort: f nimmt an m
~ das globale Minimum an.
ist für n = 1
√ Die Idee
√
in der Skizze klar zu sehen. Es wäre hx, yia = axy und kxka = ax2 = a|x|.
y=ax^2+2bx+c
y
x
m=−b/a
Gelegentlich, vorallem bei “elementar bewältigbaren” Problemen, diagonalisiert man
das Problem unter Benützung einer P
Orthonormalbasis S = {sλ | λEigenwert von A}
und bekommt nach dem Ansatz ~x = λ xλ sλ die bequemere Darstellung
X
X
~bT ~sλ xλ + c,
f (~x) =
λx2λ + 2
λ
λ
~T
deren Lösung ebenfalls durch Differenzieren auf xλ = − b λ~sλ führt. Diese Methode ist
im wesentlichen die Singulärwertzerlegung.
Probleme dieser Art sind üblicherweise statischer Natur (stabiles Gleichgewicht von belasteten Saiten, Seilen, Balken, Platten, und natürlich Elektrostatik und Magnetostatik)
und führen auf FEM-Methoden.
• Lösen von Anfangswertproblemen ~x˙ + A~x = ~0, ~x(0) = ~x0 mit A positiv definit. Hiebei
kann man die Matrix A mittels orthogonaler Transformation diagonalisieren, d.h. es
236
Lineare Funktionalanalysis
gibt eine ONB aus Eigenvektoren von A. Danach kann das Anfangswertproblem in der
Form
X
~x(t) =
e−λt h~x0 , ~sλ i~sλ
λ
gelöst werden. Auf diese Form von Problemen stößt man typisch bei der Wärmeleitungsgleichung (bei Diskretisieren bzw. FEM-Ansätzen).
¨ + A~x = ~0 und ~x(0) = ~x0 , ~ẋ(0) = ~y0 . Es wird gerne eine
• Lösen von AWP der Form ~x
P
Orthogonalbasis
{~
s
}
von
Eigenvektoren
von
A
verwendet.
Es
ist
dann
~
x
=
sλ
0
λ
λ ξλ ~
P
und ~y0 = λ ηλ~sλ , sodaß elementare Rechnung auf folgende Lösung führt:
X
√
√
ηλ
~x(t) =
(ξλ cos( λt) + √ sin( λt))~sλ .
λ
λ
Dies ist der Harmonische Oszillator in mehreren Freiheitsgraden, d.i., schwingende Ketten, miteinander durch Federn verbundene Kugeln, Schwingkreise ohne Dämpfung (keine Ohmschen Widerstände). Solche Probleme treten auch auf, wenn man die Wellengleichung diskretisiert, bzw. FEM-Methoden benützt.
Aus Zeitgründen wird in Kapitel 7 lediglich auf die erste Klasse von Problemen am Beispiel
der belasteten Saite eingegangen werden. Für intesives Studium, vorallem von Problemen
jenseits der eingepannten Saite, ist z.B. das Buch von J. Wloka, [36] geeignet.
6.4.1
Inneres Produkt, Prähilbertraum
Definition 211 (Inneres Produkt) Es sei K der Körper der reellen oder der komplexen
Zahlen und “¯ ” Konjugation. Weiters sei H ein K-Vektorraum. Ein inneres Produkt auf
H ist eine Funktion h·, ·i : H × H → K, die für alle u, v ∈ H und alle k, l ∈ K folgende
Eigenschaften hat:
Definitheit: hu, ui ≥ 0 und hu, ui = 0 genau dann, wenn u = 0 ist.
Symmetrie bis auf Konjugiertheit: hu, vi = hv, ui.
Linearität in der zweiten Variablen: hu, kv + lwi = khu, vi + lhu, wi.
Das Paar (H, h·, ·i) wird Prähilbertraum, auch euklidischer Vektorraum bzw. Raum mit innerem Produkt genannt.
Beispiel 212 Elementarstes Beispiel ist das übliche Skalarprodukt des Rn (in der Einführung
für n = 3 erwähnt). Weitere einfache Beispiele im Folgenden.
1. Es sei eine Funktion in 2 komplexen Variablen
ha, bi := āb
definiert. Ist (C, h·, ·i) ein Prähilbertraum?
6.4. Hilberträume
237
Antwort: Ja, wir gehen die Punkte durch.
(Definitheit) Es ist ha, ai = āa = |a|2 ≥ 0, und weiters ist ha, ai sicher nur dann Null,
wenn a = 0 gilt.
(Symmetrie bis auf Konjugiertheit) Es ist
ha, bi := āb = ab̄ = b̄a = hb, ai.
(Linearität in der 2.ten Variablen)
ha, kb + lci = ā(kb + lc) = kāb + lāc = kha, bi + lha, ci.
Wenn man a und b in der komplexen Zahlenebene deutet, wie läßt sich ha, bi geometrisch
deuten?
Antwort: Stellt man a und b in der Form a = |a|eiα und b = |b|eiβ dar, so ist
ha, bi = |a||b|ei(β−α) = |a||b|(cos(β − α) + i sin(β − α)).
Haben somit a und b die Länge 1, so hat das innere Produkt als Real- bzw. Imaginärteil
Kosinus, bzw. Sinus des Winkels zwischen a und b, entgegen dem Uhrzeigersinn gemessen.
2. (Durch Integral gegebenes inneres Produkt) Es sei I = [0, 1] das abgeschlossene
Einheitsintervall und H := C(I,
R 1 C) die Menge aller stetigen Abbildungen von I nach
C. Für f, g ∈ H sei hf, gi := 0 f¯(t)g(t) dt. Ist (H, h·, ·i) ein Prähilbertraum.
Antwort: Ja, die Punkte sollen kurz durchgegangen werden.
R1
R1
(Definitheit) Es ist hf, f i = 0 f (t)f (t) dt = 0 |f (t)|2 dt, und weil mit die reellwertige
Funktion t 7→ |f (t)|2 nicht negativ ist, ist gilt hf, f i ≥ 0. Ist hf, f i = 0, so folgt aus der
Stetigkeit von f jene der reellen Funktion t 7→ |f (t)|2 , sodaß aus dem Verschwinden des
Integrals für alle t ∈ I stets f (t) = 0 gefolgert werden kann.
(Symmetrie bis auf Konjugiertheit)
Z
hf, gi =
1
Z
1
g(t)f (t) dt = hg, f i,
f (t)g(t) dt =
0
0
wobei Rechenregeln für Integrale benützt worden sind.
(Linearität in der 2.ten Variablen) Man muß
Z
1
Z
f (t)(kg(t) + lh(t)) dt = k
0
1
Z
f (t)g(t) dt + l
0
1
f (t)h(t) dt
0
nachweisen, und das geht mittels der Regeln zur Berechnung von Integralen.
Beispiel 213 (Inneres Produkt im Cn bzw. Rn Zusammenfassung)
238
Lineare Funktionalanalysis
1. Es sei h·, ·i ein beliebiges inneres Produkt auf Cn . Man zeige, daß es eine n × n-Matrix
A mit folgenden Eigenschaften gibt
(a) Aij = h~ei , ~ej i und h~x, ~y i = ~x∗ A~y .
(b) A∗ := AT erfüllt A∗ = A (A ist hermitisch).
(c) A ist positiv definit, d.h. ~x∗ A~x > 0 für alle ~x 6= ~0.
Umgekehrt, wenn A die drei Eigenschaften erfüllt, wird durch h~x, ~y i = ~x∗ A~y ein inneres
Produkt auf Cn definiert.
P
P
Antwort(findung): Es ist für ~x = i xi~ei und ~y = j yj ~ej wegen der Sesquilinearität
des inneren Produkts
XX
X
X
h~x, ~y i =
hxi~ei , yj ~ej i =
x̄i yj h~ei , ~ej i =
x̄i yj Aij = ~x∗ A~y .
i
j
i,j
i,j
Also gilt (a). Um (b) zu zeigen, genügt es
(A∗ )ij = Āji = h~ej , ~ei i = h~ei , ~ej i = Aij
zu vermerken. Schließlich ist (c) gleichbedeutend mit der positiven Definitheit des inneren Produkts, weil wegen (a) die Gleichung k~xk2 = ~x∗ A~x gilt.
2. (Choleskyzerlegung) Jede positiv definite Hermitische Matrix (ihre definierende Eigenschaft ist, daß sie bei Transponieren und komplex-Konjugieren aller Einträge in sich
selbst übergeht) erlaubt eine Zerlegung der Form A = LL∗ , mit L untere Dreiecksmatrix.
Antwort: Hier ist ein Beweis gefragt, und üblicherweise wird er mittels Induktion nach
n geführt: Ist n = 1, so ist nichts zu zeigen. Andernfalls erlaubt die Matrix die Blockzerlegung
α ~a∗
A=
~a B
und man bestätigt durch Rechnung
!
√
~0∗
α ~0
1
A=
√1 ~
~0 B − 1 ~a∗~a
a I
α
α
√
α
~0
√1 ~
a∗
α
!
I
Hiemit ist ein 1. Schritt des Choleskyverfahrens getätigt. Faßt man ihn als Koordinatentransformation auf, so erweist sich die mittlere Matrix wieder als positiv definit,
insbesondere die (n − 1) × (n − 1) Matrix B − α1 ~a∗~a, die laut Induktionsvoraussetzung
eine Zerlegung der Form U U ∗ mit U untere Dreiecksmatrix besitzt. Hieraus ergibt sich
!
!
√
√
α ~0
α ~0
1 ~0∗
L=
=
,
√1 ~
√1 ~
~0 U
a I
a U
α
α
welche sichtlich untere Dreiecksmatrix mit A = LL∗ ist.
6.4. Hilberträume
239
3. Es sei A hermitisch. Dann hat A eine Eigenbasis orthogonaler Vektoren. Ordnet man
sie in eine Matrix S, so ist diese unitär, d.h. erfüllt S ∗ S = I und es gilt AS = SΛ,
wobei Λ eine Diagonalmatrix aus Eigenwerten von A ist. Es ist die i.te Spalte von S
Eigenvektor zum i.ten Eigenwert (als Diagonalelement in Λ). Die Matrix Λ ist reell und
hat genau dann positive Diagonalelemente, wenn A positiv definit ist.
Antwort: Auch hier sind Beweise gefragt. Ist λ ein Eigenwert, so gibt es ein ~v 6= 0 mit
A~v = λ~v . Dann ist ~v ∗ A~v = λ~v ∗~v , also
~v ∗ A~v = λk~v k2 .
Da das Element auf der linken Seite reell ist. ist es auch λ. Somit kann A nur reelle
Eigenwerte haben.
Um die Existenz der Eigenbasis zu zeigen, benützen wir Induktion. Für eine n × nMatrix ist nichts zu zeigen. Sei nun λ ein Eigenwert und ~v ein zugehöriger Eigenvektor
(der Länge 1). Ist dann ~u ∈ ~v ⊥ , so auch A~u, weil
~v ∗ A~u = ~u∗ A∗~v = ~u∗ A~v = λ~u∗~v = 0,
also ist A~u auch im Orthogonalraum zu ~v . Ergänzt man ~v mit einer ONB des Orthogonalraumes, so gewinnt A bezüglich der neuen ONB von Cn eine Blockstruktur
α ~0∗
A= ~
0 B
mit B hermitisch. Danach ergibt die Induktionsannahme die Existenz von S mit den
geforderten Eigenschaften.
Welche Bedeutung für innere Produkte hat die unitäre Diagonalisierbarkeit?
Antwort:
Charakterisierung innerer Produkte im Cn : Ist ein beliebiges inneres Produkt
gegeben, so gibt es stets eine ONB in Cn und positive Zahlen λi mit
h~x, ~y i =
X
λi x̄i yi .
i
Energiemethode, Hermitesche Formen: Man bestimme die Extrema von ~x∗ A~x
unter der Nebenbedingung ~x∗ B~x = 1 für hermitisches A und positiv definites
hermitisches B. Es wird uns beim Problem der Eigenfunktionen der gespannten
Saite in Kapitel 7 begegnen und ist auch zur Bestimmung der
Norm einer MapP
n
2
trix L bezüglich der euklidischen Metrik (gegeben durch k~xk=
x∗ ~x)
i=1 |xi | = ~
wichtig, weil
kLk= sup{kL~xk | ~x∗ ~x = 1}
ist, also hiebei B = I gilt.
240
Lineare Funktionalanalysis
Die Aussage besteht darin, daß man eine reguläre Matrix X und eine Diagonalmatrix Λ mit
AX = BXΛ
finden kann. Die Spalten von X sind, wie man durch Matrizenrechnung sofort
bestätigt, verallgemeinerte Eigenvektoren
A~vi = λi B~vi .
Der Nachweis ist wie folgt: Zunächst existiert eine unitäre Matrix U sodaß für
~x = U ~y in neuen Koordinaten für ~y ∗ U ∗ AU ~y unter der Nebenbedingung ~y ∗ D2 ~y = 1
gesucht sind. Setzt man ~y = D~z mit D Diagonalmatrix mit positiven Einträgen,
so hat man nunmehr ~z∗ DU ∗ AU D~z unter der Bedingung ~z∗~z = 1 auf Extrema
zu untersuchen. Schlußendlich findet sich eine unitäre Eigenbasis T der hermitischen Matrix D−1 U ∗ AU D−1 mit T ∗ D−1 U ∗ AU D−1 T = Λ diagonal und reell. Die
schlußendliche Koordinatentransformation ~z = T w
~ führt dazu, w
~ ∗ Λw
~ unter der
∗
Nebenbedingung w
~ w
~ = 1 auf Extrema zu untersuchen.
Als Nebenprodukt erweist sich X := U D−1 T als gemeinsame Eigenbasis, nämlich
AX = BXΛ
Singulärwertzerlegung: Es sei A eine beliebige (komplexe) n×n-Matrix.
gibt
2 Dann
D 0
mit D
es Orthonormalbasen U und V und eine Diagonalmatrix Λ =
0 0
eine r × r Diagonalmatrix mit lauter positiven Einträgen, sodaß die Wirkung von
A durch die Formel
r
X
A~x =
di h~x, ~ui i~vi
i=1
beschrieben werden kann. Dies wiederum verhilft bei singulärem A zu einer Lösung
von
A~x = ~b
durch
~x =
r
X
1 ~
hb, ~vi i~ui
di
i=1
sofern ~b im Orthogonalraum von ker A∗ liegt. Der Wert der Zerlegung liegt darin,
auch über die “Kleinheit” von di entscheiden zu können, ob es “wie eine Null”
behandelt werden soll.
Die Matrizen U und V werden wie folgt gefunden: Zunächst ist U eine Eigenbasis
des offenkundig hermitischen Operators A∗ A, derart, daß die ersten r Spalten
2 Ur zu
D 0
∗
den nichtverschwindenden Eigenwerten gehören. Da dann A AU = U
0 0
ist mit D eine r × r Matrix mit positiven Einträgen, kann V durch Angabe von r
Spaltenvektoren mit der Eigenschaft Vr = AUr D−1 und die verbleibenden Spalten
eine ONB des Kerns von A∗ .
6.4. Hilberträume
241
Beispiel 214 (Zerlegung eines Vektors ~b in einen Anteil in Richtung ~a und einen
senkrecht dazu.) Es seien zwei Vektoren ~a, ~b in einem Prähilbertraum (V, h·, ·i) vorgegeben
(Skizze in V = R2 ). Die Vektoren ~t und ~n sollen jeweils ~t = k~a (also in Richtung ~a) und ~n
soll senkrecht auf die Richtung von ~a sein.
Man gebe einfache Formeln zur Berechnung von ~t und ~n für ~a, ~b in R2 an.
J
Antwort:
Elementargeometrisch
~b würde man z.B. so vorgehen: Die
~
Länge von ~t ist kbk cos(α) und
jene von ~t ist k~bk sin(α). Somit
1
~
~
sollte t = kbk cos(α) k~ak ~a. Nun
~a
;
w
w
weiß man (vergleiche Anmerkung
ww
[7
·www; w
215 und dort die Skizze mit dem
7
~
ww
7
Kosinussatz) cos(α) = h~a,bi~ und
ww
h~a,~bi
w
k~akkbk
~n = P~a⊥ (~b)7= ~b − k~
~
a
w
ak2 ww
7
somit ergibt sich nach ein wenig
ww
w
7
h~a,~bi
w
h~a,~bi
ww ~t = P~a (~b) = k~ak2 ~a
7
~
a
und
Rechnung sofort ~t = k~
w
2
w
ak
7
h~a,~bi
danach ~n = ~b − ~t = ~b − k~
~a, genau
ak2
jene Formeln, die in der Skizze
eingetragen sind.
7
ww
α wwww
7 ww
7;w ww
0
Sei jetzt (V, h·, ·i) ein beliebiger Prähilbertraum. Gegeben seien ~a und ~b, beide nicht Null.
Gesucht ist wiederum eine Zerlegung von ~b in einen Anteil ~t = k~a und einen Anteil ~n mit
h~t, ~ni = ~0 und ~b = ~t + ~n.
Antwort: Bildet man das innere Produkt auf beiden Seiten der letzten Gleichung, und setzt
dann ~t = k~a ein, so erhält man
h~a, ~bi = h~a, ~ti + h~a, ~ni = kh~a, ~ai + 0 = kk~ak2 ,
also ergibt sich
k=
h~a, ~bi
k~ak2
und Einsetzen ergibt als Lösung genau die gleichen Formeln, wie jene, die in der Skizze
eingetragen sind.
Anmerkung 215 Nach den Einführungsbeispielen
eine Sammlung wichtiger Fakten zum
p
inneren Produkt, wobei kuk := hu, ui (die induzierte Norm) gesetzt wird. Zunächst die
Cauchy-Schwarzsche Ungleichung (und ihr Bezug zur Längen-, Winkel-, und Flächenmessung), aus der man schließen kann, daß die so definierte Funktion die Axiome einer Norm
erfüllt:
Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung: Ist (H, h·, ·i) ein Prähilbert-
242
Lineare Funktionalanalysis
raum und sind k, l ∈ K sowie u, v ∈ H beliebig, so gilt
|hu, vi| ≤ kukkvk
und Gleichheit genau dann, wenn u und v linear abhängig sind. Beweis in Beispiel
216.
Ist H ein reeller Prähilbertraum, so wird die kleinere der beiden Zahlen γ, π − γ als
Winkel zwischen u und v bezeichnet, wobei
cos(γ) :=
Deutung der Ungleichung mittels
Flächeninhalt
eines
Parallelogramms. Es p
ist durchaus üblich, die
Größe A := kuk2 kvk2 − hu, vi2 als
Fläche des von den Vektoren u, v
aufgespannten
Parallelogramms
zu definieren. Dies verallgemeinert die im R3 bekannte Formel
A = ||u × v||.
hu, vi
.
kukkvk
vllll5
l
l
ll
h
lγll
l
l
lll
u
l
lll
lll
l
l
l
lll
l/ ll
h = ||v|| sin(γ), A = ||u||h = ||u||||v|| sin(γ)
0 ≤ A2 = kuk2 kvk2 (1 − cos2 (γ)) = kuk2 kvk2 − hu, vi2
Sesquilinearität: Für alle k, l ∈ K und alle u, v, w ∈ H gilt
hku + lv, wi = k̄hu, wi + ¯lhv, wi.
Orthogonalität: Die Vektoren u und v nennt man orthogonal bezüglich h·, ·i, falls
hu, vi = 0 gilt. Zwei Teilmengen A und B nennt man orthogonal (zueinander), falls
jedes a ∈ A zu jedem b ∈ B orthogonal ist. Die Menge A⊥ := {v ∈ V | (∀a ∈
A) v ⊥ a} ist ein linearer Teilraum, der Orthogonalraum zu A genannt wird.
Vom inneren Produkt induzierte Norm: Es ist (H, k · k) ein normierter KVektorraum. Die Norm k · k ist von h·, ·i auf H induziert.
Der BW findet sich in Beispiel 216.
Polarform für reelles H: (“=Kosinussatz”, wobei γ der von u und v eingeschlossene
Winkel ist):
Für alle u, v ∈ H gilt stets
1
hu, vi = (||u + v||2 − ||u||2 − ||v||2 )
2
?4
444

4
u π − γ 444 v
44

dddddd2
d
d
d

d
d
d
ddddddu + v
||u + v||2 = ||u||2 + ||v||2 − 2 cos(π − γ)||u|| · ||v||
hu, vi = ||u|| · ||v|| cos(γ)
6.4. Hilberträume
bzw.
243
1
hu, vi = (||u + v||2 − ||u − v||2 ).
4
Polarform für komplexes H: Für alle u, v ∈ H gilt stets
1
hu, vi = (||u + v||2 − ||u − v||2 + i(||u + iv||2 − ||u − iv||2 ).
4
Parallelogrammregel: Für alle u, v ∈ H gilt stets
||u + v||2 + ||u − v||2 = 2(||u||2 + ||v||2 ).
Normierter Raum ein Prähilbertraum? Ist (H, || · ||) ein normierter
Vektorraum,
p
so gibt es genau dann ein inneres Produkt h·, ·i mit kuk = hu, ui, wenn für alle
u, v ∈ H die Parallelogrammregel erfüllt ist. Ist die Parallelogrammregel erfüllt, so
kann das innere Produkt mittels der Polarform definiert werden.
Beispiel 216 Hier sollen fehlende Beweise nachgetragen werden.
Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung: Ausgehend von 0 ≤ hkx − ly, kx −
lyi = |k|2 kxk2 − k̄lhx, yi−k¯lhy, xi+|l|2 kyk2 wählt man k := kyk2 und l := hy, xi = hx, yi
und findet nach kurzer Rechnung
0 ≤ kyk2 (kxk2 kyk2 − |hx, yi|2 ),
woraus die Ungleichung unmittelbar folgt.
Sesquilinearität: Es ist
hku + lv, wi =
=
=
=
hw, ku + lvi
khw, ui + lhv, wi
k̄hw, ui + ¯lhv, wi
k̄hu, wi + ¯lhv, wi.
(H, k · k) ist Prähilbertraum: Zunächst folgt aus der Definitheit des inneren Produkts
jene der Norm. Um die Dreiecksungleichung ku + vk ≤ kuk + kvk nachzuweisen, genügt
es ku + vk2 ≤ (kuk + kvk)2 nachzuweisen, also (nach ein wenig Rechnung)
<(hu, vi) + <(hv, ui) ≤ 2kukkvk.
Weil <hu, vi ≤ |hu, vi| und <hv, ui ≤ |hu, vi| folgt der Nachweis nun aus der CauchySchwarzschenpUngleichung. Schließlich
ergibt Benützung der Sesquilinearität kkuk =
p
p
hku, kui = k̄khu, ui = |k| hu, ui = |k|kuk, also die Homogeneität.
244
Lineare Funktionalanalysis
Polarformen: Verifizieren ergibt sich durch Benützen der Definition der Norm kwk2 =
hw, wi durch das innere Produkt, danach Benützen der (Sequi)linearität und Wegkürzen
der Terme, es sei an der reellen Polarform demonstriert:
1
2 (||u
+ v||2 − ||u||2 − ||v||2 ) = 21 (hu + v, u + vi − hu, ui − hv, vi)
= 12 (hu, ui + 2hu, vi + hv, vi − hu, ui − hv, vi)
= hu, vi.
Parallelogrammregel: Der Beweis der Parallelogrammregel geht genauso wie jener der
Polarformen, bitte selbst ausführen.
Die elementargeometrische Deutung der Namensgebung sei an einem wie in der Schule
mit Seiten a, b, c, d und Diagonalen e, f beschrifteten Parallelogramm erläutert. Dann
ist
a2 + b2 + c2 + d2 = e2 + f 2
und wenn man ||u|| = a = c, ||v|| = b = d, e = ||u+v|| sowie f = ||u−v|| einsetzt, erhält
man die Parallelogrammregel auf elementarem Weg. Um nun eben diese elementare
Beziehung von Seiten und Diagonalen in einem beliebigen Parallelogramm zu verstehen,
benützen wir den Kosinussatz auf 2 Arten:
2
a
b2
2
f
ef
=
+
− 2 cos(γ)
2
2
22
e 2 f 2
ef
=
− 2 cos(π − γ)
+
2
2
22
e 2
o
ooo f
o
o
o
γ
ooo
ooo
a
o
ooo
o
o
o
ooo b
ooo
e
Addition der Gleichungen und Beachten von cos(γ) = − cos(π − γ) und a = c, sowie
b = d ergeben die elementare Form der Parallelogrammregel.
Der algebraische Nachweis, d.i. das Nachrechnen der Parallelogrammregel und geometrischen Deutung der Vektoren als Parallelogramm in der euklidischen Ebene erlauben es,
die Parallelogrammregel als Aussage über Elementargeometrie der euklidischen Ebene
aufzufassen.
* Parallelogrammregel ⇒ Prähilbertraum: Es soll hier nur der Fall K = R gezeigt
werden. Dann ist notwendigerweise (weil ja im Falle der Richtigkeit der Aussage die
Polarform gilt)
1
hu, vi := (ku + vk2 − ku − vk2 ).
4
(Definitheit) Es ergibt sich für u = v hu, ui = kuk2 und somit folgt die Definitheit
aus der Definitheit der vorgegebenen Norm. Die Symmetrie ist aus der Formel sofort
ersichtlich.
Der Nachweis der Linearität in u gelingt in einigen Schritten.
6.4. Hilberträume
245
• Zunächst wird lediglich T (u, v, w) := hu + v, wi − hu, wi − hv, wi = 0 gezeigt:
Einsetzen der Definition von h·, ·i ergibt
1
T (u, v, w) = (ku + v + wk2 − ku + vk2 − ku + wk2 − kv + wk2 + kuk2 + kvk2 + kwk2 .
2
Ein Kunstgriff ist nötig, um den Term ku+v+wk2 durch die Normen von Vektoren
mit lediglich 2 oder 1 der Vektoren u, v, w auszudrücken, und das geht z.B. so, daß
man die Parallelogrammregel verwendet:
ku + v + wk2 + ku − (v + w)k2
= 2(kuk2 + kv + wk2
2
2
−k(u − v) + wk − ku − (v + w)k = −2(ku − vk2 − kwk2
k(u + w) − vk2 + ku + w + v)k2
= 2(ku + wk2 + kvk2
Nach Addition der drei Gleichungen und Kürzen durch “2” verbleibt
ku + v + wk2 = −ku − vk2 − kwk2 + kuk2 + kv + wk2 + ku + wk2 + kvk2 .
Setzt man dies in das T (u, v, w) ein, so verbleibt ein Ausdruck, der kein w enthält
und der durch Anwendung der Parallelogrammregel für u und v sich als Null
erweist. Also hat man
hu + v, wi = hu, wi + hv, wi
gezeigt.
• Es fehlt noch, hku, vi = khu, vi für alle k ∈ R zu zeigen. Aus dem vorigen Punkt
und vollständiger Induktion ergibt sich für alle n ∈ N
hnu, vi = nhu, vi
Aus der DN von h·, ·i ergibt sich unmittelbar h−u, vi = −hu, vi. Somit hat man
insgesamt hku, vi = khu, vi für alle k ∈ Z. Nun sei k = pq eine beliebige rationale
Zahl, wobei q ∈ N ist. Dann ist
p
p
phu, vi = hpu, vi = hq
u , vi = qh u, vi
q
q
also pq hu, vi = h pq u, vi. Somit gilt hku, vi = khu, vi für alle rationalen Zahlen.
Schlußendlich benützt man ein Stetigkeitsargument. Die Funktion k 7→ kkuk ist
stetig, sodaß die Funktion k 7→ hku, vi − khu, vi ebenfalls stetig auf R ist. Da Q
dicht liegt, und die Funktion auf Q verschwindet, ist sie Null.
6.4.2
Vollständigkeit
Anmerkung 217 (Hilbertraum) Ein in der induzierten Norm (d.h. kvk :=
vollständiger Prähilbertraum ist ein Hilbertraum.
Beispiel 218 Einige Beispiele:
p
hv, vi)
246
Lineare Funktionalanalysis
Raum der quadratisch konvergenten
l2 : Es sei l2 die Menge aller reellen (bzw.
P Folgen
2 konvergent. Der l (S) spielt die Rolle eikomplexen) Folgen {an }∞
mit
|a
|
2
n=1
n n
nes “Koordinatenraumes”, ähnlich wie der K n nach Wahl einer Basis in einem ndimensionalen Vektorraum.
P
∞
∞
∞
Es sei für 2 Folgen {an }∞
n=1 und {bn }n=1 in l2 h{an }n=1 , {bn }n=1 i durch
n ān bn definiert. Man zeige, daß diese Reihe absolut konvergiert, und ein inneres Produkt vorliegt.
Antwort: Aus der Cauchy-Schwarzschen Ungleichung für endliche Folgen bekommt man
für festes N ∈ N
v
v
v
v
uN
uN
u∞
u∞
N
u
uX
X
X
uX
uX
t
t
2
2
2
t
|ān bn | ≤
|an |
|bn | ≤
|an | t
|bn |2 .
n=1
n=1
n=1
n=1
n=1
Nun erweist sich die rechte Seite
für die in N monotone Folge
P∞auf der
PNals Schranke
∞
linken Seite. Also konvergiert { n=1 ān bn }N =1 , sodaß das innere Produkt n=1 ān bn
von l2 -Folgen wohldefiniert ist. Die Symmetrie- und (Sesqui)-Linearitätseigenschaft sind
leicht erkennbar.
Wie sieht die induzierte Norm in l2 explizit angeschrieben aus?
Antwort: Es handelt sich um
v
u∞
uX
∞
k{an }n=1 k = t
|an |2 ,
n=1
ein Ausdruck, der vorhin schon aufgetreten ist.
Wie sieht die Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung in ausgeschriebener Form
aus?
pP∞
pP∞
P
2
2
Antwort: | ∞
n=1 ān bn | ≤
n=1 |an |
n=1 |bn | .
Wie zeigt man die Vollständigkeit von l2 ?
Antwort: Man kann das ganz direkt machen, wir wollen jedoch einen zu Anmerkung
206 ähnlichen Weg nehmen und die Vervollständigung der Menge aller endlichen Folgen
bezüglich der l2 -Norm im Dualraum des gleichen Raumes isometrisch einbetten.
Ist v 0 ein beliebiges stetiges lineares Funktional, so weist es jeder Folge φl , die an der
Stelle l eine 1 und sonst lauter Nullen hat, eine Zahl ξl = v 0 (φl ) zu. Wie berechnet sich
∞
die Norm von v 0 ? Dazu muß für beliebige endliche Folgen {an }∞
n=1 mit k{an }n=1 k = 1
0
∞
das Supremum der Werte |v ({an }n=1 )| gefunden werden.
Nun sei ψl0 jenes lineare Funktional, welches jeder endlichen Folge {an }∞
n=1 den Koeffizienten al als Wert zuordnet. Sichtlich ist jedes solche ψl0 stetig, weil
s
X
0
∞
|ψl ({an }n=1 )| = |al | ≤
|an |2 = k{an }∞
n=1 k
n
6.4. Hilberträume
247
ist. Andrerseits ist {an }∞
n=1 =
P
n al φl
und somit
X
v 0 ({an }∞
ξl al .
n=1 ) =
l
Wählt man für al := ξ¯l für l ≤ N , mit N ∈ N beliebig, aber fest, und Null sonst, so
bekommt man zunächst
0
∞
kv 0 kk{an }∞
n=1 k ≥ |v ({an }n=1 )| =
N
X
|ξl |2 ,
l=1
und weil k{an }∞
n=1 k =
qP
N
l=1 |ξl |
2
ist, ergibt Division
v
uN
uX
kv 0 k ≥ t
|ξl |2 .
l=1
Weil hierin die linke Seite kein N enthält, schließt man
kv 0 k ≥ k{ξl }∞
l=1 k,
sodaß die dem Funktional v 0 entsprechende Folge {ξl }∞
l=1 tatsächlich in l2 ist.
Um die isometrische Einbettung zu zeigen, m.a.W., daß die Norm des Funktionals gleich
der l2 -Norm der Folge {ξl }∞
l=1 ist, benötigen wir lediglich noch die Ungleichung
kv 0 k ≤ k{ξl }∞
l=1 k.
Ist {an }∞
n=1 eine beliebige endliche Folge, welche ab dem N + 1.ten Glied Null ist, so ist
|v
0
({an }∞
n=1 )|
≤
N
X
∞
|ξn an | ≤ k{ξn }∞
n=1 kk{an }n=1 k,
n=1
woraus wegen N beliebig die behauptete Ungleichung mittels der Definition der Norm
des Funktionals folgt.
Quadratisch integrierbareRFunktionen auf I = [0, 2π]: Es werde C(I, C) mit dem in2π
neren Produkt hf, gi := 0 f¯g versehen. Die Vervollständigung dieses Raumes bezüglich
der L2 -Norm
s
Z 2π
kf k =
|f (x)|2 dx
0
ist der Raum der quadratisch integrierbaren Funktionen. Man spricht von Konvergenz
im quadratischen Mittel, falls kfn − f k → 0 gilt. (Es ist eine gute Übung, die Bedingung durch Integrale ausgedrückt, hinzuschreiben). Das übliche Riemannintegral
erweist sich als bezüglich der L2 -Norm stetiges lineares Funktional auf C([0, 2π], C), ist
somit gleichmäßig stetig und kann deshalb wegen Anmerkung 162 auf ganz L2 (I, C)
248
Lineare Funktionalanalysis
stetig fortgesetzt werden. Der Standardweg, die Elemente des L2 (I, C) als Funktionen
zu interpretieren ist wie folgt: Man sucht im Raum der Funktionen von [0, 2π] nach
C all jene heraus, für welche es eine L2 -Cauchyfolge stetiger Funktionen gibt, und für
welche bis auf eine Lebesguenullmenge (das ist eine Menge, die man bei vorgegebe∞
nem
P∞ > 0 durch eine höchstens abzählbare Vereinigung offener Intervalle {In }n=1 mit
n=1 |In | ≤ überdecken kann) punktweise Limiten besitzt. Nun kann jeder solchen
Funktion ein Element in L2 zugeordnet werden, jedoch gehören Funktionen, die sich
nur auf einer Nullmenge unterscheiden, zum gleichen Element in L2 [0, 2π].
Raum der auf R quadratisch integrierbaren Funktionen L2 (R, C): Man betrachtet
zunächst die Menge aller auf R stetigen, außerhalb eines kompakten Intervall verschwindenden Funktionen, der in der Literatur meist mit C0 (R, C) bezeichnet wird. Nun
versieht man ihn mit dem inneren Produkt
Z ∞
hf, gi :=
f¯(x)g(x) dx
−∞
und betrachtet seine Vervollständigung. In analoger Weise wie vorhin können gewissen Funktionen solche Elemente im L2 zugeordnet werden. Beispiele hiefür sind die
Funktionen e−|a|+it für a 6= 0. Hingegen sind die Funktionen eiat bzw. cos(at) für kein
reelles a als Elemente im L2 interpretierbar, weil bekanntlich jede stetige Funktion mit
absolutkonvergentem Integral im Unendlichen abklingen muß.
6.4.3
Orthonormalsysteme
Definition 219 (Orthogonal- und Orthonormalsystem) Ist S eine Teilmenge linear
unabhängiger Vektoren eines Prähilbertraumes H und hs, s0 i = 0 für alle s, s0 ∈ S mit s 6= s0 ,
so ist S ein Orthogonalsystem. Haben alle Vektoren in S Länge 1, so spricht man von einem
Orthonormalsystem (kurz ONS), bzw. Orthonormalbasis (ONB) von L(S).
Lassen Sie mich an das Gram-Schmidt Orthogonalisierungsverfahren erinnern:
Anmerkung 220 (Gram-Schmidt Orthogonalisierung)
Input: Eine Teilmenge B eines Prähilbertraumes H.
Output: Eine Orthogonalbasis U des von B aufgespannten linearen Teilraumes L(B)
von H.
Initialisierung: Wähle b ∈ B. Falls b 6= 0 ist, setze U := {b}. Ersetze B durch B \ {b}.
Iterationsschritt: Es sei B nicht leer. Wähle b ∈ B beliebig und ersetze B durch
B \ {b}.
6.4. Hilberträume
249
Bilde für jedes u ∈ U die Orthogonalprojektion
Pu (b) :=
hu, bi
u
kuk2
und definiere
X
PU (b) :=
Pu (b).
u∈U
(Dieser Vektor ist die Orthogonalprojektion von b in den von U aufgespannten
Teilraum).
Falls b − PU (b) 6= 0, füge ihn zu U hinzu.
Abbruchbedingung: Falls B leer ist, was bei endlichdimensionalem V nach endlich
vielen Iterationen zutrifft.
Normierung : Für alle u ∈ U bilde man
ONB von L(B).
1
kuk u.
Die so normierten Vektoren bilden eine
Beispiel 221 Als z.T. Wiederholung aus der M2 ET Beispiele:
1. (Orthogonalpolynome auf I = [−1.1] und Rekursion.) Auf dem Intervall I =
[−1, 1] sei eine stückweise stetige Gewichtsfunktion p ≥ 0 gegeben, die auf einem Teilintervall strikt positiv ist, und für das
Z 1
Z 1
2
p(x)|f (x)| dx,
p(x)|f (x)| dx
−1
−1
R1
beide als (uneigentliche) Riemannintegrale existieren. Durch hf, gi := −1 f (x)g(x) dx
läßt sich unter diesen “technischen Voraussetzungen” garantieren, daß ein inneres Produkt auf C(I), dem Raum der auf I stetigen, reellwertigen Funktionen, vorliegt. Zeigen
Sie, daß Gram-Schmidtorthogonalisierung, ausgehend von B := {1, x, x2 , . . .} auf eine
2-stufige Rekursion
hpn , xpn i
kpn k2
hx, 1i
pn+1 (x) = x −
p
(x)
+
pn−1 (x), p0 (x) = 1, p1 (x) = x −
n
kpn k2
kpn−1 k2
k1k
führt. Für p(x) = 1 bekommt man die Legendrepolynome. Man berechne p0 , p1 , p2 und
p3 .
Antwort(findung): Um zu erahnen, daß die 2-stufige Rekursion vorliegt, kann man p0 bis
p3 berechnen. Danach hat man ein wenig Gefühl, warum die Rekursion stimmen kann.
Zum Beweis verwendet man Induktion. Für n = 2 ergibt sich die Richtigkeit durch
Orthogonalisierung von B = {1, x, x2 }. Angenommen, pn = (x − an−1 )pn−1 + bn−1 pn−1
gilt für ein n ≥ 2, wobei die Koeffizienten an−1 , bn−1 wie oben durch Quotienten aus
250
Lineare Funktionalanalysis
inneren Produkten gegeben sind. Dann ist
xpn−1 = pn + an−1 pn−1 − bn−1 pn−1 ,
eine Relation, die wir gleich verwenden werden. Der mit noch Unbekannten an , bn ∈ R
versehene unbestimmte Ansatz
pn+1 = (x − an )pn + bn pn−1
führt, die obige Relation in der zweiten Gleichung verwendend, auf die Bedingungen
0 = hpn+1 , pn i = hxpn , pn i − an kpn k2
0 = hpn+1 , pn−1 i = hxpn , pn−1 i + bn hxpn , pn−1 i
= kpn k2 + bn kpn−1 k2
aus der die gesuchten Koeffizienten sich sofort ergeben. Weiters ergibt sich sofort, daß
pn+1 im Orthogonalraum {p0 , p1 , . . . , pn }⊥ liegt.
Man findet, die Rekursion benützend und schließlich Normieren die Polynome 1, x, 21 (3x2 −
1), 21 (5x3 − 3x), . . .
Auf mögliche Deutungen der Orthogonalpolynome siehe Kapitel 7 über die Saite.
Anmerkung 222 (Charakterisierungen eines vollständigen ONS bzw. ONB,
Rieszabbildung) Ist (H, h·, ·i) ein Hilbertraum, so sind folgende Bedingungen an ein
ONS S gleichwertig:
1. L(S) ist dicht in H.
2. S ⊥ = {0}.
3. S ist ein vollständiges ONS in folgendem Sinne: Für jedes h ∈ H ist für hs := hs, hi
X
h=
hs s.
s∈S
Dabei ist für höchstens eine abzählbare Teilmenge von S das hs 6= 0.
Diese Reihe heißt (verallgemeinerte) Fourierreihe und der verallgemeinerte Fourierkoeffizient hs = hs, hi ist eindeutig bestimmt.
4. Für jedes h ∈ H gilt die Parsevalsche Gleichung
X
khk2 =
|hs |2 .
s∈S
Auch hier sind höchstens abzählbar viele hs 6= 0.
6.4. Hilberträume
251
Es gelten die folgenden Fakten für ein ONS S, ein Element h ∈ H und den von ihm
aufgespannten abgeschlossenen Teilraum L(S) (der definitionsgemäß aus den Grenzwerten
aller aus Gliedern in L(S) gebildeten, konvergenten Folgen besteht):
Existenz einer ONB in H: Jeder Hilbertraum besitzt eine ONB. Sie muß allerdings
nicht abzählbar sein (so hat z.B. der L2 (R) zwar eine ONB, aber sie ist nicht
abzählbar). Hat H eine abzählbare ONB, so nennt man H separabel.
Isometrie zu l2 (S): Es sei l2 (S) der Raum aller komplexwertigen Funktionen a auf S
(als Menge aufgefaßt), für die
X
|as |2 < ∞
s∈S
ist. Es ist
ha, bi :=
X
ās bs
s∈S
wohldefiniert und l2 (S) ein Hilbertraum. Die Abbildung χ : H → l2 (S) ist eine
Isometrie. D.h.
hh, ki = ha, bi,
wobei as := hs und bs := ks die entsprechenden Fourierkoeffizienten bezüglich S
sind. Nun kann S in gewissem Sinn analog zur kanonischen Basis im K n (Koordinatenraum) angesehen werden. Allerdings müssen die Koordinatenquadratsummen
absolut konvergieren!
Falls S abzählbar ist, besteht Isometrie zu l2 .
Satz von Riesz, Rieszabbildung R: Zu jedem stetigen linearen Funktional φ : H →
C gibt es genau ein R(φ) ∈ H mit
φ(h) = hR(φ), hi.
Es ist R(φ) =
P
s∈S
φ(s)s. Die Rieszabbildung R : H0 → H ist eine Isometrie.
Orthogonalprojektion:
PS (h) :=
X
hs, his
s∈S
ist die Orthogonalprojektion von h in L(S) und
h − PS (h) ∈ S ⊥ .
Bestapproximation: PS (h) ist die eindeutig bestimmte Lösung des Minimierungsproblems
min{kh − bk | b ∈ L(S)}.
P
Dabei hat das Minimum den Wert khk2 − kPS (h)k2 = khk2 − s∈S |hs |2 .
252
Lineare Funktionalanalysis
In Beispiel 224 findet man Beweise, im folgenden sollen die vorgestellten Begriffe durch
eine Auswahl wesentlicher Beispiele beleuchtet werden.
Beispiel 223
1. (Klassische Fourierreihen
R 2πmit komplexen Koeffizienten – L2 ([0, 2π], C))
Bezüglich des inneren Produkts hu, vi := 0 ū(x)v(x) dx erweisen sich die Funktionen
{φn (x) := √12π einx | n ∈ Z} als orthonormales System. Die Orthogonalität ist leicht
einzusehen:
(
2π
Z 2π
Z 2π
1
−i(n−m) e
m 6= n
=0
−i(n−m)
e−i(m−n)x dx =
e−inx eimx dx =
0
0
0
2π
m=n
Die Vollständigkeit zu zeigen bedeutet, zu jedem f ∈ L2 ([0, 2π], C) und jedem > 0
eine Linearkombination s in S anzugeben mit
||f − s|| < .
Das wird üblicherweise mittels Dirichletkernen gezeigt. Unter Benützung des Satzes von
Stone-Weierstraß (Anmerkung 165) läßt sich ein sehr kurzer Nachweis wie folgt führen:
Wählt man f stetig mit f (0) = f (2π), so gibt es wegen des Satzes eine Linearkombination s0 ∈ S, für welche die Supremumsnorm die Eigenschaft
1
||f − s0 ||∞ < √ 4 2π
erfüllt (der Vorfaktor ist “Kosmetik”). Hieraus ergibt sich für solches f und alle x ∈
[0, 2π]
1
|f (x) − s0 (x)|2 <
.
8π
Integration über das gesamte Intervall ergibt
1
||f − s0 || < .
2
P
Die Orthogonalprojektion PS (f ) = n∈Z cn einx erfüllt als Element des L2 die Extremumseigenschaft, sodaß
||f − PS (f )|| ≤ ||f − s0 ||
gelten muß. Insbesondere gibt es dann eine endliche Linearkombination s ∈ S welche
||f − s|| < erfüllt. Um schließlich für beliebiges f die Dichteeigenschaft zu bekommen,
vermerkt man, daß der L2 Vervollständigung des Raumes der stetigen Funktionen h
mit h(0) = h(2π) bezüglich der L2 -Norm ist, es also stets ein solches h nahe genug an
f bezüglich der L2 -Norm gibt, und somit auch ein s ∈ S.
P
Die verallgemeinerte Fourierreihe f = s∈S hs s, mit hs = hs, f i wird üblicherweise als
klassische Fourierreihe in der Form
X
f (x) ∼
cn einx
n∈Z
6.4. Hilberträume
mit cn =
√1
2π
R 2π
0
253
e−inx f (x) dx angeschrieben.
Bestapproximation bedeutet für jeden abgeschlossenen (z.B. endlichdimensionalen) Teilraum mit ONB S, daß die Orthogonalprojektion von f ∈ L2
X
X 1 Z 2π
√
hs, f is =
s̄(x)f (x) dx s
2π 0
s∈S
s∈S
(mit Integralen im Sinne von Grenzwerten über f im Sinne der L2 -Norm approximierenden stetige Funktionen) jenes Element im Teilraum ist, welches den kürzesten
L2 -Abstand zu f besitzt.
Dieser L2 -Abstand drückt sich im konkreten Fall durch
Z 2π
X
X
1
hf, sisk2 =
|hf, si|2
kf −
|f (x)|2 dx −
2π
0
s
s
aus.
Die Parsevalsche Gleichung wird im klassischen Kontext (etwa für stetiges f ) zu:
Z 2π
X
1
|f (x)|2 dx =
|cn |2 .
2π 0
n
2. (Orthogonalpolynome auf [−1, 1]) Auf I := [−1, 1] sei eine stückweise stetige Funktion p ≥ 0 gegeben und wir erlauben durchaus, daß sie unbeschränkt ist. Allerdings sei
gefordert, daß die beiden Integrale
Z 1
Z 1
p(x)|f (x)| dx,
p(x)|f (x)|2 dx
−1
−1
für jede auf I stetige Funktion als uneigentliche Integrale konvergent sind. Die Situation
ist wie in Beispiel 221 1. Dann ist
Z 1
hf, gi :=
p(x)f (x)g(x) dx
−1
ein inneres Produkt auf C(I, R), dem Raum der auf I reellwertigen, stetigen Funktionen. Es sei H seine Vervollständigung. Ähnlich wie vorhin kann der Satz von StoneWeierstraß benützt werden, um von der Familie von Potenzen S0 := {xk | k ∈ N}
ausgehend, eine vollständige ONB von H, bestehend aus Orthogonalpolynomen. zu konstruieren.
Hier ist eine Tabelle einiger recht bekannter, auf solche Art entstehender Orthogonalpolynome
p
1
(1 − x2 )−1/2
(1 − x2 )1/2
(1 − x)a (1 + x)b
Name
Legendre-Polynome
Tschebischeff-Polynome 1.Art Tn
Tschebischeff-Polynome 2.Art Un
Jacobi-Polynome, wobei a, b > −1
254
Lineare Funktionalanalysis
Nicht explizit listen möchte ich Orthogonalpolynome über unendlichen Intervallen, wie
etwa die Hermite- und Laguerrepolynome. Die Idee ist die Gleiche, allerdings bedarf
es vor der Anwendung des Satzes von Stone-Weierstraß noch eines Kunstgriffs (sog. 1bzw. 2-Punktkompaktifizierung), worauf hier nicht eingegangen werden soll.
Beispiel 224 Hier sollen die Beweise vorgeführt werden.
“1 ⇒2”: Es sei h ∈ S ⊥ beliebig. Da L(S) dicht
Pliegt, gibt es zu jedem
P > 0 eine endliche
Teilmenge S0 von S und ein Linearkombination s∈S0 cs s mit kh − s∈S0 cs sk < .
Da bekanntlich (Mathematik 2 ET)
X
h0 :=
hs, his
s∈S0
jenes Element in L(S) mit minimalem Abstand zu h ist, und hs, hi = 0 ergibt sich
X
khk = kh −
hs, hisk < .
s∈S0
Da beliebig positiv war, folgt h = 0, wie behauptet.
“2 ⇒3”:
Es sei S0 eine beliebige endliche Teilmenge von S. Aus der Ungleichung
X
0 ≤ kh −
hs, hisk2
s∈S0
und Umformung der rechten Seite ergibt ein wenig Rechnung
X
|hs |2 ≤ khk2 .
s∈S0
Hieraus ergibt sich insbesondere, daß die unendliche Reihe
X
|hs |2 ≤ khk2
s∈S
P
P
erfüllt, somit hs s ein in H wohldefiniertes Element ist. Danach ist h− s∈S hs s orthogonal
auf alle Elemente s ∈ S und muß laut Voraussetzung gleich Null sein. Die Abzählbarkeit ist
eine Konsequenz der Fußnote6 .
“3 ⇒4”: Es sei h ∈ H beliebig. Da S vollständig ist, hat man
X
h=
hs s
s∈S
6
P Es sei I eine Menge und {ai | i ∈ I} eine Menge positiver Zahlen, für die das Supremum über alle Summen
i∈J ai mit endlicher Teilmenge J von I endlich ist. Es wird behauptet, daß I höchstens abzählbar ist. Ist
nämlich n ∈ N beliebig, so kann die Menge In := {i ∈ I | ai ≥ n1 } höchstensS
endlich sein, weil ja sonst endliche
∞
Teilsummen
beliebiger
Größe
fabriziert
werden
könnten.
Danach
ist
I
⊆
n=1 In abzählbar. Dies im Auge
P
kann i∈I ai als das genannte Supremum definiert werden, und die Reihe konvergiert genau dann, wenn die
Menge der i mit ai 6= 0 höchstens abzählbar ist, und demnach die Reihe im üblichen Sinn konvergiert.
6.4. Hilberträume
255
mit hs = hs, hi. Diese Gleichung bedeutet für beliebiges positives die Existenz einer endlichen Teilmenge S0 von S mit
X
kh −
hs sk < .
s∈S0
Quadrieren und etwas Umformen führt auf
X
khk2 −
|hs |2 < 2 ,
s∈S0
aus der insbesondere
khk2 ≤
X
|hs |2
s∈S
folgt. Umgekehrt ergibt sich aus 0 ≤ kh −
X
P
s∈S0
hs sk2 durch ähnliche Rechnung sofort
|hs |2 ≤ khk2 ,
s∈S
also insgesamt die Parsevalsche Gleichung. Zur Abzählbarkeit siehe die schon erwähnte Fußnote.
“4 ⇒1”: Angenommen L(S) ist nicht dicht in H. Dann gibt es ein h 6= 0 und ein > 0
sodaß für alle b ∈ L(S) stets
kb − hk ≥ ist. Die Gültigkeit der Parsevalschen
Gleichung zieht die Existenz
einer endlichen Teilmenge
P
P
S0 von S nach sich mit khk2 − s∈S0 |hs |2 + . Es ist b := s∈S0 hs s in L(S) und
kh − bk2 = kh −
X
hs sk2 = khk2 −
X
|hs |2 < ,
s∈S0
s∈S0
ein Widerspruch.
Existenz einer ONB: Hat der Hilbertraum eine abzählbare dichte Teilmenge (wie z.B.
L2 (I) für kompaktes Intervall I), so genügt es, das Orthogonalisierungsverfahren heranzuziehen. Im allgemeinen Fall benötigt man transfinite Induktion. Der Raum L2 (R, C)
ist nicht separabel. Eine ONB kann mit konstruktiven Mitteln nicht angegeben werden.
Isometrie zu l2 (S): Die Parsevalsche Gleichung zeigt, daß jedem h ∈ H ein Element in
l2 (S) zuordenbar ist. Offenkundig hat
Pes die gleiche Norm. Sie zeigt auch, daß umgekehrt
jede Funktion a in l2 (S) durch h = s∈S as s ein Element in H festlegt deren Bild a ist.
Satz von Riesz: Es ist bequem, die Existenz einer ONB S vorauszusetzen. Danach sei
φ ∈ H0 . Ist S0 endliche Teilmenge von S, so ergibt sich für h ∈ L(S0 )
X
φ(h) =
hs φ(s),
s∈S0
256
Lineare Funktionalanalysis
und wegen der Beschränktheit von φ
|φ(h)| ≤ kφkkhk,
sodaß für h :=
P
s∈S0
φ(s)s sich
X
2
|φ(s)| ≤ kφk
sX
s∈S0
s∈S0
und nach Kürzen
|φ(s)|2
sX
|φ(s)|2 ≤ kφk
s∈S0
ergibt. Dies zeigt, daß der Vektor
R(φ) :=
X
φ(s)s
s∈S
ein wohldefiniertes Element in H ist, und sichtlich gilt φ(h) = hR(φ), hi für beliebiges
h ∈ H.
Beispiel 225 (Konstruktion der Rieszabbildung im H01 (I))
Es sei H01 (I) der Hilbertraum der stetigen Funktionen mit Randwerten Null. Man zeige, daß
R(δa ) für Testfunktionen φ von der Form
(1 − a)x
0≤x≤a
R(δa )(x) =
(1 − x)a
a≤x≤1
sind.
Antwort: Die Vorgangsweise ist wie folgt. Zunächst ist
Z 1
δa (u) = hR(δa ), ui =
R(δa )0 (x)u0 (x) dx,
0
woraus sofort die Distributionengleichung
R(δa )00 + δa = 0
folgt. Ihre Lösung durch 2-maliges Integrieren ist
R(δa ) = −(x − a)χ[a,1] + α + βx,
eine Funktion, deren Randbedingungen Null sind (wir sind in H01 (I)). Es ist α = 0 und
β = 1 − a, woraus die obige Form der Lösung resultiert. Automatisch wurde hier auch
gezeigt, daß δa ∈ H01 (I)0 liegt, d.h. stetiges lineares Funktional ist.
Es ist kein Zufall, daß genau der Kern K(a, x) herausgekommen ist, weil ja in Anmerkung
277 die Rolle der Faltung aufgezeigt worden ist. Bis auf das Vorzeichen ist dies auch der
Kern, welcher zu Beginn des Unterabschnittes über kompakte Operatoren berechnet worden
ist Unterabschnitt 6.3.3
Ein weiteres Beispiel zur Konstruktion einer Rieszabbildung findet sich in Unterabschnitt
7.2.4
Kapitel 7
Saite - etwas mathematische Physik
7.1
Mathematisches Modell und Allgemeines zum Lösen
Hier in diesem kurzen Abschnitt soll Grundsätzliches zur mathematischen Modellbildung und
(numerischen) Lösung gesagt werden. Um nämlich zu effizienter mathematischer Simulation
zu kommen, bedarf es der korrekten Gestelltheit des Problems:
Existenz: Es sollte eine Lösung geben.
Eindeutigkeit: Die Lösung sollte eindeutig sein.
(Numerische) Stabilität: Kleine Änderungen (Fehler der Messung, numerische Fehler)
sollten auch das Resultat nur geringfügig ändern.
7.1.1
Die involvierten physikalischen Begriffe
1
0
u
Auslenkung u, Randwerte: Eine als auf I := [0, 1] definierte stetige Funktion u gebe die
Auslenkung einer Saite von der Nullage an. Die Werte u(0), u(1) (bzw. ihrer Ableitungen
u0 (0), u0 (1), u00 (0), u00 (1) etc.) am Rand heißen Randwerte. Es wird von sehr kleinen
Auslenkungen die Rede sein, sodaß mancherlei Approximationen ins Spiel kommen.
257
258
Saite - etwas mathematische Physik
1
2
Von der Zugspannung geleistete Arbeit
R1
0
(u0 )2 dx:
∆x
∆u
∆ x2 + ∆ u2
Es wird vom Hookeschen Gesetz ausgegangen,
welches besagt, daß die Saite sich im
√
Stück ∆x von der Länge ∆x in die Länge ∆x2 + ∆u2 verlängert hat, somit die Zugspannung Arbeit proportional zu
s

2
p
p
∆u
∆x2 + ∆u2 − ∆x =  1 +
− 1 ∆x ≈ ( 1 + u0 (x)2 − 1)∆x
∆x
leistet.
Unter der weiteren Annahme, daß u0 (x) “sehr klein” ist, ergibt die Entwicklung
√
1 + a = 1 + 12 a + o(a) als ausreichende Approximation dieser Arbeit
1 0 2
u (x) ∆x.
2
Insgesamt ergibt sich unter Beachtung einer vom Ort abhängigen Materialfunktion p
als Verformungsenergie
Z 1
1
Ev (u) :=
p(x)(u0 )2 (x) dx.
2
0
Die den Elastizitätsmodul einbeziehende Funktion p wird im allgemeinen positiv und
hinreichend oft differenzierbar sein, manchmal nur stückweise, wenn die Saite aus verschiedenen Materialien an einer Stelle zusammengefügt worden ist. Gelegentlich wird
sie (in unseren Modellen) am Rand Null sein dürfen. Es wird davon ausgegangen, daß
horizontale Verschiebungen nicht stattfinden, sodaß die in u-Richtung wirkende Komponente alleine der Verformung der Saite entgegenwirkt.
R1
Gewichtsfunktion, Potential Ep (u) := 0 21 q(x)u(x)2 dx. im äußeren Feld: Gelegentlich
wird sich die Saite in einem Kraftfeld befinden, welches linear in u ist (etwa, wenn die
Saite um die Nulllage rotiert). Die Arbeit, welche diese Kraft verrichtet ist unter Einbeziehen der Gewichtsfunktion, d.i. der Massendichte q(x) von der Gestalt
Z
Ep (u) :=
0
1
1
q(x)u(x)2 dx.
2
Die Materialfunktion q erfüllt ähnliche Annahmen wie p und bezieht die Massendichte
entlang der Saite ein.
7.1. Mathematisches Modell und Allgemeines zum Lösen
259
Arbeit einer in u-Richtung wirkenden Kraftdichte entlang der Saite: Gelegentlich
leistet externe Kraft mit der Kraftdichte f entlang der Saite in u-Richtung ebenfalls
Arbeit, nämlich
Z
1
Ef (u) :=
f (x)u(x) dx.
0
Es wird f recht allgemein sein dürfen, z.B. die Deltafunktion, oft jedoch auch stetig
differenzierbar, z.B. konstant (Gravitition).
7.1.2
Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem
Es ist
Z
1
J(u) := Ev (u) − Ep (u) − Ef (u) =
0
1
pu02 − qu2 − uf
2
dx
die Energiebilanz
R 1 für eine unter diesen Kräften befindlichen Saite. Dabei ist, üblicher Konvention folgend, 0 uf dx im Sinne von hf, ui, also Anwendung der distributionellen Kraftdichte
auf die Funktion u zu verstehen (Anmerkung 277). Als Kandidaten für u im stationären
Zustand, d.h., wo die Saite nicht in “Bewegung gerät”, also im Gleichgewicht ist (bezüglich
eines mit der Saite mitrotierenden Koordinatensystems in “Ruhe befindet”) erweisen sich die
stationären Lösungen u des Variationsproblems
δJ(u)(h) = 0
für alle (z.B.) 2 mal stetig differenzierbaren h. Das interpretiert man oft so, daß “in Summe”
so wenig als möglich Energieumwandlung von einer Art der Energie in eine andere stattfindet
– insbesondere dann, wenn das Gleichgewicht stabil ist, ansonst eher wie einen Flachpunkt
bzw. Sattelpunkt in der Theorie der Extremwertaufgaben.
7.1.3
Variationsformulierung – distributionelle Lösung
Es ergibt sich
Z
δJ(u)(h) =
1
(pu0 h0 − quh − f h) dx
(7.1)
0
wie Anmerkung 277 ausgeführt, und in Beispiel 186 in einem Spezialfall vorgerechnet worden
ist. Hierin ist h ∈ D(I) beliebig, also eine C ∞ -Funktion mit Träger ein echtes Teilintervall
von I. Hieraus findet man durch partielle Integration zunächst die Eulergleichung
− (pu0 )0 − qu − f = 0
(7.2)
und es sind noch Vorgaben an Randwerte zu setzen, weil die Gleichung, analog wie in der
Theorie der DGL nicht eindeutig lösbar ist.
Man faßt u und f als Distributionen auf, solange man für h lediglich Testfunktion, deren
Träger die Punkte 0 und 1 nicht enthält, wählt. Danach weiß man, daß jede Distributionenlösung u eine Funktion auf I sein muß. Allerdings hat sie Ableitungen vorerst nur im
distributionellen Sinn (=verallgemeinerte Ableitungen).
260
Saite - etwas mathematische Physik
Ob, und inwieweit distributionelle Lösungen durch Randwerte bestimmt werden können, ist
nicht grundsätzlich einfach, vorallem dann, wenn p bzw. q nicht konstant sind. Hier erweist
sich die Hilbertraumformulierung (Soboleffnormen) im allgemeinen als zweckmäßiger.
7.1.4
Hilbertraumformulierung – Soboleffnormen
Auch inwieweit eine etwaige distributionelle Lösung klassische Ableitungen hat, hängt im
weiteren von p, q und f , bzw. den Ableitungsordnungen der Randwerte ab. Diese Ableitungsordnungen rufen die Soboleffnormen auf den Plan. Wie nämlich in Beispiel 199 2. vorgeführt
wurde, sind die Elemente im Hilbertraum H 1 (I), der Vervollständigung der auf I stetig differenzierbaren Funktionen bezüglich der Norm
s
Z 1
kuk =
(u2 + u02 ) dx
0
als stetige Funktioenen auffaßbar. Deshalb ist H 1 (I) ein guter Kandidat für Randwertprobleme, die lediglich u(0) und u(1) involvieren. Für höhere Ableitungen sind es wohl eher
k
Teilräume
R 1 von0 H0 (I) mit k ≥ 1. Eine wesentliche Beobachtung ist jedoch die bilineare Struktur von 0 (pu v − quv) dx bezüglich u und v.
R1
Besonders interessant ist dabei der erste Ausdruck 0 pu0 v 0 dx, weil er die höchsten Ableitungsordnungen involviert und der Norm auf H01 (I), dem Raum mit Randdaten u(0) = u(1) =
0, sehr ähnlich ist. Tatsächlich sind unter der Annahme, daß p(x) durch eine positive
KonqR
1
0
2
stante nach unten beschränkt ist (sogenannte Koerzivität), die Normen kukE :=
0 p|u | dx
und die H01 -Norm äquivalent, wie man leicht einsieht.
Jedenfalls versucht man, einen Hilbertraum H zu finden, der a) in H 1 (I) liegt, und b)
Interpretation der Randdaten erlaubt.
Hat man H gefunden (hängt von den Randbedingungen an u ab), so können ιp (u)(v) :=
R1
R1 0 0
0
0 pu v dx und ιq (u)(v) := 0 quv dx als Abbildungen ιp bzw ιq von H in den Dualraum H
aufgefaßt werden. In abstrakter Form findet man für alle v ∈ H,
h(Rιp (u) − Rιq (u) − Rf ), viH = 0
wobei u die Randbedingen zu erfüllen hat. Es ist dabei R die Rieszabbildung. Die Menge der
u ∈ H, welche die (stets homogenen linearen) Randbedingungen erfüllt, ist ein abgeschlossener Teilraum U von H.
7.1.5
Lösungstechniken
Aus dem Zusammenspiel der beiden Formulierungen ergeben sich folgende Lösungstechniken:
Distributionen: Wenn p, q und f hinreich einfache Form haben, können oft Distributionenlösungen kalkülmäßig rasch gefunden werden. Ist z.B. u eine Lösung von −(pu0 )0 −
qu = δa , so ist bekanntlich u ∗ f eine Distributionenlösung von −(pu0 )0 − qu = f (Anmerkung 277).
7.2. Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0.
261
Rieszabbildung: Eine
R 1 explizite Beschreibung der Rieszabbildung gelingt sehr oft in der
Form hRu, f i = 0 G(x, t)f (t) dt, wobei G ein explizit bestimmbarer Integralkern, d.h.
Funktion in 2 Variablen ist, eine sogenannte Greenfunktion.
FEM – Finite Elementmethode: Die Grundidee besteht darin, einen endlichdimensionalen Raum V durch eine ausgezeichnete Basis von z.B. Hutfunktionen vorzugeben,
die bereits, jede einzeln, die Randbedingungen erfüllen. Danach wird das Variationsproblem auf V × V eingeschränkt.
Konkret, wenn X eine Basis von V ist, so ist jedes
P
u von der Form u = x ux x mit ux ∈ R, sodaß sich für alle y ∈ X
X Z 1
(pu0x vy0 dx − qux vy − f vy ) dx = 0
ux
x
0
ergibt, ein lineares Gleichungssystem, das mit Standardmethoden der numerischen
linearen Algebra gelöst wird. Die Genauigkeitsschranken, welche V mitbestimmen,
können im voraus eingestellt werden.
In den nächsten Unterabschnitten sollen konkrete Randwertprobleme angesprochen werden.
7.2
7.2.1
Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f ,
u(0) = u(1) = 0 und q = 0.
Formulierung des Randwertproblems
Wie findet man die in der Überschrift genannte distributionelle Formulierung?
Antwort(findung): Die Saite befinde sich lediglich unter Krafteinwirkung f , somit ist der
Energieterm mit der Massendichte q nicht vorhanden, was darauf hinausläuft q = 0 anzunehmen. Sie wird am Rand festgehalten, also muß offenbar u(0) = u(1) = 0 gelten. Deshalb (und
nicht nur deshalb, sondern auch aus physikalischen Gründen) erweist sich die Stetigkeitsannahme an u als sinnvoll. Damit ergibt sich als distributionelle Formulierung der Formelanteil
der Unterabschnittüberschrift.
Welchen Hilbertraum wählen?
Antwortfindung: Zumindest stetig sollten die Funktionen sein. In Beispiel 199 2. wurde
der Hilbertraum stetiger Funktionen H 1 (I), d.i. die Vervollständigung des Raumes der stetig
differenzierbaren Funktionen unter der Integralnorm
s
Z 2
kuk1 :=
(u2 + u02 ) dx
0
beschrieben. Er sollte für die meisten physikalischen Probleme dieser Art ausreichen. Es hat
sich in Beispiel 199 2. herausgestellt, daß der Raum H01 (I) = {u ∈ H 1 (I) | u(0) = u(1)} mit
R1
dem H01 -inneren Produkt hu, vi := 0 u0 v 0 dx ein Hilbertraum ist (dessen Norm wir einfachheitshalber nur mit k · k bezeichnen wollen). Das ist interessant, weil die Bilinearform recht
ähnlich aussieht (z.B. für p = 1 wäre B(u, v) = −hu, vi).
262
7.2.2
Saite - etwas mathematische Physik
Hilbertraumformulierung - Existenz und Eindeutigkeit
Wie lautet die Hilbertraumformulierung, wenn man p(x) > c > 0 für alle x ∈ I annimmt
(sogenannte Koerzivität)? Kann man hiemit Existenz und Eindeutigkeit der Lösung
beweisen?
Antwortfindung: Es erscheint sinnvoll H = H01 (I) zu wählen, dann erfüllt
qRjedes u ∈ H
1
02
die Randbedingungen automatisch. Danach ist die Energienorm kukE :=
0 pu dx zur
H01 -Norm äquivalent, weil wir p > c > 0 für eine Konstante c annehmen. Falls man weiß,
daß f stetiges lineares Funktional ist, ergibt die Rieszabbildung genau ein Rf ∈ H mit
hRf, viE = f (v) für alle v ∈ H. Danach ergibt sich die Hilbertraumformulierung
hu, viE = hRf, viE ,
für alle v ∈ H, also
u = Rf
als eindeutige H01 (I)-Lösung.
R1
Es sei f ∈ L2 (I) bzw. f = δa , wobei a ∈ (0, 1) ist. Ist f bzw. u 7→ 0 δ(a − x)u(x) dx :=
f (a) als stetiges Funktional auf H01 (I) interpretierbar?
Antwortfindung: Es hilft die Poincaréungleichung, nämlich kφk∞ ≤ kφk, die für alle φ ∈ H01
gilt, weiter (vgl. Beispiel 199 2.). Ist nun f eine L2 -Funktion, so ergibt zunächst die CauchySchwarzsche Ungleichung in L2 und danach die Poincaréungleichung
|hf, φiL2 | ≤ kf kL2 kφkL2 ≤ Ckφk,
wobei man C := kf kL2 wählen kann. Mithin ist das Funktional f stetig bezüglich der H01 Norm.
(Ein kleiner Schwindel: Das Integral muß man sich als GW von Integralen mit stetigen
Integranden zustandegekommen denken - oder eben doch als Lebesgueintegral interpretieren.)
Auch für f eine Deltafunktion, also hf, φi = hδa , φi = φ(a) kann die Stetigkeit bezüglich
der H01 -Norm gezeigt werden:
s
Z 1
Z a
Z 1
0
0
|φ (x)| · 1 dx ≤
φ (x) dx ≤
|hδa , φi| = |φ(a)| = (φ0 (x))2 dx = kφk.
0
7.2.3
0
0
Globale Minimumeigenschaft des Wirkungsintegrals J
R1
Nimmt das Wirkungsintegral J(u) = 0 21 pu02 − uf dx an der Stelle u0 := Rf ein
globales Minimum an?
Antwortfindung: Das Energiefunktional nimmt die abstrakte Gestalt
1
1
1
J(u) = kuk2E − hR(f ), uiE = ku − R(f )k2E − kR(f )k2E
2
2
4
an, sodaß für
u = R(f )
7.2. Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0.
263
tatsächlich ein globales Minimum vorliegt.
7.2.4
Konstruktion der Rieszabbildung – Konsequenzen
Man zeige, daß die Rieszabbildung für stetiges f durch
Z 1
R(f )(x) =
K(t, x)f (t) dt
0
mit K(t, x) = t(1 − x) für 0 ≤ t ≤ x ≤ 1 und K(t, x) = x(1 − t) für 0 ≤ t ≤ x ≤ 1
beschrieben werden kann
Antwort(findung): Es sollte R(f ) eine quadratisch integrierbare Ableitung haben (was zum
Beispielende
R 1 ist) 0und 0die Randbedingungen erfüllen. Deshalb geht geht
R 1 noch zu verifizieren
man von 0 u(x)f (x) dx = 0 (R(f )) (x)u (x) dx aus, wobei R(f )(0) = R(f )(1) = 0 gelten
müssen. Partielle Integration auf der rechten Seite ergibt
Z 1
Z 1
1
0
u(x)f (x) dx = (R(f )) (x) 0 −
u(x)R(f )00 (x)u(x) dx.
|
{z
}
0
0
=0
Weil dies für alle stetig differenzierbaren u in H01 (I) gilt, schließt man auf
R(f )00 + f = 0.
Zweimalige Integration und Einsetzen der Randbedingungen führt auf
Z 1 Z s
Z x Z s
R(f )(x) =
ds
f (t) dt +
ds
f (t) dt x.
0
0
0
0
Die zweimalige Integration kann noch umgeformt werden zu
Z x Z s
Z x
Z x
Z x
ds
f (t) dt =
f (t) dt
ds =
(x − t)f (t) dt,
0
0
0
t
0
und Einsetzen ergibt die Behauptung. Etwas genauer ist dies zu Beginn von Unterabschnitt
6.3.3 zu verfolgen. Die stetige Differenzierbarkeit von R(f ) ergibt sich aus den üblichen
Fakten über Parameterintegrale.
Wie lautet die Rieszabbildung für das lineare Funktional δa ?
Die Antwort findet sich in Beispiel 225.
Welchen Gewinn zieht man aus der Integraldarstellung?
Antwort: Die Integration ist numerischen Methoden unter geeigneten Voraussetzungen an
die Gewichtsfunktion p (die hier der Einfachheit halber gleich 1 war) Bei Benützung von
FEM approximiert man f und p durch Hütchenfunktionen und verwendet Standardintegrationsroutinen.
264
Saite - etwas mathematische Physik
7.3
Eingespannte Saite im Potentialfeld unter Krafteinwirkung
7.3.1
Physikalische Fragestellung
Es soll im Gegensatz zur vorigen Situation ein Kraftfeld auf die Saite wirken, welches proportional zur Auslenkung u der Saite ist. Dann ergibt sich für das Wirkungsintegral
Z 1
1 0 2
J(u) =
(u (x) − ω 2 u(x)2 ) − f (x)u(x)) dx,
2
0
und da die Saite eingespannt wird, haben wir u(0) = u(1) = 0. Der Soboleffraum H01 (I) ist
der natürliche Hilbertraumkandidat, in welchem Lösungen u von
δJ(u)(φ) = 0
für alle Testfunktionen φ gesucht werden. Der Faktor ω kann als Winkelgeschwindigkeit einer
um die Ruhelage der Saite als Achse rotierenden Flüssigkeit gedacht werden, welche die
Saite “mitnimmt”. Wie früher angedeutet, betrachten wir das Problem als stationär, wenn
der Beobachter “mitrotiert” und sich die Saite für ihn dann nicht bewegt. Solche Lösungen
werden durch das obige Variationsproblem gesucht! Ist die Rotationsgeschwindigkeit ω = 0,
so nimmt die Saite eine eindeutig bestimmte Lage in H01 (I) an, wie im vorigen Abschnitt
gezeigt wurde. Das sollte man auch für kleines ω erwarten dürfen. Wenn man ω steigert, ist
eine endlich-parametrige Schar von Gleichgewichtslösungen denkbar. Selbst wenn die Kraft
f = 0 ist, darf man Verformungen mit immer mehr Knoten erwarten.
7.3.2
Hilbertraumformulierung
Es sei p durch eine positive Konstante nach unten beschränkt. Man zeige, daß die
Hilbertraumformulierung
Rιp u − Rιq u − Rf = 0
lautet. Zeigen Sie daß Rιp invertierbar ist. Weiters, daß Rιq kompakt ist.
Antwortfindung: Die Hilbertraumformulierung ergibt sich aus Unterabschnitt 7.1.4:
hRιp u − Rιq u − Rf, viE = 0
für alle v ∈ H = H01 (I), sodaß die erste Teilbehauptung klar ist. Die Invertierbarkeit von
Rιp folgt aus der Äquivalenz der Norm k · kE mit der H01 -Norm: die Injektivität ergibt sich
aus Rιp u = 0 gleichbedeutend zu hu, vi0 = hRιp u, vi = 0 für alle v ∈ H01 (I), also u = 0. In
analoger Weise prüft man die Existenz der zusammengesetzten Abbildung
H01 (I)
H01 (I)
ι
/ H 1 (I)0
0
qR
1
S
/ H 1 (I)
0
02
wobei
mit der üblichen Norm (kuk :=
0 u dx) ausgestattet ist und S durch die
Vorschrift hSu, vi = hu, viE festgelegt ist. Es ist nicht schwierig zu sehen, daß Sι Inverse zu
Rιp ist.
7.3. Eingespannte Saite im Potentialfeld unter Krafteinwirkung
265
Um die Kompaktheit von Rιq zu erkennen, setzen wir y = Rιq u und finden
1
Z
1
Z
0 0
py v dx =
quv dx
0
0
für alle y, v ∈ H01 (I). Beschränkt man sich zunächst auf y, v ∈ D, also Testfunktionen, so
kann die Gleichung distributionell gelesen werden:
−(py 0 )0 = qu
Zweimalige Integration ergibt zunächst
Z x
Z s
ds
y(x) = −
q(t)u(t) dt + αx,
0 p(s) 0
woraus Vertauschung der Integrationsreihenfolge die Darstellung
Z x
Z x
ds
q(t)u(t)dt
y(x) = −
+ αx
t p(s)
0
ergibt. Es ist α so zu wählen, daß y(1) = 0 gilt. Insgesamt bekommt man
Z
1
G(x, t)u(t) dt
y(x) = Rιq (u)(x) =
0
mit
(
G(x, t) =
q(t)(x
R1
ds
t p(s)
−
Rx
q(t)x
ds
)
t≤x
0 p(s)
x≤t
Rt 1p(s)
ds
Ähnlich, wie in Beispiel 210 zeigt man, daß sich durch diese Integraldarstellung Rιq als
kompakter Operator erweist.
7.3.3
Bemerkungen zur Lösbarkeit – Fredholmalternative
Die Hilbertraumformulierung ist äquivalent zu
(I − K)u = (Rιp )−1 Rf
mit K = ω 2 (Rιp )−1 Rq kompakter Operator. Der Kern von I − K kann nur endlichdimensional sein. Wie hängt die Bestimmung des Kerns mit Eigenwertproblemen zusammen?
Antwortfindung: Es ist K = ω 2 (Rιp )−1 Rq die Zusammensetzung eines kompakten mit einem stetigen Operator, also kompakt. Wegen Anmerkung 209 ist sein Kern endlich-dimensional.
Die distributionelle Formulierung zeigt, wie der Kern bestimmt wird:
−(pu0 )0 − ω 2 qu = 0, u(0) = u(1) = 0.
M.a.W., man löst ein spezielles Sturm-Liouville Eigenwertproblem.
266
Saite - etwas mathematische Physik
Welche Aussage läßt sich über die Lösbarkeit des Problems machen?
Antwortfindung: Ist zunächst ω 2 klein, so verrät uns der Fixpunktsatz von Banach (vgl.
Beispiel 157), bzw. eine geometrische Reihe, nämlich
(I − K)−1 =
∞
X
Kj,
j=0
konvergent für kKk < 1, daß I − K invertierbar ist. Somit ist in solch einem Fall die Lösung
sogar eindeutig.
Ansonst kann die Gleichung (I −K)u = Rf wohl nur dann lösbar sein, wenn Rf im Bild des
Operators auf der linken Seite ist. Das ist genau dann der Fall, wenn Rf von allen Elementen
des Kerns des dualen Operators annulliert wird, also, wenn
(I − K)0 (u0 ) = 0
stets u0 (Rf ) = 0 nach sich zieht. Es ist (I − K)0 ebenfalls kompakter Operator (vgl. Anmerkung 209), hat also ebenfalls endlich dimensionalen Eigenraum. Deshalb findet man ein
endliches System von Funktionalen u0 , welche die Lösbarkeit entscheiden. Gibt es eine Lösung,
dann auch unendlich viele, wenn der Eigenraum nicht trivial ist.
Anhang A
ANHÄNGE
A.1
Grundlagen
A.1.1
Modelltheorie
Es sei L eine gegebeme prädikatenlogische Sprache1 und A eine Teilmenge von L. Es seien
weiters M eine Menge, und es mögen jedem Konstantensymbol ein Element in M , jedem nstelligen Prädikatsymbol eine n-stellige Relation auf M n , jedem n-stelligen Funktionssymbol
eine Funktion von M n nach M zugeordnet sein. Nun kann jedem Term durch Zerlegung
in seine Bestandteile (Induktion nach der Struktur) eine Interpretation zugeordnet werden,
deren Wahrheitswert in der durch M bestimmten Struktur festgestellt werden kann. Sind nun
in der Interpretation alle Elemente von A W, so nennt man die Interpretation von L auf M
ein Modell und A ein in der Sprache L formuliertes Axiomensystem. Jede Formel in L, die in
jedem Modell W ist, heißt Folgerung aus dem Axiomensystem A.
Eine mathematische Theorie besteht in der Wahl einer Sprache L, der Wahl der Axiome
A, und den Folgerungen aus den Axiomen, welche die Theorie bilden.
Der wesentliche Sinn der axiomatischen Methode besteht darin, Folgerungen unabhängig
von speziellen Modellen zu ziehen. Hiezu wird als meist verwendete Technik der mathematische Beweis benützt.
A.1.2
Formale Logik
In der Praxis der Mathematiker wird ein Beweis zu einem solchen durch “Akzeptanz”. In
der formalen Logik strengt man eine Formalisierung des Beweisbegriffs an. Dadurch erreicht
man, niemals falsche Aussagen aus wahren Aussagen zu folgern.
Definition 226 Es sei L eine Sprache und A ein Axiomensystem (also Teilmenge von A).
Man verlangt:
1
Man kann solche Sprachen im Sinne einer Chomskygrammatik Definition 237 formal erklären, das soll
hier nicht geschehen.
267
268
ANHÄNGE
Aussagenlogische Tautologien: Für Formeln F, G, H der Sprache L sind die Formeln
F ⇒ (G ⇒ F )
(F ⇒ (G ⇒ H)) ⇒ ((F ⇒ G) ⇒ (F ⇒ H))
F ⇒ (¬F ⇒ G)
(F ⇒ G) ⇒ ((¬F ⇒ G) ⇒ G)
Tautologien, d.h. für jede Wahl der Wahrheitswerte von F , G, H stets W.
Quantorenlogische Axiome: Falls x im Term t nicht vorkommt, gilt (∀x)F (x) ⇒ F (t),
und falls x in F nicht vorkommt, hat man (∀x)(F ⇒ G) ⇒ (F ⇒ (∀x)G).
Gleichheitsaxiome: ((x = x) ∧ (x = y)) ⇒ ((x = z) ⇒ (y = z)).
Für ein n-stelliges Prädikat R, bzw. Funktion f hat man
(x1 = y1 ) ∧ · · · ∧ (xn = yn ) ⇒ (R(x1 , . . . , xn ) ⇒ R(y1 , . . . , yn ))
und
(x1 = y1 ) ∧ · · · (xn = yn ) ⇒ (f (x1 , . . . , xn ) = f (y1 , . . . , yn )).
Ableitungsregeln: Sind F und G Formeln, so kann man aus F und F ⇒ G auch die
Formel G ableiten (Modus Ponens).
Ist F eine Formel, und x eine Variable, die bezüglich F nicht gebunden ist, so kann
man aus F die Formel (∀x)F herleiten (Modus universalis).
Ableitbare Formeln: Man sagt, eine Formel F in L ist aus dem Axiomensystem A (formal) ableitbar, falls F ∈ A, F ein logisches Axiom, bzw. falls es aus A herleitbare
Formeln F1 , . . . , Fn gibt, und F aus den Fi mittels Ableitungsregeln entstanden ist.
Die wohl bekannteste Grenze wird der formalen Logik durch die Unvollständigkeitssätze
von K.Gödel gesetzt:
1. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die
Arithmetik der natürlichen Zahlen enthält, so gibt es in der gewählten Sprache eine
Aussage A, für die weder A noch ¬A formal ableitbar ist.
2. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die
Arithmetik der natürlichen Zahlen enthält, so kann im Rahmen der aus A herleitbaren
Theorie ihre Widerspruchsfreiheit nicht gezeigt werden, (d.h. man kann nicht zeigen,
ob mit einer Aussage A nicht auch ¬A ableitbar ist).
Eine anderes Problem beschreibt der Satz von Löwenheim-Skolem, demzufolge jede mathematische Theorie mit einem unendlichen Modell stets Modelle verschiedener Mächtigkeit besitzt,
so z.B. auch das Axiomensystem der Arithmetik.
A.1. Grundlagen
A.1.3
269
Axiomatische Mengentheorie
Die Idee der Menge als “Zusammenfassung wohlunterschiedener Objekte” (Georg Cantor
ca. 1870) ist vermutlich recht alt, sie kommt in der Formulierung der euklidischen Axiome
vor, bei der die Ebene aus den “unteilbaren Atomen im Sinne Demokrits”, den Punkten
besteht. Es wurde Ende des 19. Jahrhundert erkannt, daß man nicht jede Zusammenfassung
wohlunterschiedener Objekte als Menge bezeichnen sollte. Etwa 1901 hat nämlich B.Russel
die folgende Antinomie formuliert:
Anmerkung 227 (Russel’sche Antinomie) Es sei X die Menge aller jener Mengen,
die sich selbst nicht enthalten, also X = {x | x 6∈ x}. Ist dann X ∈ X, so folgt X 6∈ X,
weil ja X gerade durch diese Eigenschaft definiert ist. Wenn aber X 6∈ X, so gehört X
zu X, weil ja X gerade alle solchen Mengen enthält2 .
Somit beschreibt X = {x | x 6∈ x} eine “Menge” mit nicht wohlunterschiedenen Elementen.
Um diese Problematik zu umgehen, stützt man sich auf das Zermelo Fraenkelsche Axiomensystem, kurz ZFC, wobei C für das noch zu nennende Auswahlaxiom3 steht:
Definition 228 (Zermelo-Fraenkel Axiome)
Extensionalität: Zwei Mengen M und N sind gleich, wenn sie dieselben Elemente enthalten.
D.h. für 2 beliebige Mengen M und N gilt:
(∀x)
((x ∈ M ⇔ x ∈ N ) ⇒ M = N ))
Teilmengenaxiom: Ist A(x) eine Formel mit ungebundener Variabler x, so existiert zu
jeder beliebigen Menge M eine Teilmenge N von M , deren Elemente x durch die Eigenschaft
(∀x) ((x ∈ N ) ⇔ ((x ∈ M ) ∧ A(x))
bestimmt sind. Üblicherweise schreibt man N = {x ∈ M | A(x)}.
Vereinigung: Enthält eine Menge M selbst Mengen, so bilden alle Elemente dieser Mengen
zusammen selbst eine Menge, die Vereingigungsmenge dieser Mengen:
(∃V )(∀x) ((x ∈ V ) ⇔ (∃C)(x ∈ C ∧ C ∈ M )
Als gängige Notation findet man
[
V =
C = {x | (∃C ∈ M ) ∧ (x ∈ C)}
C∈M
2
Die folgende humorvolle Einkleidung des Sachverhalts ist bekannt: Ein Kompaniekommandant gibt dem
Barbier den Auftrag, alle jene zu rasieren, die sich nicht selbst rasieren. Demensprechend macht der Barbier
eine Liste der Selbstrasierer, um den Arbeitsaufwand zu schätzen. Dabei ist es für ihn nicht klar, ob er sich
auf die Liste schreibt oder nicht.
3
C steht für die gebräuchliche Bezeichnung “Continuumhypothese.”
270
ANHÄNGE
Potenzmenge: Alle Teilmengen T einer Menge M bilden eine Menge, die Potenzmenge:
(∃P )(∀T ) ((T ∈ P ) ⇔ (∀C)(C ∈ T ⇒ C ∈ M
Es ist üblich, diese Menge mit P(M ) := {T | T ⊆ M } zu bezeichnen.
Ersetzungsaxiom: Es sei A(x, y) eine funktionale Aussenformel, d.h.
(∀x)(∀y)(∀y 0 ) (A(x, y) ∧ A(x, y 0 ) ⇒ y = y 0 ),
dann bilden für jede Menge M die y, die für ein x ∈ M die Aussage A(x, y) erfüllen, eine
Menge, d.h.
(∃N )(∀y) ((y ∈ N ) ⇔ ((∃x)(x ∈ M ) ∧ A(x, y)))
Es ist üblich, dafür
N := {y | (∃x ∈ X)A(x, y)}
zu schreiben, und sie als Bildmenge bezüglich der funktionalen Aussagenformel zu bezeichnen.
Unendlichkeitsaxiom: Es gibt eine Menge, welche die leere Menge enthält, und mit jedem
Element x auch das Element x ∪ {x}.
(∃M ) ((∃y ∈ x)(∀z) (z 6= y) ∧ (∀y ∈ x)(∀w)(w ∈ z) ⇔ (w ∈ y) ∨ (w = y))
Dies berechtigt zur rekursive Definition der natürlichen Zahlen N, nämlich durch
0 := ∅, 1 := {∅}, 2 := {∅, {∅}}, etc.
allgemeiner nachfolger(n) := n ∪ {n}.
Auswahlaxiom: Zu jeder Menge M von disjunkten Mengen gibt es eine Menge, die jedes
Element von M in genau einem Element schneidet:
(
(∀S)((S ∈ M) ⇒ (∃s ∈ S))
)
∧
(
(∀S)(∀S 0 )
(
(S ∈ M) ∧ (S 0 ∈ M)
∧
( (∃s) (s ∈ S) ∧ (s ∈ S 0 ) )
=⇒ (S = S 0 )
)
)
Beispiel 229 Es soll an Beispielen gezeigt werden, wie diese Axiome verwendet werden, um
A.1. Grundlagen
271
Mengenkonstruktionen zu rechtfertigen.
1. Warum ist der Durchschnitt von zwei Mengen M und N eine Menge?
Antwort: Es sei A(x) der durch (x ∈ M ) ∧ (x ∈ N ) definierte aussagenlogische Term.
Er enthält die ungebundene Variable x, sodaß wegen des Teilmengenaxioms alle x mit
x ∈ M und A(x) eine Menge, eben den Durchschnitt M ∩ N , bilden.
2. Es seien M und N Mengen. Warum ist {M, N } eine Menge?
Antwort: Man braucht das Ersetzungsaxiom. Demnach betrachten wir die Formel A(x, y)
gegeben durch
((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )).
Wir zeigen, daß A(x, y) funktional ist: Angenommen fü alle x gelte A(x, y) ∧ A(x, y 0 ).
Dann heißt das, daß sowohl ((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )), wie auch
((x = ∅) ∧ (y 0 = M )) ∨ ((x = {∅}) ∧ (y 0 = N )) gelten. Ist dann x = ∅, so ist y = M = y 0 ,
und ähnlich schließt man für x = {∅} auf y = y 0 .
Nun betrachten wir alle Elemente y, die (∃x)A(x, y) erfüllen, also
(∃x)((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N ))
erfüllen, als solche y kommen aber geradewegs nur M und N in Frage, also bilden sie
eine Menge – in üblicher Notation – {M, N }.
A.1.4
Kardinalität endlicher Mengen
Unter Kardinalität einer endlichen Menge versteht man die Anzahl iherer Elemente. In diesem Abschnitt, auch als Vorbereitung auf die Wahrscheinlichkeitstheorie sollen für endliche
Mengen Fragen wie “Wieviele Elemente hat die Menge” gestellt werden, falls wir wissen, wie
sie aus einfacheren Mengen, deren Elementanzahlen wir kennen, aufgebaut ist. Die Beantwortung solcher Fragen fällt in den Bereich der abzählenden Kombinatorik. Es soll |A| die
Anzahl der in A enthaltenen Elemente bedeuten, wenn A endliche Menge ist.
Anmerkung 230 (Abzählende Kombinatorik) Es sei Ω eine endliche Menge mit
n = |Ω| Elementen.
Partition : Ist {Ωi | i ∈ I} eine Partition von Ω (siehe Definition 76), so hat man
X
|Ω| =
|Ωi |.
i∈I
Als Spezialfall ergibt sich für zwei disjunkte endliche Mengen A und B die Formel
|A ∪ B| = |A| + |B|.
Z.B.: Enthält eine Urne 3 schwarze, 2 rote, 4 blaue und 5 gelbe Kugeln, so hat I 4
Elemente und Ω 14 Elemente.
272
ANHÄNGE
Kartesisches Produkt: Ist Ω =
Q
Ωi und I endlich, so hat man
Y
|Ω| =
|Ωi |.
i∈I
i∈I
Als Spezialfall ergibt sich für zwei endliche Mengen A und B die Formel |A × B| =
|A||B|.
Z.B.: Wenn das Mittagsmenü 3 Vorspeisen, 2 Hauptspeisen, 4 Nachspeisen und 5
Getränkearten anbietet, und in jedem Gang gewählt werden darf, so hat I 4 Elemente und Ω hat 3×2×4×5 Elemente und stellt die Anzahl an zusammenstellbaren
Menüs dar.
Funktionen von I nach Ω: Ist I eine endliche Menge, so gibt es |Ω||I| Funktionen
f : I → Ω.
Z.B.: Es sei Ω eine Menge von Farben, mit denen man Kugeln in I markieren will.
Dann läuft das Markieren darauf hinaus, jeder Kugel i ∈ I ihren Farbwert ω ∈ Ω
zuzuordnen. Somit entsteht eine Funktion von I nach Ω.
Variation von n Elementen zur Klasse k ohne Wiederholung: ist eine injektive
Abbildung von einer k-elementigen Menge I in eine n-elementige Ω.
n!
Für die Anzahl solcher V. findet man Vnk = n(n − 1) . . . (n − k + 1) = (n−k)!
, weil
man für I := {1, . . . , k} nehmen darf und danach für f (1) n, für f (2) n − 1, etc.
Möglichkeiten hat.
Z.B. Man will aus n Personen eine gereihte Liste von k Leuten zusammenstellen.
Anderes Beispiel: Zugfolge bei Kugel-nach-Kugel Entnehmen von k Kugeln aus der
Urne Ω mit n Kugeln.
Permutation von n Elementen ist eine andere Bezeichnung für bijektive Funktion
f : Ω → Ω. Die Anzahl der P. ist n! := n · (n − 1) . . . 2 · 1 = Vnn .
Z.B. Eine Permutation kann als Reihung (d.i. lineare Ordnung4 für n Personen
angesehen werden. Anderes Beispiel: Zugfolge beim sukkzessiven Entnehmen jeweils
einer Kugel aus einer n Kugeln enthaltenden Urne Ω, bis sie leer ist.
Kombination von n Elementen zur Klasse k ohne Wiederholung ist die Auswahl einer k-elementigen Teilmenge einer n-elementigen Menge.
Z.B. Herausgreifen von k Kugeln aus einer Urne mit n Kugeln ohne Beachten der
Reihenfolge. Um die Anzahl solcher Auswahlen festzustellen, denkt man sich in
geordnete Listen von k Elementen herausgegriffen. Da es auf die Reihenfolge in der
Liste nicht ankommt, hat man somit
n(n − 1) . . . (n − k + 1)
n!
n
k
Cn =
=
=:
.
k!
k!(n − k)!
k
A.1. Grundlagen
273
Kombination von n Elementen zur Klasse k mit Wiederholung: ist eine monotone Funktion f : Ω → {1, . . . , k}. Jede solche Abbildung kann als Folge 1 ≤ f (1) ≤
f (2) ≤ · · · ≤ f (n) ≤ k interpretiert werden.
Die Anzahl solcher Abbildungen ist n+k−1
. Man sieht das wie folgt ein: Zunächst
k
zeichnet man den Funktionsgraphen einer monotonen Funktion, hier für k = 3 und
n = 5 für die Folge (1, 2, 2, 3, 3):
3
• •
2
• •
1 •
1 2 3 4 5
Solch eine Funktion kann durch eine Liste der Argumente und entsprechend ↑ “kodiert” werden, nämlich, so viele Pfeile, als Einheiten hoch gegangen wird. Dann
wählt man aus der n + k − 1-elementigen Menge, die aus Ω zusammen mit den k − 1
↑s gebildet wird, eine k-elementige Menge aus, und kann damit eindeutig die Folge
kodieren. Bei uns wäre das 1 ↑ 23 ↑ 45. Die Anzahl solcher Auswahlen ist somit
Cnkw = n+k−1
.
k
Beispiel 231 Etwas Geschick im Umgang mit kombinatorischem Abzählen benötigt man
z.B. in der Wahrscheinlichkeitstheorie. Hier einige Beispiele.
1. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung
von 1., 2., und 3.tem Preis gezogen. Wieviele Möglichkeiten gibt es?
Antwort: Offenbar ist jede Zugfolge eine injektive Abbildung von {1, 2, 3} nach {1, . . . , 100}.
Somit ergibt sich 100 × 99 × 98 als Anzahl der Möglichkeiten.
2. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung
eines Dreierteams gezogen. Wieviele Möglichkeiten gibt es?
Antwort: Offenbar soll eine
Menge aus einer 100-elementigen gewählt wer 3-elementige
100×99×98
den. Die Anzahl ist 100
=
100
× 33 × 49.
=
1×2×3
3
3. Auf wieviele Arten kann man 100 Teilnehmer in drei disjunkte Gruppen zu mindestens
33 Teilnehmern zusammenfassen?
Antwort: Jede solche Auswahl besteht aus der Angabe einer 34-elementigen Menge und
einer 33-elementigen Teilmenge der danach verbleibenden Menge. Der “Rest” ist in der
3.ten Gruppe. Sei Ω := {1, . . . , 100}. Die abzuzählende Menge A an Gruppeneinteilungen besteht aus Paaren (X, Y ) bei denen |X| = 34, |Y | = 33 und X ∩ Y = ∅ gilt, etwas
15
4
Definition 76
Definition 90
274
ANHÄNGE
(über)formal:
A = {(X, Y ) ∈ P(Ω) × P(Ω) | X ∩ Y = ∅ ∧ |X| = 34 ∧ |Y | = 33}.
66
Für X hat man 100
34 Teilmengen und danach für Y noch 33 , also ergibt sich
100
66
|A| =
×
.
34
33
4. Es sei {0, 1, 2}∗ das freie Monoid (Definition 102) über dem Alphabet A := {0, 1, 2}.
Wieviele Wörter der Länge mindestens 3 und höchstens 5 gibt es.
Antwort: Es handelt sich um die Wörter der Form abc, abcd und abcde mit a, b, c, d, e ∈
{0, 1, 2}. Aufgrund der Definition sind es Elemente in A3 , A4 und A5 . Somit ergibt sich
für die gefragte Anzahl:
33 + 34 + 35 = 33 (1 + 3 + 9) = 27.13 = 351.
A.1.5
Kardinalität und unendliche Mengen
Das folgende Beispiel stammt von Bolzano, auch wenn es unter dem Namen “Hilberts Hotel”
bekannt ist:
Beispiel 232 (Hilberts Hotel) Ein Hotel mit den Zimmernummern 1, 2, . . . ist völlig ausgebucht. Nun kommt eine unendliche Folge {Gi }∞
i=1 von Gästen am Abend an.
Unterbringung? Die Bewohner der Zimmer multiplizieren ihre Zimmernummer mit 2 und
übersiedeln. Nun ist Platz für die Neuankömmlinge.
Definition 233 (unendlich, abzählbar, und abzählbar unendlich) Eine Menge X
heißt unendlich, falls es eine injektive Abbildung von N nach X gibt. Sie heißt abzählbar,
falls es eine Surjektion von N nach X gibt. Ist sie unendlich und abzählbar, so nennt man
sie abzählbar unendlich. Ist sie abzählbar und nicht unendlich, so heißt sie endlich.
Satz 234 Jede Teilmenge einer abzählbaren Menge ist abzählbar. Ist die Teilmenge außerdem
unendlich, so gibt es eine Bijektion auf die natürlichen Zahlen. Jede unendliche Menge besitzt
eine unendliche Teilmenge mit unendlichem Komplement.
BW: Zunächst zeigen wir, daß jede Teilmenge A von N abzählbar ist. Es muß die Existenz
einer Surjektion f : N → A nachgewiesen werden. Hiezu benützen wir, daß jede nicht leere
Menge natürlicher Zahlen ein Minimum besitzt und drücken dies durch “aus P5”5 . Ist A = ∅,
so ist A abzählbar und es ist nichts zu zeigen. Ansonst definieren wir mittels P5 f (1) :=
min A und setzen A1 ; = A \ {f (1)}. Angenommen, Werte f (1), . . . , f (n) sind definiert und
An = A \ {f (1), . . . , f (n)}. Ist An = ∅, so definieren wir f (k) := f (1) für alle k > n und
sind fertig. Ist hingegen An 6= ∅, so setzt man f (n + 1) := min An . Wir vermerken, daß aus
5
P wie Peanoaxiom 5
A.1. Grundlagen
275
a ∈ f (N), a0 ∈ A und a0 < a stets a0 ∈ f (N) folgt. Ist A endlich, so bricht der Algorithmus
ab, und f ist surjektiv. Ist A unendlich, und wäre f nicht surjektiv, so sei b := min(A\f (N)).
Laut Konstruktion ist f (b) ≥ b und da jedes a ∈ A mit a < f (b) konstruktionsgemäß zu f (N)
gehört, hätte man b ∈ f (N), ein Widerspruch. Laut Konstruktion ist f bijektiv, im Falle daß
A unendlich ist.
Ist A Teilmenge einer beliebigen abzählbaren Menge M , so gibt es eine Surjektion f : N →
M . Dann ist f −1 (A) eine Teilmenge von N, also abzählbar. Somit gibt es eine Surjektion
g : N → f −1 (A). Schließlich ist f g : N → A surjektiv, also A abzählbar. Ist A unendlich,
so auch f −1 (A). Nun sei xa := min f −1 (a) und B := {xa | a ∈ A}. Offenkundig ist die
Einschränkung von f auf B eine Bijektion von B nach A. Nun nimmt man als g : N → B
die Bijektion wie im Falle, wo A ⊆ N war. Danach erweist sich f g als bijektiv.
Die letzte Behauptung des Satzes sieht man für N ein, man nehme z.B. die geraden Zahlen
G, dann bleiben die unendlich vielen ungeraden Zahlen U = N \ G “übrig”. Es sei A eine
beliebige unendliche Menge. Dann gibt es eine Injektion f : N → A. Nun sei N = G ∪ U
die Zerlegung von N in zwei disjunkte unendliche Teilmengen. Dann ist f (G) ∪ (A \ f (G))
Zerlegung von A in disjunkte unendliche Teilmengen.
···
1>
2 TTTT 3
4
5
6
Die Schritte n = 1 und n =
2 in der Induktionskonstruktion, wobei A = {2, 5, . . .} ist.
1
>>
>>
>>
2
TTTT
TTTT
TTTT
TTTT
T)
3
4
5
6
···
Beispiel 235
1. Z ist abzählbar unendlich. Unendlich, weil f : N → Z, definiert durch
f (n) := n injektiv ist, und abzählbar, weil
n
: n ≡ 0 (mod 2)
2
f (n) :=
: n ≡ 1 (mod 2)
− n+1
2
ein Beispiel für eine Surjektion von N auf Z ist.
2. Ist M eine abzählbare Menge abzählbarer Mengen, so ist
S
M ∈M M
abzählbar.
BW: Ist M leer, so ist die Vereinigung leer, und es ist nichts zu zeigen. Weiters darf
angenommen werden, daß kein M leer ist (kein Beitrag!).
Da M abzählbar ist, gibt es wegen Satz 234 eine Surjektion f : N → M. Induktiv
definieren wir Teilmengen An , Bn von N mit An ∩Bn = ∅, sowie An , Bn beide unendlich,
sowie eine Bijektion fn : An → f (n) wie folgt. Für n := 0 wählen wir gemäß Satz 234
eine Zerlegung z.B. A0 := G, B0 := U . Nun gibt es eine Bijektion h0 : A0 → N und da
f (0) abzählbar ist, gibt es eine Surjektion k0 : N → f (0), sodaß f0 := k0 h0 : A0 → f (0)
eine Surjektion ist.
Nun kommt die Induktionsannahme: Es sei eine Surjektion fn : An → f (n) bereits konstruiert und An+1 ⊆ Bn . Ist g({0, . . . , n}) =
S M, so hat man alle Mengen ausgeschöpft.
Man definiert eine Abbildung h : N → M ∈M M , indem man für ein k ∈ Al mit
l ≤ n den Wert mit h(k) := fl (k) setzt. Alle anderen natürlichen Zahlen
S werden auf
ein beliebiges Element in z.B. f (1) abgebildet. Danach ist h : N → M ∈M M eine
Surjektion.
276
ANHÄNGE
Andernfalls ist M noch nicht ausgeschöpft. Dann zerlegt man Bn := An+1 ∪ Bn+1
in disjunkte Teilmengen unter Rekurs auf Satz 234. Danach konstruiert man fn+1 :
An+1 → f (n + 1) analog, wie man es für f0 getan hat. Nun
S bricht das Verfahren zwar
nicht ab, ergibt jedoch insgesamt eine Surjektion h : N → M ∈M M .
Zur Definition der Kardinalität unendlicher Mengen benützt man einen Satz von Schröder
und Bernstein, der besagt, daß für 2 Mengen A und B die Existenz von Injektionen von
f : A → B und g : B → A die Existenz einer Bijektion h : A → B nach sich zieht. Danach
haben 2 Mengen gleiche Kardinalität, falls es eine Bijektion gibt.
A.1.6
Relationsschemata
Im Zusammenhang mit dem kartesischen Produkt (Definition 96) steht der Begriff des Relationsschemas, wie er als Datenbankkonzept gebräuchlich ist. Hier soll er lediglich als Beispiel
dienen.
Beispiel 236 Ein Relationsschema besteht aus
1. Einer Menge A, genannt (Menge der) Attributbezeichnungen.
2. Einer Menge von Mengen D, genannt Datentypen oder Wertebereiche.
3. Einer Funktion S : A → D, die jedem Datentyp D ∈ D Attribute zukommen läßt (jene
in S −1 (D)). Sie wird meist Schema genannt.
4. Eine Menge T von Funktionen t, die jedem a ∈ A ein Element t(a) ∈ S(a) zuordnet.
Sie heißt Tupel.
Als Beispiel dafür, wie konkret diese hochwissenschaftliche Vorstellung gesehen werden kann,
betrachten wir als Beispiel ein (rudimentäres) Addressverzeichnis:
Nachname
Rot
Blau
Grün
Vorname
Anton
Emma
Hans
Tel.Nr
123456
654321
123654
PLZ
1100
4200
1001
Ort
Wien
Linz
Wien
1. Die Menge der Attributbezeichnungen besteht aus der Kopfzeile: A = {Nachname,
Vorname, Tel.Nr., PZL, Ort}.
2. Als D eignet sich z.B.
D={
Strings d Länge ≤ 30 in ASCII,
Strings d Länge ≤ 15 in ASCII,
Zahlen < 107 ,
Zahlen der Länge 4,
Strings d Länge ≤ 50},
wobei jede dieser 5 Zeichenketten zugleich auch Mengen sind (deren beschreibende
Eigenschaft an der jeweiligen Zeichenkette abgelesen werden kann).
A.2. Algebra
277
3. S ordnet der Reihe nach den Elementen der Kopfzeile die (in unserem Fall) schon
in geordneter Reihenfolge angeschriebenen Datentypen zu, die zugleich auch Teilmengen von entweder {A-Z, a-z}∗ , oder von {0, . . . , 9}∗ sind. Es ist z.B. S(PLZ) = Zahlen der Länge 4 = {0000, 0001, 0002, . . . , 9999}.
4. Schließlich hat T drei Tupel, welche die drei “Datensätze” beschreiben, und das sind
die drei Nichtkopfzeilen der Tabelle.
A.2
Algebra
A.2.1
Chomsky Grammatik
Definition 237 Eine (Chomsky-)Grammatik ist ein TES (Definition 104), bei dem das Alphabet A eine disjunkte Vereinigung A = N ∪ T ∪ {S} ist. Dabei sind N ∪ {S} die nichtterminalen oder (syntaktischen) Variablen, T die Terminalzeichen und S das Startsymbol. Ein
Wort, gebildet aus Terminalzeichen ist ein Satz oder Terminalwort. Ein Wort, welches auch
syntaktische Variable enthält, heißt echte Satzform.
Die Regeln des TES werden mit P bezeichnet, heißen Produktionen und ihre linken Seiten
dürfen keine Terminalzeichen enthalten. Die Bestandteile der Grammatik werden durch ein
Quadrupel G := (N, T, P, S) notiert. Die Teilmenge L(G) ⊆ T ∗ der aus S vermittels der
Regeln P ableitbaren Wörter ist die Sprache mit Grammatik G.
Die Grammatik heißt kontextfrei, falls die linken Seiten der Regeln aus einer einzelnen
syntaktischen Variablen bestehen und regulär oder rechtslinear, wenn jede Produktion die
Form S → X oder X → |a|aZ mit a ∈ T und X, Z ∈ N hat.
Beispiel 238 In Beispiel 107 kommen vorallem 2. und 5. als Grammatiken in Frage:
1. Kann man 5. in geeigneter Weise zu einer Grammatik machen, sodaß der abgeleitete
Satz in deren Sprache liegt? Ist diese Grammatik regulär?
Antwort: Man wählt S :=<Satz>, T:={ist, grün, gelb, blau, rot, der, die, das, Kugel,
Ball, Ziegel, t} und die restlichen Symbole, jene in spitzen Klammern, sind syntaktische
Variable, bilden also N . Die Grammatik ist kontextfrei, aber nicht regulär.
2. (Additionskolonnen von Binärzahlen) In 2. wähle man als Terminalzeichen T :=
{0, 1, +, } und N := {Z, T } als Variable. Welche Sprachen kann man formulieren,
wenn S → Z, bzw. welche, wenn S → T als “Startregel” herangezogen wird? Inwieweit
entstehen kontextfreie, bzw. reguläre Grammatiken?
Antwort: Für S → Z ergibt sich {0, 1}∗ , also alle endlichen 01-Folgen. Ist S → T
hinzugefügt worden, so erhält man alle möglichen Ausdrücke
a1 + a2 + . . . + an
wobei jedes ai eine 01-Folge ist. Die Grammatik, bei der S → Z als Start gewählt wird,
und lediglich die Regel Z → 0|1|0Z|1Z zuläßt, ist regulär, die andere kontextfrei, aber
nicht regulär.
278
ANHÄNGE
3. (Additionskolonnen binärer Zahlen als reguläre Sprache) Es seien N :=
{Z, U, S}, S sei das Startsymbol, T := {0, 1, , ; } und S → Z, Z → 0U |1U, U →
|0U |1U | + Z|; ω Regeln. Wie kann man L beschreiben? Ist die Grammatik regulär?
Antwort. Es sind alle Ausdrücke der Form “a1 + a2 +
· · · + an ;” mit ai 01-Folgen. Der Graph, dessen Knoten
S, Z und U sind, und für den jede Regel X → aY
eine mit a beschriftete Kante von X nach Y führt,
veranschaulicht die Situation:
S
/Zi
0|1
+
)
UX
;
/ω
0|1
Man erkennt, daß jedes Wort der Sprache so entsteht, daß man von S ausgeht, den
Kanten “nachfährt”, sich der Reihe nach die an den Kanten stehenden Zeichen notiert,
und schließlich zu ω pilgert. Die Grammatik ist regulär. Der Automat ist ein Akzeptor.
Lediglich korrekte Ausdrücke der oben angedeuteten Form bringen den Automaten vom
Start S zum Endzustand ω.
4. Gibt es eine reguläre Grammatik, welche alle Wörter des freien Monoids {a, b, c} (siehe
Beispiel 103) erzeugt?
Antwort: Es sei N := {X}, T := {a, b, c}, S ein Startsymbol, und R := {S → X, X →
aX|bX|cX|ω}, dann werden alle Wörter des freien Monoids erzeugt. Die Grammatik
ist regulär, weil alle Regeln die in Definition 237 geforderte Form haben. Auch hier
kann man einen Akzeptor angeben: S / X / ω
X
a|b|c
5. Umgekehrte Polnische Notation oder auch POSTFIX-Notation: soll hier kurz
an einem Beispiel erläutert und in das Thema “TES” eingeordnet werden. Unter POSTSCRIPT findet man z.B. Funktionssymbole cos, add und mul und kann mit ihrer Hilfe
(2xy + 6 cos(3z)) als Befehlszeile eingeben. Dabei wird UPN verwendet: Zunächst die
Argumente, danach, was man damit tut, nach dem Motto
“Nescafe Frappé:=Nescafe Zucker Wasser wenig nehmen in ein Glas geben Quirlen
Wasser Eiswürfel zugeben Milch bei Bedarf zugeben ”.
Gecheckt wird, ob Datentypen passen, bzw. Stelligkeiten der Funktionen stimmen. Es
ist üblich, den komplizierten Ausdruck mit einem Ableitungsbaum zu analysieren, um
ihn danach in UPN umzuschreiben:
A.2. Algebra
279
+
·

y
·>
>>
>>
>>
>
2
~~
~~
~
~
~~
~
2 x·y·6 3 z·cos · + alias
2xy + 6 cos(3z)
· CC
CC
CC
CC
C!
cos
6
x
3
·
|
|
||
||
|
}||
z
Nun umfährt man den Baum von der Wurzel ’+’ ausgehend, notiert für jeden (Teil)baum
die Blätter, danach die jeweilige Wurzel, bis man alles umrundet hat und ’+’ vorfindet,
das man ebenfalls anschreibt. Man findet den Ausdruck (in UPN) rechts neben der
Skizze des Ableitungsbaumes, der nach Transkription in die angegebene Notation für
Addition, Multiplikation und Winkelfunktion die UPN der Funktion ergibt.
Kann man eine Grammatik formulieren, welche die UPN erzeugt?
Antwort: Man nehme etwa N := {X, Y, Z}, T := {2, 3, 6, x, y, z, cos, +, ·}, ein Startsymbol S und Regeln6 R := {S → X, X → X|Y |Z|XY + |XY · |X cos, Y |Z → X, X|Y |Z →
2|3|6|x|y|z}, so hat man, zeilenweise gelesen:
S→
→
→
→
→
→
X
XY · Z+
2Y · y · Z+
2x · y · XY · +
2x · y · 6X cos ·+
2x · y · 63z · cos ·+
→
→
→
→
→
XY +
Xy · Z+
2x · y · Z+
2x · y · 6Y · +
2x · y · 6XY · cos ·+
→
→
→
→
→
XZ+
XY · y · Z+
2x · y · X+
2x · y · 6X · +
2x · y · 63Y · cos ·+
Die Regeln beschreiben eine Grammatik in kontextfreier Weise.
Anmerkung 239 (reguläre Sprache und Mealyautomat als Akzeptor)
Reguläre Sprache → Automat: Es wird zunächst ein Graph gezeichnet, dessen Knoten mit den syntaktischen Variablen beschrieben werden. Jede gerichtete Kante
entspricht einer Regel X → aY mit X, Y syntaktische Variable und a ein terminales Symbol,
Automat → reguläre Sprache: Die Knoten des Graphen werden als syntaktische Vaa /
riable und die gerichteten Kanten X
Y als Regel X → aY interpretiert.
Weiters muß ein Knoten als Startknoten S beschriftet sein.
6
Die Unterstreichungen sollen lediglich der besseren Lesbarkeit dienen.
280
ANHÄNGE
Die Rolle des Automaten ist es, ein Akzeptor zu sein, d.h. man gibt ein Wort vor, und
arbeitet von links her kommend den Automaten ab. Wenn der Automat erst zum halten
kommt, sobald das gesamte Wort abgearbeitet ist, gehört es zur durch den Automaten
bestimmten regulären Sprache. Beispiel 238 3. und 4. sind einfache Beispiele. Sehr oft,
wie in diesen Beispielen, wird zusätzlich gefordert, daß der Automat zum Endzustand ω
geführt werden muß können, i.A, jedoch genügt es, als Sprache jene Ausdrücke anzuerkennen, welche keine syntaktischen Variablen mehr enthalten.
Es lassen sich reguläre Sprachen wie eben beschrieben stets mittels (Mealy)automat, kontextfreie mittels Kellerautomat, und Chomskysprachen mittels Turingmaschine “erkennen”:
es läßt sich zu jeder solchen Sprache eine entsprechende Maschine bauen, die nur Wörter
dieser entsprechenden Sprache “akzeptiert”, also schrittweise zum Ende vorrückt, wenn der
eingegebene Satz (das Programm), der Sprache angehört, m.a.W., syntaktisch korrekt ist. Ein
wenig hiezu findet sich in Unterabschnitt A.2.3.
A.2.2
Reguläre Grammatik und Automat
Soll hier nur anhand von Beispielen vorgeführt werden.
Beispiel 240
1. Reguläre Ausdrücke: Ist A∗ das freie Monoid7 über dem Alphabet
A, so werden für Teilmengen U, V von A∗ die Operationen U ∪ V (geschrieben als U |V ),
U V := {uv | u ∈ U ∧ v ∈ V } und U ∗ , das von den Wörtern in U erzeugte Monoid (d.i.
beliebige Wiederholung und Aneinanderreihung von Wörtern in U einschließlich ).
Nun wird rekursiv festgelegt, wie man eine Menge regulärer Teilmengen herstellt. Dazu
geht man zunächst von den einelementigen Mengen {a} mit a ∈ A, sowie {} und der
leeren Menge ∅ aus. Danach, wenn U und V reguläre Mengen sind, sollen auch U ∪ V ,
U ∗ und U V reguläre Mengen sein. Es erweist sich jede Sprache L, die sich als reguläre
Menge beschreiben läßt, als regulär im Sinn von Definition 237.
Reguläre Sprachen können mittels Automat, kontextfreie mittels Kellerautomat und Chomskysprachen mittels Turingmaschine beschrieben werden. Ein wenig darüber findet sich im
Anhang A.2.3.
Anmerkung 241 (Reguläre Sprache und Automat) Ist G = (N, T, P, S) eine reguläre Sprache, so konstruiert man einen Graphen, dessen Knoten die syntaktischen Variablen einschließlich S und sind und zieht eine Kante von X ∈ N nach Y ∈ N genau
dann, wenn X → aY eine Produktion ist. Der so entstandene Graph heißt Automat, seine
Knoten Zustände, die partielle Funktion (siehe Definition 93) (X, a) 7→ Y Überführungsfunktion8
7
Definition 102
A.2. Algebra
281
Umgekehrt erlaubt jeder zusammenhängende Graph mit beschrifteten Kanten die Definition einer regulären Grammatik, indem die Knoten als N, die Beschriftungen der Kanten
als T und schließlich ein Knoten als Start S und einer als gewählt wird. Jedes Wort der
durch den Automaten definierten Sprache entsteht, indem man einen Pfad von S nach
betrachtet und die dabei entstehende Folge an Beschriftungen notiert. Der Automat
wird gerne auch als Akzeptor oder Parser bezeichnet, weil er nur durch “Buchstabe für
Buchstabe Abarbeiten” eines Wortes der regulären Sprache zum Endzustand kommt.
ONML
HIJK
X
a
HIJK
/ ONML
Y
X → aY
Beispiel 242 Beispiele zu Automaten:
1. Man überzeuge sich, daß in Beispiel 238 3. ein Automat definiert wird. Wie lautet seine
Überführungsfunktion?
Antwort: Es ist üblich, diese Funktion für endliche Automaten in Form
einer Tabelle auszuweisen:
2.
0
1
+
S
Z
Z
U
U
U
Z
Z
V
V
ende
Z
Ein Parkautomat, in den man nur 50c und 1 Euro Münzen einwerfen kann, stellt für 1
Euro ein Parkticket aus. Bei 1 Euro Einwurf (bzw. 2× 50c) kommt das Ticket (T) und
der Vorgang ist abgeschlossen. Wirft man 50c ein, fragt er nach mehr (M), und wenn
dann nochmals 1 Euro eingeworfen wird, gibt er die 1 Euro Münze zurück (R). Um 8
Uhr geht der Automat in Betrieb, intern werden die Vorgänge in Form von Folgen der
Art RM M RRRT M M aufgezeichnet, und um 18 Uhr schaltet der Automat ab. Welche
Sprache definiert der Automat? Welche Buchstabenfolgen sind möglich?
Antwort: Man wählt als N:={S, Bereit , Warten , ende }. Nun braucht man ein Eingabealphabet I := {c, E, }, wobei c für Cent- und E für Euromünze steht, und ein
Ausgabealphabet O := {T, M, R}. Die Produktionen sind S → Bereit , Bereit →
M
T
T
R
c Warten |E Bereit , Warten → c Bereit |E Warten . Je nachdem, in welchem
Zustand abgeschaltet wird, ergibt sich entweder Bereit → ende oder Warten →
ende als weitere Regel.
Die Produktionen ergeben genau solche Wörter, in denen T beliebig oft, und Teilwörter
der Form MR· · ·RM beliebig oft vorkommen, falls im Zustand Bereit abgeschaltet
wird. Andernfalls gibt es eine ungerade Anzahl Ms, wobei am Ende eventuell noch
einige Rs und dann zwischen dem letzten M und diesem R kein T vorkommt.
8
In der Literatur meist δ
282
ANHÄNGE
50c — M
1 Euro — R
1 Euro — T
#
Warten
Bereit
c
50c — T
A.2.3
Kellerautomat und Turingmaschine
Anmerkung 243 (Kellerautomat und kontextfreie Sprache) Ist G = (N, T, P, S)
eine kontextfreie Sprache, so läßt sich ein Graph, genannt Kellerautomat, induktiv wie
folgt konstruieren:
1. Man markiert einen Knoten, der durch das Paar (S, ) beschriftet ist.
2. Ist nun (X, Aw) bereits ein Knoten, wird ein Knoten (X, w) hinzugefügt, und eine
mit A beschriftete Kante.
Gibt es außerdem eine Regel A → au, so definiert (X, wu) einen weiteren Knoten,
der mit beschriftet wird.
Für jedes A wird ein Knoten (X, w) hinzugefügt, und eine mit A beschriftete Kante.
z0
S
/
z0
Xw
X
/
z0
uw
X→u
Umgekehrt, sei ein Alphabet A gegeben, eine Menge Q und ein beschrifteter Graph mit
den folgenden Eigenschaften:
1. Die Knoten sind mit Paaren (q, w) mit q ∈ Q und w ∈ A∗ beschriftet. Sie heißen
Konfigurationen.
2. Es gibt einen Startknoten (q, S) mit S ∈ A.
3. Es gibt mit Elementen aus (N ∪ T )+ beschriftete Kanten von der Form (q, aw) →X
(q 0 , uw)
Dann kann durch a → u für alle a ∈ N eine Produktion definiert werden, alle solchen a
werden zu syntaktischen Variablen erklärt und der Rest zu Terminalzeichen.
Anmerkung 244 (Turingmaschine und Chomskysprache) Es liege ein Alphabet
A, sowie Mengen K und {l, r, s} und ein beschrifteter Graph der folgenden Art vor.
1. Die Elemente in K sind von der Form u a v mit u, v ∈ A∗ und a ∈ A. Jedes
A.2. Algebra
283
k ∈ K heißt Konfiguration. (Man interpretiert uav als auf ein Band geschriebene
Zeichenkette und a als Position des Kursors).
2. Es gibt eine Startposition t w.
3. Jede Kante ist von der Form u a cv →l uab c v, u a cv →r u a bcv oder u a cv →s
ua b cv, wobei a, b, c ∈ A sind. (Man interpretiert l,r,s als “nach links”, “nach
rechts” bzw. “Verbleiben” des Kursors. Entsprechend bedeutet etwa die erste Kantenform “zwischen ’a’ und ’v’ das Element ’b’∈ A einzufügen, und den Kursor rechts
vom Eingefügten zu positionieren”.)
Jedem Pfad von einem Zustand zu einem anderen entspricht ein Wort, welches durch
sukkzessive Operationen (Einfügen, Cursorbewegung) entstanden ist. Wird ein Endzustand festgelegt, so wird die Menge der Wörter, die durch einen Pfad vom Anfang zum
Endzustand entstehen, als von der Maschine akzeptierte Sprache bezeichnet.
Ist umgekehrt G := (N, T, P, S) eine Chomsky-Grammatik, so läßt sich eine Turingmaschine wie folgt konstruieren.
1. Ein Knoten t wird definiert.
2. Ist XW → xw eine Produktion (man beachte W ∈ N + und w ∈ (N ∪ T )∗ ), so wird,
falls u X W v bereits ein markierter Knoten ist, ein weiterer Knoten u x W v und
Kante →x,r angefügt. Ist die linke Seite länger als die rechte, so geht man vor, als
man von u X Y W vor sich hätte und XW → t eine Produktion wäre: Ein Zustand
u Y W wird geschaffen und eine Kante u X Y W →t u Y W . Ist schließlich die
rechte Seite der Regel länger als die linke, hat man eine Situation der Form u t v
und man geht im weiteren vor, als ob x → xyw eine Produktion wäre: Man fügt
einen Knoten ux y v und eine Kante ux t v →x,n an.
Man kann zeigen, daß die Sprache dieses Automaten mit L(G) übereinstimmt.
A.2.4
Halbgruppenwirkungen
Definition 245 ((Halb)gruppen- und Monoidwirkung) Man sagt, das Paar (G, M ) ist
eine Halbgruppenwirkung, bzw. G operiert auf M , falls G eine Halbgruppe, M eine Menge und
w : G×M → M eine Funktion ist, derart daß w(gh, m) = w(g, w(h, m)) für alle g, h ∈ G, und
alle m ∈ M gilt. Es ist üblich, statt w(g, m) einfach gm zu schreiben, sodaß sich das Gesetz
wie ein Assoziativgesetz (gh)m = g(hm) liest. Ist G ein Monoid, so spricht man von einer
Monoidwirkung, wenn zusätzlich w(1, m) = m für alle m ∈ M gilt, also, in Kurznotation,
1.m = m gilt. Ist (G, M ) eine Monoidwirkung und G eine Gruppe, so nennt man (G, M ) eine
Gruppenwirkung.
Beispiel 246 Wie unterschiedlich (Halb)gruppenwirkungen aussehen können, mögen die folgenden Beispiele belegen:
284
ANHÄNGE
1. Wie oben angedeutet, ist für G := M M das Paar (G, M ) eine Monoidwirkung auf M .
Es ist w(f, m) = f (m).
2. Es sei M := [−1, 1] × [−1, 1] ein Quadrat mit der Seitenlänge 2 und Mittelpunkt (0, 0).
Eine Ähnlichkeitsabbildung ist eine Funktion f : M → M , welche von der Form
a b
x
p
f (x, y) = λ
+
c d
y
q
a b
für eine orthogonale 2 mal 2 Matrix
mit Determinante 1 und λ ∈ (0, 1) ist.
c d
Bilden diese Abbildungen bezüglich Hintereinanderausführung ein Monoid, bzw. eine
Gruppe?
Antwort: Wäre M = R2 , so käme man auf eine Gruppe. Es gelten jedoch die Zusatzbedingung −1 ≤ ax + by + p ≤ 1 und −1 ≤ cx + dy + q ≤ 1 für alle x, y mit |x| ≤ 1
und |y| ≤ 1. Die Anschauung läßt vermuten, daß es sich um ein Monoid handelt. Der
Nachweis möge als Übung für Interessierte verbleiben.
3. Es ist [0, ∞) ein Monoid, wenn man als Operation die Addition zuläßt.
Weiters sei M = [−1, 1]×[−1, 1] wie vorhin und F : [0, ∞)×M → M durch F (t, x, y) :=
(e−t x, e−2t y) gegeben. Wegen der Exponentialfunktion gilt mit dieser Bezeichnung:
F (t + t0 , (x, y)) =
=
=
=
0
0
(e−t−t x, e−2t−2t y)
0
0
(e−t e−t x, e−2t e−2t y)
0
0
F (t, (e−t x, e−2t y))
F (t, F (t0 , (x, y))).
Weiters ist F (0, (x, y)) = (x, y). Deshalb ist für G := [0, ∞) das Paar (G, M ) eine
Monoidwirkung9 .
4. Ist die Menge N ein zyklisches Monoid bezüglich der Addition?
Antwort: Ja. In Definition 110 spielt 1 die Rolle von x. Nun muß man noch auf die
additive Schreibweise (Definition 108) achten.
————
Nun sei f (x) := x2 − 1. Ein Newtonschritt besteht darin, einer Zahl x0 ∈ R den Wert
x20 −1
x0 − 2x
zuzuordnen. Es zeigt sich, daß hiedurch eine Funktion F : R+ → R+ definiert
0
2
1
wird, nämlich F (x) := x − x 2x−1 = x2 + 2x
. Es sei M := [1, ∞). Wir definieren jetzt f :
N × M → M wie folgt: f (0, x) := x und wenn f (n, x) definiert ist, so soll f (n + 1, x) :=
F (f (n, x)) sein. Läßt sich hiedurch eine Halbgruppenwirkung auf M definieren?
Antwort: Für x ≥ 1 sieht man F (x) ≥ 1 ein, weil
F (x) =
9
Ein Beispiel eines dynamischen Systems, siehe 5.
x
1
+
≥1
2 2x
A.2. Algebra
285
für alle x ≥ 1 ist. Hieraus folgt durch Induktion nach n, daß aus f (n, x) ∈ M auch
f (n + 1, x) = F (f (n, x)) ∈ M folgt. Der formale Beweis für f (k + l, x) = f (k, f (l, x))
stützt sich auf Induktion nach k: Ist k = 0, so ist f (l, x) = f (0, f (l, x)) = f (l, x), ist o.k..
Wenn nun f (k+l, x) = f (k, f (l, x)) als richtig angenommen wird, so ist f ((k+1)+l, x) =
F (f (k + l, x)) = F (f (k, f (l, x))) = f (k + 1, f (l, x)).
5. (Dynamisches System) Jede Halbgruppenwirkung (R+ , M ), bzw. (R, M ) heißt 2
kontinuierliches dynamisches System auf M . Jede Halbgruppenwirkung (N, M ) bzw.
(Z, M ) heißt diskretes dynamisches System auf M .
einfache Beispiele:
(a) Gelegentlich wird die zeitliche Veränderung einer zu t0 := 0 vorgegebenen Temperaturverteilung auf einem (ab)strahlenden Körper K durch ein exponentielles
Abkühlungsgesetz beschrieben: Ist z.B. K das Intervall 0 ≤ x ≤ 1, so wäre das
eine Formel der Bauart T (t, x) := e−ct φ(x) die Temperatur, die am Punkt x zur
Zeit t herrscht, wenn zur Zeit t = 0 dort die Temperatur T (0, x) = φ(x) geherrscht
hat (Lösungen der Wärmeleitungsgleichung). Die als positiv gedachte (Material)konstante c entspricht einem Temperaturleitkoeffizienten. Es sei (der Einfachheit halber) φ(x) stetig differenzierbar und positiv für alle x ∈ K. Dann soll M
die Fläche sein, welche von der Abszisse, dem Funktionsgraphen und den in den
Endpunkten von K errichteten Ordinaten begrenzt wird. Ist nun (x, y) ∈ M ,
so offenbar auch (x, e−ct y), sodaß w(t, (x, y)) := (x, e−ct y) eine Monoidwirkung
([0, ∞), M ) festlegt.
(b) Verzinsung geschieht üblicherweise nach der KiP-Regel, d.h., läßt man das Kapital
K bei einer Verzinsung eine Zeiteinheit bei p% liegen, ergibt sich danach K 0 =
p
K(1 + 100
) als verzinstes Kapital. Liegt das Kapital zu gleichen Bedingungen i
p i
Zeitabschnitte, so ergibt sich naturgemäß Ki = K(1 + 100
) als verzinstes Kapital.
Dies gibt Anlaß, das folgende diskrete dynamische System zu formulieren: G :=
N mit der Addition (ein Monoid mit Null als Einselement), M := [0, ∞) und
p i
w(i, K) := K(1 + 100
).
6. (Universelle Eigenschaft des freien Monoids) Das freie Monoid über einem Alphabet aus Definition 102 ist ein Monoid. Ist G = (N, T, R, S) eine reguläre Grammatik
(siehe Definition 237) und, als Sonderfall, zu jedem X ∈ N und jedem t ∈ T eine
Regel der Form X → tY vorhanden, dann ist (T ∗ , N ) eine Monoidwirkung. Geometrisch bedeutet es für den Automaten (Anmerkung 241), daß für jedes Terminalsymbol
festgelegt sein muß, in welchen Zustand der Automat übergeht.
7. Das freie Monoid A∗ erfüllt die folgende universelle Eigenschaft: Ist f : A → G eine beliebige Funktion mit Werten in einem Monoid G, so gibt es eine eindeutige Fortsetzung
von f zu einem Monoidhomomorphismus von A∗ → G. (Analog, wie man eine lineare
Abbildung von einer Basis eines Vektorraums in einen Vektorraum stets eindeutig zu einer linearen Abbildung fortsetzen kann), nämlich f (a1 a2 . . . ak ) := f (a1 )f (a2 ) . . . f (ak ).
Von der gleichen Art ist die universelle Eigenschaft von Polyomringen, siehe Anmerkung
134.
286
ANHÄNGE
Beispiel 247 Es sei (G, M ) eine Gruppenwirkung (Definition 245) und m0 ∈ M . Die Menge
der g ∈ G mit gm0 = m0 bilden eine Untergruppe10 , sie heiße H (ist nämlich gm0 = m0
und hm0 = m0 , so ist (gh)m0 = g(hm0 ) = gm0 = m0 und es ist g −1 m0 = g −1 (gm0 ) =
(gg −1 )m0 = m0 ). Nun fragen wir, wann zwei Elemente x, y ∈ G unser m0 “an die gleiche
Stelle befördern”, also wann xm0 = ym0 gilt. Das ist sichtlich eine Äquivalenzrelation R und
kann auch so ausgedrückt werden:
xRy ⇔ y −1 x ∈ H.
Wie kann die Äquivalenzklasse von x ∈ G mittels H beschrieben werden?
Es ist xRy gleichbedeutend zur Existenz von h ∈ H mit x = yh, also zu x ∈ yH, wobei
yH := {yh | h ∈ H} bedeuten soll. Somit ist die Äquivalenzklasse von x die Menge xH. Man
sieht ein, daß
xRy ⇔ xH = yH
gilt.
Ist H nun irgendeine Untergruppe von G, so ist {xH | x ∈ G} eine Partition11 von G:
Zunächst ist jedes Element g ∈ G z.B. in gH. Weiters, wenn xH ∩ yH 6= ∅, dann gibt es
h, h0 ∈ H mit yh = xh0 , also y −1 x = hh0 −1 ∈ H, daher ist yH = xH.
Es soll mit einem Beispiel begonnen werden, bei dem eine Gruppe als Beschreibungshilfe
für Symmetrien benützt wird. Es sei ein Quadrat (links)
•
•

•
•
I¯
D̄
K̄
L̄
I¯
I¯
D̄
K̄
L̄
D̄
D̄
I¯
L̄
K̄
K̄
K̄
L̄
I¯
D̄
L̄
L̄
K̄
D̄
I¯
mit eingezeichneter Diagonale gegeben. Durch Hinsehen erkennt man folgende Symmetrien:
Wirkung
Drehung um 180o
Kippen um die eingezeichnete Diagonale
Kippen um die nicht eingezeichnete Diagonale
Nichtstun
Bezeichnung
D
K
L
I
Jede Buchstabenfolge im freien Monoid {I, D, K, L}∗ beschreibt eine Abfolge von Transformationen des Quadrats, allerdings ist z.B. die Wirkung von I, DD, DDDD jeweils die
gleiche.
10
11
Häufig als Standgruppe oder Stabilisator bezeichnet
Definition 76
A.2. Algebra
287
Es verhilft zur Übersicht, welche Elemente in {I, D, K, L}∗ gleich wirken, wenn
man {I, D, K, L} als Eingabealphabet eines Automaten (wie in Beispiel 238, Genaueres siehe Unterabschnitt A.2.3) ansieht. dessen Zustände die 4 Positionierungen des Quadrats sind. Jede Positionierung des Quadrats werde in der
Form b2 als Zustand “kodiert” und die
b2
1a .
b1
2a
...
D ..
..
a1
..K
L 2b === ..
== ..
= .
K
L == .
D
a2
1b
1a
Überführungen sollen durch einfache Linien angedeutet werden, weil jede Symmetrie 2 mal angewendet, die Identität ist.
Zwei Wörter w, w0 im freien Monoid {I, D, K, L}∗ sollen kongruent genannt werden, wenn sie
beide das Gleiche mit dem Quadrat tun und das soll mit w ≡ w0 ausgedrückt werden. Man
bemerkt, daß ≡ eine Äquivalenzrelation12 ist. Es leuchtet auch ein, daß die Kongruenzeigenschaft gilt:
u ≡ u0 ∧ v ≡ v 0 ⇒ uv ≡ u0 v 0 .
Die Äquivalenzklassen dieser Relation sollten als Symbole zur Beschreibung aller Symmetrien
ausreichen, weil ja das Monoid vieldeutige Bezeichnungen zuläßt, jedoch inkongruente Wörter
offenbar auch verschiedentlich wirken! Es soll jetzt für jedes Wort w mit w̄ die Äquivalenzklasse von w bezeichnet werden. Die obige Kongruenzeigenschaft erlaubt es, eine Multiplikation
für die Äquivalenzklassen durch
ūv̄ := uv
festzulegen. Das geht, weil u0 ≡ u und v 0 ≡ v geradewegs u0 v 0 ≡ uv, also u0 v 0 ∈ uv nach sich
zieht, und somit die Wohlbestimmtheit dieses Ausdrucks. Zu den Annehmlichkeiten zählt
auch, daß {I, D, K, L}∗ / ≡ mit der Multiplikation von Klassen automatisch assoziativ wird,
und ein 1-Element besitzt, also ein Monoid ist.
¯ D̄, K̄, L̄} die Äquivalenzklassen der Ausgangssymmetrien sein. Jetzt beEs sollen jetzt {I,
sinnt man sich auf das obige Diagramm des Automaten und liest sehr schnell u.a. folgende
Kongruenzen ab:
I ≡ DD ≡ KK ≡ LL, L ≡ KD ≡ DK.
Für die Äquivalenzklassen heißt das
I¯ = D̄D̄ = K̄ K̄ = L̄L̄, L̄ = K̄ D̄ = D̄K̄.
Dies führt zur Multiplikationstabelle neben der Skizze des Quadrats. Man erkennt daraus,
daß jedes Element ein inverses (sich selbst) besitzt, also eine Gruppe vorliegt. Somit kodiert
¯ D̄, K̄, L̄} mit obiger Multiplikationstafel die Symmetrien des Quadrats in
die Gruppe {I,
eindeutiger Weise.
12
Definition 90
288
ANHÄNGE
Jetzt ist man allerdings noch immer nicht zufrieden, wegen der vielen Querstricherln. “Weglassen” ist eine Möglichkeit, eine “algebraisch kompetentere” ist es, nachzusehen, ob die Kongruenzrelation aus einem konfluenten, antisymmetrischen und noetherschen TES13 herleitbar
ist und es bietet sich
DD|KK|LL|II → I, DK → L, KD → DK, ID|DI → D, IL|LI → L, IK|KI → K, DL → K
an. Tatsächlich wird jedes Wort in {I, K, D, L}∗ zu genau einem Buchstaben in {I, K, D, L}
in endlich vielen Schritten “reduziert”.
Definition 248 (Kongruenz und Homomorphismus von Wirkungen) Ist (G, M ) eine
Wirkung, so nennen wir ein Paar (≡G , ≡M ) eine Kongruenzrelation auf einer Wirkung, falls
≡G eine Kongruenzrelation auf G, weiters ≡M eine Äquivalenzrelation auf M ist, und g ≡G g 0 ,
sowie m ≡M m0 stets gm ≡M g 0 m0 nach sich zieht.
Ein Homomorphismus f von Wirkungen (G, M ) und (G0 , M 0 ) ist ein Paar f := (fG , fM )
von Funktionen fG : G → G0 und fM : M → M 0 , sodaß fG ein Halbgruppenhomomorphismus
ist und für alle g ∈ G und m ∈ M stets fM (gm) = fG (g)fM (m) gilt.
Anmerkung 249 Es ist, soweit keine Gefahr von Verwechslung befürchtet wird (um
dies zu vermeiden benützt man z.B. typisierte Variable im Sinne heterogener Algebren14 ),
üblich, lediglich ≡, bzw. f als Symbol zu verwenden.
Ähnlich wie in Anmerkung 116 ergibt sich für jede Kongruenz von Wirkungen durch
Übergang zu Quotientenhalbgruppe und Quotientenraum ein Homomorphismus von Wirkungen.
Umgekehrt ergibt jeder Homomorphismus von Wirkungen eine Kongruenzrelation der
Wirkung (G, M ).
Beispiel 250 Beispiele hiezu:
1. Es sei (G, M ) := (R, R2 ), wobei R mit der Addition als Gruppe aufgefaßt wird, und
r(x, y) := (x+r, y) Verschiebung bedeutet. Auf R gelte die Kongruenz aus Beispiel 117
3., nämlich r ≡ r0 , falls r0 = r + 2kπ für ein k ∈ Z. In der Ebene R2 soll (x, y) ≡ (x0 , y 0 )
gelten, wenn x0 = x + 2lπ für ein l ∈ Z und gleichzeitig y = y 0 ist. Man zeige, daß
≡ eine Kongruenz von Wirkungen auf (G, M ) ist. Wie kann die Quotientenwirkung
beschrieben werden?
Antwort: Der Nachweis, daß ≡ auf R2 eine Äquivalenzrelation ist, verläuft recht ähnlich
wie im zitierten Beispiel. Nun soll noch gezeigt werden, daß aus r ≡ r0 und (x, y) ≡
(x0 , y 0 ) stets r(x, y) ≡ r0 (x0 , y 0 ) folgt. Lt. Voraussetzung ist dann y = y 0 und es gibt
13
14
Definition 104
Definition 251
A.2. Algebra
289
k, l ∈ Z mit r0 = r + 2kπ und x0 = x + 2lπ. Dann ist r0 (x0 , y 0 ) = (r0 + x0 , y) =
(r + 2kπ + x + 2lπ, y) = (r + x + 2(k + l)π, y) ≡ (r + x, y) = r(x, y), w.z.b.w.
Als Quotientenwirkung bekommt man (R/2πZ, R/2πZ × R), geometrisch ist dies einfacher zu beschreiben: M̄ = R/2πZ × R ist ein Zylinder (es wird entlang der x-Achse
mod 2π “aufgerollt”, und danach erweist sich die Verschiebung als Drehung um die
Winkelvariable in R/2πZ.
A.2.5
Heterogene Algebren
Die Grundidee des im Titel genannten Begriffes liegt in der Beschreibung ganz allgemeiner
Kompositionen von Größen. Beim inneren Produkt werden Vektoren “multipliziert” und es
kommt eine Zahl heraus. Beim Ausdruck (~a × ~b) × ~c werden drei Vektoren des R3 “verknüpft” und das Ergebnis ist ein Vektor im R3 . In Programmen wiederum benützt man
Datentypen und danach Variable des entsprechenden Datentyps und Funktionstypen, die
als Namensträger von Funktionen dienen, welche unterschiedliche Datentypen miteinander
“verknüpfen” können. Z.B. in
proc potenz(x:real;n:nat):real;
var y:real;
m:nat;
beginproc y:=x;m:=1; while (m<n) do y:=y*x; end do; return y; endproc
erscheinen die Datentypen real , nat , und offenbar ist ‘potenz’ vom Funktionstyp real ×
nat → real . Im obigen Beispiel kann man ähnliches Verständnis formulieren: Man könnte
einen Datentyp 3real vec schaffen und die Funktion als vom Typ
3real vec × 3real vec × 3real vec −→ 3real vec
ansehen. Vielleicht will jemand noch andere Funktionen wie z.B. die 3×3-Determinante als
Funktion der Spaltenvektoren, die er dann vom Typ:
3real vec × 3real vec × 3real vec −→ real
auffassen wird.
In diesem Sinne werden H.A. eher als Hilfsmittel zur formalen Spezifikation von Computersprachen angesehen, schaffen jedoch auch einheitliche Sicht vieler algebraischer Strukturen.
Definition 251 (Heterogene Algebra) Eine Signatur besteht aus einer Mengen S, den
Sorten oder (Daten)typen und einer Menge Ω von Operationsnamen. Zu jedem Operationsnamen ω ∈ Ω gibt es w = w1 . . . wn ∈ S ∗ und s ∈ S, den Operationstyp, und es heißt n
die Stelligkeit von (w, s). Ist w = , so nennt man ω einen Konstantennamen. Es ist üblich,
w → s zu schreiben.
Eine (heterogene) Algebra der Signatur (S, Ω) wird gebildet, indem man zu jedem s ∈ S
eine Menge As vorgibt, sowie für jeden Operationsnamen ω vom Operationstyp s1 · · · sn → s
eine Funktion fω : As1 × · · · × Asn → As , genannt n-stellige Operation mit Werten in As ,
290
ANHÄNGE
falls n ≥ 1 ist, und Konstante in As falls w = . Es erweist sich als sinnvoll, A als disjunkte
Vereinigung aller As mit s ∈ S anzusehen.
Anmerkung 252 (Ableitungsbaum einer heterogenene Algebra) Die folgende
geometrische Sicht sollte von großem Nutzen sein: Jedes Funktionssymbol ω vom Operationstyp s1 . . . sn → s mag als Graph15 der folgenden Art gesehen werden:
s1
ONML
HIJK
ω, s R
GGRRR
n{
n
n
GG RRR
{
n
n
{
n
GG RRRR
{
n
nn {{{
GG
RRR
n
n
n
G
{
RRR
n
{
nn
...
s
s2
n−1
sn
Beispiel 253 Hier einige (sehr unterschiedliche) Beispiele.
1. Wie kann man Mengen M mit einer Funktion f : M × M → M im Sinne einer H.A.
auffassen?
Antwort: S = X, Ω := {F }, F hat den Operationstyp (XX, X) (der in der Literatur,
z.B. [8] häufig als X × X → X geschrieben wird). Nun ist M = A zusammen mit der
Funktion f eine (X, {F })-Algebra.
2. Wie kann man das die Vektoren betreffende Beispiel der Einleitung im Sinne einer H.A.
auffassen?
Antwort: S := { 3real vec , real }, Ω := {L, Det}, Operationstyp von L ist
3real vec × 3real vec → 3real vec ,
Operationstyp von Det ist
3real vec × 3real vec → real .
Nun ist R3 als Menge vom Typ 3real vec , noch genauer A 3real vec = R3 und L(~a, ~b, ~c) :=
(~a × ~b) × ~c die Operation mit Namen L vom angegebenen Operationstyp, und analoges
gilt für Det(~a, ~b, ~c).
Hier wäre A = R3 .
3. Wie kann die Prozedur der Einleitung (A.2.5) im Sinne einer H.A. aufgefaßt werden?
Antwort: Man wählt S := { Natvar, Realvar } und Ω := {pot, n, r}, wobei ‘pot’ vom
Operationstyp Realvar Natvar→Realvar, n Konstantensymbol vom Typ Natvar und r
Konstantensymbol vom Typ Realvar ist.
Danach ergibt ANat := N, AReal := R und pot(r, n) :=“Programmzeilen” Somit ist A
als disjunkte Vereinigung {0} × N ∪ {1} × R auffaßbar.
15
Beispiel 238 6. (Polnisch inverse Notation): Dort hat der Baum Operationstypen ‘+’ und ‘·’ der Stelligkeit
n = 2, cos der Stelligkeit n = 1, sowie reelle Variable als Datentypen.
A.2. Algebra
291
Definition 254 (Teilalgebra, Homomorphismus und Kongruenz in het. Alg.) Sind
A und B heterogene Algebren der Signatur (S, Ω), so heißt A Teilalgebra von B, falls As
Teilmenge von Bs für jedes s ∈ S ist und für alle Funktionssymbole ω vom Operationstyp
s1 . . . sn → s aus (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets ω(as1 , . . . , asn ) ∈ As folgt.
Ein Homomorphismus F : A → B besteht aus Abbildungen Fs : As → Bs , derart, daß für
jedes ω vom Operationstyp s1 . . . sn → s für alle (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets
ω(F (as1 ), . . . , F (asn )) = Fs (ω(as1 , . . . , asn ))
gilt16 .
Eine Kongruenz auf A ist eine Äquivalenzrelation R auf A, derart, daß aus asi Ra0si stets
ω(as1 , . . . , asn ) R ω(a0s1 , . . . , a0sn ))
für jede Operation ω vom Typ s1 . . . sn → s. Die Notation a ≡ b statt aRb ist gebräuchlich.
Beispiel 255 Einfache Beispiele:
1. Es sei (S, Ω) durch S := {s} mit s := h integer mod pos nati und Ω := {+} mit dem
Typ ss → s gegeben. Nun definieren wir As := Z, die ganzen Zahlen und ω die übliche
Addition ganzer Zahlen. Dann ist Z = As eine (S, Ω)-Algebra. Nimmt man Bs := 2Z,
die Menge der geraden Zahlen, so ist B eine (S, Ω)-Teilalgebra von A.
Als nächstes sei B := Bs := {0, 1} mit + die “Binäraddition”, d.i. 0 + 0 = 1 + 1 =
0, 1 + 0 = 0 + 1 = 1. Wenn man jetzt F : A → B durch F (z) := 0 falls z gerade, und
F (z) := 1, falls es ungerade ist, festlegt, so ist F ein Homomorphismus.
Definiert man auf A = As eine Relation durch z ≡ z 0 falls z − z 0 gerade ist, so ist dies
eine Kongruenzrelation im obigen Sinne.
2. In Definition 114 wird die Definition für einen Homomorphismus f : (G, M ) → (G0 , M 0 )
zweier Halbgruppenwirkungen gegeben. Wie kann diese Definition als eine im Sinne
heterogener Algebren verstanden werden?
Antwort: Zunächst muß man Halbgruppenwirkungen als heterogene Algebra mit Gleichungen fomrulieren: Die Signatur hat die Typen halb gruppe und menge, sowie Operationsbezeichnungen
· : halb gruppe halb gruppe → halb gruppe
und
w : halb gruppe menge → menge.
Sind X, Y, Z syntaktische Variable vom Typ halb gruppe und P eine syntaktische
Variable vom Typ menge, so gelten die Gesetze (XY )Z = X(Y Z), (XY )P = X(Y P )
16
“Man kann F durch alle Operationssymbole durchziehen”
292
ANHÄNGE
(wobei wir die Funktionssymbole weggelassen haben, die Typisierung der syntaktischen
Variablen schließt Irrtümer aus). Nun sollen G, G0 vom Typ halb gruppe, M, M 0 vom
Typ menge sein und entspechende Operationen der beiden Typen vorliegen.
Der Homomorphismus f : (G, M ) → (G0 , M 0 ) wird nun aufgefaßt als Halbgruppenwirkung im Sinne von Definition 245.
Wir kommen jetzt zur Definition, was Terme sind.
Definition 256 (Termalgebra) Ist (S, Ω) eine Signatur, und X eine disjunkte Vereinigung
von Mengen Xs mit s ∈ S. Als Termalgebra bezeichnet man die Sprache mit folgender
Grammatik, bei der σ das Startsymbol ist:
• σ → xs für alle xs ∈ Xs ergibt Terme vom Typ s.
• xs → (ω(xs1 , . . . , xsn )), falls xsi ∈ Xsi und ω Operation vom Typ s1 . . . sn → s ist,
ergibt ebenfalls einen Term vom Typ s.
Anmerkung 257 (Ableitungbaum der Termalgebra) Die geometrische Beschreibung aus Anmerkung 252 benützend, lassen sich die Regeln der Grammatik bildlich so
beschreiben:
Graphen der linksstehenden Form werden
σ
gebildet.
ONML
HIJK
ω, s SS
Für jedes Funktionsm
mmm z
GG SSS
G
GG SSSSS
mmm zz
symbol gibt es Graphen
GG
SSS
xs
mmm zzzz
m
SSS
GG
m
z
mm
der Form, wie ganz
SSS
m
z
m
m
...
Xsn−1
Xs1
Xs2
S sn
rechts abgebildet.
Nun “iteriert” man. Enthält ein Graph keine Variablen mehr, ist er ein Satz, andernfalls eine Satzform im Sinne von Definition 237. Der jeweils entstandene Graph heißt
Ableitungsbaum des entsprechenden Terms.
Wir vermerken, daß der Ableitungsbaum in Beispiel 238 6. (Polnisch inverse Notation) ein
Ableitungsbaum in genau diesem Sinne ist. Nun kann man im Sinne einer Grammatik (Definition 237) Rechengesetze formulieren, wie es im Abschnitt A.2.6 beschrieben wird.
A.2.6
Gesetze in heterogenen Algebren
Der Begriff des Terms erlaubt es jetzt, eine formaler Definition für Rechengesetze zu geben:
Definition 258 Ist A eine H.A. der Signatur (S, Ω), X eine Menge (syntaktischer) Variabler
und t1 , t2 Terme in den Variablen X vom Typ s sind, so sagt man, in A gilt die Identität
A.2. Algebra
293
t1 (X) = t2 (X), wenn für alle typengerechten Belegungen der Variablen X → a mit Elementen
in A t1 (a) = t2 (a), also Gleichheit herrscht.
Weiters sagt man, die Gleichung t1 (X) = t2 (X) gilt in (S, Ω), falls für heterogene Algebra
A der Signatur (S, Ω) jedes typengerechte Ersetzen der Variablen in X durch Elemente in A
zum gleichen Ergebnis führt.
Beispiel 259
• Es sei (S, Ω) = ({s}, {f }). f sei vom Typ ss → s. Seien x, y, z (syntaktische) Variable und t1 (x, y, z) = f (x, f (y, z)), t2 (x, y, z) := f (f (x, y), z). Die Identität
t1 (x, y, z) = t2 (x, y, z)
besagt die Gültigkeit des Assoziativgesetzes. In der Sprache der Ableitungsbäume hat
man
x
f<
<
<<
<<
<<
>>
>>
>>
=
z
f>
>
x
y
f<
<
<<
<<
<<
f=
=
y
==
==
==
z
• Es sei (S, Ω) := {{s, s0 }, {f }} und f vom Typ ss → s0 . Wie kann die Identität
f (x, y) = f (y, x) formuliert werden? Wie läßt sich das als Gleichung von Ableitungsbäumen erkennen? Gibt es Beispiele von Strukturen dieser Art, auch für s 6= s0 ?
Antwort: Man braucht lediglich anzumerken, daß x, y syntaktische Variable vom Typ s
sein müssen.
x
f=
=
==
==
=
=
y
y
f=
=
==
==
==
x
0
Z.B. sei S := {s, s0 } mit s := hreeller koordinaten vektorraum der Dim=ni,
Pns := h reali
0
und Ω := {f } mit f vom Typ ss → s und definiert durch f (u, v) := i=1 ui vi . Das
übliche Kommutativgesetz ist eine Identität in dieser H.A., die Buchstaben u und v
spielen die Rolle syntaktischer Variabler.
Anmerkung 260 Bei gegebener Signatur (S, Ω) und System von Gleichungen erfüllen
alle Algebren dieser Signatur diese Gleichungen (bei beliebigem Ersetzen der entsprechenden syntaktischen Variablen). Gibt man keine Gleichungen vor, so können im Sinne von
Definition 256 Terme “ineinander verschachtelt” werden, die dann eine H.A. der Signatur
(S, Ω) bilden, eine Termalgebra.
294
ANHÄNGE
A.2.7
Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper
Wenn R etwa Z oder k[x], ein Polynomring in einer Variablen mit Koeffizienten in einem
Körper k ist, so basiert die übliche Division mit Rest
dividend = quotient × divisor + rest
auf folgender Eigenschaft:
Definition 261 (Euklidischer Ring, Division mit Rest) Ein Integritätsbereich R mit 1Element heißt euklidisch, falls es eine Funktion θ : R \ {0} → N gibt, derart, daß θ(ab) ≥ θ(a)
für alle a, b mit ab 6= 0 gilt, und es zu jedem a ∈ R und 0 6= b ∈ R ein q und ein r in R
gefunden werden können mit
a = qb + r, r = 0 ∨ θ(r) < θ(b).
Es ist q der Quotient und r ein kleinster Rest.
Beispiel 262 Die beiden Eingangsbeispiele:
1. Ist R := Z, so sei θ(z) := |z| für z 6= 0. Es ist θ(ab) = |ab| = |a||b| ≥ |a| = θ(a).
Die übliche Division mit Rest erfüllt die nötigen Eigenschaften. Von Interesse: q und r
müssen nicht eindeutig bestimmt sein. So ist etwa für a := 7 und b := 5:
7 = 5 · 1 + 2 = 5 · 2 + (−3),
und die Paare (q, r) ∈ {(1, 2), (2, −3)} sind beide o.k. Deshalb auch “ein kleinster Rest”
und nicht “der kleinste Rest” in der obigen Formulierung.
Eine geometrische Deutung aus der Antike: Es gab keine negativen Zahlen und es wurde
die (im allgemeinen kleinere) Strecke b sooft “abgeschlagen”, bis ein Streckenrest r von
kleinerer Länge als a verblieb. Die Zahl q gibt dann an, wie oft man abgeschlagen hat.
In der antiken Auffassung war der kleinste Rest eindeutig bestimmt, weil nicht negativ.
2. Ist R := k[x], so wählt man d(p) den Grad des Polynoms p ∈ R, sofern p 6= 0 ist. Die
aus Mittelschulzeiten bekannte Polynomdivision mit Rest gehört hieher.
Will man lediglich den Rest wissen, so empfiehlt sich ein TES wie in Anmerkung 106,
nämlich, wenn a = 7x4 − 3x2 + 4x − 1 und b = x2 − x + 1, so “adoptiert” man die Regel
x2 → x − 1 und findet:
a → 7(x − 1)2 − 3(x − 1) + 4x − 1 = 7x2 − 13x + 9 → 7(x − 1) − 13x + 9 = −6x + 2.
Was hat man davon?
Antwort: Angenommen,
man muß die Wurzel der quadratischen Gleichung, nämlich
√
x = 21 (1 + i 3), in a = 7x4 − 3x2 + 4x − 1 einsetzen. Dann ist es sicher einfacher, das
in r = −6x + 2 zu tun! Das Resultat ist dasselbe!
A.2. Algebra
295
Anmerkung 263 Ist R ein euklidischer Ring, so können folgende Begriffe und Techniken
erklärt werden, wobei a|b geschrieben wird, wenn a Teiler von b ist.
Größter gemeinsamer Teiler von Zahlen, ggT: Sind a, b ∈ R, so heißt d ∈ R ein
größter gemeinsamer Teiler von a und b, im Zeichen d = ggT (a, b), wenn d ein Teiler
von a und b ist, und wenn jeder weitere Teiler von a und b ein Teiler von d ist.
Man sagt a und b sind teilerfremd, im Zeichen ggT (a, b) = 1 (meist (a, b) = 1
geschrieben), falls jeder gemeinsame Teiler von a und b eine Einheit in R, d.i. ein
Teiler des Einselementes von R, ist.
Induktiv definiert man ggT (a1 , . . . , an ) := ggT (a1 , ggT (a2 , . . . , an )).
Existenz und Berechnung des ggT: Sind Elemente a1 , . . . , an gegeben, so findet
man den ggT durch folgende Prozedur:
1. Wenn alle Elemente gleich Null sind, so ist der ggT gleich Null.
2. Streiche alle Elemente, die gleich Null sind. Ordne die ai nach wachsendem
θ(ai ).
3. Ersetze alle ai durch den Rest bei Division durch a1 und streiche alle Elemente,
die gleich Null sind.
4. Führe Schritt 2 und 3 solange aus, bis ein einzelnes Element verbleibt. Dieses
ist dann der ggT.
Beispiel: ggT(12,18,21,0)=ggT(12,18,21)=ggT(6,-3)=ggT(0,-3)=ggT(3)=3.
Trickreicher: ggT(12,18,21,0) = 3ggT(4,6,7,0) = 3ggT(4,2,3) = 3ggT(2,3,4)=3ggT (2,1) =
3ggT(1,2) = 3ggT(1) = 3, d.h. man “hebt einen gemeinsamen Teiler heraus”.
Erweiterter Kettenalgorithmus: gibt eine Methode an, um für a, b ∈ R \ {0} Elemente x, y ∈ R mit d := ggT (a, b) = ax + by und θ(x) < θ(b), sowie θ(y) < θ(a)
bzw. x = 0 oder y = 0 zu finden. Ist a = bd, so gilt offenbar d = a × 0 + b × 1, also
x = 0 und y = 1. Ist a = bq + r, und kann man den ggT von b und r in der Form
d = bξ + rη schreiben, so ergibt sich sofort d = bξ + (a − bq)η = aη + b(ξ − qη).
Man erkennt auch recht schnell, daß die Forderungen an x und y erfüllbar sind,
wenn ξ und η (im Induktionsschritt) die entsprechenden Forderungen erfüllen. In
Matrizenform gewinnt man eine übersichtliche Form:
x
y
=
0 1
1 −q
ξ
η
.
Zunächst eine händische Methode17 , die hier lediglich an einem Beispiel demonstriert werde: Wir wollen den ggT von 127 und 24, d.i. 1 in der Form 1 = 127·x+24·y
schreiben und schreiben zunächst die Schritte der Division mit Rest fortlaufend an:
296
ANHÄNGE
a
127
24
7
2
=
=
=
=
=
b
24
7
3
1
×
×
×
×
×
q
5
3
2
2
+
+
+
+
+
r
7
3
1
0
Man notiert von der vorletzten Zeile an von unten nach oben lesend die Werte für
q als q = 2, q = 3 und q = 5 und schreibt von rechts nach links:
x
0 1
0 1
0 1
0
=
y
1 −5
1 −3
1 −2
1
und elementare Matrizenrechnung ergibt
x
y
=
7
−37
, also
d = 1 = ax + by = 127 × 7 + 24 × (−37).
Hier eine rekursive Form der Implementation in einem “Pseudocode” für Elemente
in R:
function ext euclid(a : R, b : R) : (R, R, R)
local: d, x, y, q : R
begin
if (b = 0) return (a, 1, 0)
else begin
(q, r) := a divrest b # a = b ∗ q + r, r = 0 oder θ(r) < θ(b)
if r = 0 return (b, 0, 1)
else begin
(d, x, y) :=ext euclid(a, b)
return (d, y, x − yq)
end
end
end
z
Partialbruchzerlegung im Quotientenkörper : Ist f = ab
und sind a und b teilerfremd, so ergibt sich aus dem erweiterten Kettenalgorithmus eine Darstellung
1 = ax + by, sodaß
z
zx zy
=
+
ab
b
a
folgt.
A.2. Algebra
297
Beispiel 264 Beispiele hiezu:
1. Kann man 1 in der Form 1 = (x2 + 1)2 p + (x − 1)3 q derart anschreiben, daß der Grad
von p kleiner als 3 und jener von q nicht größer als 5 ist, wobei die Koeffizienten der
Polynome in Q liegen? Wenn ja, wie lauten p und q?
Antwort: Die Frage wird über Polynome in Q(x) gestellt. Dieser Ring ist euklidisch,
wenn man als θ den Grad nimmt. Die Polynome a := (x2 + 1)2 und b := (x − 1)3 sind
relativ prim, d.h. es gibt kein Polynom d mit θ(d) ≥ 1 als gemeinsamen Teiler. Deshalb
ist 1 ein ggT und es sollten sich geforderte Polynome p und q finden lassen. Wir wenden
die obigen Prozedur an (Nebenrechnungen, etwa die langweilige Polynomdivision mit
Rest werden hier nicht vorgeführt) und finden:
a
(x2 + 1)2
(x − 1)3
(8x2 − 8x + 4)
( x8 − 14 )
=
=
=
=
=
b
× q
3
(x − 1)
× (x + 3)
2
(x − 8x + 4) × ( x8 − 14 )
x
× 16(x − 1)
2
x
1
4
× 32
− 16
+
+
+
+
+
r
8x2 − 8x + 4
x
2
4
0
Nun notiert man für q der Reihe nach (x + 3),( x8 − 14 ) und 16(x − 1), bildet die entsprechenden Matrizen und multipliziert aus:
0
1
0
1
0
1
2x2 − 6x + 5
0
.
=
1 ( x8 − 14 )
1 16(x − 1)
1 (x + 3)
−2x3 − 3x + 1
1
Diese Polynome erfüllen 4 = a(2x2 − 6x + 5) + b(−2x3 − 3x + 1), sodaß die gesuchten
Polynome wie folgt lauten:
!
1
2 − 6x + 5)
(2x
p
4
=
.
1
3
q
4 (−2x − 3x + 1)
2. (Partialbruchzerlegung) Kann man den Bruch f :=
a
(x2 +1)2
+
b
(x−1)3
2x−1
(x2 +1)2 (x−1)3
in der Form f =
schreiben? Wenn ja, wie kann man a und b bestimmen?
Antwort: In der Analysis lernt man die Methode der Partialbruchzerlegung, die genau
diese Aufgabe löst. Der Beweis für die Möglichkeit der Partialbruchzerlegung beruht
jedoch auf dem erweiterten euklidischen Algorithmus. In unserem Fall ist wegen 1.
f=
17
(2x − 1)(p(x2 + 1)2 + q(x − 1)3 )
(2x − 1)p (2x − 1)q
=
+ 2
.
2
2
3
(x + 1) (x − 1) )
(x − 1)3
(x + 1)2
Die Methode wird gelegentlich Bézout zugeschrieben.
298
ANHÄNGE
3. (Partialbruchzerlegung von Quotienten von Laurentpolynomen) 18 Im Körper
der rationalen Funktionen C(z) bilden die Brüche der Gestalt zpk mit p ∈ C[z] und k ∈ Z
einen Teilring R, den Ring der Laurentpolynome, oft auch als C[z, z −1 ] bezeichnet. Wenn
0 6= p ∈ C[z] nicht durch z teilbar ist, so soll θ(p) der Grad von p als Polynom sein.
Es soll θ( zpk ) = θ(p) sein für alle k ∈ Z. Liegt ein euklidischer Ring vor? Wie kann
Partialbruchzerlegung für
2z −1 − 1
f :=
(1 + z −2 )2 (1 − z −1 )3
gewonnen werden?
Antwort: Sind p, q Polynome in C[z], so muß man θ( zpk zql ) ≥ θ( zpk ) überprüfen. Das darf
dem interessierten Leser überlassen sein. Um die Partialbruchzerlegung zu gewinnen, ist
es (nicht nur in diesem Beispiel) hilfreich, statt z −1 wieder x zu setzen und (in diesem
Beispiel) das Beispiel 2. heranzuziehen.
A.2.8
Eindeutige Faktorzerlegung
Die für den Hauptidealring Z gewohnte eindeutige Primfaktorzerlegung wird für beliebige
kommutative Ringe wie folgt formuliert:
Definition 265 (Faktorieller Ring) Ein kommutativer Ring R mit Einselement heißt faktoriell, falls jedes Element sich als Produkt von irreduziblen Elementen anschreiben läßt, und,
falls r 6= 0 zwei Zerlegungen
r = a1 . . . ak = b1 . . . bl
in irreduzible Elemente gestattet, es eine Einheit s des Ringes gibt, derart daß a1 s mit einem
der bj übereinstimmt.
Anmerkung 266 (Eindeutigkeit der Faktorzerlegung)
1. Die Anzahl irreduzibler Faktoren, die keine Einheiten sind, ist in jeder Zerlegung die
gleiche. Die Faktoren zweier Zerlegungen entsprechen einander bis auf Reihenfolge
und Multiplikation mit Einheiten. (z.B. 2 × 3 = (−3) × (−2)).
2. Jeder Hauptidealring ist faktoriell.
3. Jedes irreduzible Element (Definition 131) ist prim.
Beweis zu 2.: Sei r ∈ R keine Einheit. Wir wollen zeigen, daß r in endlich viele irreduzible
Faktoren zerlegt werden kann. Angenommen, das geht nicht. Dann kann man, ausgehend von
r0 := r für alle j ≥ 1 induktiv Elemente fj , rj mit fj irreduzibel und keine Einheit sodaß
rj−1 = fj rj ist, definieren. Da hrj−1 i ⊆ hrj i ist, entsteht hiedurch eine aufsteigende Kette
hr0 i ⊆ hr1 i ⊆ hr2 i ⊆ · · ·
A.2. Algebra
299
von Hauptidealen, deren Vereinigung, als Hauptideal, von der Form hai für ein Element a
ist. Dieses Element a liegt in der Vereingigung, also gibt es ein j0 mit a ∈ hrj0 i. Somit
ist hai = hrj0 i = hrj0 +1 i. Deshalb gibt es ein b ∈ R, sodaßsowohl rj0 +1 = brj0 als auch
(konstruktionsgemäß) rj0 = fj0 +1 rj0 +1 gilt. Hieraus entimmt man
rj0 +1 = bfj0 +1 rj0 +1 ,
also 1 = bfj0 +1 , sodaß insbesondere, entgegen der Annahme, fj0 +1 eine Einheit ist.
Die Eindeutigkeit folgt durch Induktion aus 3.
Beweis zu 3.: Es sei f irreduzibel und keine Einheit und ein Teiler von ab. Das Ideal ha, f i ist
ein Hauptideal, also gibt es p, q, d mit a = pd und f = qd. Da f irreduzibel ist, muß entweder
q oder d eine Einheit sein. Wäre q eine Einheit, so wäre a bis auf eine Einheit mit f identisch
und der Beweis fertig. Somit können wir annehmen, daß d Einheit ist. Dann ist ha, f i = R
und daher gibt es dann x, y mit ax + f y = 1. Multiplikation mit b zeigt abx + f by = b und
somit ist f ein Teiler von b.
Beispiel 267 Als Konsequenz des Vorangegangenen erweisen sich alle euklidischen Ringe,
insbesondere Z, k[x] und der Ring der Laurentpolynome als faktoriell.
Wir vermerken noch die folgende Beobachtung über mehrfache Faktoren.
Anmerkung 268 (Mehrfache Faktoren, Vielfachheit, Test durch Differenzieren im Polynomring) Ist R faktoriell und p = f k q eine Zerlegung von p ∈ R derart,
daß f irreduzibel und keine Einheit ist, und ggT(f,q)=1 ist, so nennt man k die Vielfacheit
des Faktors f . Ist insbesondere R = k[x], so gelten folgende Aussagen:
P
i
1. Ist c ∈ k und h
c : k[x] → k die Abbildung, die jedem Polynom f :=
i fi x den
P
i
Wert hc (f ) := i fi c zuordnet (“Einsetzen von c statt der Polynomvariablen x”),
ein Ringhomomorphismus. Es ist hc (f ) = 0 g.d.w. f den Linearfaktor (x−c) besitzt.
P
P
2. Für jedes f = i fi xi kann eine formale Ableitung f 0 := i ifi+1 xi definiert werden. Sie ist linear und erfüllt die Produktregel.
3. f hat genau dann keine mehrfachen irreduziblen Faktoren, wenn ggT (f, f 0 ) = 1
gilt. (Insbesondere kann f keine mehrfachen Nullstellen haben).
4. Ist die Charakteristik des Körpers Null, so sind die Nullstellen von f genau jene
von ggTf(f,f 0 ) .
Beweis:
1. Um die Ringhomomorphismuseigenschaft zu beweisen, muß man hc (f g) = hc (f )hc (g)
nachweisen:
X X
hc (f g) = hc ( (
fi gj )xm )
m
i+j=m
300
ANHÄNGE
=
X X
(
fi gj )cm
m
= (
i+j=m
X
X
fi ci )(
gj cj )
i
j
= hc (f )hc (g).
P
P
P
P
P
P Pi
j ci−j ,
Ist i fi ci = 0, so ist i fi xi = i fi xi − i fi ci = i≥1 fi (xi −ci ) = (x−c) i≥1
x
j=0
also f durch x−c teilbar. Andrerseits, falls f = (x−c)g, so ist hc (f ) = hc (c−x)hc (g) = 0.
2. Die Linearität sieht man leicht ein. Deswegen genügt es, die Produktregel für f = xi ,
g := xj nachzuweisen:
(xi xj )0 = (xi+j )0 = (i + j)xi+j−1 = ixi−1 xj + xi jxj−1 = (xi )0 xj + xi (xj )0 .
3. Es sei p = f k g, dann ist p0 = kf k−1 g +f k g 0 = f k−1 ((k −1)g +f g 0 ), somit, falls k ≥ 2 ist,
f ein gemeinsamer Faktor von p und p0 . Ist umgekehrt f ein gemeinsamer irreduzibler
Faktor von p und p0 , so gilt p = f g und somit p0 = f 0 g + f g 0 , sodaß f ein Teiler von
f 0 bzw. g sein muß. Da f irreduzibel ist, und f 0 kleineren Grad hat, kann f kein Teiler
von f 0 sein. Somit ist f Teiler von g und hat zumindest Vielfacheit 2.
4. Folgt direkt aus dem vorigen.
Beispiel 269 Vorbereitung auf das Rechnen im endlichen Körper IF8 in Beispiel 145:
Wie lautet die Zerlegung in irreduzible Faktoren für das Polynom x8 − x aufgefaßt mit Koeffizienten in IF2 (dem Körper mit 2 Elementen)?
Antwortfindung: Sichtlich ist x ein Faktor. Danach steht da x7 − 1 = (x − 1)(x6 + x5 +
x4 + x3 + x2 + x + 1). Wir behaupten, daß es keine mehrfachen Faktoren geben kann. Dazu
benützen wir das Ausgangspolynom x8 − x, das differenziert 8x − 1 = 1 ergibt (Körper mit
2 Elementen!). Somit sind alle irreduziblen Faktoren einfach. Nun ist es gerechtfertigt, einen
Ansatz
x6 + x5 + x4 + x3 + x2 + x + 1 = pq
mit p vom Grad 2 oder 3 zu machen. Ein wenig vorauswissend, soll 3 genommen werden.
Dann kann man p = x3 + ax2 + bx + 1, q := x3 + cx2 + dx + 1 annehmen (weil das Produkt der
höchsten bzw. niedrigsten Koeffizienten 1 ist). Nun erkennt man, daß nach Multiplikation der
Term 5.Ordnung die Gleichung a + c = 1 ergibt. O.B.d.A. nehmen wir a = 1 und c = 0 an
(sonst vertauschen p und q ihre Rollen). Das lineare Glied ergibt b + d = 1 und nun versucht
man einfach p = x3 + x2 + 1 und q = x3 + x + 1. Ausmultiplizieren ergibt die Korrektheit der
Zerlegung. Schließlich erweisen sich p und q als unzerlegbar, weil ein Linearfaktor auftauchen
müßte, der zu einer Nullstelle in IF2 führt – letztere existiert nicht!
Antwort: x8 − 1 = x(x − 1)(x3 + x2 + 1)(x3 + x + 1) ist eine Zerlegung in über IF2 irreduzible
Faktoren.
Schließlich noch ein recht einfaches Beispiel, das hier paßt:
A.3. Topologie
301
Beispiel 270
(Faktorzerlegung und Prozentzahlen) Es sei die Zahlenfolge {hi | i = 1, 2, 3, 4, 5, 6} =
{16.8, 17.3, 16.4, 16.7, 16.2, 16.6} gegeben. Es soll sich dabei um “relative Häufigkeiten” in
i
Prozenten handeln, also hi := 100H
N . Dabei ist jede absolute Häufigkeit Hi ∈ N und H1 +
· · · + H6 = N . Es ist gefragt, wie groß das kleinste N ist, sodaß die angegebene Zahlenfolge
entsprechende Prozentzahlen ausdrückt.
Antwortfindung: Multipliziert man jede der Zahlen mit 10, so ergibt sich offenkundig 1000 =
168 + . . . + 166, sodaß das gesuchte N bestenfalls ≤ 1000 sein kann. Die kleinste natürliche
Zahl k, derart, daß alle zi := hi ∗ k ∈ N liegen, ist offenkundig auch k = 10. Danach ergibt
für i = 1, . . . , 6 die Beziehung
zi N = 1000Hi .
Nun muß jeder Primteiler von zi ein Teiler von entweder 1000 oder von Hi sein. Sieht man
sich jetzt die Zahlenfolge der zi , nämlich {168, 173, 164, 167, 162, 166} an, so bemerkt man die
Primzahl 173, die kein Teiler von 1000 ist. Somit ist H2 ein Vielfaches von 173. Wegen der
Minimalität von N ist deshalb H2 = 173 und N = 1000.
A.3
Topologie
A.3.1
Konstruktion der Vervollständigung für einen metrischen Raum (X, d)
Das Konstruktionsprinzip erinnert ein wenig an Numerik:
• Man geht vom Raum aller Folgen X N aus und betrachtet hierin die Teilmenge aller
Cauchyfolgen, die mit CF (X) bezeichnet werde. Jede solche Folge darf man sich als
“numerisches Verfahren” vorstellen, von dem man eigentlich annehmen will, daß es
konvergiert, weil es ja Cauchysch ist, aber der Grenzwert in X nicht zu existieren
braucht.
∞
• Zwei Cauchyfolgen {xn }∞
n=1 und {yn }n=1 will man nun als gleichwertig erachten, wenn
sie “zum gleichen Grenzwert konvergieren”. Der muß aber X nicht existieren. Falls
doch, würde auch
∞
D({xn }∞
n=1 , {yn }n=1 ) := lim d(xn , yn ) = 0
n→∞
(A.1)
zu gelten haben. Nun kommt der Trick: die linke Seite, das D, läßt sich für je zwei
∞
Cauchyfolgen {xn }∞
n=1 , {yn }n=1 definieren, sogar dann, wenn ihr Grenzwert in X nicht
existiert.
• Die Funktion D : CF (X) × CF (X) → R+ ∪ {0} erfüllt gewisse der Axiome einer Metrik. Sie ist symmetrisch, nicht negativ, und die Dreicksungleichung kann nachgewiesen
∞
werden. Allerdings folgt aus D({xn }∞
n=1 , {yn }n=1 ) = 0 nicht notwendig die Gleichheit
∞
der Folgen. Die angekündigte Gleichwertigkeit der Cauchyfolgen {xn }∞
n=1 und {yn }n=1
wird formal als Äquivalenzrelation definiert, indem man sie als äquivalent ansieht, wenn
Glg.(A.1) gilt.
302
ANHÄNGE
˜ ty) zu
• (Definition von X̃) Nun wird X̃ als Menge der Äquivalenzklassen erklärt. Um d(x̃,
∞
definieren, wählt man Cauchyfolgen (d.i. Repräsentanten) {xn }∞
n=1 ∈ x̃ und {yn }n=1 ∈ ỹ
∞
∞
˜
und definiert d(x̃, ỹ) := D({xn }n=1 , {yn }n=1 ). Diese Definition erweist sich als von den
gewählten Folgen in x̃, ỹ unabhängig.
0 ∞
∞
0 ∞
Wir wollen das kurz vorführen: Es seien {xn }∞
n=1 , {xn }n=1 ∈ x̃ und {yn }n=1 , {yn }n=1 ∈
∞
∞
0
∞
0
∞
ỹ. Man muß dann D({xn }n=1 , {yn }n=1 ) = D({xn }n=1 , {yn }n=1 ) zeigen.
Zunächst liefert die Dreiecksungleichung für alle n ∈ N
d(x0n , yn0 ) ≤ d(x0n , xn ) + d(xn , yn ) + d(yn , yn0 ),
und geht man mit n → ∞, so ergibt sich wegen der Definition von D und der Äquivalenzklassen x̃, ỹ sofort
0 ∞
∞
∞
D({x0n }∞
n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ).
Die gleiche Prozedur mit vertauschten Rollen der gestrichenen und ungestrichenen Folgen ergibt
∞
0 ∞
0 ∞
D({xn }∞
n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ),
woraus die Behauptung unmittelbar folgt.
• (isometrische Einbettung von X) Jedem Element x ∈ X wird die konstante Folge
{xn }∞
n=1 mit xn = x zugeordnet. Dann ist d(xm , xn ) = d(x, x) = 0, also diese Folge
∞
∞
{xn }∞
n=1 eine Cauchyfolge. Einsichtig ist auch, daß konstante Folgen {xn }n=1 , {yn }n=1
∞
∞
mit xn = x, yn = y zunächst D({xn }n=1 , {yn }n=1 ) = d(x, y) ergeben. Hieraus ergibt
˜ ỹ) = d(x, y), sobald x̃ und ỹ konstante Folgen mit Werten x, y enthalten.
sich d(x̃,
• (Nachweis, daß X in X̃ dicht liegt) Daß jedes x̃ ∈ X̃ Grenzwert von Elementen in X
ist, ergibt sich wie folgt: Zunächst wählt man einen Repräsentanten {xn }∞
n=1 ∈ x̃. Nun
betrachtet man zu jedem k ∈ N die konstante Folge xk := {xkn }∞
defniert
durch
n=1
xkn := xk . Wir wollen zeigen, daß bei k → ∞ diese Folge limk→∞ D(xk , {xn }∞
n=1 )
∞
∞
erfüllt. Es ist D(xk , {xn }n=1 ) = limn→∞ d(xk , xn ). Weil jedoch {xn }n=1 konvergent,
und somit CF ist, gibt es zu vorgegebenem > 0 ein N sodaß für alle n, k der Ausdruck
d(xk , xn ) < und somit D(xk , {xn }∞
n=1 ) ≤ wird. Also gilt die Konvergenzbehauptung.
˜
• (Nachweis der Vollständigkeitkeit von X̃). Es sei {x̃k }∞
k=1 eine Cauchyfolge in (X̃, d).
˜ k , x̃) = 0 gibt. Weil X
Dann ist zu zeigen, daß es eine Element x̃ ∈ X̃ mit limk→∞ d(x̃
dicht liegt, gibt es zu jedem Folgenglied x̃k ein Element xk ∈ X, welches, als konstante
Folge aufgefaßt (d.h. als Folge xk ∈ CF (X) definiert als xkn := xk ), die Abschätzung
˜ k , xk ) < 1k erfüllt. Hieraus ergibt geeignetes Anwenden der Dreiecksungleichung
d(x̃
2
˜ k , xl ) ≤ d(x
˜ k , x̃k ) + d(x̃
˜ k , x̃l ) + d(x̃
˜ l , xl ) ≤
d(xk , xl ) = d(x
1
˜ k , x̃l ) + 1 .
+ d(x̃
2k
2l
Weil nun {x̃k }∞
k=1 die Cauchyeigenschaft hat, gibt es zu jedem > 0 ein N ∈ N mit
˜ l , xl ) < für alle k, l ≥ N , und für alle k, l, die zusätzlich 1k + 1l < erfüllen, ist
d(x̃
2
2
dann auch
˜ k , xl ) ≤ 2.
d(x
A.3. Topologie
303
Deshalb ist {xk }∞
k=1 eine Cauchyfolge von Elementen in X, welche definitionsgemäß ein
Element x̃ ∈ X repräsentiert.
Die Konvergenz der Folge {x̃k }∞
k=1 gegen x̃ ergibt sich nun wie folgt. Zunächst benützt
man die Dreiecksungleichung und erhält:
˜ k }∞ , x̃) ≤ d({x̃
˜ k }∞ , xk ) + d(x
˜ k , x̃) ≤ 1 + d(x
˜ k , x̃).
d({x̃
k=1
k=1
2k
Ist nun > 0 beliebig vorgegeben, so gibt es ein N ∈ N, sodaß sowohl 21k < 2 als auch
˜ k , x̃) < für alle k ≥ N
(wegen der Konvergenz von xk gegen x̃) die Ungleichung d(x
2
gelten. Demnach gilt die behauptete Konvergenz.
A.3.2
Beweis des Banachschen Fixpunktsatzes Anmerkung 155
Beispiel 271 Hier ist der Beweis der einzelnen Punkte.
1. Es sei {xn }∞
n=1 konvergent gegen x. Dann gibt es zu jedem > 0 ein N mit d(xn , x) < für alle n ≥ N . Wegen der Kontraktionseigenschaft hat man für die gleichen n auch
d(f (xn ), f (x)) ≤ λd(xn , x) < d(xn , x) < , also die Stetigkeit von f .
2. Zunächst soll die Eindeutigkeit von p gezeigt werden. Angenommen, es ist p 6= q, sowie
p = f (p) und q = f (q). Dann ist d(p, q) = d(f (p), f (q)) ≤ λd(p, q) < d(p, q), ein
Widerspruch.
Nützlich ist zunächst die folgende Abschätzung:
d(xn−1 , xn ) ≤ λn−1 d(x0 , x1 ),
(A.2)
die sich sehr leicht mittels vollständiger Induktion für alle n ∈ N zeigen läßt. Hieraus
bekommt man
d(x0 , xn ) ≤ d(x0 , x1 ) + d(x1 , x2 ) + · · · + d(xn−1 , xn )
≤ (1 + λ + . . . + λn−1 )d(x0 , x1 )
0 ,x1 )
≤ d(x1−λ
Die Existenz von p ist gezeigt, wenn {xn }∞
n=1 sich als Cauchyfolge erweist. Es sei n > m,
dann ist unter Verwendung der vorigen Abschätzung (in der n durch n − m zu ersetzen
ist) und Glg.(A.2):
d(xm , xn ) ≤ λd(xm−1 , xn−1 ) ≤ · · · ≤ λm d(x0 , xn−m ) ≤
λm d(x0 , x1 )
.
1−λ
Nun sei > 0 vorgegeben. Danach wählt man N so groß, daß
λN d(x0 , x1 )
<
1−λ
ist. Sind dann m, n ≥ N und etwa m > n, so gilt
d(xm , xn ) ≤
λm d(x0 , x1 )
λN d(x0 , x1 )
≤
< ,
1−λ
1−λ
304
ANHÄNGE
sodaß {xn }∞
n=1 sich als Cauchyfolge, und somit, wegen der Vollständigkeit, als konvergent erweist.
Es verbleibt zu zeigen, daß die Folge {xn }∞
n=1 , die zwar gegen ein x ∈ X konvergiert,
gegen den Fixpunkt p konvergiert, m.a.W., daß x = p sein muß. Die Folge {yn }∞
n=1 ,
∞
definiert durch yn := xn+1 konvergiert gegen x. Da f stetig ist, konvergiert {yn }n=1 =
{f (xn )}∞
n=1 gegen f (x). Also gilt x = f (x) und es ist x ein Fixpunkt von f . Wegen der
eingangs gezeigten Eindeutigkeit hat man x = p.
3. Wurde bereits unter 2. mitbewiesen.
4. Ausgehend von der unter 2. gewonnen Abschätzung
d(xm , xn ) ≤
λm d(x0 , x1 )
,
1−λ
die für alle m, n ∈ N gilt, findet man
d(x, xm ) ≤ d(x, xn ) + d(xm , xn ) ≤ d(x, xn ) +
λm d(x0 , x1 )
,
1−λ
und weil für n → ∞ der Term d(x, xn ) gegen Null geht, ergibt sich die Behauptung.
A.3.3
Beweise der Aussagen über offene, abgeschlossene, kompakte, etc.
Mengen in Anmerkung 160
Beispiel 272 Es sollen Beweise angedeutet werden:
1. Es sei K(x0 , r) offene Kugel und y ∈ K(x0 , r). Setzt man ρ := r − d(y, x0 ), ist ρ >
0 (weil ja d(x0 , y) < r gilt) und so ergibt sich für beliebiges z ∈ K(y, ρ) zunächst
d(z, y) < r − d(y, x0 ), also wegen der Dreiecksungleichung d(x0 , z) ≤ d(x0 , y) + d(y, z) <
d(x0 , y) + (r − d(y, x0 )) = d(x0 , y). Deshalb ist z ∈ K(xo , y), also K(y, ρ) ⊆ K(x0 , r)
und somit K(x0 , r) offen.
2. Zu jedem Punkt x einer offenen Menge O gibt es eine offene Kugel K(x, rx ), die ganz
in O liegt. Deshalb ist O Vereinigung von offenen Kugeln.
3. Ist x aus der Vereinigung beliebig vieler offener Mengen, so gibt es eine offene Menge,
zu der er gehört, und eine offene Kugel, die in dieser offenen Menge und somit in der
Vereinigung liegt. Also ist die Vereinigung offen.
Sind O1 und O2 offen und x ∈ O1 ∩ O2 , so gibt es Kugeln K(x, ri ) die ganz zu Oi
gehören. Deshalb ist für r := min{r1 , r2 } die Kugel K(x, r) ganz in O1 ∩ O2 und somit
O1 ∩ O2 offen.
4. Läßt sich aus 5. und 3. mittels der De Morganschen Gesetze folgern.
5. Es sei {xn }∞
n=1 eine gegen x konvergente Folge von Punkten xn im Komplement der
offenen Menge O. Zu zeigen ist, daß dann x auch nicht in O liegt. Angenommen x ∈ O.
Dann gibt es r > 0 mit K(x, r) ⊆ O. Da jedoch die Folge {xn }∞
n=1 gegen x konvergiert,
A.4. Banachräume
305
gibt es ein N > 0 mit d(x, xn ) < r für alle n ≥ N . Solches xn gehört dann sowohl zu O
als auch (aufgrund unserer Wahl) zum Komplement, ein Widerspruch.
Ähnlich argumentiert man, um zu zeigen, daß das Komplement einer abgeschlossenen
Menge offen ist.
6. Es genügt, die Beschränktheit zu zeigen. Angenommen, C ist kompakt und unbeschränkt. Dann gibt es eine Folge {cn }∞
n=1 und ein c ∈ C mit d(c, cn ) ≥ n. Weil C (folgen)kompakt ist, kann durch Übergang zu einer Teilfolge die Konvergenz von {cn }∞
n=1
gegen ein x ∈ C angenommen werden. Deshalb existiert ein N sodaß d(x, xn ) < 1 für
alle n ≥ N gilt. Dann ergibt sich für alle n ≥ N aus der Dreiecksungleichung
n ≤ d(c, xn ) ≤ d(c, x) + d(x, xn ) ≤ d(c, x) + 1,
ein Widerspruch, weil ja n beliebig groß werden kann.
Für den Nachweis des Satzes von Heine Borel sei auf [14], Seite 33 verwiesen.
A.4
A.4.1
Banachräume
Beweis für Anmerkung 204 – Vollständigkeit des Dualraums
Beweis: Es seie {x0n }∞
n=1 eine Cauchyfolge von Funktionalen. Dann ist wegen
|(x0n − x0m )(x)| ≤ kx0n − x0m kkxk
die Folge {x0n (x)} eine Cauchyfolge in R (bzw. C) und man kann ein Funktional x0 durch
seine Werte x0 (x) := limn→∞ x0n (x) definieren. Um zu wissen, daß x0 zu V 0 gehört, beachten
wir zunächst für beliebiges n
|x0 (x)| ≤ |x0 (x) − x0n (x)| + |x0n (x)|.
Nun wählen wir > 0 beliebig und N so groß, daß kx0n − x0m k < für alle m, n ≥ N gilt. Für
solche m, n ergeben die Ungleichungen zuächst
|x0n (x)| − |x0m (x)| ≤ |(x0n − x0m )(x)| ≤ kx0n − x0m kkxk ≤ kxk,
also
|x0n (x)| ≤ kxk + |x0m (x)| ≤ ( + kx0m k)kxk.
Nun konvergiert die linke Seite gegen |x0 (x)| sodaß die Beschränktheit von x0 folgt, also x0
im Dualraum liegt.
Aus der ersten der Ungleichungen ergibt sich für alle x mit Norm 1
x0n (x) − x0m (x) < .
Läßt man entweder n oder m nach Unendlich gehen, ergeben sich die Ungleichunge
x0 (x) − x0m (x) ≤ ,
x0n (x) − x0 (x) ≤ .
306
ANHÄNGE
Aus ihnen ergibt sich für n ≥ N
|(x0 − x0n )(x)| = |x0 (x) − x0n (x)| ≤ ,
und weil die rechte Seite nicht von x abhängt kann man links zum Supremum übergehen,
bekommt somit
kx0 − x0n k ≤ ,
somit die Konvergenz.
Nachweis für die Eigenschaften von A0 . Zunächst ist A0 auf dem gesamten Dualraum V ∗
wohldefiniert, wie in Definition 184 vermerkt worden ist. Ist v 0 ∈ V 0 und u ∈ U , so hat man
|A0 (v 0 )(u)| = |v 0 (A(u))| ≤ kv 0 kV 0 kAukV ≤ kv 0 kV 0 kAkkukU .
Hieraus ergibt sich sofort kA0 (v 0 )kU 0 ≤ kv 0 kV 0 kAk, also ist A0 beschränkt und obendrein ist
kA0 k ≤ kAk.
Um kA0 k ≥ kAk zu zeigen, wählen wir zunächst > 0. Nun wird u ∈ U mit kukU = 1
und kAukV ≥ kAk − gewählt. Als nächstes verwenden wir den Satz von Hahn-Banach
(Anmerkung 273) um auf dem zunächst auf dem 1-dimensionalen Teilraum (Au) von V
das lineare Funktional v00 (Au) := Au zu definieren, zu beachten, daß es Norm 1 hat, und
zu einem Funktional v 0 auf ganz V mit Norm 1 fortzusetzen. Interessant ist die Tatsache
|v 0 (Au)| = kAukV , diese benützend ergibt sich die Abschätzung
kAk − ≤ kAukV = |v 0 Au| = |(A0 v 0 )(u)| ≤ kA0 v 0 kU 0 ≤ kA0 k,
aus der die gefragte Ungleichung folgt.
A.4.2
W.z.z.w.
Satz von Hahn-Banach*
Ein im Aufbau der Operatortheorie unverzichtbares Werkzeug ist der Satz von Hahn-Banach.
Z.B. kann mit seiner Hilfe gezeigt werden, daß für einen beschränkten Operator A der duale
Operator A0 ebenfalls beschränkt ist (Anmerkung 204). Eine andere simple Anwendung ist
der Nachweis der Existenz eines abgeschlossenen Teilraumes im Banachraum V , der zu einem
gegebenen endlichdimensionalen Teilraum einen Komplementärraum bildet.
Im Rn besagt er in stark vereinfachter Form, daß ein lineares Funktional von einem linearen
Teilraum U so auf den ganzen Raum fortsetzbar ist, daß die Norm sich nicht vergrößert. Ist
das Funktional das Nullfunktional, so setzt man nämlich durch Null fort. Andernfalls ist der
Teilraum direkte Summe eines 1-dimensionalen Teilraumes und des Kerns des Funktionals,
einer Hyperebene. Man wählt eine Basis des Rn mit einem Basisvektor im 1-dimensionalen
Teilraum mit kv 0 kU = v 0 (b), sowie den Rest der Basis im Kern und eventuell noch genügend
viele Basiselemente, um den gesamten Rn aufspannen zu können. Danach setzt man das
Funktional auf allen Basisvektoren ungleich b zu Null an. Man kann sich leicht vorstellen, daß
die Werte des neuen Funktional letzlich nur die Werte sind, die auf U angenommen werden.
Insbesondere steigt die Norm nicht an. Diese geometrische Idee für unendlichdimensionale
Räume zum Beweis werden zu lassen, wird transfinite Induktion oder auch das Zornsche
Lemma verwendet. Ein Beweis findet sich z.B. in [2] und hier ist eine einfache Version des
Satzes von Hahn-Banach:
A.4. Banachräume
307
Anmerkung 273 (Satz von Hahn-Banach) Es sei ein Banachraum (V, k · kV ), eine
Halbnorm p, d.h. eine Funktion p : V → [0, ∞) mit p(rv) = rpv für r ≥ 0, p(v1 + v2 ) ≤
p(v1 ) + p(v2 ), ein linearer Teilraum U und schließlich ein stetiges lineares Funktional
u0 : U → R mit u0 (u) ≤ p(u) für alle u ∈ U gegeben.
Dann kann u0 zu einem stetigen linearen Funktional v 0 mit
v 0 (v) ≤ p(v)
für alle v ∈ V fortgesetzt werden.
Speziell ist p(v) := kvkV als solch eine Funktion wählbar, sodaß der Satz in diesem
Fall die Ausdehnung eines auf einem Teilraum gegebenen stetigen linearen Funktionals
auf ganz V mit der gleichen Norm garantiert.
Anmerkung 274 Die folgenden Fakten sind unmittelbare Konsequenzen aus dem Satz:
Stützebene für Einheitskugel: Zu jedem x auf der Einheitskugel gibt es ein stetiges
Funktional v 0 mit Norm 1 sodaß v 0 (x) = 1 und kv 0 kV 0 = 1 ist.
v’(x)=−1
v’(x)=1
x
(Im R2 besagt dies lediglich, daß man eine Linearform v 0 (x1 , x2 ) findet, deren Niveaulinien für x dem Wert 1 entsprechen, und daß bei x das Linearform ihr Maximum auf der Vollkugel annimmt.)
308
ANHÄNGE
Weiters haben die Elemente des Kerns von v 0 zu x mindestens den Abstand 1.
Distanz Kugeloberfläche zu echtem Teilraum: Ist H echter abgeschlossener Teilraum des Banachraumes (V, k · kV ), so gibt es zu jedem positiven einen Punkt s
auf der Oberfläche der Einheitskugel S := {v ∈ V | kvkV = 1} mit d(x, h) ≥ 1 − x
1−ε
H
Abschluß eines linearen Teilraumes: Ist H linearer Teilraum des Banachraumes V ,
so ist
\
H=
ker(v 0 ).
{v 0 ∈V 0 |H≤ker(v 0 )}
Hier die Beweise dazu:
Stützebene an eine Kugeloberfläche Zum Beweis für die Existenz der Stützebene definiert man ein Funktional v00 durch v00 (rx) = r, für r ∈ R. Dieses Funktional hat Norm 1
und man benützt den Satz von Hahn-Banach, um es zu einem normgleichen Funktional
v 0 auf ganz V auszudehnen. Dann ist die erste Aussage erfüllt.
Distanz Kugeloberfläche – linearer Teilraum: Weil H echter Teilraum ist, gibt es z ∈
V mit z 6∈ H. Nun definiert man ein Funktional v00 auf L(H, z) = H ⊕ ‡ durch v00 (h +
λz) := λ, also mit H komplett im Kern. Dieses Funktional besitzt nach dem Satz von
Hahn-Banach eine Erweiterung v 0 auf ganz V mit gleicher Norm. Deshalb gibt es ein
x ∈ S mit kvk0 V 0 ≥ v 0 (x)(1 − ) (das folgt aus der Supremumseigenschaft der Norm).
Sei nun h ∈ H beliebig. Dann gilt
(1 − )kv 0 kV 0 ≤ v 0 (x) = v 0 (x − h) ≤ kx − hkV kv 0 kV 0 ,
sodaß die Enden der Ungleichungskette nach Kürzen der Norm von v 0 auf
kx − hkV ≥ (1 − )
führt, was zu zeigen war.
Abgeschlossener Teilraum als Schnitt der Kerne: Da die rechte Seite als Durchschnitt
abgeschlossener Mengen (jeder ker(v 0 ) ist abgeschlossen) selbst abgeschlossen ist und
H enthält, ist die linke Seite in der rechten enthalten.
A.4. Banachräume
309
Nun sei v in der rechten Seite enthalten, jedoch nicht in H̄. Dann definiert man ein
Funktional v00 auf L(H̄, v) durch v00 (h̄ + ry) = r und sieht v00 (y) = 1 sofort ein. Dieses
Funktional erlaubt eine normgleiche Erweiterung v 0 auf ganz V , für die v 0 (y) = 1
ist. Andrerseits ist H̄ im Kern des Funktionals, also sollte auch v 0 (y) = 0 sein, ein
Widerspruch.
A.4.3
Nachweise der Aussagen in Anmerkung 209 über kompakte Operatoren
Beispiel 275 Hier nun die Beweise zu Anmerkung 209.
Stetigkeit: Es genügt, die Beschränktheit von K auf der Einheitskugel {u | kuk ≤ 1} zu
zeigen. Wäre diese nicht gegeben, so fände sich eine Folge {un }∞
n=1 mit kKun k ↑ ∞ bei
n ↑ ∞. Da jedoch diese Folge durch den Wert 1 beschränkt ist, müßte es eine konvergente
∞
Teilfolge {Kunk }∞
k=1 geben, ein Widerspruch zur Divergenz der Folge {kKunk k}k=1
nach ∞. Hat V keine endliche Dimension, so kann die Identität I : V → V , die zwar
stetig ist, nicht kompakt sein. Sonst könnte man im Gegensatz zu Anmerkung 195 in
{x ∈ V | kxkV = 1} eine konvergente Teilfolge konstruieren können.
Endliche Dimension etc.: Da mit K auch σK kompakt ist, genügt es, den Nachweis für
σ = 1, also für I − K zu führen. Angenommen, der Kern hat unendliche Dimension.
1
Dann produziert man im Kern eine Folge {un }∞
n=1 mit kun kV = 1 und kui − uj kV ≥ 2
für alle i 6= j wie im Beweis der endlichen Dimension eines für beschränkte Teilmengen
folgenkompakten linearen Teilraumes (siehe Beispiel 196). Diese Eigenschaft gilt auch
für jede Teilfolge, auch für eine solche, für die {K(un )}∞
n=1 schon konvergent, also auch
Cauchyfolge ist. Weil
I(ui − uj ) = K(ui − uj )
ist, ergibt die Cauchyeigenschaft ein N mit kK(ui − uj )kV < 21 falls i, j ≥ N ist,
während die linke Seite die Ungleichung kui − uj kV ≥ 21 ergibt, ein Widerspruch. Der
besagte Kern ist endlichdimensional.
Konvergenz kompakter Operatoren in der Norm: Es sei {un }∞
n=1 eine o.B.d.A. durch
1 beschränkte Folge in V . Angenommen K ist nicht kompakt. Dann existiert ein a > 0
und man kann die Folge so anlegen, daß
kK(ui − uj )kV ≥ a
für alle Indizes i 6= j gilt. Es gibt ein n mit
kK − Kn k <
a
,
2
wegen der Konvergenz der Folge {Kn }∞
n=1 gegen K im Sinne der Norm. Der Ausdruck
k(K − Kn )(ui − uj )kV kann nach unten durch kK(ui − uj )kV −kKn ui − Kn uj kV und
|
{z
}
≥a
nach oben durch a2 kui − uj kU abgeschätzt werden, woraus sich die Ungleichung
a ≤ kui − uj kU + kKn ui − Kn uj kV
310
ANHÄNGE
ergibt. Da Kn kompakter Operator ist, kann durch Übergang zu einer Teilfolge kKn ui −
Kn uj kV < a2 erreicht werden, ein Widerspruch. Deshalb ist K kompakt.
Dualer Operator K 0 kompakt: Angenommen nein. Dann gibt es eine Folge {vn0 }∞
n=1 von
Elementen mit Norm 1, sodaß die Folge der Werte Kvn0 keine Cauchyfolge enthält, somit
ein a > 0 mit
0
kK 0 vn0 − K 0 vm
k≥a
gilt. Dann gibt es insbesondere Elemente umn ∈ U mit Norm 1 und sodaß
0
0
(vn0 − vm
)Kumn = (K 0 vn0 − K 0 vm
)umn ≥
a
2
ist. Zunächst betrachtet man die doppelt indizierte Folge Kumn und kann durch Übergang zu einer Teilfolge erreichen, daß sie gegen ein Ku konvergiert. Dadurch erreicht
man für unendlich viele Indizes etwa
a
0
(vm
− vn0 )Ku ≥
3
Geschick ist nötig (ein Diagonalverfahren – in z.B. [2] wird der Satz von Arzela-Ascoli
verwendet), um die Indizes m und n durch die gleiche Indexmenge laufen zu lassen
0 Ku eine beschränkte Zah– darauf gehe ich hier nicht ein. Nun ist die Folge der vm
lenfolge und enthält eine konvergente Teilfolge. Dann wäre sie auch Cauchyfolge, ein
Widerspruch.
Fredholmeigenschaft etc: Zunächst ist der Kern von I − K endlichdimensional. Daß er
ein abgeschlossenes Komplement M in U besitzt kann wie folgt eingesehen werden:
Man wählt im Kern eine Basis und dazu eine Kobasis in ker(I − K)∗ . Diese Kobasis
besteht somit aus linearen Funktionalen mit Norm 1 und können mittels des Satzes von
Hahn-Banach (Anmerkung 273) zu normgleichen Funktionalen auf ganz U erweitert
werden. Ist nun B = {bi } die Basis und B 0 = {bj } die
erweiterte Kobasis,
Pbereits
0
0
so definieren wir P : U → ker(I − K) durch P (x) :=
b b (x)b, wobei bi (bj ) = δij
laut Konstruktion gilt. Nun ist Q := I − P ein stetiger Operator, dessen Kern M das
gewünschte abgeschlossene Komplement zu ker(I − K) ist.
Um die Abgeschlossenheit von R(I − K) und Existenz von N nachzuweisen, genügt
es nun, I − K auf M einzuschränken, m.a.W., “von Haus aus” I − K als injektiv
anzunehmen. Die Abgeschlossenheit von R(I − K) ist gezeigt, wenn für eine Folge
{un }∞
n=1 mit (I − K)un → v sich ein u mit v = (I − K)u finden läßt. Wegen der
Kompaktheit von K kann man zu einer Teilfolge übergehen, derart daß die Folge
1
K(un ) → v0
kun k
konvergiert. Wir behaupten daß die Folge {un }∞
n=1 beschränkt sein muß. Andernfalls
würde nämlich einerseits
un
un
un
(I − K)
=
−K
kun k
kun k
kun k
A.4. Banachräume
311
nach Null konvergieren (linke Seite, weil die Zähler gegen v, die Nenner gegen ∞ konvergieren), andrerseits deshalb der Term auf der rechten Seite konvergieren, also
un
→ v0
kun k
gelten. Es ergibt
sich sofort v0 = Kv0 , also (I − K)v0 = 0, d.h. v0 = 0. Das kann nicht
sein, weil alle kuunnk Norm 1 hatten. Also ist die Folge {un }∞
n=1 beschränkt.
Nun darf (notfalls nach Übergang zu einer Teilfolge) die Konvergenz von Kun gegen
ein w ∈ V angenommen werden. Das ergibt
(I − K)un = un − Kun
und durch Grenzwertbetrachtung die Konvergenz der Folge {un }∞
n=1 selbst – gegen
einen GW u. Es erweist sich (I − K)u = v, was zu zeigen war. Somit ist R(I − K)
abgeschlossen.
Der noch fehlende Nachweis, daß der Annihilator von R(I − K) genau mit dem Kern
von I −K 0 übereinstimmt verläuft analog zum algebraischen Gegenstück in Anmerkung
187.
A.4.4
Distributionen
Definition 276 Es sei I = [0, 1] oder R.
(Schwartz)-Testfunktionen: Jede unendlich oft differenzierbare Funktion mit kompaktem Träger heißt Testfunktion. Ist I = R, so ist eine Schwartztestfunktion eine unendlich oft differenzierbare Funktion φ, für welche
|xm φ(n) |
für beliebe Potenz xm und Ableitung der Ordnung n von φ beschränkt ist. Die Testfunktionen bilden einen Vektorraum D, die Schwartzfunktionen einen Vektorraum S.
Konvergenz in D und S: Auf D wird ein Konvergenzbegriff durch
φk → φ
falls alle φk außerhalb einer kompakten Menge K verschwinden und auf K gleichmäßige
(n)
(n)
Konvergenz der φk gegen φk für alle Ableitungsordnungen n = 0, 1, 2, . . . gilt.
Auf S wird ein Konvergenzbegriff
φk → φ
durch gleichmäßige Konvergenz aller Ableitungen eingeführt.
312
ANHÄNGE
(Temperierte) Distributionen: Jedes folgenstetige Element des Dualraumes von D (von
S) heißt Distribution oder verallgemeinerte Funktion (temperierte D. bzw. temperierte v.F.). Die Notation hd, φi statt d(φ) für d (temperierte) Distribution und φ
(Schwartz)testfunktion ist geläufig.
Distributionenraum: Die Menge der (temperierten) Distributionen unter der punktweisen
Addition (d.i. hd1 + d2 , φi := hd1 , φi + hd2 , φi) und Multiplikation mit Skalaren (d.i.
hrd, φi := rhd, φi) bilden einen Vektorraum, den topologischen Dualraum D0 (bzw. S 0 )
des topologischen Vektorraumes der (Schwartz)testfunktionen.
Konvergenz im Distributionenraum: Man sagt
dn → d
im Distributionenraum, falls
hdn , φi → hd, φi
für alle (temperierten) Testfunktionen gilt.
Anmerkung 277 Die wichtigsten Fakten sind:
Gewöhnliche Funktionen als D.: Ist f Riemannintegrierbar
(bzw., allgemeiner LeR
besgueintegrierbar), so wird durch φ → I f (x)φ(x) dx eine (temperierte) Distribution definiert, die üblicherweise als hf, φi geschrieben wird. Ist d eine (temperierte) Distribution, so gibt es höchstens ein stetiges f mit hd, φi = hf, φi für alle φ
(Dubois-Reymond).
Träger einer Distribution: Für jede stetige Funktion ist ihr Träger der Abschluß der
Menge {x | f (x) 6= 0}. Für eine Distribution d gehört ein Punkt x genau dann
nicht zum Träger, wenn er eine offene Umgebung besitzt, sodaß hd, φi = 0 für jede
Testfunktion mit Träger in dieser offenen Umgebung gilt.
Dirac δ-Funktion und Folgen vom Typ δ: Die Abbildung δx mit hδx , φi := φ(x)
heißt Dirac δ Funktion (und ist keine Funktion im klassischen Sinn). Eine Folge
vom Typ δ ist eine Folge {fn }∞
n=1 von (stetigen) Funktionen, die im Sinne der
Distributionenkonvergenz gegen δx konvergiert. So etwa ist fn (x) = n2 auf [− n1 , n1 ]
und Null sonst eine gegen δ = δ0 konvergente Folge. Die Folge
√
1
1
2
e− 2 (x/σn )
2πσn
ist eine Folge vom Typ δ im Raum S 0 , falls nur σn → 0 konvergiert. Der Träger der
Diracfunktion δx ist der Punkt x.
A.4. Banachräume
313
Faltung und Glättungsoperatoren: Unter
Z ∞
f (t)g(x − t) dx
f ∗ g(x) :=
−∞
wird für stetiges f und g eine Testfunktion die Faltung definiert. Unter Benützung
von Ta (f )(x) := f (x − a) und fˇ(x) := f (−x) läßt sich das sehr kurz als f ∗ g(x) =
hf, Tx (fˇ)i hinschreiben. Mittels dieser Schreibweise läßt sich allgemeiner für eine
Distribution
(d ∗ φ)(x) := hd, Tx (φ̌)i
definieren. Dies erweist sich stets als unendlich oft differenzierbare Funktion. Wählt
man für φ insbesondere eine Testfunktion, die außerhalb des Einheitsintervalls verschwindet, positiv ist und Fläche 1 besitzt, so zeigt sich, daßfür φ (x) := 1 φ(x)
man
d ∗ φ → T
erreicht. Es ist d ∗ φ eine Glättung von d. Als wesentliche Konsequenz hat man, daß
die unendlich of differenzierbaren Funktionen eine dichte Teilmenge von D0 (bzw.
S 0 ) bilden und somit folgenstetige Operatoren auf C ∞ (I) eine eindeutige stetige
Fortsetzung in den Distributionenraum besitzen.
Verallgemeinerte Ableitung(en): Zunächst hat man
Z ∞
Z ∞
∞
0
0
hf, φ i =
f (x)φ (x) dx = φ(x)f (x)|−∞ −
f 0 (x)φ(x) dx = −hf 0 , φi
|
{z
}
−∞
∞
=0
für beliebiges im klassischen Sinn differenzierbares f . Differenzieren erweist sich als
folgenstetig. Somit ist
hd0 , φi := −hd, φ0 i
eine stetige Fortsetzung des Differenzierens auf den Distributionenraum.
Insbesondere ist für eine monotone beschränkte Funktion F die verallgemeinerte
Ableitung durch
X
F0 = f +
(F (s+ ) − F (s− ))δs
s
gegeben, wobei s alle Sprungstellen durchläuft und f die klassische Ableitung von
F auf allen offenen Intervallen zwischen den Sprungstellen.
0
0
Konvergenz und
folgt
PDifferenzieren:P Ist0 dn →0 d, so gilt dn → d . Insbesondere
π
für Reihen n dn → S stets n dn → S . Klassisches Beispiel ist f (t) = 4 |t| auf
[−π, π]. Diese Funktion besitzt eine punktweise konvergente Fourierentwicklung
∞
f (t) =
π 2 X cos(2n + 1)t
−
.
8
(2n + 1)2
n=0
314
ANHÄNGE
Diese Reihe ist auch konvergent als Summe von Distributionen und erlaubt daher
distributionelles gliedweises differenzieren, d.h.
f0 =
∞
X
sin(2n + 1)t
2n + 1
n=0
und sogar noch klassische Ableitung in allen nicht ganzzahligen Vielfachen von π.
Nochmaliges distributionelles Differenzieren führt auf
f 00 =
∞
X
cos(2n + 1)t.
n=0
Aus einer Skizze entnimmt man die Sprungstellen der Höhe
mit k ∈ Z, somit ergibt sich
π
2
in allen Punkten kπ
∞
X
πX
(−1)k δ(t − kπ) =
cos(2n + 1)t,
2
n=0
k∈Z
eine Reihenentwicklung, die im klassischen Sinn nicht gültig sein kann.
Multiplizieren einer C ∞ Funktion mit Distribution: Es läßt sich durch
hf d, φi := hd, aφi
das Produkt einer C ∞ -Funktion f mit einer Distribution d erklären.
Rieszscher Darstellungssatz: Eine Distribution d ist positiv, falls jede nicht negative
Testfunktion φ einen nicht negativen Wert hd, φi erhält. Jede solche Distribution
läßt sich als Radonmaß beschreiben, d.h. es gibt ein f , welches absolut
R ∞ integrierbar
bezüglich des Lebesgueintegralbegriffes ist, und sodaß hd, φi = −∞ f (x)φ(x) dx
gilt.
Als Konsequenz zeigt man, daß eine Distribution d in D0 im beschränkten Intervall
J als Ableitung d = f (n) endlicher Ordnung einer in J stetigen Funktion aufgefaßt werden kann. (Es war dies auch der Ausgangspunkt der russischen Schule –
Distributionen als verallgemeinerte Ableitungen stetiger Funktionen zu definieren).
Schwache Formulierungen (Variationsproblem, Galerkinmethode): Ist ein Variationsproblem
δJ(u) = 0
R1
mit J(u) := 0 L(x, u, u0 ) dx vorgegeben, so ergibt sich zunächst
Z
0 = δJ(u)(h) =
0
1
(Lu h + Lu0 h0 ) dx,
A.4. Banachräume
315
wobei noch Randbedingungen zu berücksichtigen sind. Für gewisse Klassen von
Problemen ergibt sich eine distributionelle Auffassung von δJ(u), etwa im Beispiel
Z 1
1 0 2 1 2
J(u) :=
(u ) − u − f u du,
2
2
0
wo sich
Z
0 = δJ(u)(h) =
1
(u0 h0 − uh − f h) dx
0
ergibt. Sind die Randbedingungen gleich Null, so folgert man
0 = hu0 , φ0 i − hu, φi − hf, φi
also eine Differentialgleichung
−u00 − u − f = 0
für die Distribution u und die Distribution f . Hier hat man insofern Glück, als
man die Eulergleichung distributionell auffassen kann. Diese distributionelle Differentialgleichung heißt schwache Formulierung, falls f selbst noch lokal integrierbare
Funktion ist.
Auch für DGL, die nicht als Eulergleichungen eines Variationsproblems auffaßbar
sind, lassen sich schwache Formulierungen aufstellen. Diese Idee liegt bei Galerkinverfahren zugrunde.
DGL in einer Variablen - lineare Systeme: Der Wert der D-Theorie liegt in der
Aussage, daß jedes lineare System
~x˙ = A(t)~x(t) + f~(t)
mit A unendlich oft differenzierbar, für f~ lediglich die klassischen Lösungen hat
(aufgefaßt als Distributionen). Für beliebige Distribution f~ gibt es eine Distributionenlösung ~x.
DGL mit konstanten Koeffizienten - Grundlösung -Greenfunktion: Zu jeder
DGL mit konstanten Koeffizienten, etwa
−u00 − u = f
gibt es stets eine Grundlösung g (Satz von Malgrange-Ehrenpreis), d.i. eine Lösung
von
−u00 − u = δ
Aus ihr kann durch u = g ∗ f eine partikuläre Lösung der DGL gewonnen werden.
Es ist g die Greenfunktion des Problems. Erweist sich u als stetige Funktion, so
kann die Lösbarkeit von Randwertaufgaben entschieden werden. Die DGL wird im
316
ANHÄNGE
distributionellen Sinn gelöst, die Randwerte durch Interpretation der Distribution
als stetige Funktion.
Es erweist sich Kf (x) := g ∗ f (x) als kompakter Operator, sofern man f ∈ L2 (I)
annimmt.
A.5. Logfile: Korrekturen im Skriptum
A.5
317
Logfile: Korrekturen im Skriptum
Die Korrekturen beziehen sich auf das Gesamtskriptum (M3 WS08+SS09). Etwaige Fragezeichen in Referenzen deuten darauf hin, daß die Korrektur für die vorliegende Version (lediglich
Teilskriptum) nicht von Bedeutung ist.
11.11.08 in Beispiel 7 6. wurden die Formeln korrigiert
in Unterabschnitt 1.1.2 die Wahrscheinlichkeiten P (A ∩ B) und P (A) mit der Tabelle
in Einklang gebracht
Beispiel 24: 3.te Zeile korrigiert (5 Euro werden ausbezahlt)
Auf Seite 29 ist die Beschriftung des Histogramms jetzt o.k.
In Beispiel 270 3.te Zeile vor dem Schluß ist ‘167’ eingefügt worden
Für die Hinweise bin ich Herrn Nagl dankbar
6.11.08 In Anmerkung 230 die Formel für Vnk korriert
in Unterabschnitt 1.2.3 nach “Schale mit den Mikroben” wurde die Formel korrigiert
20.10.08 Kodierung der Kugelfarben der Urne B in Fig. 1.1
30.12.08 Tabelle Seite 58, die Gaußverteilung.
Seite 69 Berechnung von σ̂ wurde der Zahlenwert 13.1 durch den korrekten, nämlich
13.01 ersetzt.
Beide Korrekturen verdanke ich Herrn Gusenbauer.
14.1.09 Beispiel 41 Der Ausdruck für PX ({k}) ist jetzt im ganzen Beispiel konsistent. Frau
Stasik danke ich für den Hinweis.
In Beispiel 352. hat der ist f X = 31 , wodurch ein Faktor
hat.
1
3
im Resultat aufzuscheinen
5.3.09 Beispiel 42 die Formel zu Beginn
28.3.09 Herrn Libal sei auf diesem Weg für zahlreiche hilfreiche Hinweise gedankt.
Anmerkung 27, 2.te Zeile.
Definition 33 Fehlende Klammer im 2.ten Ausdruck für die Varianz eingefügt.
Beispiel 46 Im 2.ten Absatz wurde in der 2.ten Zeile ein p durch q ersetzt.
14.5.09 In Definition 167 hat bisher ein Axiom gefehlt, nämlich, daß (kl)u = k(lu) stets zu
gelten hat.
318
ANHÄNGE
Literaturverzeichnis
[1] M. Artin, Algebra (aus dem Englischen übersetzt von A. A’Campo), Birkhäuser 1993.
[2] B. Bollobás, Linear Analysis, an introductory course, Cambridge Mathematical Textbooks 1990
[3] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe
http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen
Ausgaben und Buchbesprechung.
[4] P.M. Cohn, Further Algebra and Applications, Springer, 2003.
[5] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001.
[6] H.J. Dirschmid, Skriptum aus Mathematik 3 f. ET, Wien, 2002.
[7] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien
2004.
[8] H. Ehrig und B. Mahr, Fundamentals of Algebraic Specification 1, Springer 1985.
[9] L.E. Elsgolc, Variationsrechnung, BI 431 1970
[10] G. Fairweather, finite element galerkin methods for differential equations, lecture notes
in pure and applied mathematics 34, Marcel Dekker 1978
[11] G. Eigenthaler Begleitmaterial zu einer Vorlesung ALGEBRA, Institut für Algebra und
Computermathematik, WS 2003/2004
[12] L.E. Elsgolc, Variationsrechnung, BI 431 1970
[13] W.D. Geyer, Vorlesungsskriptum Analysis 1, Erlangen 1999.
[14] W. D. Geyer, Analysis II, Internetskriptum, SS 2000,
(Kopie unter http://www.math.tuwien.ac.at/∼herfort/MLITZ UE/QUELLEN/analysis2.ps)
[15] K. Grill, Skriptum zur Vorlesung “Mathematical
http://www.ci.tuwien.ac.at/~grill
Statistics”,
TU-Wien
[16] E. Hardtwig, Fehler und Ausgleichsrechnung, BI-Taschenbuch 262/262a*, 1968.
319
2000,
320
Literaturverzeichnis
[17] E. Hewitt and K. Stromberg, Real and abstract analysis, Springer 1965
[18] Institut für Theoretische Informatik d. Univ. Heidelberg, Ambos-Spies, Skriptensammlung http://www.math.uni-heidelberg.de/logic/skripten.html
[19] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964.
[20] D. Hofbauer, Grundlagen der Ersetzungssysteme, Fachbereich Mathematik/Informatik
Gesamthochschule Kassel, 2000.
[21] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975.
[22] R. Kress, Numerical Analysis, Graduate Texts in Mathematics, Springer 1998
[23] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963.
[24] J.D. Lipson, Elements of Algebra and Algebraic Computing, Benjamin/Cummings Publishing Company, 1981.
[25] L. Ljusternik und V. Sobolev, Elements of functional analysis (ins Englische übersetzt
von A.E. Labarre,Jr, H. Izbicki und H.W. Crowley), Frederick Ungar Publishing Company 1964
[26] R. Mlitz, Algebraische Methoden in den Compterwissenschaften, Skriptum zur Vorlesung,
TU Wien, 2003.
[27] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000.
[28] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechnung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999.
[29] R. Plato, Numerische Mathematik kompakt, Vieweg 2000
[30] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005.
[31] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005.
[32] B.L. van der Waerden, Algebra I,II, Springer 1966,1967.
[33] W. Walter, Einführung in die Theorie der Distributionen, 3.Auflage, B.I. Wissenschaftsverlag 1994
[34] H. Weber, Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure,
Teubner Studienskripten, Stuttgart 1983.
[35] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite
[36] J. Wloka, Partielle Differentialgleichungen, Teubner, 1982
[37] E. Zeidler, Nonlinear Functional Analysis and its Applications I Fixed-Point Theorems,
Springer 1992
Index
Q Körper der rationalen Zahlen, 147
H01 (I)
Q rationalen Zahlen, 100
Soboleffraum, 224
l2 als verallgemeinerter Koordinatenraum, 246 R reelle Zahlen, 100
R3 als heterogene Algebra (Anhang), 290
l2 quadratisch konvergente Folgen, 246
L1 (I, R) absolut (Lebesgue)integrierbare Funk- ⇒ Implikation, 92
Z als euklidischer Ring (Anhang), 294
tionen, 219
Z
k-stellige Relation, 111
T ganze Zahlen, 100
S allgemeiner Durchschnitt, 108
< meist für strikte Ordnung, 115
allgemeine Vereinigung, 108
A0 (topologischer) Dualraum zu normiertem ∩ Durchschnitt, 102
linearen Raum A, 229
◦ Zusammensetzen von Funktionen (oft wegA0 Komplement der Menge A, 103
gelassen), 123
A∗ (algebraischer) Dualraum zu Vektorraum ∪ Vereinigung, 102
A, 205
leeres Wort, 128
A∗ freies Monoid über Alphabet A, 128
≡ Kongruenz, 137
A+ freies Monoid ohne leeres Wort, 128
∈ Element enthalten in, 100
B A Funktionen von A nach B, 119
¬
Q Negation, 92
C(I) = C([0, 1], R), 217
Qnallgemeines Produktzeichen, 135
C[0, 2π]
i=1 Ai kartesisches Produkt von Mengen, 121
auf [0, 2π] stetige Funktionen, 192
⊆
P Teilmenge, 100
CA (B) Mengenkomplement, 103
P allgemeines Summenzeichen, 135
G \ H Linksnebenklassenzerlegung, 140
m∈X ∗ fm m formale Potenzreihe in nicht komH01 (I)Soboleffraum stetiger Funktionen, 224
mutierenden Variablen X, 150
IFq endlicher Körper mit q Elementen, 158
⊇ Obermenge, 100
L2 (S) quadratische konvergente Funktionen →,→∗ herleitbar in TES, 129
auf S, 251
∨ Disjunktion, 92
L2 (R, C) quadratisch integrierbare Funktio- ∧ Konjunktion, 92
nen, 248
k[x] Polynomring der Polynome in x mit KoLp -Raum, lp -Raum, 221
effizienten in k, 153
C komplexe Zahlen, 100
P(M ) Potenzmenge, 109
D(R) Testfunktionen, 187
Zm Restklassenring modulo m, 148
IF2
(Ti )i∈I Mengenfamilie, 121
Körper mit 2 Elementen, 149
⇔ Logische Äquivalenz, 92
Kodierungstheorie, 213
B(X, R) beschränkte Funktionen, 217
⇐ folgt aus, 92
C(I, R) auf I stetige Funktionen, 217
N natürliche Zahlen, 100
321
322
C ∞ (R) unendlich oft auf R differenzierbare
Funktionen, 188
H k (I) Soboleffraum, 224
Abbildung=Funktion, 119
additive, 200
duale, 205
homogene vom Grad 1, 200
kontrahierende, 170
abelsch=kommutativ, 134
abelsche (Halb)gruppe, 134
abgeschlossen, 177
Teilraum in normiertem Raum, 219
Ableitungs
-baum
einer heterogenen Algebra, 290
in heterogener Algebra (Anhang), 292
Termalgebra einer heterogenen Algebra,
292
UPN, 278
-graph für TES, 129
Abstandsfunktion=Metrik, 163
abzählbare Menge, 274
additive
Abbildung, 200
Gruppe
in einem Ring, 146
Halbgruppe, 133
algebraische
Körpererweiterung, 155
Alphabet, 128
Annullator, 209
Antisymmetrie, 113
antisymmetrisches TES, 129
Approximation
gleichmäßig durch (trigonometrische) Polynome, 182
gleichmäßig durch Hutfunktionen, 183
im Fixpunktsatz, 170
und dichte Teilmenge, 178
Äquipotentiallinien, 117
Äquivalenz
-klasse, 114, 120
-relation, 114
algorithmisches Hilfsmittel TES, 130
Index
logische, 92
von Cauchyfolgen, 167
von Kongruenz und Homomorphismus bei
(Halb)gruppen, 137
Ringen, 153
von Normen im Rn , 219
Assoziativität
∩,∪, 105
∨,∧, 94
(Halb)gruppe und Monoid, 133
TES, 131
Zusammensetzung von
Funktionen, 123
Relationen, 112
Aussagenlogik, 91
Auswahlfunktion, 121
Automat
Akzeptor, 278
Sprache, 279
AWP=Anfangswertproblem, 177
Babylonische Methode, 167
und Fixpunktsatz, 172
Banach
-raum, 215
B(I, R) die auf I beschränkten F. und
Sup.Norm, 218
C(I) der auf I stetigen Funktionen mit
Sup.-Norm, 217
R bzw. C als B., 215
Rn als B., 217
Fixpunktsatz, 170
Basis
Erweiterung, 197
Vektorraum, 193, 197
von K n , 196
beschränkt, 177
Bestapproximation
im Hilbertraum, 251
und klassische Fourierreihe, 253
und kompakte Menge, 180
Beulenfunktion, 188
Bierdeckel, 108
Bijektion, 119
Index
als unstetiges Funktional, 229
disjunkt, 103
einer kompakten Menge, 179
Zerlegung, 108
range, 200
Disjunktion, 92
unter einer Funktion, 119
diskreter Logarithmus, 134
binomischer Lehrsatz, 149
Distribution (Anhang), 312
Buchstaben, 128
distributionelle Lösung (Saite), 259
Cauchy-Bunjakowskiĭ-Schwarzsche Ungl., 220, Distributivgesetz
242
in Ring und Körper, 146
quadratisch konvergente Folgen l2 , 246
Distributivität
Cauchyfolge, 164
∩,∪, 105
Charakteristik eines Körpers, 158
logische Verknüpfung, 94
Chauchymultiplikation
Division mit Rest (Anhang), 294
im nichtkommutativen Potenzreihenring, Doppelnegation, 94
150
Drehung Matrizendarstellung, 203
Choleskyzerlegung, 238
Dreiecksungleichung
Chomskygrammatik, 277
einer Metrik, 163
Code
Norm, 215
linearer, 213
duale
zyklischer, 160
Abbildung, 205
concatenation, 128
Dualer Operator
eines kompakten Operators, 233
Defekt (lineare Abbildung), 202
Dualität
Definitheit
De’Morgan, 105
einer Metrik, 163
Deutung im R3 , 210
inneres Produkt, 236
logischer Verknüpfungen, 94
Norm, 215
und lineare Gleichungssystem, 212
Definitionsbereich, 119
von Teilräumen, 209
Determinantenfunktion
Dualraum
Monoidhomomorphismus, 139
algebraischer, 205
dicht, 177
topologischer, 228
Charakterisierung von vollst. ONS, 250
Durchschnitt, 102
Einbettung, 167
von Teilräumen, 191
und Approximation, 178
dynamisches System
Differentialoperator
Abkühlungsgesetz, 285
und Matrizendarstellung, 203
Automat, 285
Differenz (von Mengen), 103
diskretes, 285
Differenzieren
kontinuierliches, 285
im Polynomring und Identitäten, 156
Verzinsung, 285
Diffie-Hellman Verfahren, 134
Dimension, 197
Eigenvektoren
Dirac-Deltafunktion
verallgemeinerte, 240
(Anhang), 312
Eigenwertproblem
als stetiges Funktional, 230, 262
Sturm-Liouville, 266
Bild
323
324
und Norm einer Matrix, 227
Einheit, 146
Einheitskugel, 216
Element
irreduzibles, 147
Elementaroperationen mit Erzeugendensystemen, 193
endliche Körper, 158
Konstruktion von IF8 , 159
zyklischer Code, 160
endlicher Körper
der Ordnung p, 148
Energiemethode
im Cn , 239
Saite, 262
Erweitern
Differenzen bzw. Brüche in Halbgruppe
mit Kürzungseigenschaft, 145
Integritätsbereich zu Körper=Quotientenkörper, 152
Körper algebraisch, 155
Erweiterung=Fortsetzung
bei Funktionen, 123
Erzeugendensystem
linearer Teilraum, 193
erzeugte(r)
Unterhalbgruppe, Monoid, Untergruppe,
141
Eulergleichung
Saite, 259
Eulergleichung (Variationsrechnung), 209
Exponentialfunktion
diskrete, 134
Homomorphismus, 139
Faktor, 146
Faktorgruppe=Quotientengruppe, 143
faktorieller Ring (Anhang), 298
Faktorzerlegung
Kodierungstheorie, 160
Faktorzerlegung in IF2 [x] (Anhang), 300
Faltung (Anhang), 313
Feldlinien, 117
FEM (Saite), 261
Index
Fixpunkt, 170
Fixpunktsatz von Banach, 170
Existenz- und Eindeutigkeit von AWP, 177
Formulierung im Rn , 173
Gauß-Seidelverfahren, 176
Hauptsatz der impliziten Funktionen, 175
Nachiteration, 176
Neumannreihe, 175
Newtonalgorithmus, 173
Nullstellenverfahren, 173
und lineare Funktion, 170
Folge
Cauchysche, 164
konvergente, 164
vom Typ δ (Anhang), 312
folgenkompakt, 178
Fortsetzung
stetige, 179
Fortsetzung=Erweiterung (bei Funktionen), 123
Fourierkoeffizient, 250
Fourierreihe
klassische, 252
verallgemeinerte, 250
Fredholmeigenschaft
von kompaktem Operator, 233
freies Monoid, 128
kommutatives, 138
Frobeniusautomorphismus, 159
fundiert=noethersch, 115
Funktion, 119
bijektive, 119
Einschränkung, 123
Erweiterung, 123
injektive, 119
partielle, 119, 200
stetige im metrischen Raum, 179
surjektive, 119
verträglich mit Relationen, 123
Funktional
erste Variation, 207
lineares, 204, 205
stetiges, 229
Funktionenbeispiele, 122
Funktionenraum, 186, 197
Index
325
und Teilbarkeit natürlicher Zahlen, 118
Hammingdistanz, 164
Gödelscher Unvollständigkeitssatz (Anhang),
und Konvergenz, 166
268
Hassediagramm, 118
Gauß-Seidelverfahren, 176
und TES, 129
geordnetes Paar, 110
Hauptideal, 154
Gleichheitsrelation, 116
Hauptidealring, 155
größtes Element, 115
Hauptsatz der impliziten Funktionen
Gram-Schmidt Orthogonalisierung, 248
Beweis mittels Fixpunktsatz, 175
Orthogonalpolynome und Rekursion, 249 Heine-Borel
Grammatik
kompakt, 179
TES, 277
Hermitische Matrix, 238
umgekehrte polnische Notation, 279
heterogene Algebra (Anhang), 289
Graph, 113
Hilbertraum, 245
Akzeptor, 279
Hilberts Hotel, 274
freies Monoid, 128
Hintereinanderausführen=Zusammensetzen, 123
Greenfunktion (Anhang), 315
homogen
Grenzwert
Abbildung, 200
im metrischen Raum, 164
Homogeneität
Grundmenge, 103
der Norm, 215
Gruppe, 133
Homomorphismus
abelsche=kommutative, 134
Exponential- u Logarithmusfunktion, 139
zyklische, 134
Hutfunktionen, 198
Gruppenhomomorphismus
und gleichmäßige Approximation, 183
DN, 137
hypergeometrische Verteilung, 157
Gruppenwirkung, 283
Ideal, 153
Höldersche Ungleichung, 220
Implikation, 92
Hahn-Banach
Indexmenge, 121
Satz von (Anhang), 306
induzierte
Halbgruppe, 133
Metrik, 215
abelsche=kommutative, 134
Norm, 242
kommutative, 134
Infimum, 115
zyklische, 134
Injektion, 119
Halbgruppenhomomorphismus
inneres Produkt, 236
Aussagenlogik, 140
Charakterisierung im Cn , 239
DN, 137
durch Integral gegeben, 237
und Aussagenlogik, 124
im l2 , 246
Halbgruppenwirkung, 283
in l2 (S), 251
als heterogene Algebra (Anhang), 291
in Rn und Cn , 238
und Newtonalgorithmus, 284
Integral
Halbordnung, 114
-kern, 234
linear=totale, 115
-norm, 218
noethersch, 115
stetige Funktionen, 218
Funktionsgraph, 119
326
Index
Linearkombination, 193
Kombinationen, 272
kommensurable Strecken, 145
kommutativer Ring
binomischer Lehrsatz, 149
Kommutativgesetz
∩,∪, 105
∧,∨, 94
(Halb)gruppe und Monoid, 133
Kommutativität
Ring, 146
kompakte Menge, 177
kompakter
Integraloperatoren, 234
Operator, 233
Jacobi-Polynome, 253
Rieszabbildung (Saite), 265
Juxtaposition, 128
Komplement, 189
gelegentlich Kurzform für Komplementärraum,
Körper, 146
189
-erweiterung, 155
mengtheoretisches, 103
-isomorphismus, 154
Komplementärraum, 189
der rationalen Funktion, 153
Komplexprodukt, 141
elementare Beispiele, 147
Komposition=Zusammensetzung, 123
endliche, 158
Kongruenz
Kürzungseigenschaft
-relation
Halbgruppe, 144
Halbgruppe, 137
in endlicher Halbgruppe, 145
heterogene Algebra (Anhang), 291
Kardinalität, 271
in Gruppen und Normalteiler, 143
kartesisches Produkt, 121
in Ringen, 153
abzählende Kombinatorik, 272
modulo m in Z, 153
Relationsschema (Anhang), 276
Restklassenaddition in Zm , 138
zweier Mengen, 110
Wirkungen, 288
Kellerautomat (Anhang), 282
Konjunktion (Logik), 92
Kern
kontextfreie Sprache, 277
bei linearer Abbildung, 200
Kontradiktion, 93
eines Gruppenhomomorphismus, 143
kontrahierende Abbildung, 170
kurz für Integralkern bei IntegraloperatoKonvergenz
ren, 234
bezüglich Hammingdistanz, 166
Kettenalgorithmus
im metrischen Raum, 164
(Anhang), 295
im quadratischen Mittel, 221, 247
Berechnung ggT (Anhang), 295
Koordinatenraum, 185
Partialbruchzerlegung (Anhang), 296
l2 als Ersatz im Hilbertraum, 251
kleinstes Element, 115
korrekt gestelltes Problem, 257
Koeffizient
-operator, 234
Integralnorm
nicht vollständige, 168
Integraloperator
Rieszabbildung, 256
Integritätsbereich, 146
inverse Relation, 112
Isometrie
im normierten linearen Raum, 228
von Hilbertraum zu L2 (S), 251
Isomorphismus
bei (Halb)gruppen, 137
bei Ringen und Körpern, 154
Isothermen, 116
Index
Länge eines Wortes, 128
Löwenheim-Skolem (Anhang), 268
Lagrange
-multiplikatoren
Norm von Funktional auf lp , 227
Multiplikatormethode, 180, 227
Satz über Ordnung von Untergruppe, 142
Legendre-Polynome, 253
Linear
-form, 205
-kombination, 193
linear
(un)abhängig, 193
Code, 213
Differentialoperator, 203
Funktional, 205
Operator=Abbildung, 200
lineare
Abbildung, 200
Matrixdarstellung, 202
stetige, 225
Hülle, 193
lineares
Funktional, 204
und erste Variation, 207
Linkseinheit, 146
Lipschitzstetigkeit
bei linearem Operator, 225
Logarithmus
Homomorphismus, 139
327
leere, 100
offene im metrischen Raum, 178
Mengen
-familie, 121
-operationen, 103
Rechengesetze, 105
Metrik, 163
diskrete, 164
durch Norm induzierte, 215
euklidische, 163
Hammingdistanz, 164
nicht vollständige, 168
minimale Elemente
TES, 130
minimales Element, 115
Minimum, 115
Minkowskische Ungleichung, 221
Mobilfunk, 110, 120
Monoid, 133
freies, 128
Monoidhomomorphismus
Determinantenfunktion, 140
DN, 137
Monoidwirkung, 283
und Exponentialfunktion, 284
multiplikative
Halbgruppe, 133
Nachiteration, 176
Nebenklassen, 140
-repräsentantensystem, 140
Negation, 92
mathematische Theorie (Anhang), 267
des Stetigkeitskriteriums, 98
Matrix
Neumannreihe, 175
Hermitische, 238
Lösung rotierende Saite, 266
Matrixdarstellung, 202
Newtonalgorithmus
maximales Element, 115
Fixpunktsatz, 173
Maximum, 115
nichtterminale Variable=syntaktische V., 277
Maximumnorm, 215
noethersche Halbordnung, 115
Menge, 98
abgeschlossene im metrischen Raum, 178 Norm, 215
Äquivalenz aller im Rn , 219
abzählbare, 274
einer 2 × 2-Matrix, 227
beschränkte im metrischen Raum, 178
für Funktional auf lp , 227
dichte im metrischen Raum, 178
induzierte, 242
kompakte, 178
328
Integralnorm, 218
Maximimumnorm, 215
Soboleffsche, 222
Supremumsnorm
auf C(I) = C([0, 1], R), 217
auf beschränkten Funktionen, 217
von stetigem linearen Funktional, 229
Normalform
TES, 130
Normalteiler, 143
in abelscher Gruppe, 143
Symmetrien des gleichseitigen Dreiecks,
144
und Kongruenz, 143
normierter linearer Raum, 215
nicht vollständiger, 219
Nullstellenverfahren
Fixpunktsatz, 173
Nullteiler, 146
im Restklassenring Zm , 148
nullteilerfrei, 146
Obermenge, 100
offen, 177
offene Kugel, 178
ONB=Orthonormalbasis, 248
ONS=Orthonormalsystem, 248
Operator
beschränkter, 225
kompakter, 233
Fredholmeigenschaft, 233
stetiger, 225
Operator=Abbildung, 200
Operatornorm
Fixpunktsatz, 173
Operatornorm (DN), 225
Ordnung
einer (Halb)gruppe, 133
eines Gruppenelements, 134
lineare=Totalordnung, 115
partielle, 115
Orthogonal
-polynome auf [−1, 1]
Rekursion, 249
Index
Tabelle, 253
-projektion
in abgeschlossenen Teilraum, 251
-system
DN, 248
Orthogonalität
von Vektoren, 242
Orthonormalsystem
DN, 248
Parallelogrammregel
elementargeometrische Deutung, 244
und induzierte Norm, 243
Parallelprojektion, 120
Parkautomat (Anhang), 281
Parsevalsche Gleichung, 250
und klassische Fourierreihe, 253
partielle
Funktion, 119
Ordnung, 115
Partition, 108
Äquivalenzrelation, 114
abzählende Kombinatorik, 271
Abzählung, 136
durch Funktion, 120
Hohlzylinder, 108
Stromlinien, 117
Permutation, 272
PGP, 135
Picard-Lindelöf, 177
Poincarésche Ungleichung, 223
Polarform und Kosinussatz, 242
Polynom
-ring k[x] als euklidischer Ring (Anhang),
294
abstrakte Termdefinition, 150
positiv definit, 238
Potenzen in additiver und multiplikativer Notation, 133
Potenzmenge, 109
Potenzreihen
formale und Differenzieren, 151
formale und Reihenmanipulation, 152
ring
Index
329
in nicht kommutierenden Variablen, 150 Relation
k-stellige, 111
Prähilbertraum, 236
binäre, 111
Prädikatenlogik, 96
inverse, 112
Primelement, 147
Relationsschema, 114
Produktion (Grammatik), 277
Anhang, 276
Produktzeichen, 135
Programmausschnitt und logische Verknüpfung,Repräsentant, 114
Repräsentantensystem, 114
95
Restklassen
punktetrennend, 182
-addition
Quantoren, 97
in Zm , 138
Quotienten
mod 2π Winkel, 139
-(halb)gruppe, 137
-ring
-(vektor)raum, 188
Zp = IFp Körper mit p Elementen, 148
-gruppe
Zm Rechnen modulo m, 148
DN, 143
Riemannintegral
Rechnen mod 2π, 139
als duale Abbildung, 206
-körper, 152
und Quotientenraum, 202
Q als Q., 153
Rieszabbildung
-menge, 114, 119
DN, 251
-raum
kompakter Integraloperator, 256
und Riemannintegral, 202
Konstruktion (Saite), 263
-raum DN, 188
Ring
-axiome, 146
Randwertproblem, 208
-homomorphismus, 153
Rang (lineare Abbildung), 202
-isomorphismus, 154
Raum
-kongruenz, 153
linearer, 185
im kommutativen Polynomring, 154
metrischer, 163
in Z, 154
mit innerem Produkt, 236
der Laurentpolynome (Anhang), 299
von Funktionen, 186
elementare Beispiele, 147
Rechengesetze
euklidischer (Anhang), 294
in heterogener Algebra (Anhang), 293
faktoriell (Anhang), 298
in Ringen, 146
Integritätsbereich, 146
in zyklischer Gruppe, 138
kommutativ, 146
logischer Verknüpfungen, 94
nullteilerfrei, 146
Mengenoperationen, 105
reeller Funktionen, 148
Rechtseinheit, 146
Restklassenring Zm , 148
Reflexivität, 113
von Matrizen, 147
reguläre
Russelsche Antinomie (Anhang), 269
Ausdrücke (Anhang), 280
Sprache, 277
Saite
Additionskolonnen, 278
Modellbildung, 257
Akzeptor, 279
Satz, 277
330
Index
Summenzeichen, 135
Satzform, 277
Supremum, 115
Schiefkörper, 146
und Kompaktheit, 180
Quaternionen, 148
Supremumsnorm, 217
Schnitt, 114
stetige Funktione, 217
Schranke, 115
Surjektion, 119
schwache Lösung, 232
Symmetrie
Semi-Thuesystem=TES, 129
bei Metrik, 163
Sender
bis auf Konjugiertheit, 236
Einzugsbereich, 108
eines Quadrats mit Diagonale, 286
Kodierungstheorie, 160, 213
Relation, 113
Sesquilinearität, 242
und TES, 287
Singulärwertzerlegung einer n×n Matrix, 240
syntaktische Variable, 277
Skalar
-körper, 185
Tautologie, 93
Skalarprodukt, 236
Teiler, 146
Soboleff
Teilmenge, 100
-norm, 230
-norm - beim Problem der ruhenden ge- Teilmonoid, 140
Teilraum
spannten Saite, 260
aufgespannter bzw. erzeugter, 193
Soboleffnorm
linearer, 188
für k-fach stetig differenzierbare F., 222
Term
Sprache
in heterogener Algebra (Anhang), 292
abstrakte, 128
Terminalwort,
277
aussagenlogische, 117
Chomskysprache und Turingmaschine (An- Terminalzeichen, 277
TES
hang), 283
und Einsetzen von Wurzelausdrcken in Poder formalen Logik (Anhang), 268
lynome, 294
kontextfrei, 277
TES=Termersetzungssystem,
129
kontextfrei und Kellerautomat (Anhang),
Addition in Z mod m, 138
282
Additionskolonnen von Binärzahlen, 131
mit Grammatik G, 277
Assoziativität, 131
prädikatenlogische, 96
Ausschnitt deutscher Grammatik, 131
reguläre, 277
freies kommutatives Monoid, 138
Startsymbol, 277
Grammatik, 277
stetige Funktionen
konfluentes, 129
und Integralnorm, 218
Quotientenring in k[x], 154
und Supremumsnorm, 217
Rechnen modulo 7, 131
stetiges lineares Funktional, 229
Restklassenaddition in Zm , 138
Stetigkeit, 179
Symmetrie
von Quadrat mit Diagonale,
Stone-Weierstraß, 182
287
und kompakte Integraloperatoren, 234
inx
umgekehrte
polnische Notation, 278
Vollständigkeit von e
im L2 , 252
und algebraische Konstruktion von C, 156
strikte Ordnung, 115
und
endliche Erweiterung von IF7 , 156
Sturm-Liouville Eigenwertproblem, 266
Index
und HTML, 130
und Konstruktion von IF8 , 159
und Polynomdivision mit Rest, 155
Testfunktion, 208
(Anhang), 311
Testfunktionen, 187
Totalordnung=lineare Ordnung, 115
Träger
einer Distribution (Anhang), 312
einer Fuktion
DN, 190
Träger (einer Funktion), 197
Träger einer Funktion, 135
Transitivität, 113
Treppenfunktionen, 198
trivial
Homomorphismus, 138
Monoid, 138
Tschebischeff-Polynome, 253
n-Tupel, 121
Turingmaschine (Anhang), 283
umgekehrte polnische Notation, 278
unendlich, 274
unendliche Mengen, 274
Ungleichung
Cauchy-Bunjakowskiĭ-Schwarz, 242
Cauchy-Bunjakowskiǐ-Schwarz, 220
Hölder, 220
Minkowski, 221
Poincaré, 223
Young, 220
universelle Eigenschaft
des freien Monoids, 285
Potenzreihenring, 151
Unter(halb)gruppe, 140
unvergleichbar, 115
Unvollständigkeitssatz von Gödel (Anhang),
268
UPN=Umgekehrte Polnische Notation, 278
Urbild, 119
Variationsproblem
lineares Funktional, 207
331
Variationsproblem (Saite), 259
Variationsproblem und isometrische Einbettung, 231
Vektorprodukt, 201
Vektorraum, 185
euklidischer=Prähilbertraum, 236
normierter, 215
verallgemeinerte Ableitung
(Anhang), 313
verallgemeinerte Ableitung (Saite), 259
Vereinigung, 102
allgemeine, 108
vergleichbar, 114
Verknüpfung
in heterogener Algebra, 274
logische, 92
Verschmelzungsgesetz, 94
Vervollständigung
durch isometrische Einbettung im top. Dualraum, 230
metrischer Raum, 167
vollständig
metrischer Raum, 166
ONB Existenz, 251
Orthonormalsystem (Charakterisierungen),
250
Prähilbertraum, 245
Wahrheitstabelle, 91
Weierstraß
Approximationssatz, 182
Wertebereich, 119, 200
Widerspruch, 93
Wirkung
Gruppe, 283
Halbgruppe, 283
Kongruenz, 288
Monoid, 283
Wohlordnung, 115
Wort, 128
leeres, 128
Youngsche Ungleichung, 220
332
Zerlegung eines Vektors in orthogonale Komponenten, 241
Zermelo-Fraenkel Axiome der Mengenlehre (Anhang), 269
Zusammensetzung
Funktionen, 122
Relationen, 111
zyklische
(Halb)gruppe, 134
Charakterisierung z. Gruppen, 138
Codes, 160
Index

Zugehörige Unterlagen

(0 Punkte) (a)

Vektorräume (3.1) Def.: Ein Vektorraum über einem Körper K ist eine

Institut für Physik Theoretische Physik

Mathematik 3 für ET 08/09

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können