Mathematik 3 für ET 09/10 Wolfgang Herfort Institut für Analysis und Scientific Computing Technische Universität Wien c 2007–2010 W.Herfort 2 Vorwort Das vorliegende Skriptum stellt mathematische Begriffe und Themen für das Studium Bakkalaureat Elektrotechnik an der Technischen Universität Wien zusammen. Das Wort “Mathematik” beinhaltet m.W. das Wort Kenntnis (im geistes- und naturwissenschaftlichen Sinn). Die Mathematik ist in diesem Sinne eine Sprache, welche (Er)kenntnisse festhält, reproduzierbar und vergleichbar macht. Wie in natürlichen Sprachen ist ihr Gebrauch an eine Grammatik gebunden, die sie nicht nur Laien gelegentlich schwer zugänglich erscheinen läßt. Dennoch ist sie eine lebende Sprache, ein Hilfsmittel, (Er)kenntnisse der Anschauung und des Geistes auszudrücken. In der Grundlagenforschung bis hin zu numerischer Simulation komplexer physikalischer Vorgänge erscheinen hochschulmathematische Begriffe (z.B. Thuesysteme, kommutative Algebra, lineare Algebra auch über endlichen Körpern (Kodierungstheorie), Hilbertraumtechniken, Soboleffräume, Fixpunktmethoden und weiteres) unabdingbar etwa bei der Analyse gesicherter Algorithmen. Das Skriptum kann durchaus auch im Alleingang gelesen werden, wobei es um das “Verdauen” mathematischer Begriffe geht, die meist in einem Kasten in knapper Weise formuliert werden, und bessere Intuition sehr oft erst durch nachfolgende Beispiele entsteht (d.h. beim ersten Lesen nicht “Hängenbleiben”). Etliches aus M1 und M2 findet sich hier in knapper Darstellung. Andere Quellen (siehe z.B. Literaturverzeichnis) mitzubenützen, ist durchaus empfehlenswert, etwa Wikipedia. Meine Hoffnung ist es, Ihnen verwertbares mathematisches Wissen näherbringen zu können und Freude und Selbstvertrauen, sich mathematischer Spezialliteratur und Vorlesungen bei Bedarf zu nähern, zu heben. Danksagung an H.J.Dirschmid, daß er seine reiche Erfahrung als akademischer Lehrer mir mitteilte, Peter Szmolyan für hilfreiche Grundsatzgespräche. Wolfram Hojka für Korrekturlesen des Manuskripts, wertvolle Vorschläge, sowie Feinarbeit zur optischen Gestaltung. W. Auzinger, G. Bergauer, W. Hojka, A. Slateff und J. Wiesenbauer für wertvolle Diskussionen. Herrn A. Goiser für Folienmaterial und Diskussion. Vielen aufmerksamen Lesern der Internetversion während der vergangenen Studienjahre für ihre Hinweise. Im voraus danke ich für Ihr geschätztes Interesse und Kommentare. Lassen Sie mich wissen, wenn Begriffe, Probleme oder Fragen nicht ausreichend geklärt sind. Recht herzlich möchte ich A. Prechtl für orientierungsweisende Gespräche hinsichtlich Stoffauswahl und Präsentation, sowie Durchsicht des Manuskripts danken. Änderungen gegenüber WS08/SS09: Die Abschnitte Wahrscheinlichkeitstheorie und Statistik sind beigefügt worden (Statistik kommt zum 1.ten Test). Besonderer Dank gebührt Dir, liebe Anna! Wien, im Oktober 2009 Wolfgang Herfort Inhaltsverzeichnis 0 Allgemeines 0.1 Lehrstoff der Vorlesung . . . . . . . . . . . . . . . . . . . . 0.2 Stoffübersicht der Studienkommission ET 2000 . . . . . . . 0.2.1 Wahrscheinlichkeitstheorie und Statistik . . . . . . . 0.2.2 Mengen und Mengenverknüpfungen . . . . . . . . . 0.2.3 Relationen, Abbildungen und Ordnungsstrukturen . 0.2.4 Verknüpfungen und verknüpfungstreue Abbildungen 0.2.5 Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . 0.2.6 Ringe und Körper . . . . . . . . . . . . . . . . . . . 0.2.7 Lineare Vektorräume . . . . . . . . . . . . . . . . . . 0.2.8 Metrische Räume . . . . . . . . . . . . . . . . . . . . 0.2.9 Banach-Räume . . . . . . . . . . . . . . . . . . . . . 0.2.10 Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 7 7 8 8 8 9 9 9 10 10 1 Statistik 1.1 Wiederholung Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . 1.1.1 Verteilung(sdichte), Erwartungswert und Streuung von Zufallsvektoren/variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Einige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Einige Verteilungsdichten . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Kurze Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Einleitung, Aufgaben der Statistik . . . . . . . . . . . . . . . . . . . . 1.3 Schätz- und Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Statistische Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Kovarianz und lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 2 Grundlagen 2.1 Logik . . . . . . . . . 2.1.1 Aussagenlogik . 2.1.2 Prädikatenlogik 2.2 Mengen . . . . . . . . 43 43 43 48 50 . . . . . . . . . . 1.Stufe . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 14 15 16 16 19 19 24 31 37 4 Inhaltsverzeichnis 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 “Naive” Mengentheorie, Mengen, Elemente, Teilmengen . . . . . . . . Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge, Produktmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt . . . Funktionen und Abbildungen . . . . . . . . . . . . . . . . . . . . . . . 3 Algebra 3.1 Freie Monoide und Termersetzung . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Halbgruppen und Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und Wirkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler . . . . . . . 3.2.4 Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe von Quotienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Abstrakte Polynomdefinition als Terme . . . . . . . . . . . . . . . . . 3.3.3 Ringe von Quotienten in einem Integritätsbereich. . . . . . . . . . . . 3.3.4 Kongruenzen in kommutativen Ringen mit Einselement, Ideale . . . . 3.3.5 Kommutativer Polynomring, Algebraische Körpererweiterung . . . . . 3.3.6 Endliche Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Metrische Räume 4.1 Metrische Räume . . . . . . . . . . . . . . . . . . . . . 4.1.1 Grundlegende Definitionen . . . . . . . . . . . 4.1.2 Konvergenz . . . . . . . . . . . . . . . . . . . . 4.1.3 Fixpunktsatz von Banach und Anwendungen . 4.1.4 Offene, abgeschlossene, beschränkte, dichte und eines metrischen Raumes . . . . . . . . . . . . 4.1.5 Approximationssatz von Stone-Weierstraß . . . . . . . . . . . . . . . . . . . . . . . . . . . kompakte . . . . . . . . . . . . 5 Lineare Funktionalanalysis 5.1 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Grundlagen, Axiome . . . . . . . . . . . . . . . . . 5.1.2 Teil-, Quotienten- und Komplementärraum . . . . 5.1.3 Lineare Hülle, Unabhängigkeit, Basen, Dimension 5.1.4 Lineare Abbildung, Kern, Bild und Rang . . . . . 5.1.5 Dualraum, Dualität . . . . . . . . . . . . . . . . . 5.2 Normierte lineare Räume, Banachräume . . . . . . . . . . 5.2.1 Norm, Vollständigkeit . . . . . . . . . . . . . . . . 5.2.2 Abgeschlossene Teilräume, Dimension . . . . . . . 5.2.3 Lp und lp Normen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 61 64 67 72 79 79 84 84 89 93 99 100 100 105 107 108 110 113 119 119 119 120 125 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teilmengen . . . . . . . 133 . . . . . . . 138 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 141 141 144 148 156 160 170 171 175 176 Inhaltsverzeichnis 5 . . . . . . . . . 178 181 181 184 188 191 192 203 205 6 Saite - etwas mathematische Physik 6.1 Mathematisches Modell und Allgemeines zum Lösen . . . . . . . . . . . . . . 6.1.1 Die involvierten physikalischen Begriffe . . . . . . . . . . . . . . . . . 6.1.2 Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.3 Variationsformulierung – distributionelle Lösung . . . . . . . . . . . . 6.1.4 Hilbertraumformulierung – Soboleffnormen . . . . . . . . . . . . . . . 6.1.5 Lösungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0 und q = 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Formulierung des Randwertproblems . . . . . . . . . . . . . . . . . . . 6.2.2 Hilbertraumformulierung - Existenz und Eindeutigkeit . . . . . . . . . 6.2.3 Globale Minimumeigenschaft des Wirkungsintegrals J . . . . . . . . . 6.2.4 Konstruktion der Rieszabbildung – Konsequenzen . . . . . . . . . . . 6.3 Eingespannte Saite im Potentialfeld unter Krafteinwirkung . . . . . . . . . . 6.3.1 Physikalische Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Hilbertraumformulierung . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.3 Bemerkungen zur Lösbarkeit – Fredholmalternative . . . . . . . . . . 215 215 215 A ANHÄNGE A.1 Grundlagen . . . . . . . . . . . . . . . . . . A.1.1 Modelltheorie . . . . . . . . . . . . . A.1.2 Formale Logik . . . . . . . . . . . . A.1.3 Axiomatische Mengentheorie . . . . A.1.4 Kardinalität endlicher Mengen . . . A.1.5 Kardinalität und unendliche Mengen A.1.6 Relationsschemata . . . . . . . . . . A.2 Algebra . . . . . . . . . . . . . . . . . . . . A.2.1 Chomsky Grammatik . . . . . . . . A.2.2 Reguläre Grammatik und Automat . A.2.3 Kellerautomat und Turingmaschine . A.2.4 Halbgruppenwirkungen . . . . . . . A.2.5 Heterogene Algebren . . . . . . . . . A.2.6 Gesetze in heterogenen Algebren . . 229 229 229 229 231 233 236 238 239 239 242 244 245 251 254 5.3 5.4 5.2.4 Soboleffnormen . . . . . . . . . . . . . . . Stetige lineare Operatoren . . . . . . . . . . . . . 5.3.1 Stetigkeit=Beschränktheit, Operatornorm 5.3.2 (Topologischer) Dualraum . . . . . . . . . 5.3.3 Kompakte Operatoren . . . . . . . . . . . Hilberträume . . . . . . . . . . . . . . . . . . . . 5.4.1 Inneres Produkt, Prähilbertraum . . . . . 5.4.2 Vollständigkeit . . . . . . . . . . . . . . . 5.4.3 Orthonormalsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 217 218 218 222 222 222 223 223 224 224 225 226 6 Inhaltsverzeichnis A.2.7 Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper . . . . . . . . . . . . . . . . . . A.2.8 Eindeutige Faktorzerlegung . . . . . . . . . . . . . . . . . . . . . . . . A.3 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3.1 Konstruktion der Vervollständigung für einen metrischen Raum (X, d) A.3.2 Beweis des Banachschen Fixpunktsatzes Anmerkung 122 (S.126) . . . A.3.3 Beweise der Aussagen über offene, abgeschlossene, kompakte, etc. Mengen in Anmerkung 127 (S.134) . . . . . . . . . . . . . . . . . . . . . . A.4 Banachräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4.1 Beweis für Anmerkung 171 (S.185) – Vollständigkeit des Dualraums . A.4.2 Satz von Hahn-Banach* . . . . . . . . . . . . . . . . . . . . . . . . . . A.4.3 Nachweise der Aussagen in Anmerkung 176 (S.189) über kompakte Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4.4 Distributionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 260 263 263 265 266 267 267 268 271 273 B Wahrscheinlichkeitstheorie B.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . . B.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . . B.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . . B.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . . B.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . B.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . B.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2.2 Balkendiagramm und Verteilung einer Zufallsvariablen . . . . . . . . . B.2.3 Erwartungswert µ, Varianz V und Schiefe . . . . . . . . . . . . . . . . B.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . B.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → IR2 B.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . . B.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . . B.3.1 Ungleichung von Tschebyscheff und das Bernoulliexperiment . . . . . B.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz (ZGWS) . . . . . . 279 279 279 288 289 292 293 293 296 306 312 313 315 325 325 329 C Logfile 349 Kapitel 0 Allgemeines 0.1 Lehrstoff der Vorlesung Der Lehrstoff ist 2001 schlagwortartig durch ein Protokoll der Studienkommission festgelegt worden. Das Manuskript geht (vorallem in den Anhängen im Internet) darüber hinaus. Es wird empfohlen, sich mit den im Protokoll genannten Begriffen vertraut zu machen, einzusehen unter http://www.math.tuwien.ac.at/∼herfort/ET/INHALTE/M3.pdf bzw. mit etwas erläuterndem Kommentar versehen, im nachfolgenden Abschnitt. Es geht vorallem darum, diese Begriffe intuitiv als auch formal gut zu erfassen. Durchaus so, daß man sich imstande sieht, diese Dinge dem Interessierten selbst weitergeben zu können. Nicht prüfungsrelevant, aber möglicherweise interessant sollten vorallem das Konzept des Termersetzungssystems, das vieles aus der Algebra und Linguistik (theoretische Informatik) schnell zugänglich macht, sowie ein Abschnitt über die eingespannte Saite, der ein 1dimensionales Problem mit Hilbertraummethoden und FEM in Verbindung bringt, sein. 0.2 0.2.1 Stoffübersicht der Studienkommission ET 2000 Wahrscheinlichkeitstheorie und Statistik Die Stoffübersicht diesbezüglich findet man im oben zitierten Verzeichnis als Datei ‘./M1 2.pdf’. Zum Prüfungsmodus: der 1.Test sollte dieses Material abdecken, sodaß hiezu bei der Prüfung nicht mehr gefragt werden wird. 0.2.2 Mengen und Mengenverknüpfungen Mengen, Teilmengen, Mengensysteme (im Skriptum Familien von Mengen), Durchschnitt Vereinigung - Differenz - Komplement (sind die üblichen Mengenverknüpfungen), die Beziehungen zwischen diesen Verknüpfungen wird durch Mengenalgebra, d.i. die Rechengesetze, die erfüllt sind, beschrieben. Kartesisches Produkt ist grundlegend für den abstrakten Funktionsbegriff und Relationen. 7 8 0.2.3 Allgemeines Relationen, Abbildungen und Ordnungsstrukturen 2-stellige Relation beschreibt die Beziehungen zwischen den Elementen 2er Mengen, Äquivalenzrelation ist eine Form von Gleichheit oder Gleichartigkeit von Elementen einer Menge. Z.B. gleicher Jahrgang. Äquivalenzklasse=alle Objekte mit gleichem Merkmal (gleichem Jahrgang). Quotientenmenge=Menge der Äquivalenzklassen (alle Jahrgänge). Ordnungsrelation beschreibt ordnenden Vergleich von Elementen einer Menge (etwa Hierarchiestrukturen). Nicht je 2 Elemente müssen vergleichbar sein. Kleinste und größte Elemente sind mit allen Elementen vergleichbar und haben niemanden echt “drunter” bzw. “drüber”, minimale und maximale Elemente haben lediglich niemand “echt drunter” bzw. drüber. Vollständig geordnet, wenn je 2 Elemente vergleichbar (z.B. reelle Zahlen) - hier total geordnet genannt. Untere und obere Schranken beziehen sich meist auf eine Teilmenge (z.B. jene, die durch irgendeine Eigenschaft herausgefischt werden). Wohlordnung liegt vor, wenn jede nicht leere Teilmenge ein kleinstes Element hat. Diese Eigenschaft haben die natürlichen Zahlen und darauf beruht vollständige Induktion. Abbildungsbegriff auch Funktionsbegriff. Abbildungstypen sind injektive, surjektive und bijektive Funktionen. Zusammensetzung, auch Komposition oder Hintereinanderausführung von Funktionen ist durch g ◦ f (x) := g(f (x)) definiert. Z.B. ist sin ◦ exp die Funktion, welche etwa 0 die Zahl sin(1) zuordnet. 0.2.4 Verknüpfungen und verknüpfungstreue Abbildungen Verknüpfung bedeutet, daß man (meist) 2 Elemente einer Menge nimmt, und ihnen (durch irgendeine Prozedur) ein anderes Element der Menge zuordnet. Bei Funktionen werden 2 Funktionen genommen und deren Zusammensetzung gebildet – eine Verknüpfung im vorliegenden Sinn. Das übliche Addieren bzw. Multiplizieren von 2 Zahlen ist eine Verknüpfung in diesem Sinn (wir werden in der Vorlesung von 2-stelliger Operation reden). Über äußere Verknüpfungen wird nichts vorgetragen, es handelt sich dabei um Abbildungen mit mehreren Argumenten aus ein und derselben Menge mit Werten in einer davon verschiedenen Menge. Innere Verknüpfungen sind 2-stellige Operationen auf einer Menge, wie z.B. die Addition natürlicher Zahlen, aber auch das Vektorprodukt ~a × ~b im IR3 . Als spezielle Eigenschaften werden Assoziativität (=Assoziativgesetz) und Kommutativität (=Kommutativgesetz) vorgestellt, die schon in der Mengenalgebra aufscheinen. Dies führt zu Halbgruppen, Monoiden und Gruppen. Homomorphie ist eine Abbildung von einer (Halb)gruppe in eine andere, sodaß die Operationen “respektiert” werden, d.h. f (x · y) = f (x) ∗ f (y) gilt für alle x, y im Definitionsbereich von f . Isomorphismus ist ein bijektiver Homomorphismus. 0.2.5 Gruppen Gruppenaxiome. Einfache Eigenschaften von Gruppen können Endlichkeit, abelsch (=kommutativ), trivial (nur ein Element enthaltend), zyklisch (z.B. die Drehungen eines gleichseitigen Dreiecks) sein. 0.2. Stoffübersicht der Studienkommission ET 2000 9 (Halb)gruppen kodieren sehr oft Selbstähnlichkeiten bzw. Symmetrien von Objekten und die Gruppenoperation entspricht der Komposition von Selbst- bzw. Symmetrieabbildungen des Objekts in sich. Entsprechend ist manchmal die multiplikative Schreibweise (Drehungen des gleichseitigen Dreiecks), manchmal die additive (’+’, etwa bei Ornamenten - Parkettierungen) hilfreicher. Die Rechengesetze, welche eine Gruppe erfüllt, lassen sich entsprechend formulieren. Der Kern eines Gruppenhomomorphismus besteht aus allen Elementen, die auf das Einselement abgebildet werden. Bild sind jene Elemente, die durch Anwenden des Homomorphismus entstehen. 0.2.6 Ringe und Körper Ringe haben eine Addition, meist ’+’ geschrieben und eine Multiplikation, und es wird das Distributivgesetz erfüllt. Beispiele sind die ganzen Zahlen, n × n-Matrizen (nicht kommutativ für n ≥ 2). Andere Beispiele sind die Polynomringe. Körper erlauben Division für Elemente6= 0. Beispiele sind die rationalen, die reellen, und die komplexen Zahlen. Endliche Körper (der kleinste enthält nur 0 und 1 – Rechnen modulo 2) werden z.B. in der Kodierungstheorie benötigt. 0.2.7 Lineare Vektorräume Vektorraumaxiome und Beispiele. Unterräume (=Teilräume), Basis, Dimension, Lineare Abbildung (es ist in der linearen Algebra eher üblich von Abbildung, denn als Funktion zu reden – Grund: die Funktion y = kx+d wird in der Schule als “lineare Funktion” bezeichnet, ist aber für d 6= 0 keine lineare Abbildung). Vektoren können auch Funktionen sein, man spricht dann oft von einem Funktionenraum. Ein linearer Operator ist dasselbe wie eine lineare Abbildung. Einfaches Beispiel für lineare Abbildung: Projektion auf die (x, y)-Ebene in z-Richtung. Kern=alle Elemente, die unter der linearen Abbildung Null werden, im Beispiel die z-Achse. Bild=alle Elemente, die unter der Abbildung entstehen, im Beispiel die ganze (x, y)-Ebene. Ein anderes Beispiel entsteht, wenn man y 7→ y 00 betrachtet. Diese Abbildung ist linear, ihr Kern sind Funktionen der Bauart y = kx + d, weil nur diese y 00 = 0 erfüllen, also Lösungen der homogenen Gleichung sind. Der Dualraum besteht aus den linearen Abbildungen in den Skalarkörper und ist selbst ein Vektorraum. Die Elemente des Dualraums nennt man lineare Funktionale. 0.2.8 Metrische Räume sind Mengen mit einem Abstandsbegriff=Metrik. Diesbezüglich können ähnlich wie im IRn Konvergenz, Cauchyfolgen und Vollständigkeit bezüglich der Metrik formuliert werden. Die häufigsten Beispiele sind normierte lineare Räume (siehe weiter unten). Bestapproximation bezieht sich hier auf die Minimierung des Abstandes eines Punktes in einer kompakten Teilmenge zu einem festen Punkt. Bei Fixpunktsätzen geht man von der Idee aus, einen Fixpunkt x = f (x) durch Vorgabe eines Startwertes x0 und Iteration xn+1 = f (xn ) zu approximieren. Um die Konvergenz zu sichern, wird hier als Hilfsmittel der Banachsche Fixpunktsatz 10 Allgemeines vorgeführt. Anwendung sind iterative Lösungsverfahren (lineare Gleichungssystem und Nachiteration, Nullstellenmethoden, Newtonalgorithmus, Picard-Lindelöf u.v.a.) 0.2.9 Banach-Räume Eine Norm ist ein verallgemeinerter Längenbegriff für Vektoren (Funktionen). Sie erfüllt Eigenschaften, die sehr an die der übliche euklidische Länge eines Vektors im IR3 angelehnt sind. Ein Vektorraum (über IR oder C) mit so einer Norm ist ein normierter linearer Raum. Danach wird der normierte lineare Raum zu einem metrischen Raum, indem man als Distanz von Vektoren die Norm ihrer Differenz festlegt (induzierte Metrik). Ist er vollständig, so nennt man ihn Banachraum. Stetige lineare Operatoren zwischen 2 gegebenen linearen normierten Räumen können selbst mit einer Norm, der Operatornorm, als normierter linearer Raum aufgefaßt werden. Der (topologische) Dualraum besteht aus allen stetigen linearen Funtionalen. 0.2.10 Hilbert-Räume Wenn in einem Vektorraum (über IR oder C) eine Abbildung, die je 2 Vektoren einen Skalar zuordnet, Eigenschaften des im IR3 (bzw. C3 ) üblichen Skalarprodukts aufweist, so spricht man von einem inneren Produkt, und der Raum heißt Prähilbertraum (=euklidischer Vektorraum). Die Schwarzsche (genauer Cauchy-Bunjakowskiĭ-Schwarzsche) Ungleichung besagt im IR3 , daß das innere Produkt zweier Vektoren betragsmäßig nie größer als das Produkt der Vektorlängen ist. Eine solche Ungleichung kann p aus den Axiomen des inneren Produkts hergeleitet werden und impliziert, daß durch kvk := hv, vi eine Norm, die induzierte Norm, entsteht. Somit ist jeder Prähilbertraum ein (spezieller) normierter linearer Raum und insbesondere ein metrischer Raum. Ist er vollständig, so ist er ein Hilbertraum. Orthogonalität kann analog dem 3-dimensionalen Anschauungsraum durch Verschwinden des inneren Produkts ausgedrückt werden. Dementsprechend gibt es im Hilbertraum die Orthogonalprojektion eines Punktes in einen abgeschlossenen Teilraum, die Bestapproximation des Problems, den minimalen Abstand des Punktes vom Teilraum zu finden. Diese Aufgabe hat viele nützliche Anwendungen, zu ihnen zählen die Singulärwertzerlegung von Matrizen im IRn (überbestimmte lineare Gleichungssysteme– z.B. in der Varianzanalyse oder Ausgleichsrechnung), und voran verallgemeinerte Fourierreihen. Die Lösung der Aufgabe gelingt, wenn im Teilraum ein vollständiges Orthogonalsystem bekannt ist, durch Angabe jenes Fourierreihenabschnittes des Punktes, der im Teilraum liegt. Der Rieszsche Darstellungssatz besagt, daß jedes stetige lineare Funktional im Hilbertraum durch das innere Produkt in einfacher Weise beschrieben werden kann. Auf diesem Satz beruht die Methode der Greenfunktionen bei der Lösung etlicher Randwertaufgaben. Kapitel 1 Statistik 1.1 Wiederholung Wahrscheinlichkeitstheorie Ausführlicher ist Abschnitt B (S.279), siehe auch den Abriss von M. Blümlinger http://asc.tuwien.ac.at/ blue/WahrschTheorieFET.pdf Deshalb werden im weiteren nur wenige Begriffe wiederholt bzw. nachgetragen. 1.1.1 Verteilung(sdichte), Erwartungswert und Streuung von Zufallsvektoren/variablen Zufallsvektor, -variable Gegeben ist ein Wahrscheinlichkeitsraum (Ω, Σ, P ) wie in Definition 256 (S.283)), d.h. Ω ist die Menge der Elementarereignisse, Σ (oft auch A) die σ-Algebra der Ereignisse und P ein Wahrscheinlichkeitsmaß. Dann ist eine Abbildung X : Ω → IRn ein Zufallsvektor (für n = 1 eine Zuvallsvariable), falls {ω ∈ Ω | X(ω) ∈ B} für jeden beliebigen Quader B in Σ liegt. (man sagt X ist Borelmeßbar). Beispiel 1: Ω=alle Anwesenden im Hörsaal, X ordnet jeder Person das Paar (Schuhgröße, Gewicht) zu. Beispiel 2: Ω=alle Anwesenden im Hörsaal, jede Person darf einen Dart auf eine Zielscheibe werfen. Danach ordnet X jeder Person die Koordinaten auf der Zielscheibe zu. Die Schuhgröße ist eine diskrete (d.h. höchstens abzählbar viele Werte möglich), das Gewicht eine kontinuierliche Zufallsvariable (d.h. nicht diskret). Verteilung Zur Zufallsvariablen X : Ω → IR gehört die Verteilung(sfunktion) FX : IR → [0, 1], definiert durch FX (x) := P ({ω ∈ Ω | X(ω) < x)}). Man schreibt F statt FX , falls klar ist, um welches X es sich handelt. Salopp, aber üblich: “ F (x) := P (X < x) ”. In Worten: F (x) ist die Wahrscheinlichkeit für “X(ω) kleiner als x” bei zufälliger Wahl von ω ∈ Ω. 11 12 Statistik 1 ◦ • (a, F + (a)) ◦ · (a, F (a)) • ·O P (X ∈ [a, b)) · • · 0 a b Wie in Anmerkung 273 (S.300) bemerkt wird, ist F an den Sprungstellen von links kommend stetig und schwach monoton steigend. Weiter ist F (−∞) = 0 und F (∞) = 1 (jeweils Grenzwert bei x → ±∞). Die Sprunghöhe F (a+ ) − F (a) ist gleich P (X = a). Es ist P (X ∈ [a, b)) = F (b) − F (a) Beispiel 1: Auf Ω := IR sei P (A) = 1 falls 0 ∈ A und P (A) = 0 sonst. Wenn wir X(ω) = 1 falls ω = 0 und Null für alle anderen Werte von ω definieren, so ist X : Ω → IR eine Zufallsvariable. Ihre Verteilung heißt Diracverteilung. Solches X nimmt mit Sicherheit, d.h. Wahrscheinlichkeit 1, den Wert 0 an: Beispiel 2: Es sei Ω := [a, b] ein Intervall und X : Ω → IR soll eine zufällige reelle Zahl sein. Es sollen “alle Zahlen im Intervall gleich wahrscheinlich” sein. Dann ist für jedes Teilintervall d−c [c, d) von [a, b) die Wahrscheinlichkeit P (X ∈ [c, d)) = b−a , weil die Wahrscheinlichkeit proportional zur Länge von [c, d) bezogen auf [a, b] ist. Die Verteilungsfunktion von X ist dann F (x) = 0 falls x < a (es werden nur Zahlen ≥ a “gezod−c gen”), gleich b−a x, solange x ∈ [a, b) und 1 falls x > b ist. Man spricht oft von Gleichverteilung der gewählten Zahlen in [a, b]. Dichte (einer Verteilung) Ist F differenzierbare Verteilung einer Variablen X, so nennt man f (x) := F 0 (x) die Dichte von X. Dann Rb ist P (X ∈ [a, b)) = a f (x) dx gleich der Fläche unter dem Graphen von fX von a bis b genommen. Beispiel 1: Diskrete Zufallsvariable haben keine Dichte. ◦ • 0 a b ◦ 1.1. Wiederholung Wahrscheinlichkeitstheorie 13 Beispiel 2: Im Falle der Gleichverteilung ergibt sich als Dichte 0 für x < a und x > b, 1 sowie als Steigung b−a im Intervall (a, b). In den verbleibenden Punkten darf die Dichte beliebig definiert werden – beim praktischen Rechnen (mit Riemannintegralen) sind diese Werte bedeutungslos. Unabhängige Variable Sind X : Ω → IR und Y : Ω0 → IR Zufallsvariable, so kann ein ~ : Ω × Ω0 → IR × IR durch Z(ω, ~ Zufallsvektor Z ω 0 ) := (X(ω), Y (ω 0 )) betrachtet werden. Die Variablen X und Y sind unabhängig, falls F(X,Y ) (x, y) = FX (x)FY (y), bzw. falls für die Dichten f(X,Y ) (x, y) = fX (x)fY (y) gilt (vgl. Anmerkung 284 (S.313)). Beispiel 1: Es sei Ω := {1, 2, 3, 4, 5, 6} (Augenzahlen eines Würfels) und Ω0 := {K, Z} (Münze). Weiter sei X die geworfene Augenzahl, Y = 0 falls K und andernfalls 1. Die Verteilungen von X und Y sind Stufenfunktionen, ich zeichne nur jene von X, die von Y hat “2 Stufen” (bitte durchdenken, bzw. vgl. Beispiel 279 (S.307)) “Würfeln” und “Münze werfen” sollten “einander nicht beeinflussen”. Deshalb wird die Unabhängigkeit der Variablen X und Y angenommen und die Verteilungsfunktion F(X,Y ) , welche das zufällige Werfen eines Würfels und einer Münze beschreibt, ist FX (x)FY (y) = · · · (es ist müßig, eine Tabelle zu produzieren). Beispiel 2: Jemand misst Fallzeit t und Strecke s eines Balls. Da s = g2 t2 gilt, wird die Unabhängigkeit der Zufallsvariablen s und t nicht erwartet. Beispiel 3 Es sei X eine Zufallsvariable auf Ω. Nun soll bei gegebenem n der Wert von X n mal durch Messung (zufälliges Experiment, weil stets Messunsicherheiten bestehen) bestimmt werden. Jede einzelne Messung wird als zufälliges Experiment einer wie X verteilten Kopie Xi aufgefaßt, d.h. FXi (x) = FX (x) (bzw. Dichte fXi (x) = fX (x)) und in ihrer Gesamtheit als n-dimensionaler Zufallsvektor gedeutet werden. Die Messungen sollen einander nicht beeinflussen – somit ist die Annahme “die Xi sind unabhängig” Q gerechtfertigt. Deshalb ist F(XQ (x , . . . , x ) = F (x ) und falls Dichten existiei 1 n X i 1 ,...,Xn ) ren, f(X1 ,...,Xn ) (x1 , . . . , xn ) = i fX (xi ) ~ diskreter Zufallsvektor, und pi = Erwartungswert eines diskreten Zufallsvektors) Ist X P P ~ i = ~xi ) mit ~ P (X xi . i pi = 1, so ist der Erwartungswert E(X) := i pi ~ 1 2 ~ Beispiel 1: Die Wahrscheinlichkeiten, daß X : {A, B, C} → IR die Koordinaten , 0 0 1 ~ = 1 1 +1 0 + und annimmt, seien 12 , 13 , 61 . Dann ist E(X) 2 3 1 1 0 1 14 Statistik 1 6 1 1 = 2 3 1 2 1 ~ eine Dichte, so ist Erwartungswert (Dichte vorhanden) Hat X R ~ = n (x1 , . . . , xn )T fX (x1 , . . . , xn ) d(x1 , . . . , xn ) . E(X) IR Beispiel: Im Falle der Gleichverteilung auf [a, b] ist der Erwartungswert E(X) = . . . = a+b 2 , also der Intervallmittelpunkt. Rb 1 a b−a x dx = ~ durch µ Erwartungwert – Rechenregeln Gelegentlich wird E(X) ~ X abgeürzt. Es ist ~ ~ ~ ~ ~ ~ E(X + Y ) = E(X) + E(Y ) und E(rX) = rE(X) , wobei r reell ist (E ist linear). Sind X und Y unabhängige Variable, so ist E(XY ) = E(X)E(Y ) , somit E multiplikativ2 . Varianz und Streuung Ist X eine Zufallsvariable, so ist die Varianz durch V (X) := E((X − µ)2 ) , p wobei µ := E(X) ist, und die Streuung durch σ := V (X) definiert. Es ist auch V (X) = E(X 2 ) − µ2 . Beispiel: Für die Gleichverteilung auf [a, b] ist V (X) = q 1 1 2 2 2 2 12 (b + ab + a ) und somit ist σ = 12 (b + ab + a ). 1.1.2 Rb a (x − a+b 2 1 2 ) b−a dx = · · · = Einige diskrete Verteilungen Die Diracverteilung ist schon erwähnt worden. Bernoulli- = binomisch B(n, p, k) Aufgabe: 1 3 1 Man hat die Gesamtmasse 1 gemäß der Brüche auf die Eckpunkte des Dreiecks ·?? · ?? ?? ?? · 1 6 verteilt. 1 2 ~ der Schwerpunkt. Dann ist E(X) 2 Beweisskizze R R für Dichten: E(XY ) = ( IR fX (x) dx)( IR fY (y) dy) = E(X)E(Y ) R IR2 xyf(X,Y ) (x, y) d(x, y) = R IR2 xyfX (x)fY (y) d(x, y) = 1.1. Wiederholung Wahrscheinlichkeitstheorie 15 Von einem Experiment weiß man, daß es mit Wahrscheinlichkeit 14 gelingt. Wie groß ist die Wahrscheinlichkeit w, bei 12-maliger Wiederholung des E., daß es 4 mal gelingt? Es sei X jene Zufallsvariable auf Ω := {1, . . . , n}, welche 1 für “Gelingen” und 0 sonst annimmt. Dann ist B(n, p, k) := P (X = k) = nk pk q n−k 0.12 ●● ● ● ● 0.10 0.15 ● ● ● 0.08 ● ● ● ● 0.00 ● ● ● ● 0 ● ● ● ● 5 10 ● 15 ● ● 0.00 ● und Streuung sind E(X) = np , bzw. √ σ = npq . Rechts sind Balkendiagram- ● ● 0.02 ● ● ● 0.06 Wahrscheinlichkeit ● 0.04 ist. Erwartungswert ● 0.10 Wahrscheinlichkeit q := 1 − p Stabdiagramm B( 100 , 0.1 ) ● 0.05 wobei Stabdiagramm B( 20 , 0.5 ) ● 20 ● ●●● 0 ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 20 40 k 60 80 100 k 1 ). me von B(20, 12 ) und B(100, 10 Antwort: k = 4, n = 12, p = 1 4 und w = 1 4 4 12 4 3 8 4 = dbinom(4,12,1/4) ≈ 0.19 Poisson Aufgabe: Ausgehend von der Kenntnis des Zerfalls von im Schnitt 12 Atome/sec einer gewissen radioaktiven Substanz soll die Wahrscheinlichkeit w bestimmt werden, daß es 16 sind? Antwort: k = 16, λ = 12 und w = P (k, λ) = 0.08 0.06 dpois(x, 10) 0.04 0.0 0.00 0.02 0.1 dpois(x, 1) 0.2 k ist. Abkürzung: P (k; λ) := λk! e−λ . Erwartungswert und Streuung sind √ E(X) = λ , bzw. σ = λ . Rechts sind Balkendiagramme für λ = 1 und λ = 10. 0.10 0.3 0.12 Die Variable X ist Poissonverteilt zum Exk ponenten λ > 0, falls P (X = k) = λk! e−λ 0 5 10 15 20 25 0 50 Index 1216 −12 16! e 100 150 Index = dpois(16,12) ≈ 0.054 Begründung: Es sei n die Anzahl aller in der Probe enthaltenen Atome. Dann ist p = 12 n die Zerfallswahrscheinlichkeit. Wir kennen n nicht, wissen jedoch, daß es GROSS ist. Deshalb ist P (k, λ) mit λ := np eine gute Approximation für B(n, p, k) = nk pk q n−k . 1.1.3 Einige Verteilungsdichten Die Gleichverteilung in einem Intervall [a, b] ist schon erwähnt worden. Gauss- = Normalverteilung Aufgabe Für das Ereigis “falsches Bit” sei die Wahrscheinlichkeit p = 13 (Messungen ergeben Grund zu dieser Annahme). Wie groß ist die Wahrscheinlichkeit w, in einem ‘01’-Wort der Länge 50 mindestens 5, jedoch weniger als 15 falsche Bits vorzufinden. Die Variable X ist Gauss- oder normalverteilt (genauer N (µ, σ 2 )-verteilt mit σ > 0), falls sie die Dichte fµ,σ (x) = 1 x−µ √1 e− 2 ( σ ) σ 2π 2 besitzt. Erwartungswert und Streuung 200 250 16 Statistik sind E(X) = µ , bzw. σ . Die Verteilungsfunktion zu N (0, 1) wird mit Φ bezeichnet −2 0 2 4 x N(0,1) 0.004 0.003 0.001 0.000 0.02 0.0 −4 0.002 dnorm(x, 9, sqrt(2)) 0.10 0.08 0.06 dnorm(x, 2, 3) 0.04 0.2 0.1 dnorm(x, 0, 1) 0.3 0.12 0.005 0.4 a−µ und ist tabelliert. Für eine N (µ, σ 2 )-verteilte Variable ist P (X ∈ [a, b)) = Φ( b−µ σ ) − Φ( σ ) . −4 −2 0 2 4 −4 −2 x N(2,9) 0 2 4 x N(9,2) Antwort: Die Variable Xi sei das Ereignis “i-tes Bit ist falsch”. Dann hat Xi ErwartungsP √ wert p und Streuung σ = pq, wie leichte Rechnung ergibt3 . Die Variable S := ni=1 Xi , besitzt die Bernoulliverteilung B(n, p); hier sind n = 50 und p = 31 . Deshalb ist P w = 14 i=5 B(n, p, i). Im vorliegenden Fall könnte z.B. ein maple-Programm leicht weiterhelfen, allerdings addiert man sehr kleine Zahlen. Deshalb benützt man die Apro√ ximation P ( S−np npq ∈ [a, b)) ≈ Φ(b) − Φ(a) , die aus dem Satz von De Moivre-Laplace (Anmerkung 295 (S.330)) folgt. Die Bedingung auf der linken Seite zu ist gleichwertig √ √ y−np x−np S ∈ [a npq + np, b npq + np), sodaß P (S ∈ [x, y)) ≈ Φ √npq − Φ √npq gilt. Bei uns sind x = 5 und y = 15, sodaß nach etwas Rechnung w = P (S ∈ [5, 15)) ≈ 0.31 als Antwort folgt. Die χ2 - und t-Verteilungen haben ebenfalls Dichten, siehe Beispiel 11 (S.28). 1.2 1.2.1 Kurze Übersicht Einleitung, Aufgaben der Statistik Details werden in den nachstehenden Abschnitten behandelt. Statistik legt für einen Zu~ mit Werten im IRk (bzw. eine Zufallsvariable für k = 1) eine Stichprobe der fallsvektor X Stichprobengröße n zugrunde, die durch n einander nicht beeinflussende, somit unabhängige Messungen zustande kommt. Es ist dies eine endliche Folge (~x1 , . . . , ~xn ) von Vektoren im IRk , somit selbst ein Element von (IRk )n . So etwa ist etwa für das Werfen mit Darts auf eine ~ hat eine uns nicht näher bekannte Verteilung F bzw. Zielscheibe k = 2. Der Zufallsvektor X Dichte f , über die man mittels der Stichprobe approximative Aussagen treffen möchte. Im ~ schätzen und tut dies (seit Menscheneinfachsten Fall will man den Erwartungswert P E(X) n 1 gedenken) durch das Stichprobenmittel x̄ := n i=1 ~xi . Beispiel 1 Wir gehen von zwei Beispielen aus. 3 V (Xi ) = E(Xi2 ) − E(Xi )2 = p − p2 = pq, weil E(Xi ) = p und Xi = Xi2 gilt 1.2. Kurze Übersicht 17 1. Jemand hat 1000 mal einen Würfel geworfen, um die Häufigkeiten der Augenzahlen zu bestimmen. Dabei hat sich folgende Tabelle ergeben: Augenzahl Anzahl 1 2 3 4 5 6 168 173 164 167 162 166 Es ist k = 1 und n = 1000. Ist X die Zufallsvariable, die genau dann 1 wird, wenn eine 6 geworfen wird und Null sonst, so möchte man im einfachsten Fall wissen, ob p = 61 (genauer E(X) = 16 ) durch diese Messung “weitgehend” bestätigt werden kann. 2. Es liegt eine Tabelle von 10 Messungen der Länge eines Stabes vor. i 1 2 3 4 5 6 7 8 9 10 Wert 13.1 12.9 13.0 12.9 13.2 13.1 12.9 13.1 12.8 13.1 Es ist k = 1 und n = 10. Es ist X die Länge des Stabes, auf die man mittels der Messung schließen möchte. Beschreibende Statistik . Sie befaßt sich mit der übersichtlichen Aufbereitung von Datenmengen. So etwa Balkendiagramm, Torte und Histogramm zu Aufgabe 1. Histogram of ergebnisse 150 100 Frequency 168 6 164 4 50 170 1 3 166 absolute Haeufigkeit 172 2 0 162 5 1 2 3 4 5 6 0 Augenzahl 1 2 3 4 5 6 ergebnisse Balkendiagramm Torte Histogramm Schließende Statistik. Wir wollen hier lediglich über Zuvallsvariable reden, also k = 1 annehmen. Dann ist X eine Zufallsvariable mit Verteilungsfunktion F = FX . Die Stichprobe (x1 , . . . , xn ) ∈ IRn gibt anlaß zur empirischen Verteilungsfunktion Fn (x) := |{i | xi < x}| , n die man als Näherungsfunktion von F (~x) ansehen möchte: 18 Statistik −1 0 1 x F10 2 ● ● −2 ● ● ● ● ● ● ● ● ● ● ● ● ● −1 0 2 ● −3 −2 −1 x 0 1 2 x F50 F200 1.0 0.6 0.8 ● pnorm(x) 1.0 0.8 1 ● ●● ●● ● ●● ● ● ●● ●● ● ●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ● 0.4 ● 0.2 ● 0.0 0.0 0.0 −2 ● ● ● ● 0.2 0.4 0.2 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 Fn(x) Fn(x) 0.4 ● ● 0.6 0.6 0.6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● Fn(x) 0.8 0.8 ● ● 0.4 ● ● ● ecdf(rnorm(250)) 1.0 ecdf(rnorm(50)) 1.0 ecdf(rnorm(10)) 3 −2 ... ... −1 0 1 2 x F Es kann Fn als Realisation der Zufallsvariablen Fn (x, ω) := |{i|Xi (ω)<x}| mittels der n Stichprobe (x1 , . . . , xn ) aufgefasst werden. Die Folge reellwertiger Zufallsvariabler Fn (x, ·) erfüllt folgende Eigenschaft: Anmerkung 2 (Gliwenko-Cantelli, 1933) Es sei Dn (ω) := sup |Fn (x, ω) − F (x)| x∈IR so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1. In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine gute Approximation von F ist, geht mit wachsendem n gegen Eins. Je mehr Messungen man macht, “desto unwahrscheinlicher” sind “größere” Differenzen zwischen Fn und F . 4 Es gibt folgende Grundtypen des Schätzens in der schließenden Statistik: • Parameterschätzung5 . Man hat eine Zufallsvariable X mit einer Verteilung der Form F (x, θ) vor sich, bei der θ in einem d-dimensionalen Parameterbereich Θ liegt. Ist X z.B. N (µ, σ 2 )-verteilt, so ist d = 2 und θ = (µ, σ). Nun soll der Parameter θ mittels einer Stichprobe (x1 , . . . , xn ) ∈ (IRd )n geschätzt werden. Dazu benötigt man eine geeignete Schätzfunktion6 Z : IRn → IRd , und berechnet dann den Schätzwert θ ≈ Z(x1 , . . . , xn ). Für viele Formen von F (x, θ) des Gebrauchs kennt man solche Schätzfunktionen, vor allem fürPdie Parameter von normalverteiltem X, nämlich Stichprobenmittel µ ≈ x̄ := n1 ni=1 xi und Stichprobenvarianz P n 1 2 Die entsprechenden Schätzfunktionen sind dann σ 2 ≈ s2n := n−1 i=1 (xi − x̄) . P 1 Pn 1 2 X̄ := n i=1 Xi bzw. Sn := n−1 ni=1 (Xi − X̄)2 . 4 Genau wie beim Bernoulliexperiment ergibt sich beim Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die aus der Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für F (x) ist. 5 =Punktschätzung. 6 =Stichprobenfunktion=Punktschätzer 1.3. Schätz- und Testverfahren 19 Das Auffinden einer Schätzfunktion Z geschieht z.B. mittels Momentenmethode7 oder Maximum Likelihood Schätzung. • Intervallschätzung für reelles θ mit Konfidenzniveau 1 − α. Die Zufallsvariable X hat eine von einem reellen Parameter θ abhängige Verteilungsfunktion F (x, θ). Es soll θ bei vorgegebener Irrtumswahrscheinlichkeit α (bzw.Konfidenzniveau 1 − α) geschätzt werden. Es sei x := (x1 , . . . , xn ) die Stichprobe. Man konstruiert reellwertige Schätzfunktionen θ, θ : IRn → IR, sodaß der zu schätzende Parameter θ sich mit (1 − α) × 100%iger Wahrscheinlichkeit im Konfidenzintervall (θ(x), θ(x)) befindet. Die Werte θ(x) und θ(x) heißen Vertrauensgrenzen. Die Funktionen θ, θ hängen auch von n ab, sodaß man bei Erhöhen von n auf Verkleinerung des Konfidenzintervalls hofft. • Prüfen von Hypothesen. Es wird von einer Aussage H0 über F ausgegangen, die als Nullhypothese bezeichnet wird, und die man bei vorgegebenem Risiko α, dem Signifikanzniveau aufgrund der Stichprobe (x1 , . . . , xn ) als abzulehnen (“a-0ieren”) qualifizieren möchte. Etwa, daß eine gewisse N (µ, σ 2 )-verteilte Zufallsvariable die Bedingung H0 :“µ = µ0 ” erfüllt, und aus “Modellgründen” H0 nicht zu erwarten ist. Nun wird im Testverfahren ein kritischer Bereich (eine Teilmenge Kα von IRn ) angegeben, sodaß man H0 mit Irrtumswahrscheinlichkeit α verwirft, sofern (x1 , . . . , xn ) im kritischen Bereich liegt. Je kleiner α ist, desto höher wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, ein passender Annahmebereich A gewählt, in den t fallen sollte. Es gibt Parametertests, bei denen die H0 eine Aussage über einen Parameter macht, und Anpassungstests, bei denen entschieden wird, ob die Daten zu einer behaupteten Verteilung passen. • Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall geht es um eine IR2 wertige Zufallsvariable (X, Y ) und eine Meßreihe {(xi , yi )}ni=1 . Dann liegt eine “Punktwolke” von Daten vor. Nun versucht man, oft unter Annahme einer Normalverteilung, eine Dichtefunktion zu erraten, deren Graph konzentrische Ellipsen als Schichtlinien aufweist. Darüber gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. 1.3 1.3.1 Schätz- und Testverfahren Parameterschätzung Von einer zufälligen Variablen X : Ω → IRk hat man Grund zur Annahme, daß sie einer Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ IRd ein Parameter ist (z.B. das p im Falle ei7 soll hier nicht vorgeführt werden, siehe z.B. [18] 20 Statistik nes Laplace-W-Raumes, (a, b) ∈ IR2 im Falle der Rechtecksverteilung, (n, p) ∈ IR2 für die Bernoulliverteilung, oder (µ, σ) ∈ IR2 im Falle der Gaußschen Normalverteilung). Nun wird eine Stichprobe x := (~x1 , . . . , ~xn ) ∈ (IRk )n ermittelt, d.h., es werden für i = 1, . . . , n Messungen der Variablen X mit Ergebnis ~xi ∈ IRk durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z : (IRk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Ein Schätzer Z kann eine oder mehrere der folgenden Eigenschaften haben: 1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias oder Verzerrung. Meist wird ein erwartungstreuen Schätzer verwendet. 2. Z ist konsistent8 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n), und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0 ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist. 3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 , falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente Schätzer. Oft gebrauchte Schätzer sind das Stichprobenmittel für den Erwartungswert und die Stichprobenvarianz für die Varianz: Anmerkung 3 Schätzer für ¯ := ~ ist das Stichprobenmittel9 ~x Erwartungswert E(X) erwartungstreu und konsistent. In Beispiel 1 (S.16) 2. findet man x̄ = 13 + 0.1 + 0.1 − 0.2 + 0.1) = 13.01. 1 10 (0.1 1 n Pn xi i=1 ~ . Der Schätzer ist − 0.1 + 0.0 − 0.1 + 0.2 + 0.1 − Varianz V (X) (skalares X) ist die Stichprobenvarianz s2n := 1 n−1 Entsprechend wird σ durch sn geschätzt. Der Schätzer ist erwartungstreu. In Beispiel 1 (S.16) 2. findet man P 2 s2n = 19 10 i=1 (xi − 13.01) 1 2 2 = 9 (0.09 + 0.11 + 0.012 + 0.112 + 0.192 +0.092 + 0.112 + 0.092 + 0.212 + 0.092 ) ≈ 0.0166 Somit ist sn ≈ 0.13. 8 andere Bezeichnung: asymptotisch erwartungstreu. Pn i=1 (xi − x̄)2 . 1.3. Schätz- und Testverfahren 21 Beispiel 4 (Schätzung einer unbekannten Wahrscheinlichkeit p). Es sei p die Wahrscheinlichkeit ein fehlerhaft produziertes Stück in der Jahresproduktion zu finden. Um nicht jedes Stück testen zu müssen, beschließt man, 30 Wochen lang jeweils 5 Stück der Wochenproduktion “zufällig” zu entnehmen und Fehlstücke zu zählen: Eine Strich- oder Urliste entsteht, und Anzahl d 0 1 2 3 4 5 schließlich die rechts abgebildete HäufigFehler/5erkeitstabelle. Z.B. besagt die vorletzte Pack Spalte, daß nur in einer der wöchentlich Zahl d Pro- 16 7 4 2 1 0 gezogenen Fünferproben 4 Stücke fehlerben haft waren. Es ist Ω die Jahresproduktion und X(ω) = 1 falls das Stück ω fehlerhaft ist, andernfalls ist X(ω) = 0. Dann ist E(X) = p die von uns zu schätzende Wahrscheinlichkeit. Da wir 150 25 Stück testen, ist n = 150 und somit x̄ = 16×0+7×1+4×2+2×1+0×5 = 150 ≈ 0.17 der Schätzwert. 150 Dabei wird durchaus geschwindelt: Die 150 Stück werden im Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben keine Beeinflussung von p annimmt. Beispiel 5 Beweisskizze 1. (für die Erwartungstreue von X̄) Der Schätzer ist eine Zufallsvariable und n 1X Xi X̄ := n i=1 erweist sich als erwartungstreu, weil E(X̄) = n n i=1 i=1 1X 1X E(Xi ) = E(X) = E(X) n n ist. 2. (für die Konsistenz des Stichprobenmittels X̄) Die Ungleichung von Tschebyscheff (Anmerkung 292 (S.326)) ergibt, indem man dort statt X unser X̄ einsetzt: P (|X̄ − E(X̄)| ≥ ) ≤ V (X̄) . 2 Es hängt X̄ von n ab. Wenn nun für wachsendes n der Ausdruck auf der rechten Seite der Ungleichung gegen Null P geht, ist die Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (X̄) = V ( n1 ni=1 Xi ) berechnet werden, wobei wegen der Annahme der ~ := 1 Pn X ~ i (auch mit X̄ bezeichnet) eine auf Ω definierte Eigentlich ist das Stichprobenmittel gleich Z X i=1 n k Zufallsvariable und x̄ deren Realisation im IR aufgrund von Messung und Rechnung. Ähnliches gilt für die Stichprobenvarianz Sn2 bzw. s2n . 9 22 Statistik Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 284 (S.313) gilt, sodaß E(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2 berücksichtigt werden kann: P V (X̄) = E(X̄ 2P ) − E(X̄)2 =P E(( n1 ni=1 Xi )2 ) − µ2 Xi Xj ) − µ2 = n12 E( ni=1 Xi2 + 2 1≤i<j≤n = n12 nE(X 2 ) + 2 n2 µ2 − µ2 = V (X) n . Somit enthält die rechte Seite in der Tschebyscheffschen Ungleichung den Faktor n1 , der die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt. 3. (für die Erwartungstreue der Stichprobenvarianz Sn2 ) Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her? 1 Pn 2 Antwort: Man betrachtet die Zufallsvariable ZX = n−1 i=1 (Xi − X̄) , in der X̄ := P P P n n n 1 2 2 2 i=1 Xi ist. Es ist E( i=1 (Xi − X̄) ) = i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) = n 2 2 nE(X 2 ) + nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X ähnlich wie im vorigen Beispiel Pn ) − E(2X̄ ). Die 1 2 laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und Einsetzen ergeben ! n 1 X E (Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X). n−1 i=1 Das (n − 1) braucht man für die Erwartungstreue! Anmerkung 6 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ IRn hat, kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂. Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden kann. Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die Gestalt n Y L(x, θ) := f (xi , θ). i=1 Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als “wahrscheinlichste Beobachtung” zu interpretieren, m.a.W., θ̂ so zu wählen, daß das Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn ) auswertet. Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ} 1.3. Schätz- und Testverfahren 23 gefunden wird. Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl der xi eindeutig ist, kann man die einfachere Gleichung ∂ L(x1 , . . . , xn , θ) = 0 ∂θ nach θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt, falls θ ∈ IRd ist). Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten. Beispiel 7 Beispiele hierzu: 1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses. Es sei möglich, das Bernoulliexperiment (Beispiel 293 (S.327)) auszuführen, d.h. man setzt X : Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus, daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht ist ein MLS für p. P Wie in Beispiel 293 (S.327) ausgeführt, ist S := ni=1 xi verteilt gemäß L(x1 , . . . , xn , p) = pS (1 − p)n−S . Differenzieren nach p und Null setzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 − S)pS (1 − p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das Stichprobenmittel 1 S(x) = Z(x1 , . . . , xn ) = (x1 + · · · + xn ) n kommt. 2. Es sei X : Ω → IR eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 275 (S.301) 3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe (x1 , . . . , xn ) ∈ IRn hat. 1 , falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich Die Verteilungsdichte ist b−a 1 L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximum dort an, wo b − a unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi | i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n} und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu. 3. Es sei X : Ω → IR eine auf IR+ bezüglich einer Exponentialverteilungsdichte (Beispiel 290 (S.322)) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ. Pn Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0 verschwindet. Durch Differenzieren nach dem Parameter λ ergibt sich zunächst 0 = 24 Statistik nλn−1 e−λS − λn Se−λS , wobei S := Pn i=1 xi . Elementare Rechnung ergibt den MLS n Z(x1 , . . . , xn ) := Pn i=1 xi 1.3.2 . Intervallschätzung Die Zufallsvariable X habe eine Dichte der Gestalt f (x, θ) mit reellem Parameter θ. Während ein Punktschätzer Z, wie im vorigen Unterabschnitt ausgeführt, bei gegebener Stichprobe x := (x1 , . . . , xn ) einen Näherungswert θ ≈ Z(x1 , . . . , xn ) angibt, geht man beim Intervallschätzen (als allgemeines Schema) wie folgt vor: 1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben. 2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : IRn → IR, derart, daß θ(x) ≤ θ(x) gilt. 3. Die Messungen xi sind unabhängige Realisationen von identisch wie X verteilten Zufallsvariablen Xi , die in einem Vektor X := (X1 , . . . , Xn ) zusammengefaßt sind. Entsprechend sind die beiden Funktionen θ(x) und θ(x) Realisationen der Zufallsvariablen θ(X) und θ(X). Für diese beiden Zufallsvariablen wünscht man sich die Garantie P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α. In Worten: Mit 100 × (1 − α)%er Wahrscheinlichkeit ist θ im Intervall. Anders ausgedrückt: Der Fehler 1.Art, nämlich daß θ zu Unrecht im Intervall vermutet wird, wird mit Irrtumswahrscheinlichkeit α begangen. 4. Hat man diese “theoretische Vorarbeit”, nämlich 1.–3. geleistet, ermittelt man mittels der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie: “Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x] liegt, ist zumindest 1 − α. ” Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken an, mit hoher Wahrscheinlichkeit werden sie dabei “enger”. 5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd normalverteilt angenommen werden darf: (a) Die Binomialverteilung B(n, p) (siehe Beispiel 287 (S.318)) ist es (in der Praxis), 9 wenn n > p(1−p) (vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 295 (S.330)). (b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl. Anmerkung 295 (S.330) und dort das Beispiel zum Physikpraktikum. 1.3. Schätz- und Testverfahren 25 Am häufigsten will man bei Vorliegen einer Stichprobe und vorgegebenem α ein Intervall finden, in dem sich µ bzw. σ mit Wahrscheinlichkeit 1 − α befinden. In diesem Fall kann 1.-3., die “Vorarbeit”, wie folgt zusammengefaßt werden: Anmerkung 8 Es sei X Zufallsvariable und α ∈ [0, 1] die Irrtumswahrscheinlichkeit. Weiter sei xi für i = 1, . . . , n eine unabhängige Messreihe für X. X nimmt nur 0 und 1 an. Die Wahrscheinlichkeit p für “X = 1” soll eingegrenzt werden. Vorgehensweise: P • Ermittle das Stichprobenmittel x̄ = n1 ni=1 xi . Konkret ist das nk , wobei k die Anzahl der Indizes i ist, für die xi = 1 ist. • Ermittle z := z1− α2 für die Normalverteilung N (0, 1). • Finde die Lösungen p− < p+ der in p quadratischen Gleichung z2 z2 2 p 1+ − p 2x̄ + + x̄2 = 0 n n • Antwort: Mit 100 × (1 − α)%er Sicherheit ist p ∈ (p− , p+ ). Beispiel: Sei n = 10000 und x̄ = 3 × 10−3 und α = 0.1. Es ist 1 − α2 = 0.95 und das 0.95-Quantil von N (0, 1) approximativ 1.645 (entweder Tabelle für Φ oder der R-Befehl qnorm(0.95,0,1)). Die quadratische Gleichung wird zu p2 (1+2.7·10−3 )− p(2 · 3 · 10−3 + 2.7 · 10−5 ) + 9 · 10−10 = 0 und nach Einsatz von z.B. MAPLE findet man: Antwort: Mit 90%er Sicherheit ist p im Intervall (2.7.10−3 , 3.3 × 10−3 ). Anmerkung: Die Verwendung von Φ ist durch den ZGWS begründbar, sobald die 9 Faustregel n > p(1−p) gilt. Sie ist für x̄ richtig, ein positives Indiz – nicht mehr10 X ist N (µ, σ 2 ) verteilt und µ soll bei bekanntem σ eingegrenzt werden: Vorgehensweise: P • Ermittle das Stichprobenmittel x̄ = n1 ni=1 xi . • Berechne z := z1− α2 , das 1 − α 2 Quantil der Normalverteilung N (0, 1). • Antwort: Mit 100 × (1 − α2 )%er Wahrscheinlichkeit liegt µ im Intervall (x̄ − zσ zσ √ , x̄ + √ ). n n Beispiel: In Beispiel 1 (S.16) 2. wurde die Länge eines Stabes gemessen. Es war n = 10, x̄ = 13.01. Nun soll angenommen werden, daß X normalverteilt (GaussFehlergesetz) und σ ≈ 0.1 ist. (Vielleicht hat man auf s10 ≈ 0.13 geschielt) Man gebe man ein Intervall an, in dem µ mit 0.99%er Sicherheit liegt (d.h. α = 0.01). 26 Statistik Es ist 1 − α2 = 0.995 und z = z0.995 ≈ 2.576 (aus einer Φ-tabelle oder den R-Befehl qnorm(0.995,0,1)). Die simple Rechnung ergibt 99%e Sicherheit, daß die Länge im Bereich (13.01 − 0.081, 13.01 + 0.081) = (12.96, 13.062) liegt. X ist N (µ, σ 2 ) verteilt und µ soll eingegrenzt werden: Vorgangsweise fast wie im vorigen Beispiel, nur σ ≈ sn und z gehört zur Tschebyscheff-Verteilung in n − 1 Freiheitsgraden (kommt in Anmerkung 13 (S.29)): P • Ermittle das Stichprobenmittel x̄ = n1 ni=1 xi , die Stichprobenvarianz s2n := p 1 Pn 2 s2n . i=1 (xi − x̄) und s := n−1 • Berechne z := z1− α2 , das 1 − • Antwort: Mit 100 × (1 − zs √ , x̄ + √zsn ). n α 2 Quantil der tn−1 -Verteilung. α 2 )%er Wahrscheinlichkeit liegt µ im Intervall (x̄ − Beispiel: In Beispiel 1 (S.16) 2. wurde die Länge eines Stabes gemessen. Es war n = 10, x̄ = 13.01 und s2n−1 ≈ 1.3 × 10−1 . Wieder soll α = 0.01 sein. Es ist 1 − α2 = 0.995 und z = z0.995 ≈ 2.576. Da 10 Messungen vorliegen, ist die QuantileTabelle einer t9 Verteilung gefragt, bzw. der R-Befehl qt(0.995,9) tut es auch, um −2 √ ≈ 0.04. z ≈ 3.25 zu ergeben. Der Term √zsn = 3.26×3.96×10 10 Antwort: Mit 99%er Sicherheit ist die Länge des Stabes im Bereich (12.97, 13.05). X ist N (µ, σ 2 ) verteilt und σ soll eingegrenzt werden: Vorgangsweise P • Ermittle das Stichprobenmittel x̄ = n1 ni=1 xi , die Stichprobenvarianz s2n := p P n 1 2 s2n . i=1 (xi − x̄) und s := n−1 • Ermittle a := z α2 und b := z1− α2 für die χn−1 Verteilung (Chi-Verteilung in n − 1 Freiheitsgraden). • Antwort: Mit √ √ 100×(1 − α)%er Sicherheit liegt die Varianz σ im Intervall (n−1) (n−1) ( b s, s). a Beispiel: In Beispiel 1 (S.16) 2. wurde die Länge eines Stabes gemessen. Es war n = 10, x̄ = 13.01 und s2n−1 ≈ 1.3 × 10−1 . Es soll α = 0.1 sein. Es soll σ eingegrenzt werden. Es ist α2 = 0.05 und a = z0.05 ≈ 3.325 (Tabelle oder R-Befehl qchisq(0.05,9)) und b = z0.95 ≈ 16.92. Die Intervallgrenzen ergeben sich approximativ zu (0.09, 0.2). Antwort: Mit 90%er Sicherheit ist die Streuung im Bereich (0.09, 0.2). 10 Man kann auch hier eine Sicherheit angeben, mit der p die Faustregel erfüllt, das soll hier nicht vorgeführt werden. 1.3. Schätz- und Testverfahren 27 Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n “flach” verläuft. Beispiel 9 Im Nachfolgenden findet man Begründungen der Methoden sowie tn und χn .. 1. (BW: Schätzen einer unbekannten Wahrscheinlichkeit p) Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit √ nicht näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt (wir wissen das aus Beispiel 282 (S.310) 3.) verteilt. Nun besagt der ZGWS unter √ √ √ √ Zuhilfenahme von Beispiel 291 (S.323) 4., daß X̄−µ n = X̄−p n approximativ N (0, 1)pq pq verteilt ist. √ √ Als nächstes brauchen wir die Ungleichung |X̄−p| n < z in etwas anderer Form bepq schrieben, nämlich 11 p ∈ (p̂− (ω), p̂+ (ω)), wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung z2 z2 2 − 2X̄(ω) + p + X̄ 2 (ω) = 0 p 1+ n n sind. Anwendung des ZGWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung 295 √ (S.330)) ergibt wegen Beispiel 291 (S.323) 6. P (| X̄−p n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. σ α Lösen der letzten dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 . Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von z2 z2 2 p 1+ − 2p̂ + p + p̂2 = 0. (1.1) n n 2. (BW: Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ 2 )verteilte Zufallsvariable X : Ω → IR.) 1 Pn Die Stichprobenfunktion X̄ := n i=1 Xi : Ω → IR ist wegen Beispiel 291 (S.323) 2 N (µ, σn )-verteilt. Deshalb ist X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1. σ Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in äquivalenter Form als zσ zσ X̄ − √ ≤ µ ≤ X̄ + √ n n 11 2 z n Die völlig elementare Herleitung geht so: p− 2 z n p2 ⇔ obige Bedingung. |X̄−p| √ √ n pq < z ⇔ (X̄ − p)2 < z2 (p(1 n − p) ⇔ p2 − 2pX̄ + X̄ 2 < 28 Statistik zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2 der Gleichung 2Φ(z) − 1 = 1 − α. Antwort: Es ist unter Verwendung der Funktion x̄ : IRn → IR, definiert durch x̄(x1 , . . . , xn ) := 1 Pn i=1 xi das Paar n zσ θ(x) = x̄(x) − √ , n zσ θ(x) = x̄(x) + √ n ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ zσ tie, daß µ im Intervall (x̄(x) − √ , x̄(x) + √ ) liegt, wobei x die Tabelle der (durch n n Zufallsexperiment) ermittelten Werte von X ist. Wir erinnern an die Gammafunktion. Anmerkung 10 Die Gammafunktion ist für positive x durch Z ∞ Γ(x) := e−t tx−1 dt 0 definiert. Beispiel 11 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist durch ( 0 x≤0 f (x) := 1 −x/2 xn/2−1 x > 0 e 2n/2 Γ(n/2) definiert. Man kann E(X) = n und V (X) = 2n zeigen (etwa in [18]). Der “Freiheitsgrad” n kommt daher, daß man für n unahbhängige N (0, 1)-verteilte Zufallsvariable Xi : Ω → IR Pn 2 zeigen kann, daß die Zufallsvariable i=1 Xi : Ω → IR eine χ2 -Verteilung in n Freiheitsgraden hat. Die Idee der Herleitung ist ähnlich wie im Falle der Gleichverteilung in Beispiel 282 (S.310) 2. Beispiel 12 (tn - oder Studentverteilung12 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → IR ist durch −(n+1)/2 1 Γ((n + 1)/2) x2 √ fX (x) := 1+ Γ(n/2) n nπ n gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2 . Im weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat. Y /n 12 Sie wurde von W.S. Gosset auf empirischem Weg gefunden und unter dem Pseudonym “Student” 1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen. 1.3. Schätz- und Testverfahren 29 Anmerkung 13 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten für eine beliebige, reellwertige N (µ, σ 2 )-verteilte Zufallsvariable X: • Das Stichprobenmittel n 1X X̄ = Xi n i=1 2 ist für unabhängig durchgeführte Experimente N (µ, σn )- verteilt (siehe Beispiel 291 (S.323)). • Die normierte Stichprobenvarianz n 1 X Y := 2 (Xi − X̄)2 σ i=1 erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz n S 2 := 1 X (Xi − X̄)2 n−1 i=1 in der Gleichung Y = (n − 1)S 2 σ2 vorkommt. • Die Stichprobenfunktion X̄ − µ √ √ n, S2 (welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen √ n ist – das Z ist wie im ZGWS Anmerkung 295 (S.330)), ist tn−1 -verteilt. Z = X̄−µ σ • Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert (z.B. in [3]), bzw. in Statistiksoftware, wie z.B. R, zugänglich. Beispiel 14 Nun Begründugen für die Methoden in Anmerkung 8 (S.25), bei denen χ2n−1 und tn−1 benützt wird. 1. (BW: Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ 2 )-verteilte Zufallsvariable) √ Wie in Anmerkung 13 (S.29) ausgeführt worden ist, genügt X̄−µ n einer tn−1 -Verteilung. S Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert vorliegt), so 30 Statistik hat man in Analogie zu Beispiel 9 (S.27), 2. P (| X̄ − µ √ n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α, S wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hierzu die an Beispiel 291 (S.323) 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der tn−1 -Verteilung ([14]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 . Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 9 (S.27) 2. ergibt zS zS P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α. n n P 1 Pn 2 Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1 i=1 (xi − x̄) , und z die Lösung von Tn−1 (z) = 1 − α2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung). 2. (BW: Intervallschätzung für σ einer N (µ, σ 2 )-verteilten Zufallsvariablen X : Ω → IR bei nicht bekanntem µ. ) Diese Schätzung ist vor allem dann interessant, wenn man nur wissen will, ob die Meßwerte stark streuen. Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß die Ungleichung |σ 2 − σ̂ 2 | < z mit P Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 = n 1 2 i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten n−1 mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt. P Wegen Anmerkung 13 (S.29) ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist P (a ≤ Y ≤ b) = F (b) − F (a), wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen 2 1 Pn 2 Y = (n−1)S (zur Erinnerung, S 2 = n−1 i=1 (Xi − X̄) ) in äquivalenter Form als σ2 (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ b a angeschrieben werden kann, ergibt sich P( (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ ) = F (b) − F (a) = 1 − α, b a sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2 und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt aber F (b) − F (a) = 1 − α. 1.3. Schätz- und Testverfahren 31 Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die 1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die (n−1)s2 1 Pn 1 Pn Funktionen s2 = n−1 i=1 (xi − x̄) (wobei x̄ := n i=1 xi ) und findet θ(x) = b 2 und θ(x) = (n−1)s . Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so a wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit ≥ 1 − α in diesem Intervall liegt. Beispiel 15 Abschließendes Beispiel, die Tabelle in Beispiel 1 (S.16) benützend: Welche obere Grenze für σ 2 kann mit 90%-iger Sicherheit aus der Messtabelle des Stabes ermittelt werden? (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser Wert ist.) Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das −2 rechte Intervallende zu 9×1.66×10 ≈ 0.036. 4.168 Antwort: Mit 90%-iger Wahrscheinlichkeit ist σ 2 < 0.036. 1.3.3 Statistische Testverfahren In Beispiel 1 (S.16) sind folgende Aussagen des Produzenten denkbar: 1. Der Stab hat die Länge 13.00 Einheiten und es liegt eine Messtabelle vor (n = 10), die das bestätigt. 2. Die W-Verteilung für den Würfel ist Gleichverteilung auf {1, 2, 3, 4, 5, 6} und es liegt eine Messtabelle (n = 1000) vor, die das bestätigt. Testverfahren dienen dazu, bei “kalkuliertem Risiko 0 ≤ α ≤ 1”, dem sogenannten Signifikanzniveau, diese Behauptung “aufgrund der Messtabelle” abzulehnen. Wir geben eine abstrakt formulierte Beschreibung, die im Anschluß anhand obigen Beispiels erläutert werden wird. Anmerkung 16 (Grundidee für Testverfahren) Gegeben sei eine Familie F von Verteilungen von Zufallsvariablen, eine Teilfamilie F0 und F ∈ F. Als Nullhypothese H0 über F ∈ F bezeichnet man die Aussage H0 : “F ∈ F0 ”. Ein Testverfahren besteht bei vorgegebener Signifikanz 0 ≤ α ≤ 1 und Vorliegen einer Stichprobe x ∈ IRn in der Konstruktion einer Teilmenge Kα des IRn (dem kritischen Bereich), mit W-Maß PF (X ∈ Kα ) < α. Dabei ist X = (X1 , . . . , Xn ) der Zufallsvektor, welcher den n unabhängigen Messungen mit Ergebnis x entspricht. H0 wird genau dann abgelehnt, wenn x ∈ Kα liegt. Wegen PF (X ∈ Kα ) < α hat damit der Fehler 1.Art “H0 wahr, wurde jedoch abgelehnt” höchstens Wahrscheinlichkeit α. Für F ∈ F \ F0 ist PF (X 6∈ Kα ) die Wahrscheinlichkeit für den Fehler 2.ter Art, nämlich “H0 ist falsch, wurde jedoch nicht abgelehnt”. Es ist von Interesse, daß Fehler 2.ter Art möglichst kleine Wahrscheinlichkeit haben. 32 Statistik Im 2.ten Beispiel, jenem mit dem Würfel, ist F die Menge aller Verteilungen auf Ω := {1, 2, 3, 4, 5, 6} und F0 = {F0 }, wobei F0 jene Verteilung ist, für die alle Elemente in Ω Wahrscheinlichkeit gleich 61 besitzen. In Beispiel 21 (S.35) wird der χ2 -Test herangezogen werden. Parametrische Tests Im 1.ten Beispiel, jenem mit dem Stab, ist die Länge eine Zufallsvariable und “technisch gesprochen” wurde “H0 : µ ≥ 13” behauptet. Dann ist F die Menge aller Normalverteilungen N (µ, σ 2 ) und alle Verteilungen F in F0 erfüllen µF ≥ 13. Ein entsprechender Test ist parametrisch, weil der Parameter µ getestet wird. Die formale Definition hierfür lautet: Anmerkung 17 (Grundidee des parametrischen Tests) Es ist F = {Fθ | θ ∈ Θ}. Dabei ist Θ eine Teilmenge im IRd und θ ein d-dimensionaler Parameter. Eine Partition Θ = Θ0 ∪ Θ1 bewirkt eine Partition von F = F0 ∪ F1 für F0 := {Fθ | θ ∈ Θ0 } und F1 := F \F0 . Dann lautet die Nullhypothese unter Verwendung der Parametrisierung “θ ∈ Θ0 ”. Jede Verteilung Fθ gibt Anlaß zu einem W-Maß Wθ auf IRn . Es ist g : Θ → [0, 1], definiert als g(θ) := Wθ (X ∈ Kα ) die Gütefunktion des Tests, wobei Kα , wie vorhin, der kritische Bereich ist. Wenn θ ∈ Θ1 ist, so nennt man g(θ) die Trennschärfe des Tests (auch Macht (engl. Power) genannt). Bei gegebenem Signifikanzniveau α wird Kα oft wie folgt festgelegt: • Aufstellen einer Stichprobenfunktion T : Rn → R (die Testgröße) sodaß die Zufallsvariable T (X) für alle θ ∈ Θ0 eine “rechnerisch zugängliche” (Prüf-) Verteilung hat, und Festlegen eines Schwellenwerts c > 0 mit Wθ (|T (X1 , . . . , Xn )| > c) ≤ α für alle θ ∈ Θ0 gilt. • Dann ist mit Kα = {x ∈ IRn | |T (x)| > c} der kritische Bereich eines Parametertests zum Niveau α gegeben. Verbesserung der Trennschärfe: Man wählt meist zwei reelle Schwellenwerte c1 < c2 (c1 = −∞ und/oder c2 = ∞ kann auch vorkommen), so dass für alle θ ∈ Θ0 Wθ (X ∈ [c1 , c2 ]) ≥ 1 − α . Dann ist Kα = {x ∈ IRn | T (x) 6∈ [c1 , c2 ]} kritischer Bereich eines (asymmetrischen) Parametertests zum Niveau α. Wir geben jetzt die gebräuchlichsten Situationen an. Dabei hat man es meist mit einer Familie von Normalverteilungen zu tun: Anmerkung 18 (F ist eine Familie von Normalverteilungen). Erwartungswert “H0 : µ = µ0 ”: P • Ermittle das Stichprobenmittel x̄P = n1 ni xi und eine Schätzung von σ, etwa n 1 2 die Stichprobenvarianz s2n = n−1 i=1 (xi − x̄) . 1.3. Schätz- und Testverfahren 33 √ xn − µ0 . n sn • Antwort: Es wird H0 abgelehnt, wenn |T (x)| > z1− α2 ist. • Bestimme den Wert der Testfunktion T (x) = Beispiel: Für das Signifikanzniveau α = 0.01 soll festgestellt werden, ob “H0 : Länge des Stabes = 13.0.” abgelehnt werden kann. Antwort: In Anmerkung 8 (S.25) ergaben sich z1− 0.01 = z0.995 ≈ 1.833, x̄ ≈ 13.01 2 √ und s210 ≈ 0.13, sodaß T (x) = 10 x̄−13.0 = . . . ≈ −0.087. Hier kann H0 nicht s10 verworfen werden da | − 0.087| > 6 z0.995 ≈ 1.833 ist. Erwartungswert “H0 : µ > µ0 ”: • Wie gehabt, x̄ und s2n berechnen. √ xn − µ0 n . sn • Antwort: Es wird H0 abgelehnt, wenn T (x) < −z1−α ist. • Bestimme den Wert der Testfunktion T (x) = Beispiel: Für das Signifikanzniveau α = 0.01 soll festgestellt werden, ob “H0 : Länge des Stabes im Einleitungsbeispiel ist mindestens 13.2.” abgelehnt werden kann. √ Antwort: Es ergibt sich T (x) = 10 x̄−13.2 = . . . ≈ −4.62 und z1−α = z0.99 ≈ s10 2.326348. Deshalb gilt T (x) ≈ −4.62 < −2.326348 ≈ −z1−α und somit ist H0 abzulehnen. Erwartungswert “H0 : µ < µ0 ”: • Wie gehabt, x̄ und s2n berechnen. √ xn − µ0 n . sn • Antwort: Es wird H0 abgelehnt, wenn T (x) > z1−α ist. • Bestimme den Wert der Testfunktion T (x) = Beispiel: Für das Signifikanzniveau α = 0.01 soll festgestellt werden, ob “H0 : Länge des Stabes im Einleitungsbeispiel ist nicht größer als 13.2.” abgelehnt werden kann. √ Antwort: Es ergibt sich T (x) = 10 x̄−13.2 = . . . ≈ −4.62 und z1−α = z0.99 ≈ s10 2.326348. Deshalb gilt T (x) ≈ −4.62 6> 2.326348 ≈ z1−α und somit kann H0 nicht abgelehnt werden. Beispiel 19 Einfache Beispiele: 1. Für eine Münze sei “H0 : K(opf) kommt mit Wahrscheinlichkeit 12 ”. Nach 100 Würfen ergibt sich 46 mal Kopf. Kann mit H0 mit Signifikanz α = 0.1 aufgrund des Tests abgelehnt werden? Antwort: Es liegt ein Bernoulliexperiment vor, bei dem Xi = 1 wenn Kopf kommt, 34 Statistik sonst Xi = 0. Dann ist µ0 = 12 und, aufgrund der Daten x̄ = 0.46, sowie s2100 = P100 P100 1 1 2 1 1 P46 2 2 2 i=47 (0 − 0.46) == 99 (46 × 0.54 + 54 × i=1 (xi − 2 ) = 99 i=1 (1 − 0.46) + 100−1 1 √ 0.46− 0.462 ) ≈ 0.25. Als Wert der Testfunktion ergibt sich T (x) = 10 √0.252 ≈ −0.25. Nun ist z1− α2 = z.95 ≈ 1.64. Weil nun |T (x)| = 0.25 6< 1.64 ≈ z1− α2 , kann H0 nicht abgelehnt werden. Anmerkung: Der kritische Bereich wurde für µ 6= µ0 mittels Konfidenzintervall kon√ X̄− 1 struiert. Unter Verwendung des ZGWSes (Anmerkung 295 (S.330)) ist Z = n sn 2 approximativ N (0, 1)-verteilt. 2. (t-Test) Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese “µX = µY ” und H1 die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung von H0 zu entwickeln. Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y als normalverteilt (vgl.Beispiel 291 (S.323)). Nun betrachtet man das neue Problem Z = 0 versus Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau 1 − α festlegt. Als Ergebnis dieser Vorgangsweise findet man den t-Test: s nX nY (nX + nY − 2) X̄ − Ȳ T (X, Y ) := q . nX + nY (n − 1)S 2 + (n − 1)S 2 X X Y Y Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen. Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt. Anpassungstests Anmerkung 20 χ2 -Test) Ausgangssituation: Es sei X : Ω → IR eine Zufallsvariable mit Verteilung FX . Eine Verteilung F0 , eine Signifikanz 0 ≤ α ≤ 1 sind gegeben und “H0 : FX = F0 ”. Aufgrund einer Stichprobe x = (x1 , . . . , xn ) ∈ IRn unabhängig ermittelter Zufallswerte von X soll mit Signifikanz α entschieden werden, ob H0 abzulehnen ist. Testmethode: Unter Benützung der Stichprobe x werden zunächst Klassen gebildet, d.h. eine Unterteilung von IR in paarweise disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann |{i | xi ∈ [ak , bk )}| hk := n die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie approximativ gleich pk ist. Aus dem Satz von Gliwenko-Cantelli ist herleitbar, daß 1.3. Schätz- und Testverfahren 35 für hinreichend großes n die Pearsonsche Stichprobenfunktion χ2 := n X (hk − pk )2 k pk = X (|{i | xi ∈ [ak , bk )}| − npk )2 npk k approximativ χ2m−1 -verteilt ist. Antwort: H0 wird verworfen, wenn der Wert der Pearsonschen Stichprobenfunktion das (1 − α)-Quantil χ21−α;m−1 überschreitet. Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk > einzuhalten (wegen der “versteckten” Benützung des ZGWSes). 9 pk qk Beispiel 21 Wir kommen auf Beispiel 1 (S.16) 1. zurück: Von einem Würfel liegt die Tabelle Augenzahl 1 2 3 4 5 6 Häufigkeit 168 173 164 167 162 166 vor. Es sei F0 die Gleichverteilung, d.h. jede Augenzahl kommt mit Wahrscheinlichkeit 61 vor und die Nullhypothese soll “FX = F0 ” lauten. Kann H0 bei Signifikanz α = 0.005 abgelehnt werden? Antwort: Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede erfüllt nk > 160 ≥ 95 = 64.8. 36 Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000 6 zu berücksichtigen ist: χ2 = 1000 2 2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2 (173 − 1000 6 ) 6 ) 6 6 6 6 + + + + + 1000 1000 1000 1000 1000 1000 6 6 6 6 6 6 (168 − 107 Es ergibt sich als Wert 250 = 0.428. Nun berechnet man das 1−0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 = 16.75 ergibt13 , also ist H0 nicht abzulehnen. Anmerkung 22 (Kolmogorov-Smirnovtest) Ausgangssituation: Es besitze die Zufallsvariable X : Ω → IR eine stetige Verteilung FX und F0 ist eine gegebene stetige Verteilungsfunktion. Es liegt eine Stichprobe x = (x1 , . . . , xn ) ∈ IRn vor. Bei gegebener Signifikanz 0 ≤ α ≤ 1 soll entschieden werden, ob “H0 : FX = F0 ” abzulehnen ist. 13 > qchisq(0.995,5) > [1] 16.74960 36 Statistik Vorgangsweise: • Man bildet die empirische Verteilungsfunktion Fn (x) = |{i|xi <x}| . n • Es wird Dn := maxk |Fn (xk ) − F0 (xk )| bestimmt. P j −2(jλ)2 , wobei in der • Man löst die Gleichung 1 − α = Q(λ) := 1 + 2 ∞ j=0 (−1) e 2 Praxis die Näherung Q(λ) ≈ 1 − 2e−λ verwendbar ist. Antwort: Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α √ gefunden und man verwirft H0 , falls Dn n > λ1−α ist. Der Test beruht auf einer asymptotischen Form P (Dn < √λn ) ≈ Q(λ) := 1+2 des Satzes von Gliwenko-Cantelli (Anmerkung 2 (S.18)). P∞ j −2(jλ)2 j=0 (−1) e Beispiel 23 Einfache Beispiele. 1. Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5 Messungen folgende Meßreihen Gerät A 15.1 17.2 19.3 20.4 21.3 Gerät B 15.2 17.1 19.4 20.5 21.2 Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist. Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall [15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1 √ und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563 kann die Nullhypothese “Gerät A und Gerät B messen die gleiche Verteilung” nicht abgelehnt werden. Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 – 23? Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [33]). 2. Wie verwendet man den KS-Test, um zu sehen, ob die Augenzahlen beim Würfel gleichverteilt sind? Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel 275 (S.301) 1 ausgeführt worden ist. 1.4. Kovarianz und lineare Regression a) 1.4 b) 37 c) Kovarianz und lineare Regression Im folgenden soll (X, Y ) : Ω → IR2 ein Zufallsvektor sein. In der obigen Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y ) und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 275 (S.301) 4.) begreifen. Auch Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und Deviationsmomenten, worauf hier nicht eingegangen werden soll. In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit “hoher Wahrscheinlichkeit” schließen wollen. Praktische Probleme dieser Art wären z.B. “In welchem Maße beeinflußt die Zugabe des Wirkstoffs X das Ertragsaußmaß Y” (hier vermutet man, kennt jedoch den direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist, bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird. Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden 2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind: Beispiel 24 Es sei (X, Y ) : Ω → IR2 ein Zufallsvektor mit Erwartungswert (µX , µY ), wobei die Zufallsvariablen X, Y die Erwartungswerte µX , bzw. µY , sowie Varianzen V (X), V (Y ) besitzen. Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b), d.h., die Verteilung entlang eines “Durchmessers”. Sichtlich ist E(Za,b ) = aE(X) + bE(Y ) weil E linear ist (vgl. Anmerkung 281 (S.309)). Für die Varianz bekommt man nach etwas Rechnung V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ). Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) − E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ) 38 Statistik eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist: 1. Ohne Einschränkung wählen wir ein Koordinatensystem in IR2 mit (µX , µY ) = (0, 0). 2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt p aX + bY = X 2 + Y 2 cos((X, Y ), (a, b)) die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b). p 3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b) streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet für den Winkel p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse, in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man in der obigen Skizze in b) recht deutlich. 4. Analyse der Ellipsen: Als quadratische Form hat V (aX+bY ) = a2 V (X)+2abcov (X , Y )+b 2 V (Y ) = (a, b) V (X) cov (X , Y ) cov (X , Y ) V (Y ) unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 ) und Differenzieren auf 0 a V (X) − λ cov (X , Y ) , = 0 b cov (X , Y ) V (Y ) − λ und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des Eigenwertproblem ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit kann man in b) der obigen Skizze die Ellipse einzeichnen. 5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX , bzw. 0 = a0 (X − µX ) + b0 (Y − µY ) angeben, wobei für V (X) 6= 0 man (a0 , b0 ) = (−cov (X , Y ), V (X )) bekommt. a b 1.4. Kovarianz und lineare Regression 39 6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede 2-dimensionale Gaußverteilung von der Form 1 p f (x, y) = e−Q(x,y) 2 2πσX σY 1 − ρ mit 1 Q(x, y) = 2(1 − ρ2 ) (x − µX )(y − µY ) (y − µY )2 (x − µX )2 − 2ρ + 2 σX σY σX σY2 ) ist. Dann erweist sich ρ = covσX(Xσ,Y . Damit folgt für Normalverteilungen aus der UnY korreliertheit auch die Unabhängigkeit. Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn. Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr als 2 Variablen. Definition 25 (Ausgleichsgerade) Es sei (X, Y ) : Ω → IR eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ IR2 der Aufgabe E((Y − aX − b)2 ) ⇒ Minimum gebildete Gerade mit der Gleichung y = a0 x + b0 die Ausgleichs- oder Regressionsgerade14 von Y bezüglich X zur gemeinsamen Verteilung von (X, Y ). Man findet (a0 , b0 ), indem man zunächst die Kovarianz cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY berechnet a0 = cov (X , Y ) , b 0 = µY − a 0 µX V (X) in Übereinstimmung mit Beispiel 24 (S.37) 5. Der Vorteil dort wäre die Verfügbarkeit etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig). Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend, schreiben wir f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 + lineare Glieder in x − µX und y − µY +a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 . 14 “Regression”, d.i. “Rückschritt”, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und Pearson zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem geringeren Ausmaß. Der Zusammenhang des “Rückschritts” wurde linear angenommen. (Aus [33], S 136). 40 Statistik Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ). Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl nach a bzw. b verschwinden, wodurch das Gleichungssystem 0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist. Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt15 : V (X) + µ2X µX u h(u, v) = (V (X) + µ2X )u2 + 2µX uv + v 2 = (u, v) . µX 1 v Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische Form in (u, v) positiv definit, also gilt die Behauptung. Anmerkung 26 Es gelten die folgenden Aussagen: Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten Maßes verteilt, so kann man wegen Anmerkung 258 (S.285) P das Maß durch Punkte (xi , yi ) angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi = P ({xi })). Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche Gewicht n1 , sodaß unter Verwendung der Gaußnotation: nE(X) = X xi =: [x], nE(XY ) = i X xi yi =: [xy], nE(X 2 ) = i X x2i =: [xx] i aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 16 die Normalgleichungen durch Spezialisierung aus Definition 25 (S.39) folgen: a0 = [y][xx] − [xy][x] n[xy] − [x][y] , b0 = . 2 n[xx] − [x] n[xx] − [x]2 Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt werden, um “manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade wichtiger zu nehmen”. 15 Z.B. mittels Taylorentwicklung von g an der Stelle (a0 , b0 ). 1.4. Kovarianz und lineare Regression 41 Regressionskoeffizient: Es heißt a0 = cov (X , Y ) , V (X) d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X. Korrelationskoeffizient: Die dimensionslose Größe ρ := cov (X , Y ) σX σY heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht −1 ≤ ρ ≤ 1 zeigen, indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die Cauchy-Schwarzsche Ungleichung anwendet. Man kann zeigen, daß genau dann |ρ| = 1 gilt, wenn mit Wahrscheinlichkeit eins die Beziehung Y = aX + b besteht. Es hat dann a das gleiche Vorzeichen wie ρ. Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß Z ein N (0, σ 2 )-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung [y] der arithmetischen Mittel x̄ := [x] n und ȳ := n bekommt man eine empirische Ausgleichsgerade in der Form y − ȳ = a(x − x̄). Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß X den Wert x annimmt), n s2 = 1 X (yi − a − bxi )2 . n−2 i=1 Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 . Andrerseits sind die Variablen sichtlich nicht unabhängig. Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [18] nachgelesen werden. 42 Statistik Beispiel 27 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ IR2 → IR eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvektor mit X, Y unabhängig, so werden Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt: 1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f ∂x etc. geschrieben werde f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ), wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches Problem – gute Kenntnis von f gefordert) und daß Weiter die Verteilung von (X, Y ) sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen kann. Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ). 2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 24 (S.37), sodaß V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ), und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ). 16 In diesem Zusammenhang ist die obige Methode als “Methode der kleinsten Quadrate”, so genannt von Legendre, der sie zuerst publiziert hat, bekannt ist. Kapitel 2 Grundlagen 2.1 2.1.1 Logik Aussagenlogik In der Aussagenlogik geht man zunächst davon aus, daß jede Aussage genau einen Wahrheitswert, nämlich wahr oder falsch, abgekürzt W bzw. F hat, wobei zunächst nicht interessiert, wie dieser Wahrheitswert zustande gekommen ist. Zwei Aussagen sind dann logisch äquivalent, wenn sie den gleichen Wahrheitswert haben. Somit hat man genau zwei Klassen von Aussagen: wahre und falsche. Nun möchte man verstehen, welchen Wahrheitswert zusammengesetzte Aussagen, etwa “A und B”, “A oder B”, “aus A folgt B”, “nicht A” haben. Diese Zusammensetzungen werden durch die Symbole “A ∧ B”, “A ∨ B”, “A ⇒ B” und “¬A” abgekürzt. Nun ergibt sich “Kalkül”: Eine “Formel”, die unter der Verwendung dieser Symbole durch Zusammensetzung von Aussagen entsteht, wird als Aussageform bezeichnet. So ist F (A, B, C) := (A ∨ B) ∧ (¬(C ∨ A))1 eine Aussageform, in der die Aussagen A, B und C zusammengesetzt wurden. Zwei Aussageformen F (A1 , · · · , An ) und G(A1 , . . . , An ) sind logisch äquivalent, wenn sie bei jeder Wahl der in ihnen vorkommenden Aussagen A1 , . . . , An den gleichen Wahrheitswert haben. Man beobachtet nun, daß die Formel F (A1 , . . . , An ) stets den gleichen Wahrheitswert wie die Formel F (B1 , . . . , Bn ) hat, soferne jedes Ai den gleichen Wahrheitswert wie Bi (i = 1, . . . , n) hat. Deshalb genügt es, die 2n Fälle der möglichen Wahrheitswertbelegungen von (A1 , . . . , An ) durchzusehen. So etwa genügt es, für die Äquivalenz von (A ∧ B) und (B ∧ A) die in der umseitigen Tabelle angegebenen vier Fälle zu untersuchen. Es ist üblich, die Berechnung des Wahrheitswertes der elementaren logischen Operationen aus jenen der vorkommenden Variablen mittels Wahrheitstafel zu beschreiben, wie dies in der umseitigen Tabelle gezeigt wird. Kurz zu dem Umstand, daß in der nachfolgenden Tabelle “A ⇒ B” den Wahrheitswert W hat, falls A F und B W ist: Ein Beispiel mit Aussagen aus der Theorie der ganzen Zahlen: Wenn X die Menge {0, 1} und A die Aussage “0 = 1” ist, so kann man hieraus “1 = 0”, und daher durch Einsetzen die wahre Aussage B, die da lautet “0 = 0” bekommen. Somit 1 Wie liest man diese Aussage sprachlich? 43 A, B A, B A, B A, B Disjunktion ∨ Implikation ⇒ Äquivalenz ⇔ A A oder B A∨B A⇔B A⇒B A und B A∧B A A A A B (logisch) äquivalent zu B ist gleichbedeutend zu B gilt genau dann, wenn B gilt ist hinreichend und notwendig für aus A folgt B wenn A gilt, so auch B A ist hinreichend für B B ist notwendig für A A impliziert B A ist stärker als B B ist schwächer als A nicht A Lesart(en) ¬A Aus(logische) sage(n) Verknüpfung Konjunktion ∧ Negation ¬ Bezeichnung w(A) W W F F w(A) W W F F w(A) W F w(A) W W F F w(A) W W F F w(B) W F W F w(B) W F W F w(A ⇔ B) W F F W w(A ⇒ B) W F W W w(¬A) F W w(B) w(A ∧ B) W W F F W F F F w(B) w(A ∨ B) W W F W W W F F Wahrheitstafel 44 Grundlagen hat man aus der falschen Aussage A die wahre Aussage B hergeleitet. Dieses Folgern “⇒” wird sehr wohl als W bewertet. Das Folgern an sich ist nicht falsch, man hat mit A ja nichts Unkorrektes getätigt. Nun die schon angekündigten Wahrheitstabellen: Beispiel 28 Beispiele zum Umgang mit logischen Aussagen: 1. Wie kann man die Aussage “ > 0, k > 0 und T ∈ [α, β]” mittels der obigen Symbolik anschreiben? 2.1. Logik 45 Antwort: ( > 0) ∧ (k > 0) ∧ (T ∈ [α, β]). 2. Analog: “x ist entweder Null oder muß die folgenden Bedingungen erfüllen: x < 0, x ist ganzzahlig und x ist durch 7 teilbar”. Antwort: (x = 0) ∨ ((x < 0) ∧ (x ist ganzzahlig) ∧ (x ist durch 7 teilbar)) 3. Analog: “Wenn n > 7 ist, so ist n < 0”. Antwort: (n > 7) ⇒ (n < 0). 4. Man formuliere die nachstehende Aussage als ausgeschriebenen Satz ohne Benützung der Symbole der Aussagenlogik: ((x > 0) ∧ (y < 0)) ∨ ((x < 0) ∧ (y > 0)). Antwort: “x positiv und y negativ, oder es ist x negativ und y positiv.” Zusatzfrage: Ist “xy < 0” logisch äquivalent dazu? Antwort: Die Frage ist nicht korrekt gestellt, sie kann im Rahmen der Logik nicht beantwortet werden, sondern lediglich innerhalb der Theorie der reellen Zahlen. 5. Wie müssen die Wahrheitswerte von Aussagen A, B und C beschaffen sein, daß (A ⇒ B) ⇒ C nicht den gleichen Wahrheitswert wie A ⇒ (B ⇒ C) hat? Antwort: Eine gerne gepflegte Methode besteht in der Diskussion aller 8 Fälle und Eintragen in eine erweiterte Wahrheitstafel. Die in dieser Form gefundenen Lösungen: w(A) F F w(B) W F w(C) F F w(A ⇒ B) W W w(B ⇒ C) F W w((A ⇒ B) ⇒ C) F F w(A ⇒ (B ⇒ C)) W W 6. Man zeige die logische Äquivalenz der Aussagen (A ⇒ B) und (¬A ∨ B), also die Gültigkeit von (A ⇒ B) ⇔ (¬A ∨ B). Antwort: Auch hier ist die Diskussion der 4 Fälle mittels erweiterter Wahrheitstafel möglich: w(A) W W F F w(B) W F W F w(A ⇒ B) W F W W w(¬A) F F W W w(¬A ∨ B) W F W W Die erweiterten Wahrheitstafeln (siehe z.B. Beispiel 28 (S.44), 5. und folgende) aufzustellen ist für komplizierter aufgebaute Aussagen mühsam. Daher interessiert man sich für Rechenregeln, die das Rechnen mit Aussagen ermöglichen. Vorweg noch die folgende Definition: Definition 29 Eine stets wahre Aussage heißt Tautologie, eine stets falsche Kontradiktion bzw. Widerspruch. 46 Grundlagen Da definitionsgemäß zwei Aussagen A und B als logisch äquivalent gelten, wenn w(A) = w(B) gilt, können die nachstehenden Identitäten, die ∨, ∧, ¬ involvieren, teils mittels Wahrheitstafeln, teils durch formales Herleiten aus bereits Bewiesenem gezeigt werden: Anmerkung 30 (Logische Äquivalenz und Rechengesetze logischer Verknüpfungen) A∨B A∧B (A ∨ B) ∨ C (A ∧ B) ∧ C (A ∨ B) ∧ C (A ∧ B) ∨ C A⇒B ¬(¬A) ¬(A ∨ B) ¬(A ∧ B) (A ∧ B) ∨ A (A ∨ B) ∧ A A∨T ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ B∨A B∧A A ∨ (B ∨ C) A ∧ (B ∧ C) (A ∧ C) ∨ (B ∧ C) (A ∨ C) ∧ (B ∨ C) (¬A) ∨ B A ¬A ∧ ¬B ¬A ∨ ¬B A A T A∧T A∨W ⇔ A ⇔ A A∧W ⇔ W Kommutativgesetz Kommutativgesetz für ∧ Assoziativität von ∨ Assoziativität von ∧ Distributivität von ∧ bezüglich ∨ Distributivität von ∨ bezüglich ∧ wegen Beispiel 28 (S.44) 6. Doppelnegation Dualität Dualität Verschmelzungsgesetz Verschmelzungsgesetz für jede Tautologie T (Definition 29 (S.45)) für jede Tautologie T für jeden Widerspruch W (Definition 29 (S.45)) für jeden Widerspruch W Beispiel 31 Beispiele sollen den Vorteil des “Rechnens mit Aussagen” gegenüber erweiterten Wahrheitstafeln illustrieren. 1. Zunächst leite man aus einer Wahrheitstafel die Aussage (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) her. Diese logische Äquivalenz und Doppelnegation der ersten mit Dualität bezeichneten Formel verwende man, um die zweite Formel dieser Art herzuleiten. Antwort: Ersetzt man in der ersten Formel linke und rechte Seite durch die negierten Formen und danach A durch ¬A sowie B durch ¬B, so egibt sich: ¬(¬(¬A ∨ ¬B)) ⇔ ¬(A ∧ B). Jetzt verwendet man (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) mit X und Y linke und rechte Seite der obigen Äquivalenz. 2. Man beweise oder widerlege die logische Äquivalenz von (A ⇒ B) ⇒ C und A ⇒ (B ⇒ C). Im Falle, daß die Aussagen nicht äquivalent sind, gebe man ein einfaches Beispiel von Aussagen (über natürliche Zahlen) an. 2.1. Logik 47 Antwort: Zunächst können beide Terme mittels der Regeln umgeformt werden: (A ∧ ¬B) ∨ C, ¬A ∨ (¬B ∨ C). Jetzt sieht man, daß es genügt, w(C) = w(A) = F zu wählen, dann kann B beliebigen Wahrheitswert annehmen und man hat ein Gegenbeispiel, weil ja der erste Term den Wahrheitswert F, der zweite W bekommt (vgl. auch Beispiel 28 (S.44) 5). Um ein handfestes Beispiel mit Aussagen über natürliche Zahlen zu bekommen, nimmt man z.B. A :=“1 = 0”, B :=“1 = 1” und C :=“1 = 0”. 3. Man zeige die Gültigkeit der Kontraposition: “A ⇒ B” ist logisch äquivalent zu “¬B ⇒ ¬A”. Antwort : Es ist w(A ⇒ B) = w(¬A ∨ B) und w(¬B ⇒ ¬A) = w(¬(¬B) ∨ ¬A) = w(B ∨ ¬A) = w(¬A ∨ B). 4. Hier ein Programmausschnitt zur Definition der logischen (“Bool’schen”) Variablen ‘cond’: var cond : boolean; x,loops : integer; userinput : string; cond:=( (x=10) and ( (userinput=‘abbruch’) or (loops > 100)) and ( (userinput=‘abbruch’) or (x <> 10) ) ); Unter welchen Bedingungen ist der userinput relevant für das Zutreffen von cond? Wie stellt sich die Bedingung in aussagenlogischer Form dar? Kann sie vereinfacht werden? Wie sähe eine vereinfachte Programmzeile aus? Antwort: Der Programmierer versucht, die Variable(n) zu analysieren, indem er sich überlegt, was passiert wenn/wenn nicht die Eingabe ‘abbruch’ erfolgt. Er erkennt, daß diese Eingabe nur für x = 10 relevant ist. Hingegen ist die Schleifenkontrolle mittels loops überflüssig. Im Folgenden soll das auf aussagenlogischem Weg gezeigt werden: Nach Einführen der Bezeichnungen A :=“x=10”, B :=“userinput=‘abbruch”’ und C :=“loops > 100” für die Aussagen findet man als Formulierung von cond: cond ⇔ A ∧ (B ∨ C) ∧ (B ∨ ¬A). Nun sollen die Rechengesetze in Anmerkung 30 (S.46) zur Vereinfachung herangezogen 48 Grundlagen werden: A ∧ (B ∨ C) ∧ (B ∨ ¬A) ⇔ (A ∧ (B ∨ ¬A)) ∧ (B ∨ C) ⇔ ⇔ ⇔ ⇔ ⇔ Ausgangssituation Kommutativität und Assoziativität von ∧ ((A ∧ B) ∨ (A ∧ ¬A)) ∧ (B ∨ C) Distributivität von ∧ bezüglich ∨ (A ∧ B) ∧ (B ∨ C) Der Widerspruch A∧¬A kann fortgelassen werden A ∧ (B ∧ (B ∨ C)) Assoziativität von ∧ (A ∧ (B ∨ (B ∧ C))) Verschmelzungsgesetz A∧B Die Bedingung C ist redundant und als vereinfachte Programmzeile ergibt sich cond:=(x=10) and (userinput=‘abbruch’); 2.1.2 Prädikatenlogik 1.Stufe Es werden Elemente betrachtet, d.s. Objekte, die “mathematisch gesprochen” einem Universum der Betrachtung angehören, z.B. die natürlichen Zahlen. Danach gibt es Prädikate, das sind Eigenschaften, die den Objekten im Universum zukommen können (etwa die Eigenschaft P (n)=“ n ist gerade ”, die einer Zahl n zukommt). In der Aussagenlogik hat man sich für Prädikate lediglich um Zusammensetzungen etwa der Art P (n) ∧ Q(k) gekümmert. Nun geht es auch um das “Quantifizieren”, also die Verwendung von ‘∃’ (Existenzquantor) und ‘∀’ (Allquantor). Als Beispiel (∀n)(∃k)P (n) ∧ Q(k). In Worten: Zu jeder natürlichen Zahl n, die P (n) erfüllt, gibt es eine natürliche Zahl k, die Q(k) erfüllt. Die Gesetze der Prädikatenlogik 1.Stufe geben den “richtigen Umgang” mit dem Hinschreiben von Aussagen, die ‘∃’ und ‘∀’ enthalten. Deren Wahrheitsgehalt kann nur bei näherer Kenntnis des Universums geprüft werden. Die danach wahren Aussagen nennt man die Sprache 1. Ordnung über das gegebene Universum. Als wesentliche Anwendung gilt das gezielte Vereinfachen von Aussagen, ohne den Wahrheitsgehalt zu ändern. Deshalb benötigt man Umformungen, welche bei jeder Belegung der Variablen (etwa das ‘n’ in P (n)) den Wahrheitsgehalt nicht abändern. Eine solche Sprache, wie sie zur Beschreibung einfacher (mathematischer) Theorien benützt wird, muß im Sinne der Prädikatenlogik nach folgenden Grundprinzipien aufgebaut sein: Definition 32 (Sprache der Prädikatenlogik) Zunächst besteht das Alphabet einer prädikatenlogischen Sprache aus Symbolen folgender Art: 1. Logische Symbole ¬ nicht ⇒ folgt ⇔ gleichbedeutend ∃ es existiert ∀ für alle = gleich 2.1. Logik 49 Die Symbole ∃ und ∀ heißen Quantoren, genauer Existenz- beziehungsweise Allquantor. 2. Variablensymbole. 3. Konstantensymbole. 4. Symbole für Prädikate. 5. Funktionssymbole, die spezifisch für die zu beschreibende Sprache (etwa jener der Sätze über natürliche Zahlen) sind. Als nächstes wird festgelegt, wie man Terme bildet. Das geschieht rekursiv: 1. Jedes Variablen- und jedes Konstantensymbol ist ein Term. 2. Ist f ein n-stelliges Funktionssymbol und t1 , . . . tn Terme, so ist f (t1 , . . . , tn ) auch ein Term. Ein konstanter Term ist ein Term ohne Variablensymbole. Nun werden Primformeln nach folgenden Regeln gebildet: 1. Gleichungen t1 = t2 , wobei t1 , t2 Terme sind. 2. Ist R ein n-stelliges Prädikat und t1 , . . . , tn Terme, so ist R(t1 , . . . , tn ) eine Primformel. Nun wird (wieder rekursiv) festgelegt, wie man zu Formeln kommt: 1. Jede Primformel ist eine Formel. 2. Sind F und G Formeln und x ein Variablensymbol, so sind es auch die Ausdrücke ¬F , F ⇒ G, F ⇔ G, (∃x)F und (∀x)F . Die Variable x in (∃x)F bzw. (∀x)F heißt gebunden, wenn vor der Variablen x kein Quantor steht, ist sie frei. Weiters wird statt (∀x)((∀y)F ) die klammerfreie Version (∀x)(∀y)F geschrieben und ähnlich für mehrere Quantoren. Es ist (∀x)F (bzw. (∃x)F ) genau W, wenn F für alle (bzw. für ein x) W ist. Beispiel 33 Beispiele hierzu: 1. Man überlege sich die logische Äquivalenz von ¬(∃x)F und (∀x)¬F . Analog auch die logische Äquivalenz von ¬(∀x)F und (∃x)¬F . Antwort: Wenn es kein x gibt, welches F erfüllt, so muß ¬F für jedes x gelten. Also gilt ‘ ⇒0 . Ist umgekehrt für alle x die Aussage ¬F richtig, so kann es kein x geben, auf das F zutrifft. Somit hat man ‘ ⇐0 . Die andere Aussage geht ähnlich. 50 Grundlagen 2. Man gebe (in der Theorie der natürlichen Zahlen) äquivalente Formulierungen für ¬(x < 3) ∧ (x < 7), (∃x)x2 = 4, ¬(∃l) l < 1. Welche der Variablen sind gebunden, welche frei. Was kann über den Wahrheitswert der Aussagen gesagt werden? Antworten: (x = 3) ∨ (x = 4) ∨ (x = 5) ∨ (x = 6) und x ist frei, weil kein Quantor vorkommt. x = 2 und x ist gebunden. Die neue Formel ist quantorenfrei, man spricht von Quantorenelimination aus (∃x)x2 = 4, (∀l)l ≥ 1 und l ist eine gebundene Variable. 3. (Negation des -δ Stetigkeitskriteriums) In der Sprache der reellen Analysis (reelle Zahlen, Funktionen, Stetigkeit, etc.) zeige man durch Anwenden logischer Operationen2 , daß ¬ ( (∀ > 0) (∃δ > 0) (∀x) ( (|x| < δ) ⇒ (|f (x) − f (0)| < )) ) | {z } | {z } | {z } logisch äquivalent zu (∃ > 0)(∀δ > 0)(∃x) ist. ((|x| < δ) ∧ (|f (x) − f (0)| ≥ )) Antwort: Es ist hier durchaus angebracht, “Wort und Satzanalyse” zu betreiben. Wir setzen F für den Term (|x| < δ) und G für (|f (x) − f (0)| < ) und setzen Klammern. Dann liest sich die Aussage2 als ¬ ( (∀ > 0) ( (∃δ > 0) ((∀x) (F ⇒ G)))) . | {z } | {z } {z } | Nun benützt man die Regeln bezüglich Negation von Quantoren im untersten Teil des Kastens in Definition 32 (S.48) und findet, das “¬” sukzessive von links nach rechts schiebend (wir haben auch F ⇒ G in ¬F ∨ G umgeschrieben, vergleiche Anmerkung 30 (S.46)) und auch das 1.te Beispiel: ⇔ ⇔ ⇔ ⇔ 2.2 ¬( (∀ > 0) (∃ > 0) (∃ > 0) (∃ > 0) (∃ > 0) ( (∃δ > 0) (¬((∃δ > 0) ( (∀δ > 0) ( (∀δ > 0) ( (∀δ > 0) ((∀x) ( (∀x) (¬((∀x) ((∃x) ( (∃x) (¬F ∨ G)) ) ) (¬F ∨ G)) ) ) (¬F ∨ G)) ) ) ¬((¬F ∨ G)) ) ) (F ∧ ¬G))). Mengen Gegenstand der Mengenlehre sind Mengen. Wir wollen der historischen Entwicklung insofern folgen, als wir alle in Mathematik 1 und 2 betriebene Mathematik akzeptieren (analog wie 2 Die Unterklammerung dient lediglich als Lesehilfe. 2.2. Mengen 51 dies im 19.Jhdt. während der Entwicklung der Mengenlehre durch Georg Cantor durchaus der Fall war), überlassen es dem Interessierten den Abriss über axiomatische Mengenlehre (und die fundamentalen Probleme mit deren Nutzung) im Anhang (Unterabschnitt A.1.3 (S.231)) nachzusehen, und (wie dies bisher zu einem guten Teil auch schon geschehen ist) alle mathematischen Begriffe, etwa Funktionen, Gruppen, Ringe, Körper, Vektorräume, Stetigkeit, durch mengentheoretische Konstruktionen erklären. 52 Grundlagen 2.2. Mengen 2.2.1 53 “Naive” Mengentheorie, Mengen, Elemente, Teilmengen Mengen und Elemente, Aufzählung, Eigenschaft Mengen sind Zusammenfassungen wohl-unterschiedener Objekte, die man ihre Elemente nennt, d.h., je zwei Elemente einer Menge M sind verschieden und zwei Mengen M und N sind genau dann gleich, wenn sie die gleichen Elemente enthalten. Ist die Menge M endlich, so schreibt man M := {x1 , . . . , xn } und spricht von einer “Auflistung ihrer Elemente”. Ist A(x) eine Eigenschaft oder Prädikat, die einem Element x zukommt, so versteht man unter N = {x | A(x)} die Menge jener Elemente x, auf die A(x) zutrifft. Man spricht von einer Beschreibung: “N wird durch die Eigenschaft A(x) ihrer Elemente x bestimmt.”. Man schreibt x ∈ M , falls x ein Element von M ist und x 6∈ M für die Aussage ¬(x ∈ M ) (also wenn x kein Element von M ist). Statt (x ∈ M ) ∧ (y ∈ M ) ∧ (z ∈ M ) schreiben wir des öfteren (x, y, z ∈ M ) etc. Teilmenge, Obermenge Wenn alle Elemente einer Menge N auch Elemente einer Menge M sind, so nennt man N Teilmenge von M und schreibt N ⊆ M . Es gilt demnach definitionsgemäß (N ⊆ M ) ⇔ (∀x)(x ∈ N ⇒ x ∈ M ). N M Statt N ⊆ M schreibt man auch M ⊇ N und nennt dann M eine Obermenge von N . Jedes Element aus N kommt in M vor, und das ‘ ’ unter dem ‘⊂’ deutet an, daß M = N sein darf. Aufgrund der Festlegung, wann zwei Mengen M und N gleich sind, ergibt sich, (M = N ) ⇔ (M ⊆ N ) ∧ (N ⊆ M ). Man schreibt N ⊂ M , bzw. M ⊃ N und sagt, N ist echte Teilmenge von M (bzw. M ist echte Obermenge von N ), wenn N Teilmenge von M ist, jedoch M mindestens ein Element enthält, das nicht zu N gehört. Als Formel (N ⊂ M ) ⇔ ((N ⊆ M ) ∧ (∃x)(x ∈ M ∧ x 6∈ N )). Leere Menge Die Menge, welche keine Elemente enthält, heißt leere Menge, im Zeichen ∅. Sie kann z.B. durch ∅ = {x | x 6= x} definiert werden. 54 Grundlagen Beispiel 34 Es sollen im Folgenden, wie üblich, IN , Q, ZZ, IR und C Symbole für die natürlichen, die ganzen, die reellen, bzw. die komplexen Zahlen sein. 1. Man beweise oder widerlege M = N für folgende Mengen. Welche der Aussagen M ⊆ N , N ⊆ M , M ⊂ N , N ⊂ M trifft zu und welche dieser Aussagen ist die stärkste von denen, die zutreffen: M N {3, 5, 7} {x | x ∈ IN ∧ x2 ≤ 50} ∅ {∅} ∅ {x | x ∈ IR ∧ x < 0 ∧ (x2 − 4x + 2.4444137 = 0)} (0, 1] {x ∈ IR | x > x2 ∨ x3 = 1} 2 2 {(p, q) ∈ IR | p − 4q = 0} {(p, q) ∈ IR2 | (∃x)((x2 + px + q = 0) ∧ (2x + p = 0))} Antworten: {3, 5, 7} = 6 {x | x ∈ IN ∧ x2 ≤ 50}. Um dies zu zeigen, genügt es, ein Element von N anzugeben, das nicht in M liegt. Es ist x = 1 in N , weil x = 1 die beschreibende Eigenschaft von N erfüllt (es ist 12 ≤ 50), aber es fehlt in der als Liste gegebenen Menge M . Es ist M ⊆ N , weil für jede der Zahlen 3, 5, 7 die beschreibende Eigenschaft von N zutrifft und es gilt die stärkere Aussage M ⊂ N , weil 1 ∈ N , aber 1 6∈ M ist. ————— ∅= 6 {∅}, weil die leere Menge keine, jedoch die Menge {∅} immerhin als einziges Element die leere Menge enthält. Es ist M ⊆ N , weil die leere Menge Teilmenge jeder Menge, also auch von N ist. Die Aussage M ⊂ N ist stärker als M ⊆ N , und sie gilt, weil das Element ∅ wohl zu N aber nicht zu M gehört. ————— ∅ = {x | x ∈ IR ∧ x < 0 ∧ (x2 − 4x + 2.444317 = 0)}. Dazu genügt es, sich klar zumachen, daß es kein negatives reelles x gibt, das die beschreibende Eigenschaft von N erfüllt. Das folgt, weil der Ausdruck wie folgt nach unten abgeschätzt werden kann: |{z} x2 + (−4x) +2.444137 > 2.444137, also für beliebiges | {z } >0 >0 negatives x positiv sein muß. Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw. N ⊂ M. ————— (0, 1] = {x ∈ IR | x > x2 ∨ x3 = 1}. Wir zeigen zunächst M ⊆ N . Sei x beliebig im links offenen und rechts abgeschlossenen Intervall (0, 1] gewählt. Dann erfüllt es definitionsgemäß die Ungleichungen 0 < x ≤ 1. Für positives x darf man diese Ungleichung mit x multiplizieren, also bekommt man 2.2. Mengen 55 0 < x2 ≤ x, somit gilt die erste der Bedingungen in N , falls x < 1 und die zweite, falls x = 1 ist. Nun ist noch N ⊆ M zu zeigen. Sei zunächst x2 < x, so ist x positiv, und man kann die Ungleichung mit x1 multiplizieren, um 0 < x < 1, also x ∈ (0, 1) zu bekommen. Trifft auf ein reelles x die zweite Eigenschaft zu, so ist x = 1, und man hat x ∈ (0, 1]. Insgesamt hat man N ⊆ M . Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw. N ⊂ M. ————— Es ist M = N . Zunächst zeigen wir M ⊆ N . Ist (p, q) ∈ M , so gilt p2 − 4q = 0. Dann zeigt die Umformung x2 + px + q = (x + p2 )2 , daß x = − p2 Lösung von sowohl x2 + px + q als auch 2x + p = 0 ist. Somit ist M ⊆ N . Um N ⊆ M zu zeigen, nehmen wir (p, q) ∈ N an. Dann gibt es x, welches Lösung der Gleichungen x2 + px + q = 2x + p = 0 ist. Einsetzen von x = − p2 in der quadratischen Gleichung zeigt, daß p2 − 4q = 0 gelten muß. Also ist (p, q) ∈ M . Hier eine mögliche Interpretation3 . Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw. N ⊂ M. Durchschnitt, Vereinigung, Komplement, Mengendifferenz Es sollen hier die im Titel genannten Mengenoperationen erläutert werden. Definition 35 (Mengenoperationen) Es seien A und B Mengen. Vereinigung: Als Vereinigung von A und B bezeichnet man die Menge jener Elemente, die zu A oder zu B gehören: A B A ∪ B := {x | x ∈ A ∨ x ∈ B}, bzw. (x ∈ A ∪ B) ⇔ (x ∈ A ∨ x ∈ B) 3 Man stelle sich vor, daß (p, q) “Parameter” eines “Systems” sind, welches eine “Zustandsvariable” x hat. Die rellen Wurzeln x der Gleichung x2 +px+q = 0 definieren 0,1,bzw. 2 mögliche Zustände. Ist ∆ := p2 −4q > 0, so gibt es 2, ist ∆ = 0, einen (weil eine Doppelwurzel auftritt), und ist ∆ < 0 keinen Zustand. 56 Grundlagen Durchschnitt: Als Durchschnitt von A und B bezeichnet man die Menge jener Elemente, die sowohl zu A als auch zu B gehören: A B A ∩ B := {x | x ∈ A ∧ x ∈ B}, bzw. (x ∈ A ∩ B) ⇔ (x ∈ A ∧ x ∈ B) Man sagt, A und B sind disjunkt, falls A ∩ B = ∅, also A und B keine Elemente gemeinsam haben. Differenz: Als (Mengen)Differenz von A und B bezeichnet man die Menge jener Elemente, die zwar zu A, nicht jedoch zu B gehören. A B A \ B := {x | x ∈ A ∧ x 6∈ B}, bzw. (x ∈ A \ B) ⇔ (x ∈ A ∧ x 6∈ B). Ist B ⊆ A, so wird A \ B auch als Komplement von B in A bezeichnet. Man schreibt dann CA (B) := A \ B. Wird eine feste Menge M als Grundmenge ausgezeichnet, d.h., man betrachtet in einem bestimmten Kontext lediglich Teilmengen von M , so werden wir statt CM (A) auch A0 schreiben. Beispiel 36 Wie man die vorangegangenen Begriffe zur “modellhaften Beschreibung” verwenden kann, soll das folgende Beispiel zeigen. 1. Zwei nebeneinander postierte Scheinwerfer projizieren nächtens kreisrunde Scheiben auf eine weiße Wand, und zwar einer in gelb (G) und einer in blau (B). Eine Plane (P) deckt einen Teil des Strahlenganges ab. Wie kann man die Lage der Scheiben und jener Teile, die in Mischfarben erscheinen, mittels Mengen beschreiben? Wie die beleuchtete Fläche – einmal ohne daß die Plane abdeckt, einmal wenn sie es tut? Antwort: Die weiße Wand mag für unsere Zwecke als Menge IR2 beschrieben werden. Jeder von einem Scheinwerfer projizierte Scheibe ist dann eine Kreisscheibe, also eine 2.2. Mengen 57 Punktmenge der Form {(x, y) | (x − x0 )2 + (y − y0 )2 ≤ r2 }. Somit hat man zwei solche Kreisscheiben G und B. Sichtlich ist G∪B die beleuchtete Fläche und G∩B der Bereich, in dem eine Mischfarbe erscheint. Die Lage der Scheiben kann unterschiedlich sein. Es kann eine der beiden Scheiben in der anderen enthalten sein, z.B. G ⊆ B. Keine der Scheiben ist in der anderen zur Gänze enthalten genau dann, wenn G \ B und B \ G beide nicht leer sind! Schließlich können die Scheiben disjunkt sein, also B ∩ G = ∅. Wenn die Plane im Strahlengang ist, so ergibt sich als beleuchtete Fläche (G ∪ B) \ P, was zugleich (G \ P ) ∪ (B \ P ) ist. Weiters ist (G ∩ B) \ P jener Flächenanteil, der in Mischfarbe erscheint. 2. Zeichenprogramme (etwa für Innenarchitekten) erlauben dem Benützer Objekte festzulegen, (etwa beim Grundriss eines Raumes die Position und Form von Möbeln). Es seien Objekte R (der Raum), sowie T (Tisch), K (Kasten) und S (Sessel) gegeben. Welche mengentheoretischen Bedingungen kann man für diese vier Objekte angeben, damit sie (als Punktmengen in der Ebene – Draufsicht) eine Einrichtungsskizze ergeben, wenn man davon ausgeht, daß die Möbel alle am Fußboden stehen. Wie übersetzt man die Bedingungen in Umgangssprache? Antwort: T ∩S = T ∩K = S ∩K = ∅ und K ∪T ∪S ⊆ R. (Umgangssprache: Die Skizzen der Möbel dürfen einander nicht überlappen und müssen alle im Raum R drinnen sein. 3. Einige der Axiome der Ebene lauten: a) Ein Punkt ist etwas, das keine Teile hat. b) Jede Gerade besteht aus Punkten. c) Auf jeder Geraden liegen mindestens 2 Punkte. d) Durch 2 voneinander verschiedene Punkte kann man genau eine Gerade legen. e) Zwei voneinander verschiedene Geraden schneiden einander in höchstens einem Punkt. Wie können diese Aussagen mengentheoretisch formuliert werden? Antwort: a) Mengentheoretisch steht man heute auf dem Standpunkt, daß die (Euklidische) Ebene aus Punkten besteht, somit diese Elemente der Ebene, als Menge aufgefaßt sind – danach konstruiert man (motiviert durch die elementare Anschauung) eine Sprache im Sinne von Definition 196 (S.229), um die Geometrie der (Euklidischen) Ebene zu beschreiben. Somit soll im weiteren E die Menge aller Punkte, sein. b) Ist G die Menge der Geraden, so gilt 58 Grundlagen (∀g ∈ G) g ⊆ E. c) (∀g ∈ G) (∃p ∈ E) (∃q ∈ E) (p 6= q) ∧ ({p, q} ⊆ g). d) (∀p ∈ E) (∀q ∈ E) (∃g ∈ G) (∀h ∈ G) ( (p 6= q) ⇒ ( ({p, q} ⊆ g) ∧ ( ({p, q} ⊆ h) ⇒ (h = g) ) ) ). e) (∀g ∈ G) (∀h ∈ G) (∀p ∈ E) (∀q ∈ E) ( ( ({p, q} ⊆ g ∩ h) ∧ (g 6= h) ) ⇒ (p = q) ). 4. In der (x, y)-Ebene werden die Koordinatenachsen A(bszisse) und O(rdinate) gezeichnet. Welche Gleichungen muß ein Zahlenpaar (x, y) erfüllen, damit der Punkt P mit den Koordinaten x und y folgende Relation erfüllt: P ∈ A, P ∈ O, P ∈ A ∩ O, bzw. P ∈ A ∪ O. Antwort y = 0, x = 0, x = y = 0, xy = 0. 5. Läßt sich die ebene Punktmenge im IR2 M := {(x, y) | xy(x2 + y 2 − 1) = 0} als Vereinigung von Geraden und Kreisen beschreiben? Antwort: Da xy(x2 + y 2 − 1) = 0 ⇔ (x = 0) ∨ (y = 0) ∨ (x2 + y 2 − 1 = 0), ist M = {(x, y) | (x = 0)} ∪{(x, y) | (y = 0)} ∪{(x, y) | (x2 + y 2 − 1 = 0)} = A ∪ O ∪ K((0, 0); 1), x=0 y=0 d $d $d $d x2 + y 2 = 1 wobei K((0, 0); 1) die Kreislinie mit Mittelpunkt Null und Radius 1 ist. Die im Unterabschnitt 2.2.1 gegebenen Definitionen der Mengenoperationen erlauben die Übertragung der Rechengesetze aus Anmerkung 30 (S.46): 2.2. Mengen 59 Anmerkung 37 (Rechengesetze für Mengenoperationen) A∪B A∩B (A ∪ B) ∪ C (A ∩ B) ∩ C (A ∪ B) ∩ C (A ∩ B) ∪ C = = = = = = B∪A B∩A A ∪ (B ∪ C) A ∩ (B ∩ C) (A ∩ C) ∪ (B ∩ C) (A ∪ C) ∩ (B ∪ C) (A0 )0 (A ∪ B)0 (A ∩ B)0 = A = A0 ∩ B 0 = A0 ∪ B 0 Kommutativgesetz für ∪ Kommutativgesetz für ∩ Assoziativität von ∪ Assoziativität von ∩ Distributivität von ∩ bezüglich ∪ Distributivität von ∪ bezüglich ∩ A ist das Komplement von A0 Dualität, De’Morgan Dualität, De’Morgan Viele dieser Identitäten können mit einfachen Zeichnungen “eingesehen” werden. Um jedoch Fehler zu vermeiden, sind formale Beweise nötig. Wie das gehen kann, soll jetzt gezeigt werden: Beispiel 38 1. Man beweise die Identität A ∪ B = B ∪ A. Antwort: Es genügt, die folgende logische Äquivalenz nachzuweisen: (∀x)(x ∈ A ∪ B ⇔ x ∈ B ∪ A). Sei x ein beliebiges Element in der Menge A ∪ B. Dann gelten die folgenden logischen Äquivalenzen x∈A∪B ⇔ (x ∈ A) ∨ (x ∈ B) Definition von ∪ ⇔ (x ∈ B) ∨ (x ∈ A) Kommutativgesetz für ∨ ⇔ x ∈ (B ∪ A) Definition von ∪ Beginn und Ende dieser Kette stellen die behauptete logische Äquivalenz dar. 2. Man zeige A \ B = A ∩ B 0 , wobei sich die Komplementbildung auf eine beliebige, A ∩ B umfassende Menge bezieht. Antwort: Wir zeigen, daß die in Frage kommenden Mengen die gleichen Elemente enthalten und es sei M eine Menge, die A ∪ B umfaßt: x∈A\B ⇔ (x ∈ A) ∧ (x 6∈ B) ⇔ (x ∈ A) ∧ (x ∈ B 0 ) ⇔ x ∈ A ∩ B0 Ausgangssituation Definition von \ Definition des Komplements Definition des Durchschnitts 60 Grundlagen 3. Man zeige (A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B für beliebige Mengen A, B und C. Man skizziere die Situation und formuliere die Aussage in aussagenlogischer Form. Antwort: Das nachstehende Diagramm bedarf kundiger Betrachtung: _ _ _ _ _ _ _ _ _ _ _ _ A\B B\A A∩B A strichlierte Umrandung B voll ausgezogene Umrandung _ _ _ _ _ _ _ _ _ _ _ _ Prädikatenlogische Form der Behauptung: (∀A)(∀B) (A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B. Man könnte es wie unter 2. machen, wir wollen aber zeigen, wie man (in Hinblick auf die gleiche Aufgabe für kompliziertere Identitäten) die in Anmerkung 37 (S.59) formulierten Rechengesetze benützen kann. Es sei M := A ∪ B, dann kann man wie folgt vorgehen: (A \ B) ∪ (B \ A) ∪ (A ∩ B) = (A ∩ B 0 ) ∪ (B ∩ A0 ) ∪ (A ∩ B) Ausgangsituation Mengendifferenz durch ment ausgedrückt = ((A ∪ B) ∩ (B 0 ∪ B) ∩ (A ∪ A0 ) ∩(B 0 ∪ A0 )) ∪ (A ∩ B) | {z } | {z } =M Komple- =M Distributivgesetz für ∪ = ((A ∪ B) ∩ ∪ ∪ (A ∩ B) es ist M = A0 ∪ A = B 0 ∪ B und M ∩ T = T für jede Teilmenge T von M = ((A ∪ B) ∩ (A ∩ B)0 ) ∪ (A ∩ B) De’Morgan = ((A ∪ B) ∪ (A ∩ B)) ∩ ((A ∩ B)0 ∪ (A ∩ B)) | {z } (B 0 A0 )) =M = (A ∪ B) ∩ M = A∪B Distributivgesetz für ∪ weil Komplemente einander auf M ergänzen weil A ∪ B ⊆ M . 4. Ist die Aussage (∀A)(∀B)(∀C)(A \ B) ∩ (A \ C) = A \ (B ∩ C). korrekt? Antwort: Zeichnet man die Mengen etwa wie auf dem Bild auf, sieht man rasch ein, daß die Aussage falsch sein sollte (Die Mengen A, B und C sind jeweils durch strichlierte, 2.2. Mengen 61 ausgezogene, bzw. punktierte Linien umrandet) – gut für die Intuition, leider ist es noch kein _Beweis. _ _ _ _ _ _ A B _ _ _ _ _ _ _ C Um zu einem Beweis zu gelangen, muß man die Negation der obigen Aussage zeigen, also genügt es, (∃A)(∃B)(∃C)(A \ B) ∩ (A \ C) 6= A \ (B ∩ C). durch ein Beispiel zu belegen, etwa A := {1, 2}, B := {2} und C := A. Dann ist nämlich (A \ B) ∩ (A \ C) = ∅ und A \ (B ∩ C) = {1}, also gilt Ungleichheit, wie behauptet. (Wir haben die Allgemeingültigkeit der obigen Aussage durch Angabe eines Gegenbeispiels widerlegt). 2.2.2 Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge, Produktmengen Definition 39 Es sei M eine Menge von Mengen. Allgemeine Vereinigung: Man definiert [ M M ∈M als die Gesamtheit aller Elemente x, die zu irgendeiner der Mengen M in M gehören. [ M := {x | (∃M ∈ M) x ∈ M }. M ∈M S Partition : Ist X = M ∈M M und sind je zwei verschiedene Mengen M und M 0 disjunkt, d.h. gilt M ∩ M 0 = ∅, so nennt man M eine Partition oder disjunkte Zerlegung von X. Allgemeiner Durchschnitt: Es ist \ M M ∈M die Gesamtheit aller Elemente x, die zu allen Mengen M in M gehören. \ M ∈M M := {x | (∀M ∈ M) x ∈ M }. 62 Grundlagen Beispiel 40 1. Ist G die Menge aller Geraden in der Ebene, so ist diese gleich also Vereinigung aller in ihr liegenden Geraden. S g∈G g, 2. Es sei K eine in der (x, y)-Ebene des IR3 liegende Kreislinie und X die Menge aller zur S z-Achse parallelen Geraden, welche den Kreis in einem Punkt schneiden, dann ist x∈X x ein unendlicher vertikaler Hohlzylinder. Es liegt eine Partition des Hohlzylinders in vertikale Geraden (“Erzeugende”) vor. 3. Ein Stapel Bierdeckel veranschaulicht eine Partition des Stapels in die disjunkten Teilmengen. M ist die Menge der Bierdeckel, X das räumliche Gebilde, welches die Bierdeckel “belegen”. 4. Es sei H eine Menge von Teilmengen h einer Region, sodaßSes in jedemTh einen Sender gibt, der in ganz h empfangen werden kann. Wie lassen sich h∈H h und h∈H h deuten? S T Antwort: Es ist h∈H h jener Bereich, wo Empfang herrscht, und h∈H h jener, wo alle Sender empfangen werden können. 5. Es sei ein Geradenstück in der Ebene gegeben, welches den Ursprung (0, 0) mit dem Punkt (1, 0) verbindet. Weiters soll Y die Menge aller Kreisscheiben vom S Radius 1 sein, deren Mittelpunkte auf dem Geradenstück liegen. Wie kann man y∈Y y und T y∈Y y durch endlich viele Bedingungen an die Koordinaten der enthaltenen Punkte beschreiben? Antwort: S '$ '$ '$ '$ '$ '$ '$ '$ Als Vereinigung 4 y∈Y y = A ∪ B ∪ C mit p p A := {(x, y) | x2 + y 2 ≤ 1}, B := {(x, y) | (0 ≤ x ≤ 1) ∧ (−1 ≤ y ≤ 1)} und C = {(x, y) | T &% &% &% &% &% &% &% &% (x − 1)2 + y 2 ≤ 1}. Weiters ist y∈Y y = A ∩ C. Mehr zu Partitionen siehe Definition 53 (S.68) und Beispiel 54 (S.69). Definition 41 (Potenzmenge) Ist M eine Menge, so bilden alle ihre Teilmengen eine Menge, nämlich die Potenzmenge, abgekürzt durch P(M ): P(M ) := {T | T ⊆ M }. Beispiel 42 Ein Beispiel, das zur abzählenden Kombinatorik gehört, vgl. Anmerkung 200 (S.233). 1. Es sei M eine endliche Menge mit m Elementen. Man soll zeigen, daß P(M ) 2m Elemente hat. 4 Es ist dies ein Beispiel eines Voronoidiagramms: Dabei möchte man aus einem vorgegebenen Stück Blech nach Schablone Figuren herausfräsen. Es gibt jedoch entlang des Randes Verluste, sodaß die Figuren verbreitert gezeichnet werden müssen. 2.2. Mengen 63 Antwort: Der Beweis gelingt durch vollständige Induktion. Ist die Anzahl m = 0, so liegt die leere Menge vor, und sie hat nur eine einzige Teilmenge, nämlich ∅, somit hat P(∅) 20 = 1 Elemente. Nun sei die Behauptung für jede endliche Menge mit m Elementen bewiesen. Sei X eine beliebige Menge mit m + 1 Elementen und x ∈ X ein beliebiges Element. Dann gibt es zwei Arten von Teilmengen von X: solche, die Teilmengen von X \ {x} sind, und solche, die von der Form T ∪ {x} mit T ⊆ X \ {x} sind. Von beiden Sorten gibt es 2m Teilmengen, weil ja X \ {x} lediglich m Elemente hat. Somit gibt es insgesamt 2m + 2m = 2 × 2m = 2m+1 Teilmengen in X, w.z.b.w. 2. Auf wieviele Arten kann man aus einer Urne mit k Kugeln einen Teil der Kugeln herausnehmen? Antwort: Jeder solche “Teil” ist eine Teilmenge der k Kugeln. Deshalb gibt es 2k solche Auswahlen. Definition 43 (geordnetes Paar) Sind A und B Mengen und a ∈ A, b ∈ B, so heißt die Menge (a, b) := {{a}, {a, b}} geordnetes Paar und die Menge aller geordneten Paare A × B := {(a, b) | a ∈ A ∧ b ∈ B} das (kartesische) Produkt der Mengen A und B. Anmerkung 44 Die Definition des geordneten Paars durch eine Menge entspricht axiomatischem Vorgehen. Die wichtigste Eigenschaft eines geordneten Paars ist (a, b) = (a0 , b0 ) ⇔ (a = a0 ) ∧ (b = b0 ), die man als naive Definition kennt, und aus der mengentheoretischen Definition sofort folgt. Hat A genau m Elemente und B genau n Elemente, so hat A × B genau mn Elemente. Beispiel 45 Hierzu Beispiele: 1. Es seien X := {A, B, C} Aussagen und W := {W, F}. Welche Deutung kann X × W gegeben werden? Antwort: In der nebenstehenden Tabelle kann jedes Kästchen im rechten unteren Teil durch Angabe der “Koordinaten” A, B oder C und dem Wahrheitswert W, F beschrieben werden. A B C W F 2. Welche Deutungen kann man E ×E geben, wenn E die Ebene (bestehend aus Punkten) ist? Antwort: Es handelt sich um Punktepaare. Ist (P, Q) ein Punktepaar, kann es zur Definition von Endpunkten einer gerichteten Strecke verwendet werden. 64 Grundlagen 2.2.3 Relationen Relationen beschreiben die Beziehung von Elementen einer Menge A zu denen in einer Menge B. Es sei A := {QUICKFUNK, SMALLTALK, NOISY, REDEFROH} eine Liste Mobilfunkbetreiber, und B := {Anton, Ida, Max, Moritz} Namen von Personen, so könnte man sich für die Beziehung “Person b ∈ B ist Teilnehmer von Mobilfunkbetreiber a ∈ A.” interessieren. In der nachstehende Tabelle wird das durch ein ‘x’ ausgedrückt und die nebenstehende Zeichnung kann auch als Definition interpretiert werden: QUICKFUNK Anton QUICKFUNK SMALLTALK NOISY REDEFROH Ida x x Max x x Moritz x x Anton OOO OOO OOO OOO SMALLTALK Ida ?? ?? ?? ?? ?? ?? NOISY Max ?? o ooo?o?o? ?? ooo ? ooo REDEFROH Moritz Definition 46 (binäre Relation) Sind A und B Mengen, so versteht man unter einer (binären) Relation von Elementen in A zu solchen in B eine Teilmenge R des kartesischen Produkts5 A×B. Ist P (a, b) eine Aussage in 2 Variablen, so ist R := {(a, b) ∈ A×B | P (a, b)} eine Relation. Statt (a, b) ∈ R schreibt man oft aRb. Analog spricht man von einer k-stelligen Relation, falls R Teilmenge von A1 × A2 × · · · × Ak ist. Beispiel 47 Beispiele zu Relationen: 1. Welche Elemente liegen in R für das obige Einführungsbeispiel? Wie übersetzt man die Skizze in die Beschreibung von R, wie ergibt sich die Skizze bei gegebenem R? Wie könnte P (a, b) aussehen? Antwort: R = {(QUICKFUNK, Ida), (SMALLTALK, Ida), (SMALLTALK, Moritz), (REDEFROH, Ida), (REDEFROH, Max), (REDEFROH, Moritz)}. Für jede Linie von links nach rechts ergibt sich ein Element in R und umgekehrt. Die Beschreibung durch A(x, y) gestaltet sich wie folgt: (∃a)(∃b)((a, b) ∈ R)), wobei R die obige Liste ist. 5 Definition 43 (S.63) 2.2. Mengen 65 Um die Zusammensetzung oder Komposition von Relationen zu verstehen, sei z.B. C :={TU, Cafe Museum, Floridsdorf, Döbling} und eine Relation S durch die Liste von Paaren {(Anton, TU), (Anton, Floridsdorf), (Ida, TU), (Ida, Döbling), (Ida, Cafe Museum), (Moritz, Cafe Museum), (Moritz, TU), (Max, Döbling), (M oritz, F loridsdorf )} gegeben. Interpretation: Orte, wo sich diese Personen oft aufhalten. Nun kann gefragt werden, welche dieser Orte die Mobilfunkbetreiber erreichen können sollten. Anton Cafe Museum 3 N OOO p N OOO 3 Np p OOO N 3 p N OOO p p 3 N _ _3 _ _ _ _ TU SMALLTALK Ida N 3 >> N N3 >> N3 N >> N >> 33 >> >> _ _ _ _ _ Döbling NOISY 3 >> p Max p 3 >p> p p > 3 pp >> p p 3 > ppp _ _ _ _ REDEFROH Floridsdorf Moritz QUICKFUNK Nun kann eine neue Relation RS durch die Paare RS := {(QUICKFUNK, Cafe Museum), (QUICKFUNK, TU), (QUICKFUNK, Döbling), (SMALLTALK, Cafe Museum), (SMALLTALK, TU), (SMALLTALK, Döbling), (SMALLTALK, Floridsdorf), (REDEFROH, Cafe Museum), (REDEFROH, TU), (REDEFROH, Döbling), (REDEFROH, Floridsdorf)} festlegen, welche als Zusammensetzung von R mit S bezeichnet wird und z.B. die Interpretation “Betreiber a steht mit dem Ort c in Relation RS, genau dann, wenn sich in c eine Person b ∈ B öfters aufhält und a dort benützen könnte.” zuläßt. Ganz allgemein lautet die Definition: Definition 48 (Zusammensetzung von Relationen) Sind R ⊆ A × B und S ⊆ B × C Relationen, so versteht man unter Zusammensetzung RS ⊆ A × C die Relation (a, c) ∈ RS ⇔ ((∃b ∈ B)(a, b) ∈ R ∧ (b, c) ∈ S). In Worten, wenn es ein b in B mit aRb und bSc gibt. Anmerkung 49 (inverse Relation) 1. Zu jeder Relation R ⊆ A × B gibt es die Relation R◦ ⊆ B × A mit den Paaren (b, a), für die (a, b) ∈ R ist. 2. Die Komposition ist assoziativ in dem Sinne daß R(ST ) = (RS)T gilt. 66 Grundlagen Hier der Beweis für die Assoziativität. ⇔ ⇔ ⇔ ⇔ ⇔ aR(ST )d (∃b ∈ B)aRb ∧ bST d (∃b ∈ B) aRb ∧ (∃c ∈ C)bSc ∧ cT d (∃b ∈ B)(∃c ∈ C) aRb ∧ bSc ∧ cT d (∃c ∈ C) aRSc ∧ cT d a(RS)T d Ein wichtiger Spezialfall tritt ein, wenn A = B gilt. Z.B. kann A eine Liste von Orten und R die Relation sein, die angibt, ob es eine Zugverbindung von Ort a ∈ A nach Ort a0 ∈ A gibt. Die folgenden Eigenschaften einer solchen Art von Relation haben besonderen Namen: Definition 50 (Wesentliche Eigenschaften, die eine binäre Relation haben kann) Man sagt, R ist eine Relation auf der Menge A, falls R ⊆ A × A ist. Die Relation R auf A erfüllt die Eigenschaft der Reflexivität: Symmetrie: Antisymmetrie: Transitivität: (∀a ∈ A) (∀a, a0 ∈ A) (∀a, a0 ∈ A) (∀a, a0 , a00 ∈ A) aRa (aRa0 ) ⇒ (a0 Ra) (aRa0 ) ∧ (a0 Ra) ⇒ a = a0 (aRa0 ) ∧ (a0 Ra00 ) ⇒ aRa00 . a’ a Reflexivität a a" a’ a Symmetrie Transitivität Eine Relation R auf einer Menge A kann durch einen gerichteten Graphen, die Elemente von A als dessen Knoten und die Elemente von R als dessen gerichtete Kanten beschrieben werden. Ist (a, b) ∈ R, m.a.W. eine Kante, so ist a die Quelle und b das Ziel. Beispiel 51 Relationen auf einer Menge: 1. Wie kann die durch die nebenstehende Tabelle gegebene Relation zwischen Städten durch einen gerichteten Graphen beschrieben werden? Warum ist die Relation weder reflexiv, noch symmetrisch, noch transitiv? Warum ist sie antisymmetrisch? Wie erkennt man dies aus der Tabelle, bzw. anhand des Graphen? ab Wien Wien Wien Budapest an Rom München Budapest Szeged Antwort: Die Skizze, ein Graph mit Knoten die Orte und Kanten die Verbindungen lt. Liste. 2.2. Mengen München 67 jTTTT TTTT T Wien / Budapest OOOO ' Szeged Rom Die Relation ist nicht reflexiv, weil (Wien, Wien)6∈ R. Sie ist nicht symmetrisch, weil zwar (Wien, Budapest)∈ R, nicht jedoch (Budapest, Wien)∈ R gilt. Sie ist nicht transitiv, weil zwar (Wien, Budapest)∈ R, und (Budapest, Szeged)∈ R sind, nicht jedoch (Wien, Szeged)∈ R ist. Sie ist antisymmetrisch, weil für kein Paar (a, a0 ) ∈ R gleichzeitig auch (a0 , a) ∈ R ist, wie man durch Diskussion der 4 Fälle (die Pfeile) sofort sieht. Geometrisch sieht man das, weil es keine inversen Pfeile gibt. 2.2.4 Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt Die in Definition 50 (S.66) genannten Eigenschaften werden zur Beschreibung von Äquivalenzrelation und Halbordung herangezogen. Die Idee einer Äquivalenzrelation auf einer Menge A besteht darin, ihre Elemente in “(Äquivalenz)klassen” einzuteilen. Ein Beispiel ist die Einteilung der Teilnehmer eines Sprachkurses in die 3 Klassen: {Anfänger, mäßig Fortgeschrittene, Fortgeschrittene}. Die Elemente einer Klasse sind zueinander “äquivalent” (im Sinne, wie man den Kurs für sie anlegt). Bei Halbordnungen geht es um das Festlegen von (Rang)ordnungen. Beim Beispiel bleibend, könnte man die Teilnehmer nach ihrem Wissenstand ordnen. Man kann auch zunächst A < M F < F zu ordnen und danach Teilnehmer nach ihrer Klassenzugehörigkeit ordnen. Definition 52 (Äquivalenzrelation und Halbordnung) Eine Relation auf einer Menge A, welche reflexiv, symmetrisch und transitiv ist, heißt Äquivalenzrelation6 . Ist a ∈ A, so heißt die Menge aller a0 mit aRa0 die Äquivalenzklasse von a. Eine Relation auf einer Menge A, welche reflexiv, antisymmetrisch und transitiv ist, heißt Halbordnung. Mit den beiden soeben definierten Begriffen hängen einige Konzepte zusammen, die jetzt aufgelistet werden und danach in Beispielen erläutert werden sollen. 6 Vorsicht: Im Zusammenhang mit Datenbanken werden gelegentlich “Relationsschemata” als “Relationen” bezeichnet. Siehe Beispiel 206 (S.238). 68 Grundlagen Definition 53 (Zusätze) ad Äquivalenzrelation: Es sei R eine Äquivalenzrelation auf A. Die Menge der Äquivalenzklassen heißt Quotientenmenge7 von R, und wird mit A/R bezeichnet. Die Menge von Mengen A/R bildet eine Partition von A (Definition 39 (S.61)). Jedes Element einer Äquivalenzklasse heißt ein Repräsentant dieser Klasse. Eine Funktion s : A/R → A heißt Schnitt, falls für jedes ā ∈ A/R das Element s(ā) in der Klasse von a liegt. Die Menge s(A/R) heißt Repräsentantensystem der Äquivalenzrelation R. Umgekehrt, liegt eine Partition von A vor, so läßt sich auf A eine Äquivalenzrelation definieren, indem man aRa0 definiert, wenn a und a0 zur gleichen Teilmenge gehören. Die zu dieser Partition wie oben gebildete Äquivalenzrelation ist dann R. · · A mit 2 Klassen (punktiert) s A/R / ein Schnitt s(A/R) im punktiert gezeichneten A ad Halbordnung: Halbordnungen werden meist mit dem Symbol “≤” bezeichnet. Die Elemente a, a0 ∈ A sind vergleichbar, wenn entweder a ≤ a0 oder a0 ≤ a gilt, andernfalls heißen sie unvergleichbar. Es sei a ∈ A und B Teilmenge von A: a ∈ A ist Notation/Bild Bedingung, Kommentar Maximum von A falls alle Elemente in x ∈ A mit a ver(bzw. Minimum), gleichbar sind und x ≤ a (bzw. a ≤ x) ?? A •max auch größtes erfüllen. ? ·?? · (bzw. kleinstes) ? ◦ Element genannt min A maximales (bzw. minimales) Element obere (untere) Schranke von B Supremum (Infimum) von B wenn a ≤ x (bzw. x ≤ a) stets a = x nach sich zieht. • ** • ** ** ** · · · für alle b ∈ B ist b ≤ a (a ≤ b) •,, ,·2 · , ,, 22 ◦ ◦ ◦ B sup B, inf B • B O O O falls a das Minimum (Maximum) der Menge der oberen (unteren) Schranken von B ist. ←: B ist Kurve (hat waagrechte Asymptote durch •). A ist B zusammen mit “•” und dem vertikalen Strich. Ordnung: Werte der y-Koordinate. sup B = •; max B 6 ∃. 2.2. Mengen 69 Spezielle Eigenschaften einer Halbordnung in Tabellenform: Bezeichnung linear(e Ordnung), Totalordnung oder Kette, Bedingung, Kommentar · · · · falls je zwei Elemente vergleichbar sind. ·/<5/5< noethersch oder fundiert //5<5< //5<5< < wenn jede echt absteigende Kette endlich ist. ··· ·· · im Beispiel: Die Ketten dürfen beliebig lang sein. Wohlordnung wenn jede nicht leere Teilmenge ein Minimum besitzt z.B. IN , nicht jedoch IR Eine partielle Ordnung ist eine Relation, die lediglich transitiv und antisymmetrisch ist. Eine partielle Ordnung ist strikt, wenn kein Element zu sich selbst in Relation steht. Dies wird meist durch das Symbol ‘<’ bezeichnet. Beispiel 54 (Äquivalenzrelationen) 1. Prozentverteilungen verschiedener Bestandteile einer Substanz werden gelegentlich durch eine Kreisscheibe mit verschieden gefärbten, nicht überlappenden Sektoren, deren Winkel Prozentzahlen proportional sind, versinnbildlicht. Die Sektoren bilden eine Partition. Diese ist zugleich der Quotientenmenge der nachstehenden Relation: 2 Punkte der Kreisscheibe sind äquivalent, wenn sie die gleiche Farbe haben. 2. Ist die Relation R ⊆ A × A, definiert durch R := {(a, a) | a ∈ A} eine Äquivalenzrelation? Wie kann man die Äquivalenzklassen beschreiben? Antwort. Es handelt sich um die Gleichheitsrelation. Es ist nämlich aRb genau dann der Fall, wenn a = b gilt (andere Elemente sind in R nicht enthalten, vgl. Definition 46 (S.64)). Nun ergibt sich sofort, daß die Axiome der Äquivalenzrelation erfüllt sind. Die Äquivalenzklassen bestehen aus den einelementigen Teilmengen von A. 7 Man stellt sich vor, jede Äquivalenzklasse schrumpft zu einem Punkt. 70 Grundlagen 3. (Isobaren als Äquivalenzklassen) “Isobaren” sind gedachte Linien gleichen Druckes (Wetterkarte), etwa in einer bestimmten Höhe über der Erdoberfläche. Wie kann dieser Begriff im Sinne einer Äquivalenzrelation gedeutet werden? Welche anderen ähnlichen Begriffe und Deutungen sind Ihnen bekannt? Antwort: Man definiert für Punkte x, y der Erdoberfläche eine Relation xRy, wenn an x und y der gleiche Luftdruck herrscht. Es entsteht eine Äquivalenzrelation. Die auf einer Karte erscheinenden Isobaren sind Äquivalenzklassen bezüglich dieser Äquivalenzrelation. Andere Begriffe: Isothermen, Isoklinen. Auch Äquipotentiallinien, bzw. -flächen sind Äquivalenzklassen, welche so zustande kommen. Siehe auch Anmerkung 57 (S.73). 4. (Stromlinien als Äquivalenzklassen) Wirbelfreie und inkompressible Flüssigkeit, die stationär in einem Gebiet des Raumes fließt, besitzt Stromlinien, d.s. Linien, welchen ein in die Flüssigkeit geworfenes Partikel im Zuge der Strömung folgt. Welche Beziehung zu Äquivalenrelationen kann man herstellen? Welche andere Situationen dieser Art sind Ihnen bekannt? Antwort: Aus physikalischen Annahmen folgt, daß Stromlinien den Raum ganz ausfüllen und je zwei Stromlinien keine Punkte gemeinsam haben, also eine Partition des Raumes beschreiben. Somit ist jede Stromlinie eine Äquivalenzklasse. Magnetisches und Elektrostatisches Feld – Feldlinien. 5. In der Ebene (aufgefaßt als Menge von Punkten), werde xRy für Punkte x und y definiert, falls es eine Gerade g mit x ∈ g und y ∈ g gibt. Liegt eine Äquivalenzrelation, bzw. eine Halbordung vor? Gelingt der Nachweis durch ledigliches Anwenden der Axiome der Ebene aus Beispiel 36 (S.56) 3 unter der Annahme daß die Ebene mindestens 2 Punkte enthält? 2.2. Mengen 71 Antwort. Die Reflexivität beweist man so: Sei x ∈ E beliebig. Dann gibt es noch einen Punkt z 6= x. Somit gibt es eine Gerade g, auf der x liegt. Dann ist für y = x die Aussage x ∈ g erfüllt, also xRx. Symmetrie: Wenn xRy, so gibt es g mit (x ∈ g)∧(y ∈ g), also gilt auch (y ∈ g)∧(x ∈ g), somit yRx. Transitivität: Seien xRy und yRz. Wenn x 6= z ist, kann man durch x und z wegen d) in Beispiel 36 (S.56) auf xRz schließen. Wenn hingegen x = z ist, hat man wegen der schon bewiesenen Reflexivität auch xRz. Alle Punkte sind zueinander äquivalent, daher gibt es nur eine Äquivalenzklasse, nämlich E. 6. (Logische Äquivalenz als Äquivalenzrelation) Es sei L eine gemäß den in Definition 32 (S.48) angegebenen Forderungen gebildete aussagenlogische Sprache. Ist dann die logische Äquivalenz ⇔ eine Äquivalenzrelation auf L? Antwort. Seien A, B und C beliebige Aussagen einer in L formulierten Theorie. Definiert war A ⇔ B durch das Erfülltsein von w(A) = w(B). Da w(A) = w(A), hat man somit A ⇔ A, also die Reflexivität. Ist A ⇔ B, so gilt w(A) = w(B), also wegen 1. auch w(B) = w(A) und deshalb B ⇔ A, also die Symmetrie. Ist A ⇔ B und B ⇔ C erfüllt, so gilt w(A) = w(B) = w(C), also wegen 1. auch w(A) = w(C), somit A ⇔ C, also die Transitivität. Beispiel 55 (Halbordnungen) 1. Es sei A die Menge aller Brüche der Form n1 mit n ∈ IN , n ≥ 1 und ≤ die übliche Ordnung (es soll vorausgesetzt werden, daß wir schon bewiesen haben, daß es sich um eine Halbordnung handelt). Gibt es ein Maximum, bzw. Minimum? Ist die Halbordnung linear? Liegt eine noethersche Halbordnung vor? Antwort: Es ist 1 ein Maximum. Es gibt kein Minimum, weil es zu jedem a ∈ A ein noch kleineres gibt. Je zwei Elemente sind vergleichbar, also ist die Halbordnung linear. Es liegt keine noethersche Halbordnung vor, weil A eine unendliche absteigende Kette ist. Die Halbordnung ist linear. 2. (Teilbarkeit als Halbordnung) Für die Menge aller natürlichen Zahlen ≤ 11 sei eine Halbordnung m ≤ n definiert, wenn m ein Teiler von n ist. Wie kann man die Relation durch einen Graphen beschreiben? Wie lauten die maximalen Elemente? Antwort: Gebräuchlich ist es, als Knoten die Zahlen {1, 2, . . . , 11} zu nehmen und 2 Zahlen nur dann zu verbinden, wenn eine die andere teilt, jedoch kein Teiler “dazwischen liegt”. Man spricht von einem Hassediagramm für die Halbordnung. 72 Grundlagen Die maximalen Elemente sind 6, 7, 8, 9, 10 und 11. Die Halbordnung ist nicht linear, jedoch z.B. ihre Einschränkung auf {1, 2, 4, 8}. Die Teilbarkeitsordnung ist noethersch, jedoch keine Wohlordnung. 8 9> >> >> >> 6> >> >> >> 4 10 @ @@ @@ @@ @ 3 NNN 2 o5 jj 7 ggg 11 NNN ooojjjjjgjgjggggggg o o NNN o jj gg NNN ooo jjjggggg NN oojgojgojgojgjgjgjggg gj ~ ~~ ~~ ~ ~~ 1 3. (Hassediagramm) Falls eine Halbordnung ≤ auf einer Menge M lokalfinit, d.h. jede von einem Element x zu einem Element y bestehende Kette endlich ist, so kann die Halbordnung durch ein Hassediagramm beschrieben werden, indem ein Graph mit Knoten die Elemente von M und Kanten x → y gezeichnet werden, falls y < x gilt (d.h. y ≤ x und x 6= y). Dabei wird gerne von “unten nach oben” gezeichnet, d.h. kleinere Elemente sind weiter unten. Hier Beispiele, wie man die Menge {1, 2, 3} ordnen könnte (die Liste ist nicht vollständig): 3 2 1 3 3 2 1 (b) (c) }} }} } } }} 3 2 1 }} }} } } }} 1 (a) 2.2.5 (d) 2 (a) ist eine Kette, in (b) und (c) sind 1 und 2, in (c) auch 2 und 3 unvergleichbar. In (a) und (b) ist 3 ein Maximum (und daher ein maximales Element), in (c) und (d) ein maximales Element, aber kein Maximum. In Definition 67 (S.81) findet man Hassediagramme zur Beschreibung von Termersetzungssystemen. Funktionen und Abbildungen Beim Funktionsbegriff, meist durch y = f (x) notiert, denkt man sich jedem x mittels einer “Vorschrift”, dem f , ein y zugeordnet. Zu jedem x soll es dabei ein zugeordnetes y geben und keinem x werden zwei verschiedene y zugeordnet. Dieser Vorstellung folgt man beim mengentheoretischen Funktionsbegriff: Definition 56 (Funktionsbegriff) Unter einer Funktion oder Abbildung f mit Definitionsbereich A und Wertebereich B (kurz Funktion f : A → B) versteht8 man eine Relation R ⊆ A × B mit den folgenden Eigenschaften: 1. Zu jedem a ∈ A gibt es ein b ∈ B mit (a, b) ∈ R 2. Wenn für b, b0 ∈ B ein a ∈ A mit (a, b) ∈ R ∧ (a, b0 ) ∈ R, dann soll b = b0 sein. Man schreibt dann statt (a, b) ∈ R auch b = f (a) oder auch a 7→ b. Die Menge R = {(a, f (a)) | a ∈ A} heißt Funktionsgraph. Man nennt b das Bild von a unter f und a ein Urbild von b. Weiters versteht man für A0 ⊆ A und B 0 ⊆ B unter f (A0 ) := {f (a) | a ∈ A0 } das Bild von A0 unter f und unter 2.2. Mengen 73 f −1 (B 0 ) := {a ∈ A | f (a) ∈ B 0 } das Urbild von B 0 unter f . Recht gebräuchlich ist B A als Bezeichnung für alle Funktionen mit Definitionsbereich A und Wertebereich B. Es heißt f injektiv oder auch Injektion, falls stets aus f (a) = f (a0 ) die Gleichung a = a0 folgt. Ist f (A) = B, also jedes b ∈ B in der Form f (a) darstellbar, so nennt man f surjektiv oder auch Surjektion. Schließlich ist f bijektiv oder auch Bijektion, wenn es sowohl injektiv, wie auch surjektiv ist. Ist f : A → B eine Bijektion, so heißt die durch g(b) := a, falls f (a) = b ist, definierte Funktion zu f invers. Sie wird üblicherweise mit f −1 bezeichnet. Eine partielle Funktion9 f : A → B ist eine Funktion f : C → B mit C ⊆ A. Anmerkung 57 Jede Funktion f : A → B gibt Anlaß zur Äquivalenzrelation aRa0 genau dann, wenn f (a) = f (a0 ). Es ist dann f (A) zugleich der Quotientenmenge (vgl. Definition 53 (S.68) und Beispiel 54 (S.69) 2.). Die Äquivalenzklassen von R sind die Urbilder der Punkte in B und sie bilden eine Partition. Umgekehrt gibt es für jede Äquivalenzrelation auf einer Menge M eine Funktion, die jedem Element seine Äquivalenzklasse zuordnet. Beispiel 58 Beispiele zum Funktionsbegriff: 1. Es sei R die in der Beschreibung vor Definition 46 (S.64) gegeben Relation mit den Mobilfunkbetreibern A und Personen B. Warum legt R keine Funktion von A nach B fest? Antwort: Es ist Bedingung 1. für a =‘NOISY’ und Bedingung 2. für a ∈ {SMALLTALK, REDEFROH} verletzt. 2. Es sei eine Relation in IR3 × IR2 definiert, nämlich (x, y, z)R(x0 , y 0 ) falls x = x0 und y = y 0 ist. Wie zeigt man, daß die Bedingungen dafür, daß R eine Funktion f : IR3 → IR2 definiert, erfüllt sind? Wie kann man f mit einfachen Worten beschreiben? Es seien die Punkte A(0, 1, 2), B(5, 3, 7) und C(2, 7, −10) Eckpunkte eines Dreiecks ∆. Wie kann man f (∆) beschreiben? Wie f −1 {(0, 0), (0, 1)}? Ist f surjektiv? Ist f injektiv? Antwort(en): Um 1. zu prüfen, wählt man (x, y, z) ∈ IR3 beliebig. Danach ist ((x, y, z), (x, y)) ∈ R. Angenommen, für (x, y) und (x0 , y 0 ) gibt es (a, b, c) mit ((a, b, c), (x, y)) ∈ R und ((a, b, c), (x0 , y 0 )) ∈ R. Laut Definition von R hat man x = a, y = b und ähnlich x0 = a, sowie y 0 = b, sodaß (x, y) = (x0 , y 0 ) folgt. Also ist 2. erfüllt. Es handelt sich um Parallelprojektion zur z-Achse und offenbar ist f (x, y, z) = (x, y). Als Bild f (∆) findet man das Dreieck mit den Eckpunkten A0 (0, 1), B 0 (5, 3) und C 0 (2, 7). Es ist f −1 {(0, 0), (0, 1)} = {(0, 0, z) | z ∈ IR}∪{(0, 1, z) | z ∈ IR} die z-Achse zusammen mit einer um eine Einheit nach rechts verschobenen. 8 9 Man liest das: f ist eine Funktion, bzw. Abbildung, von A nach B Diese Notation ist z.B. in der Theorie der Datenbanken, aber auch Automatentheorie bequem. 74 Grundlagen f ist surjektiv. Um dies zu zeigen, wählt man (x, y) ∈ IR2 beliebig. Danach ist f (x, y, 0) = (x, y), also ist (x, y) im Bild von f . f ist nicht injektiv. Dazu genügt es, zwei Punkte im Raum mit gleichem Bild anzugeben, z.B. P (0, 0, 0) und Q(0, 0, 1). 3. In der nachstehenden Tabelle wird der Kaffeverbrauch (Tassen) von Mitarbeitern im ersten Dritteljahr protokolliert (um später abrechnen zu können), wobei 30 Kaffees pro Monat frei sind. Wie kann die nebenstehende Tabelle als 1 2 3 4 Funktion f gedeutet werden? Wie würde man Max 27 25 17 19 ihren Definitions- bzw. Wertebereich wählen? Edda 15 18 22 24 Wie kann der Funktionsgraph gesehen werSue 20 23 26 21 den? Ist f injektiv? Antwort(en): Offenbar wird jedem Paar (i, Person) ein Wert zwischen Null und 30 zugeordnet. Somit erscheint es natürlich, A := {1, 2, 3, 4} × {Max, Edda, Sue}, weiters B := {0, 1, 2, . . . , 30} zu wählen, sowie f (i,Person) den Eintrag der in der Zeile der Person und in der Spalte i ist, zu definieren. Der Graph mag als “Klötzchendiagramm” verstanden werden. Jedes Klötzchen so hoch, als die Kaffeetassenzahl zeigt. Da keine zwei Tabellenwerte übereinstimmen, ist f injektiv. Da jedoch nur 12 Tabellenwerte existieren und B 30 Elemente hat, kann f nicht surjektiv sein. In unmittelbarem Zusammenhang mit dem Funktionsbegriff steht die Bildung allgemeinerer kartesischer Produkte wie folgt: Definition 59 (Mengenfamilie, Allgemeines kartesisches Produkt) Es seien I und M Mengen, sowie P(M ) die Potenzmenge von M . Eine Funktion T : I → P(M ) heißt Mengenfamilie von Teilmengen von M . Es ist üblich Ti statt T (i) zu schreiben und (Ti )i∈I oder (Ti | i ∈ I) statt T : I → P(M ). Bei gegebener Mengenfamilie (Ti )i∈I heißt jedes f : I → M mit f (i) ∈ Ti Auswahlfunktion10 . Es ist üblich fi statt f (i) zu schreiben, sowie (fi )i∈I statt f : I → M und I als Indexmenge zu bezeichnen. Q Unter dem kartesischen Produkt i∈I Ti versteht man die Menge aller dieser Auswahlfunktionen. Falls alle Ti = T alle gleich sind, ist die Notation T I üblich, welches, wie man sofort sieht, genau die Menge aller Funktionen Qnvon I nach T ist. Ist I = {1, . . . , n}, so schreibt man i=1 Ai oder A1 × . . . × An und ein Element darin als (a1 , . . . , an ) = (ai | i = 1, . . . , n) (genannt n-Tupel). Ist Ai = A so schreibt man statt A{1,...,n} einfach An (n-faches kartesisches Produkt der Menge A). 10 Die Existenz einer solchen Funktion für nicht abzählbares I benötigt das Auswahlaxiom, siehe die Tabelle vor Beispiel 199 (S.232) 2.2. Mengen 75 Sehr viele (mathematische) Begriffe können als Funktionen erklärt werden. Die nachstehende Tabelle bietet einige Beispiele dafür. Bezeichnung {an }∞ ∈ n=1 AIN , Folge mit Werten in A (a1 , . . . , an ) ∈ An bzw. (ai )ni=1 , n-Tupel (aij )(i,j)∈I×J doppelt indizierte Menge x + y Addition (von Vektoren) ~a × ~b äußeres Produkt P n i=1 ai Summe limn→∞ an f0 Ableitungsfunktion Rb f (x) dx R-Integral a Definitionsbereich IN Wertebereich A Menge Beschreibung {1, . . . , n} A Menge i 7→ ai ∈ A z.B. Zeilenvektoren A Menge (i, j) 7→ aij ∈ A z.B. Matrizen V × V , V Vektorraum V (x, y) 7→ x + y IR3 × IR3 IR3 (~a, ~b) 7→ (ijk aj bk )3i=1 An , A ein Vektorraum alle konvergenten Folgen IN {an }∞ n=1 ∈ IR alle f : A → IR, mit A ⊆ IR und f differenzierbar in A alle f : [a, b] → IR, die R-integrierbar sind A (ai )ni=1 7→ IR {an }∞ n=1 7→ limn→∞ an AIR f 7→ f 0 IR f 7→ I × J menge Index- Besonderheiten n 7→ an ∈ A Rb a Pn i=1 ai f (x) dx In Zusammenhang mit dem allgemeinen kartesischen Produkt stehen auch die in der Theorie der Datenbanken verwendeten Relationsschemen, siehe hiezu Unterabschnitt A.1.6 (S.238). Anmerkung 60 (Zusammensetzung, Erweiterung und Einschränkung von Funktionen versus Relationen) Zusammensetzung von Funktionen : Geht man von der Zusammensetzung RS zweier Relationen11 f : A → B, sowie S der Funktionsgraph von g : B → C ist, so hat man aRSc, falls es ein b ∈ B gibt mit aRb und bSc. Wegen der Deutung als Funktionsgraphen heißt das b = f (a) und c = g(b). Dann zeigt man ganz leicht, 76 Grundlagen daß RS ebenfalls ein Funktionsgraph ist und man bezeichnet die zu RS gehörige Funktion mit gf und nennt sie Hintereinanderausführung, Komposition oder Zusammensetzung12 , von f und g. Es ist dann gf (a) = g(f (a)) für alle a ∈ A. f g ) A )2 B C gf Sind f, g, h Funktionen, sodaß man gf und hg bilden kann, so kann man auch h(gf ) und (hg)f bilden und es ist h(gf ) = (hg)f , m.a.W., es gilt das Assoziativgesetz. Hingegen ist gf im allgemeinen nicht dasselbe wie f g. Einschränkung und Erweiterung (=Fortsetzung): Ist f : A → B eine Funktion, und C Teilmenge von A, so nennt man die Funktion g : C → B, definiert durch g(c) := f (c) für alle c ∈ C, die Einschränkung von f auf C, im Symbol f ||C . Ist U eine A umfassende Menge und h : U → B eine Funktion, deren Einschränkung auf A mit f übereinstimmt (d.h. (∀a ∈ A)(f (a) = h(a))), so heißt h eine Erweiterung oder Fortsetzung von f auf U ⊇ A. Sind R ⊆ A × B, S ⊆ B × C und demnach auch RS Funktionsgraphen13 von f , g und gf , so sind zwar die Schreibweisen RS und gf für jeweiliges Hintereinanderausführen als Relationen bzw. Funktionen nicht kohärent, allerdings können aRb, bSc und somit aRSc in der Sprechweise für Funktionen durch b = f (a), c = g(b) und somit c = gf (a) ausgedrückt werden. Beispiel 61 (Schreibweisen) Es ist gelegentlich wichtig14 , aus der Schreibweise zu erkennen, wie Funktionen zusammengesetzt sind, (siehe auch Beispiel 208 (S.239) 6.). Ausdruck gf cos(x3 ) cos3 (x) cos(x + y) Idee, Hilfestellung x 7→ x3 = y, y 7→ cos y x 7→ cos x = y 7→ y 3 (x, y) 7→ x + y = z 7→ cos z g cos f ∧3 cos ·+· cos ∧3 Wir schließen diesen Abschnitt mit dem nützlichen Konzept der Verträglichkeit einer Abbildung: Definition 62 (Verträglichkeit von Funktion mit Relationen) Es sei f : A → B eine Abbildung und R ⊆ Ak sowie S ⊆ B k jeweils k-stellige Relationen. Man sagt, f ist mit den Relationen verträglich, wenn (a1 , . . . , ak ) ∈ R ⇒ (f (a1 ), . . . , f (ak )) ∈ S gilt. 11 Gelegentlich werden wir g ◦ f schreiben. Definition 48 (S.65) 13 Definition 56 (S.72) 14 etwa beim Gebrauch der Kettenregel 12 2.2. Mengen 77 Beispiel 63 Hier sei auf m.E. nicht uninteressante Anwendungen hingewiesen: 1. (Mengentheoretisches Modell einer Menge von Aussagen) Es sei M eine feste Menge und A eine Menge von Aussageformen α(x) mit x einer einzigen Variablen. Nun definieren wir f : A → P, indem für jedes α ∈ A f (α) := {m ∈ M | α(m)} setzen, also alle jene m ∈ M , für die α(m) wahr ist, in eine Menge mit der Bezeichnung f (α) tun. Die Beziehung f (α(x) ∧ β(x)) = f (α(x)) ∩ f (β(x)) ist eine Umformulierung der Definition des Durchschnittes aus Definition 35 (S.55). Daß aus dem “∧” ein “∩” wird, läßt sich durch die Verträglichkeit von Abbildungen formulieren: Ein wenig umständlich definieren wir eine Relation R ⊆ A × A × A, indem (α(x), β(x), γ(x)) ∈ R ⇔ γ(x) = α(x) ∧ β(x) gesetzt wird, m.a.W., wenn das Tripel im Funktionsgraphen der Funktion ∧ : A×A → A liegt. Nicht minder umständlich definieren wir S ⊆ P × P × P durch (X, Y, Z) ∈ S ⇔ Z = X ∩ Y, d.h., wenn (X, Y, Z) zum Funktionsgraphen von ∩ : P × P → P liegt. Es ist f mit den Relationen R und S verträglich, weil (α(x), β(x), γ(x)) ∈ R g.d.w. γ(x) = α(x) ∧ β(x), sodaß f (γ(x)) = {m ∈ M | α(m) ∧ β(m)} = {m ∈ M | α(m)} ∩ {m ∈ M | β(m)} = f (α(x)) ∩ f (β(x)) g.d.w. (f (α(x)), f (β(x)), f (γ(x))) ∈ S. Somit wird die Verträglichkeit von f mit R und S ausgedrückt. In Beispiel 81 (S.90) 8. wird sich f als Halbgruppenhomomorphismus erweisen. Eine Deutung von f ist die Folgende: Die vorliegende Menge A von Aussageformen wird mittels einer “Referenzmenge” M in Äquivalenzklassen unterteilt. Zwei Aussageformen sind äquivalent, (wir wollen das durch α ∼ β ausdrücken) wenn sie die gleiche Teilmenge von M bestimmen, d.h. α(x) ∼ β(x) g.d.w. f (α(x)) = f (β(x)) gilt. Es ist ohne weiters denkbar, daß die Äquivalenzklasse jener α mit f (α(x)) = ∅ nicht leer oder sogar ganz A ist. Wenn es gelingt, eine Menge M zu finden, sodaß jede logische Äquivalenzklasse von Aussagen genau eine Teilmenge von M bestimmt, so nennt man f (A) ein mengentheoretisches Modell von A. Schlußendlich erweisen sich in unserem Fall R und S als die Funktionsgraphen der Funktionen ∧ : A × A → A bzw. ∩ : P(A) × P(A) → P(A). 2. Es seien A, M und f wie in 1. Jetzt soll jedoch R ⊆ A × A und S ⊆ P(A) × P(A), und S := {(X, Y ) | X ⊆ Y } sein. Die Verträglichkeitsbedingung besagt, daß α(x)Rβ(x) stets f (α(x)) = {m ∈ M | α(m)} ⊆ {m ∈ M | β(m)} = f (β(x)) nach sich zieht. 78 Grundlagen Wie kann man R verstehen? Antwort: Es ist α(x)Rβ(x) genau dann, wenn es Teilmengen A ⊆ B ⊆ M mit A = {m ∈ M | α(m)} und B = {m ∈ M | β(m)} gibt. Zuletzt darf hingewiesen werden, daß die Verträglichkeitsdefinition allgemeiner so gefaßt werden kann: Anmerkung 64 (Verträglichkeit von Familie von Funktionen mit Relationenfamilie) Es seien (Ai | i ∈ I) Q und (Bi | i ∈ I)QMengenfamilien und fi : Ai → Bi Funktionen. Weiters seien R ⊆ i∈I Ai und S ⊆ i∈I Bi Relationen. Die Funktionenfamilie (fi | i ∈ I) ist dann mit R und S verträglich, wenn (ai | i ∈ I) ∈ R stets (fi (ai ) | i ∈ I) ∈ S nach sich zieht. Dieses Konzept wird etwa in der Theorie der Datenbanken benützt. Es soll in dieser Vorlesung im Folgenden keine Rolle spielen. Kapitel 3 Algebra In der Algebra geht es im weitesten Sinn um Rechenregeln, wie z.B. Kommutativgesetz, Assoziativgesetz, Distributivgesetz, die für unterschiedlichste Rechenoperationen mit unterschiedlichsten Sorten von Objekten Gültigkeit haben. Etwa jene mit den üblichen Zahlen (‘+’, ‘−’,‘×’,‘/’), aber auch, beispielshalber mit Mengen (‘∩’, ‘∪’, ‘\’), wie das Assoziativgesetz (A ∩ B) ∩ C = A ∩ (B ∩ C), (m + n) + k = m + (n + k), . . . Dementsprechend, welche Arten von Rechenoperationen und Gesetzen gültig sind, werden bestimmte algebraische Strukturen, wie (Halb)gruppe, Ring, Körper und andere formuliert. 3.1 Freie Monoide und Termersetzung Dieser Unterabschnitt ist nicht Prüfungsstoff. Zunächst will man formulieren, was überhaupt Terme sind, um z.B. (ab)c + 1 zu formulieren. Dazu benützt man ein “Alphabet”, im Beispiel A = {‘(’, ‘)’, ‘+’, ‘1’, ‘a’, ‘b’, ‘c’}, aus dem “Zeichenketten” (auch “Wörter” oder, wie oben, “Terme” genannt, mit Buchstaben aus einem Alphabet, dessen Elemente selbst Wörter etwa einer Computersprache, der ‘tokens’ sein können) gebildet werden. Nun kann ‘(ab)c + 1’ als Wort in den Buchstaben von A interpretiert werden. Jedes solche Wort ist eine endliche (Ab)folge von Buchstaben, also eine Funktion f , die festlegt, welcher der 1.te, 2.te, etc Buchstabe des Wortes ist: n 1 2 3 4 5 6 7 f (n) ( a b ) c + 1 Da nicht jedes solche Wort “sinnvoll” ist (z.B. ist ‘++’ kein Rechenausdruck), bedarf es Regeln, welche die zulässigen Wörter, die dann eine Sprache bilden, aussondert. Die regulären Sprachen sind die einfachsten ihrer Bauart, sie liegen der Backus-Naurform zugrunde, und finden sich bei Texteditoren (“regular Expressions”). Dabei hat man im Alphabet syntaktische Variable (z.B. etwa ‘X’ und ‘Y ’ und ein “Startsymbol” ‘S’), sowie terminale Variable (etwa {a, b, c}) und Regeln, die (als Beispiel) Ersetzungen der Form S → X, X → aY, Y → c 79 80 Algebra zulassen. Es wird ein Startsymbol gewählt, etwa S und danach darf man von diesem Symbol ausgehend, nach Belieben ein in einem Wort vorkommendes X bzw. Y jeweils aY bzw. c ersetzen, solange, bis keine syntaktischen Variablen mehr vorkommen. Jedes so gewonnene Wort gehört dann zur durch die Regeln festgelegten reguläre Sprache. Im Beispiel finden wir S → X → aY → ac also als einzig zustandekommend ac, somit als durch die Regeln bestimmte Sprache {ac}. Welche Sprache entsteht, wenn man S → Y statt S → X als 1.te Regel festlegt? Antwort: Die Sprache besteht aus allen Ausdrücken aaaa . . . ac, wobei a beliebig oft, jedoch mindestens einmal vorkommt. Als regulärer Ausdruck wird die Sprache als ‘a+ c’ angeschrieben. Man darf sich somit vorstellen, daß “korrekt gebildete Rechenausdrücke” durch gewisse (etwas allgemeinere) Regeln festgelegt werden können, wobei die nun zu definierenden Termersetzungssysteme hilfreich sind. Sprachtheoretische Präzisierungen und Anwendungen (Chomskysprachen) können im Anhang in Unterabschnitt A.2.1 (S.239) gefunden werden. Definition 65 (freies Monoid) Es sei A eine Menge und es bezeichne n̄ := {1, . . . , n}. Jede Funktion f : n̄ → X heißt Wort, gebildet aus Buchstaben des Alphabets A. Es werde in der Form f (1)f (2) · · · f (n) geschrieben, und n heißt Länge von f . Wenn f und g Wörter mit den Längen m und n sind, so soll die Zusammensetzung1 f g das Wort mit f g(i) = f (i) für i ≤ m und f g(i) := g(i − m) falls i > m ist. Man schreibt f (1) . . . f (m)g(1) . . . g(n) (Juxtaposition bzw. engl. concatenation). Schließlich soll es das leere Wort mit der Bezeichnung geben, (etwa die Funktion f : ∅ → A), welche f (1) . . . f (n) = f (1) . . . f (n) = f (1) . . . f (n) genügen soll. Die entstandene Struktur bezeichnet man mit A∗ und nennt sie freies Monoid über dem Alphabet A. Es bezeichnet A+ := A∗ \ {}, d.i. die Menge aller nicht trivialen Wörter. Jede Teilmenge von A∗ heißt (abstrakte) Sprache. Für Teilmengen X, Y ⊆ A∗ sei XY := {xy | x ∈ X, y ∈ Y }. Beispiel 66 Es ist (ab)c + 1 ∈ {a, b, c, (, ), +, 1}∗ . Einprägsam ist die Beschreibung des freien Monoids durch einen Graphen2 , dessen Knoten aus den Wörtern in A∗ und Kanten jeweils vom Knoten w zum Knoten wa für a ∈ A führen: Für A = {a, b, c} ergibt sich bis zur Tiefe 2 ( steht vereinbarungsgemäß in Tiefe 0) der Graph: U iiii UUUU aa UUUU iiii UUUcU iiii i UUUU i b i UUUU iii a i i i UU* i i t i cA aA b @@ } A | @@ c } }} AAA c | AA c } } | @ } AA } | AA @@ b b b }}a AA }} a || a AA @ ~}} ~}} ~|| 1 2 ab ac ba bb bc ca cb cc Dies ist nicht das Zusammensetzen von Funktionen im Sinne von Anmerkung 60 (S.75) Definition 50 (S.66) 3.1. Freie Monoide und Termersetzung 81 Das Formulieren von Regeln geschieht üblicherweise in Form eines Termersetzungssystems (TES): Definition 67 (TES=Termersetzungssystem) Ein Termersetzungssystem (TES) mit Alphabet A oder Semi-Thuesystem ist eine Relation (Definition 46 (S.64) und Definition 50 (S.66)) R auf A∗ . Üblicherweise schreibt man u → u0 statt uRu0 . Sind v, n ∈ A∗ , so sagt man w0 := vu0 n ist vermittels der Regel u → u0 aus w := vun herleitbar. Gibt es ein k > 0 und Regeln in R sodaß w → w1 , etc., wk−1 → wk =: w0 , so schreibt man w →∗R w0 , bzw. w →∗ wk und sagt, w0 ist vermittels des TES R aus w herleitbar3 . Stellt man die Relation im Sinne von Definition 50 (S.66) als Graphen dar, dessen Knoten die Elemente in A∗ sind, und wo eine Kante von u nach u0 führt, falls u → u0 , so bekommt man den Ableitungsgraphen. Er ist ein Hassediagramm im Sinne von Beispiel 55 (S.71) 2.,3. Wir vereinbaren noch, statt u → v1 , u → v2 , . . . , u → vk in kürzerer Form u → v1 |v2 | . . . |vk zu schreiben und analog u1 → v, u2 → v, . . . , uk → v durch u1 |u2 | · · · |uk → v abzukürzen. Das TES heißt konfluent, falls es zu allen u, v, w ∈ A∗ mit w →∗ u und w →∗ v ein z ∈ A∗ mit u →∗ z und v →∗ z gibt. }} }} } } ~}} uA AA AA∗ AA A ∗ wA AA AA∗ AA }} }} } }~ } v ∗ z Es darf angemerkt werden, daß für eine Ordnungsrelation diese Eigenschaft auch als “nach unten gerichtet” bezeichnet wird. Beispiel 68 Wenn A = {a, b, c, S, X, Y } und R = {S → Y, X → aY, Y → c} ist, so darf aXbY → aaY bc → aacbc getätigt werden, also hat man aXbY →∗ aacbc. Kopfnuss für Tüftler: warum ist das angegebene System konfluent? Anmerkung 69 (TES, Konfluenz, noethersch und Normalform) Es habe ein TES auf A∗ die folgenden Eigenschaften: • Das TES ist konfluent. • Die Relation ‘→∗ ’ ist antisymmetrisch. • Die Relation, definiert als x ≤ y, genau dann, wenn entweder x = y oder y →∗ x, ist noethersch4 Es sei S jene Relation auf A∗ , die durch xSy ⇔ (x = y) ∨ (x →∗ y) ∨ (y →∗ x) definiert ist. 3 →∗ wird auch transitive Hülle von → genannt. 82 Algebra Dann ist S eine Äquivalenzrelation (Definition 53 (S.68)) und die minimalen Elemente der Ordnung sind Repräsentanten von S. Es ist üblich, diese Repräsentanten als Normalform zu bezeichnen. Nutzen: Wenn sich eine gegebene Relation S als durch ein TES mit den genannten Eigenschaften erklärbar erweist, hat man ein algorithmisches Hilfsmittel, Äquivalenzklassen durch Elemente in A∗ eindeutig zu identifizieren und weiters, zu jedem Element in A∗ seinen eindeutigen Repräsentanten in A∗ zu ermitteln. Kurz zum Beweis: Reflexivität und Symmetrie von S sind einsichtig. Die Transitivität läßt sich aus dem rechts abgebildeten Diagramm und Anwenden der Definitionen erkennen: x? ?? ~ ??∗ ∗ ~~~ ?? ~ ~ ? ~~~ uA AA AA∗ AA A y@ @ @@ ∗ @@ @@ } }} } } }~ } z ∗ v ∗ w Als Liste von Anwendungen eines solchen TES innerhalb dieses Skriptums mögen die Beschreibung von Symmetriegruppen in Unterabschnitt 3.2.2 (S.89), von Monoidhomomorphismen (freies kommutatives Monoid) in Beispiel 81 (S.90), dem üblichen “Kongruenzenrechnen” oder auch “modulo einer Zahl m Rechnen” in ZZ m , bzw. im Polynomring “modulo einem Polynom f Rechnen” in Beispiel 106 (S.109), Beschreiben von algebraischen Erweiterungen eines Körpers (Anmerkung 109 (S.110)), insbesondere das Rechnen in endlichen Körpern (Beispiel 112 (S.115), wo IF8 der Körper mit 8 Elementen behandelt wird), genannt. Beispiel 70 Beispiele zu TES: 1. Es sei A := {t, a, b, c, d, . . . , x, y, z} ∪ {ä,ö,ü,&auml;,&ouml;, &uuml;}. Nun sei R := {ä → &auml;, ö → &ouml;, ü → &uuml;}. Welche Wörter sind aus “hören und erklären” vermittels R herleitbar? Antwort: Es sind dies die Wörter “hören und erkl&auml;ren”, “h&ouml;ren und erklären” und schließlich “h&ouml;ren und erkl&auml;ren”. Angemerkt sei, daß “hören und erkl&auml;ren” ein Wort in A∗ ist. Das TES erfüllt die in der Anmerkung gemachten Voraussetzungen. Die Relation R besteht darin, daß die Wörter zwar unterschiedlich geschrieben (einmal wie üblich, einmal HTML-mäßig), jedoch “die selben Wörter sind”. Das TES ermittelt einen Repräsentanten in HTMLForm. 4 Definition 53 (S.68) 3.1. Freie Monoide und Termersetzung 83 2. Es sei A := {S, 0, 1, +, T, Z, } und es sei R durch S → T |Z, T → Z|T + T, Z → 0|1|0Z|1Z festgelegt. Welche Wörter der Länge 3 in den Symbolen ‘0’, ‘1’ und ‘+’ sind aus S herleitbar? Antwort: Teilgraphen des Ableitungsgraphen können hilfreich sein, wir zeichnen zunächst einen Teil, der bei Z, und einen, der bei T “beginnt”: 0 Z oo~o~ CCC o o CC ooo ~~~~ CC o o C! o ~~~ o w oo 1 0Z 1Z Z T FF FF FF FF F# T +T Nun erkennt man: wo immer Z oder T im rechten Baum steht, kann der linke bzw. rechte Graph an entsprechender Stelle einfügt werden. Man bekommt auf diese oder unmittelbare Weise: {000, 001, 011, 100, 101, 111, 010, 110, 0 + 0, 0 + 1, 1 + 0, 1 + 1}. Dieses TES erfüllt die Voraussetzungen der Anmerkung nicht. Seine Daseinsberechtigung wird in Beispiel 208 (S.239) 2. besprochen werden. 3. (Ein TES checkt Assoziativität) Es sei A := {T, x, y, (, ), ∗}, und R bestehe aus den Regeln: x|y → T, (T ∗T ) → T . Läßt sich aus dem Wort ((x∗y)∗((x∗x)∗((x∗y)∗(y∗x)))) bzw. (x ∗ x ∗ y) das Wort T herleiten? Antwort: Zunächst findet man eine Kette ((x ∗ y) ∗ ((x ∗ x) ∗ ((x ∗ y) ∗ (y ∗ x)))) → ((T ∗ T ) ∗ ((T ∗ T ) ∗ ((T ∗ T ) ∗ (T ∗ T )))) → (T ∗ (T ∗ (T ∗ T ))) → (T ∗ (T ∗ T )) → (T ∗ T ) → T . Beim zweiten Wort kann man lediglich x → T und y → T anwenden und erhält T ∗ T ∗ T , und da gibt es keine Regel, die greift. Deutung: Wenn die “Multiplikation” ’∗’ nicht assoziativ ist (z.B. beim Vektorprodukt), ist das Setzen von Klammern von Bedeutung. Die vorgelegten Regeln helfen, einen vorgelegten Ausdruck dahingehend zu checken (“Parsing”). Dieses TES erfüllt die Voraussetzungen der Anmerkung. Das Formulieren von uRv im Sinne der Anmerkung darf als Kopfnuss überlassen werden, spielt im weiteren jedoch keine Rolle. 4. (Rechnen modulo 7) Es sei A := ZZ ∪{+, T } und für alle i ∈ ZZ die (unendlich vielen) Regeln i → i (mod 7), i + j → “Wert von i + j”. Was ergibt Anwendung der Regeln auf 29 + 37 + 41? Welche Deutung hat man? Antwort: 29+37+41 → 1+2+6 → 3+6 → 9 → 2. Das TES erfüllt die Bedingungen der Anmerkung. Es ist xRy genau dann, wenn x−y durch 7 teilbar ist. Das TES produziert zu jeder Zahl z ∈ ZZ den kleinsten nichtnegativen Rest mod 7 als Repräsentanten von z. In Beispiel 106 (S.109) 1. wird R als Kongruenzrelation besprochen werden. 84 Algebra 5. Es sei A := {hSatzi,hArtikeli, hSubjekti,hPrädikati, hAdjektivi, t, ist, war, rot, grün, blau, gelb, der, die, das, Kugel, Ball, Ziegel} und Regeln hSatzi → hArtikeli t hSubjekti t hPrädikati t hAdjektivi, hArtikeli → der|die|das, hSubjekti → Kugel|Ball|Ziegel, hPrädikati → ist|war, hAdjektivi → rot|grün|blau|gelb, Ist “der Kugel ist gelb” aus hSatzi herleitbar? Antwort: Sichtlich. Obwohl es im Sinne der deutschen Grammatik falsch ist. Zur Bedeutung von “Prädikat” siehe auch die Fußnote zu Beginn des Abschnittes 2.1.2. Im Anhang werden in Definition 207 (S.239) Chomskygrammatiken unter Benützung spezieller TES erklärt. Die Sprache der formalen Logik, jene von Programmspezifikationen (BackusNaur Form) u.v.m. kann damit beschrieben werden. 3.2 Halbgruppen und Gruppen Hat man in einer Menge eine assoziative Verknüpfung von Elementen, so liegt eine Halbgruppe vor. Z.B. sind die natürlichen Zahlen hinsichtlich der Addition eine Halbgruppe. Halbgruppen lernt man meist als Halbgruppen von Transformationen einer Menge in sich kennen (z.B. alle 3 × 3-Matrizen, die auf dem IR3 wirken und Matrizenmultiplikation), wobei die Verknüpfung von Transformationen deren Hintereinanderausführung ist. Dynamische Systeme sind spezielle Beispiele einer solchen Situation. Gruppen sind Halbgruppen mit 1-Element und Inversem zu jedem Element. Sie begegnen einem meist als Symmetriegruppen (etwa von Rosetten). · · •1 111 11 11 1 • • · '!&·%"1#$ '!&·%"1#$ 11 11 '!&·%"1#$ '!&·%"1#$ '!&·%"#$ 11 11 '!&·%"#$ '!&%"#$ % 5 6 4 kk 3 SS 2 1 · DD 7 1 8 9 zz Sowohl die algebraische Struktur von (Halb)gruppen als auch ihr Wirken als Menge von Transformationen sind Gegenstand dieses Unterabschnitts. 3.2.1 Definitionen und Allgemeines Ist M eine beliebige Menge, so können die Abbildungen von M → M gemäß Definition 56 (S.72) hintereinander ausgeführt werden, wie z.B. die Symmetrien obiger Rosetten. Da wäre M die Rosette und f typischerweise eine Drehung um passenden Winkel oder Spiegelung. Sind f und g solche Abbildungen, dann ist gf die Abbildung, die jedem m ∈ M das Element g(f (m)) zuordnet. Diese Operation ist assoziativ und es gibt ein Einselement, die identische Abbildung 1M auf M . Wenn nun eine Teilmenge aller Funktionen auf M unter Zusammensetzung “abgeschlossen” ist, hat man ein erstes Beispiel für eine Halbgruppe laut nachstehender Definition. 3.2. Halbgruppen und Gruppen 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 N NN N N NNNN N N NN NN N N N N NNNNNNNN N N NN NN N N N N NNNN NNNN N N N N NN NN NN NN N N N N N N N N NNNNNNNNNNNNNNNN N N NN NN N N N N NNNN NNNN N N N N NN NN NN NN N N N N N N N N NNNNNNNN NNNNNNNN N N N N NN NN NN NN N N N N N N N N NNNN NNNN NNNN NNNN N N N N N N N N NN NN NN NN NN NN NN NN N N N N N N N N N N N N N N N N NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 85 Die Selbstähnlichkeiten des Sierpinskidreiecks bilden ein Monoid. Das Schrumpfen um ein Drittel (etwa auf das rechte untere Teildreieck) hat kein Inverses. Definition 71 ((Halb)gruppe und Monoid) Eine (2-stellige) Operation auf einer Menge G ist eine Funktion f : G × G → G. Eine Menge G mit einer Operation f : G × G → G heißt Halbgruppe, falls das Assoziativgesetz gilt, d.h. f (x, f (y, z)) = f (f (x, y), z) für alle x, y, z ∈ G. Sie heißt Monoid, falls es ein Einselement gibt, also ein Element e mit f (x, e) = f (e, x) = x für alle x ∈ G. Gibt es zusätzlich zu jedem x ∈ G genau ein Element x̄ ∈ G mit f (x, x̄) = f (x̄, x) = e, so nennt man G eine Gruppe. Ist G endlich, so nennt man die Anzahl der Elemente in G die Ordnung von G. Halbgruppe (lediglich assoziative binäre Operation) Monoid (Einselement kommt dazu) Gruppe (Jedes Element hat Inverses) Meist benützt man multiplikative Notation, z.B. f (x, y) = xy, und schreibt 1 für e, x−1 für x̄, xn für x . . x}, und x−n statt (xn )−1 , bzw. (vor allem im kommutiven Fall) additive Notation. | .{z n mal Die nachstehende Tabelle stellt die multiplikative der additiven Schreibweise gegenüber: assoziativ Einselement Inverses Kommutativgesetz Potenz Negative Potenz x(yz)=(xy)z x1=1x=x xx−1 =x−1 x=1 xy=yx xn x−n x+(y+z)=(x+y)+z x+0=0+x=x x+(-x)=-x+x=0 x+y=y+x nx -nx 86 Algebra Somit ist das Eingangsbeispiel sogar ein Monoid bezüglich des Hintereinanderausführens von Funktionen (Symmetrieoperationen) auf M . Beispiel 72 Einfache Beispiele 1. Die natürlichen Zahlen IN bilden eine kommutative Halbgruppe bezüglich ‘+’ und ein kommutatives Monoid bezüglich ‘×’. (Warum kein Monoid bezüglich ‘+’?) 2. (Rechnen modulo m – Rosetten der Ordnung m ) Sei m natürliche Zahl und {0, 1, 2, . . . , m − 1} “Symbole”. Man addiert solche Symbole indem man sie als Zahlen interpretiert, addiert und dann den kleinsten nicht negativen Rest r ermittelt. Dieser ist dann wieder ein Symbol. Geometrisch werden hiedurch die Drehungen eines mit den Knoten {0, 1, 2, . . . , m−1} beschrifteten, regulären m-Ecks beschrieben. Diese Menge bildet eine durch (ZZ m , +) bezeichnete, kommutative Gruppe. 2 1 4 5 11 11 11 11 m = 6 11 11 Drehungen 11 3 111 ∼ Rechnen mod 6 0 11 Z6 11∼ Rechnen in Z 11 11 11 1 3. Matrizen(halb)gruppen Ist K ein Körper und K n der n-dimensionale Koordinatenraum, so bilden die n × n-Matrizen bezüglich Addition eine kommutative Gruppe und bezüglich Multiplikation ein Monoid, das für n ≥ 2 stets nicht kommutativ ist. Die regulären Matrizen bilden bezüglich Multiplikation eine Gruppe, wobei die Einheitsmatrix das Einselement der Gruppe ist. Definition 73 (Kommutative=abelsche, zyklische (Halb)gruppen, Ordnung eines Elements) Eine Halbgruppe G ist kommutativ oder abelsch, wenn in ihr das Kommutativgesetz gilt. Sie heißt zyklisch, falls es ein x ∈ G gibt, derart, daß jedes Element eine Potenz xk mit k ∈ IN ist. Ein Monoid G ist zyklisch, falls es ein x ∈ G gibt, sodaß jedes Element eine Potenz xk mit k ∈ IN ∪ {0} ist. Ist G eine Gruppe, so heißt sie zyklisch, wenn es ein Element x ∈ G gibt, sodaß jedes Element in der Form xk für ein k ∈ ZZ ist. Ist die Gruppe G = hxi endlich, so nennt man die Ordnung von G auch Ordnung des Gruppenelements x. Beispiel 74 Die “einzigen” Beispiele zu zyklischen Gruppen. Man kann zeigen, daß (additive Schreibweise vorausgesetzt), jede zyklische Gruppe entweder als Rosettengruppe (Restklassenrechnen modulo m wie im vorigen Beispiel – die Ordnung ist m) oder als (ZZ, +) gedeutet werden kann. Multiplikative Schreibweise G = {z j | j = 0, 1, 2, . . . , m} (etwa die m-ten Einheitswurzeln in C), bzw. G = {z j | j ∈ ZZ}, etwa G = {2j | j ∈ ZZ}. Beispiel 75 (Zähligkeit einer Symmetrieachse und Ordnung eines Elements) 3.2. Halbgruppen und Gruppen 87 Die “Zähligkeit” einer Symmetrieachse (etwa beim Würfel die Achse durch den vorderen und hinteren Flächenmittelpunkt) ist die minimale Anzahl, wie oft man den Würfel dreht, bis er wieder in der Ausgangslage ist. Die besagte Drehung S ist um 90 Grad, daher ist die Zähligkeit 4 und es ist S 4 = I. Benützt man eine Drehung T (um 120 Grad) um die Raumdiagonale, so ist die Zähligkeit 3 und es ist T 3 = 1. Die Zähligkeiten stimmen mit den Ordnungen der Elemente S und T überein. Es hat S die Ordnung 4 und T die Ordnung 3, weil die von ihnen erzeugten Gruppen {I, S, S 2 , S 3 } bzw. {I, T, T 2 } jeweils diese Ordnung haben. Nicht uninteressant ist die folgende Anwendung zyklischer Gruppen beim Diffie-Hellmann Verfahren. Beispiel 76 Diskreter Logarithmus und PGP (Pretty Good Privacy). Ist G = hgi eine zyklische Gruppe der Ordnung n, so heißt die Abbildung e : ZZ n → G, die durch e(z) := g z definiert ist, diskrete Exponentialfunktion. Die Umkehrfunktion heißt diskreter Logarithmus auf G zur Basis g. Es sei p := 13, so betrachten wir alle Potenzen von 2 (mod 13): x 2x 0 1 2 3 4 5 6 7 8 9 10 11 1 2 4 8 3 6 12 11 9 5 10 7 Hieraus ergibt sich für die zyklische Gruppe der Ordnung 13 eine diskrete Logarithmentafel: x log2 (x) 1 2 3 4 5 6 7 8 9 10 11 12 0 1 4 2 9 5 11 3 8 10 7 6 Interessant ist lediglich, daß es für ausreichend große Primzahlen kaum möglich ist, in angemessener Zeit die obige Logarithmentafel zu erstellen5 . Dies benützt man z.B. beim Diffie-Hellman Verfahren (Verwendung bei PGP) welches folgendes Problem behandelt: A und B wollen zwecks Verschlüsselung eine Schlüsselzahl K gemeinsam benützen (etwa um danach Nachrichten damit zu verschlüsseln, zu senden bzw. zu empfangen und entschlüsseln, die nur zwischen A und B ausgetauscht werden sollen). Das Problem besteht nun in “unsicherer” Datenleitung, sodaß solches K “abgehört” werden kann. Beim Diffie-Hellman Verfahren wird ein solches K nach folgender Methode erzeugt, bzw. zwischen A und B ausgetauscht: 1. Wie in Anmerkung 111 (S.113) gezeigt werden wird, ist die multiplikative Gruppe von ZZ p , nämlich alle Zahlen {1, . . . , p − 1} bei Multiplikation modulo p eine zyklische Gruppe. Sie sei unser G. Rechner A und B einigen sich auf eine Primzahl p, um G := {1, . . . , p − 1} zu benützen, und ein Element g ∈ G, sodaß G = hgi. z.B. in unserem Fall p = 13 und g := 2. 5 Allerdings hat Briggs ca 1616 nicht ganz 7 Jahre zur Berechnung von 14-stelligen Logarithmen von ca 30000 Zahlen benötigt, – heute braucht man eher länger für das Drucken als für das Rechnen. 88 Algebra 2. A und B tauschen p, g aus. 3. A und B erzeugen Zufallszahlen a, b ∈ {2, . . . , p − 2}, A sendet g a an B und B sendet g b an A. Wenn z.B. a := 3 und b := 7 ist, sendet A 23 = 8 an B und jener 27 = 11 an A. 4. Es wird von A das Element (g b )a und von B das Element (g a )b berechnet. Nun haben sowohl A als auch B das gleiche Elment K = g ab errechnet, welches zu weiteren Methoden des Verschlüsselns benützt werden kann, etwa zur Benützung des El-Gamal Verfahrens, bei dem noch 2 ≤ K ≤ p − 2 sicherzustellen ist. Das Element K selbst ist nicht auszutauschen, jedoch darf g K publik gemacht werden, weil man ja annimmt, daß der g-Logarithmus von g K , nämlich K, nicht leicht berechenbar ist. In unserem Fall ist K = (23 )7 = 221 = 2 · 1024 · 1024 = 2 · 10 · 10 = 5 (alle Rechnungen modulo 13) und 2K = 6. Anmerkung 77 (Allgemeine Produkt- und Summennotation) Ist G kommutatives Monoid und I eine Menge, sowie f : I → G eine Funktion mit Werten in G, so heißt tr(f ) := {i ∈ I | f (i) 6= 1} (bzw. in additiver Notation {i ∈ I | f (i)Q6= 0} Träger von f . Für eine Funktion f : I → G mit endlichem Träger wird rekursiv i∈∅ f (i) := 1 (bzw. Q Q P i∈I\{i0 } f (i) f (i0 ), wobei i0 ∈ I beliebig wählbar i∈I f (i) := i∈∅ f (i) := 0) und P ist (bzw. i∈I\{i0 } f (i) + f (i0 )) definiert. Als Konsequenz des Assoziativ- bzw. Kommutativgesetzes gilt für jede Partition {Il | l ∈ L} von I Y Y Y f (i) = f (i) , i∈I l∈L X X i∈Il bzw. in additiver Notation: i∈I f (i) = l∈L X f (i) . i∈Il Weiters ergeben sich für f : I × J → G die folgenden Formeln: ! Y Y Y Y Y f (i, j) = f (i, j) = f (i, j) = (i,j)∈I×J i∈I j∈J j∈J i∈I Y f (i, j), (j,i)∈J×I bzw., in additiver Notation: X (i,j)∈I×J f (i, j) = X i∈I ! X X X f (i, j) = f (i, j) = X j∈J (j,i)∈J×I j∈J i∈I f (i, j). 3.2. Halbgruppen und Gruppen 89 Anmerkung eines Buchhalters: In der Summenschreibweise bedeutet das Partitionieren der Indexmenge I, daß man die zu addierende Posten f (i) in Gruppen zusammenfaßt (Gruppe im buchhalterischen Sinn) und danach die Werte der Gruppensummen addiert. Das Produkt I × J bedeutet, daß die Werte f (i, j) in einem Tableaux (Mathematiker sprechen wohl eher von Matrix vgl. 3.tes Beispiel in der Tabelle vor Anmerkung 60 (S.75)) angeordnet sind, danach Zeilensummen ermittelt und schließlich die Zeilensummen addiert werden. Wenn man in analoger Weise Spaltensummen addiert, kommt man zum gleichen Ergebnis. 3.2.2 Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und Wirkungen Zwei Figuren in der Ebene sind “kongruent”, wenn sie “deckungslgleich” sind, d.h., wenn man sie durch eine “ebene Bewegung” ineinander überführen kann. Beschränkt sich auf das Bei2 11 spiel eines regelmäßigen m-Ecks (in der Figur ist 11 11 m = 6), so bilden jene Drehungen um eine ver 11 tikale Achse, welche das m-Eck in ein deckungs11 m = 6 11 gleiches überführen, die Rosettengruppe ZZ m der 11 Drehungen 1 Ordnung m, wie in Beispiel 72 (S.86) 2. schon 1 3 11 ∼ Rechnen mod 6 0 angedeutet worden ist: Ist S Drehung (entgegen 11 Z6 11∼ Rechnen in Z dem Uhrzeigersinn) um den Winkel 2π m , so ist 1 1 11 S m = I. Es genügt dabei mit den Exponenten 11 k l k+l m ∈ ZZ zu rechnen, weil stets S S = S gilt. 1 Weil aber S m = I ist, wird auf ZZ eine Relation 5 4 ‘≡’durch k ≡ l dadurch festgelegt, daß k und l bei Division durch m den gleichen Rest r mit 0 ≤ r ≤ m − 1 ergeben. Es bewirken S m und S r die gleiche Repositionierung des m-Ecks. Die Relation ‘≡’ ist ein einfaches Beispiel einer Kongruenzrelation auf einer Gruppe (hier (ZZ, +)). Falls z.B. m = 6 ist, so ist 17 ≡ 11 ≡ 5 ≡ −1 etc. Man erkennt, daß k ≡ l genau dann gilt, wenn k − l ein Vielfaches von m ist. Tatsächlich, 17 − 11 = 6 × 1. Deshalb macht man sich schnell klar (zumindest am Beispiel), daß k ≡ l und k 0 ≡ l0 stets k + k 0 ≡ l + l0 nach sich zieht. Dies ist jene Eigenschaft, die aus einer Äquivalenzrelation auf ZZ eine Kongruenzrelation macht. Allgemein hat man: Definition 78 (Kongruenzen in einer (Halb)gruppe) Eine Kongruenzrelation auf einer Halbgruppe G ist eine Äquivalenzrelation ≡, derart, daß u ≡ u0 und v ≡ v 0 stets uv ≡ u0 v 0 nach sich zieht. Ein Halbgruppenhomomorphismus f : G → G0 erfüllt für alle g, h ∈ G die Bedingung f (gh) = f (g)f (h). Ein Monoidhomomorphismus erfüllt zusätzlich f (1G ) = 1G0 . Sind G und G0 Gruppen, so ist f ein Gruppenhomomorphismus, wenn f Monoidhomomorphismus ist. Ein Homomorphismus, der eine Bijektion ist, heißt Isomorphismus. 90 Algebra Beispiel 79 Einfache Beispiele 1. (Kongruenz modulo einem linearen Teilraum) Es sei G gleich IR3 mit der Vektoraddition und U = L(~e1 , ~e2 ). Für Vektoren ~a, ~b soll ~a ≡ ~b gelten, falls ~a −~b ∈ U gilt. Es liegt eine Kongruenzrelation vor: ~a −~b ∈ U und ~a0 −~b0 ∈ U impliziert nach kurzer Rechnung ~a + ~a0 − (~b + ~b0 ) ∈ U , also ~a +~a0 ≡ ~b + ~b0 . Jede Äquivalenzklasse ist eine zu U parallele Ebene von der Form ~a + U . U I /A ~a ~b / / ~b − ~a ∈ U Lineares Gleichungssystem: Sei A : IRn → IRm eine lineare Abbildung (gegeben durch die n×m-Matrix A). Für ~x, ~y in IRn setzen wir ~x ≡ ~y genau dann, wenn A~x = A~y gilt. Es liegt eine Kongruenzrelation auf IRn vor und die Äquivalenzklassen sind von der Form ~a + ker A. Da A(~a + ker A) = A~a gilt, ist somit jede solche Äquivalenzklasse die Gesamtheit aller Lösungen des linearen Gleichungssystem A~x = ~b für gegebenes ~b, wobei ~a eine (beliebige) partikuläre Lösung des Systems ist. Im obigen Beispiel wären n = 3, m = 1 und A = (0 0 1). Der Kern von A ist dann U wie oben angegeben. 2. Auf der Halbgruppe aller n×n-Matrizen mit Eintragungen im Körper K bezüglich Multiplikation wird durch A ≡ B ⇔ det(A) = det(B) eine Halbgruppenkongruenzrelation festgelegt. Der zugehörige Homomorphismus f ist die Determinantenfunktion (wegen des Multiplikationssatzes für Determinanten). Beschränkt man sich auf die invertierbaren Matrizen, so entsteht eine Gruppenkongruenzrelation. Der Kern von f , d.i. jene Elemente A mit f (A) = 1, besteht aus allen Matrizen mit Determinante gleich 1. Anmerkung 80 (Kongruenz und (Halb)gruppenhomomorphismus) Es ist üblich, schlicht von Homomorphismus zu sprechen, wenn keine Verwechslung zu befürchten ist. Die Begriffe Kongruenz und Homomorphismus sind in folgendem Sinne äquivalent: Ist ≡ eine Kongruenzrelation auf G, so kann eine Multiplikation auf G/ ≡ durch ḡḡ 0 := gg 0 definiert werden, und f : G → G/ ≡, definiert durch f (g) := ḡ (die Äquivalenzklasse von g) erweist sich als Homomorphismus. Es wird G/ ≡ mit dieser neuen Multiplikation als Quotienten- oder Faktor(halb)gruppe bezeichnet. Ist umgekehrt f : G → G0 ein Homomorphismus, so ist die Relation g ≡ g 0 falls f (g) = f (g 0 ) ist, eine Kongruenzrelation auf G. Beispiel 81 1. (Freies kommutatives Monoid und Kongruenz) Es sei X ∗ das freie Monoid über dem Alphabet X (siehe Definition 65 (S.80)). Wir definieren eine Kongruenz durch xy ≡ yx für alle x, y ∈ X. Als Quotient bekommt man jetzt ein kommutatives Monoid. Wählt man eine lineare Ordnung auf X, so kann jedes Element eindeutig 3.2. Halbgruppen und Gruppen 91 mk 1 m2 durch ein Potenzprodukt xm 1 x2 . . . xk mit x1 < x2 < . . . < xk anschreiben. Das TES yx → xy für alle x < y erweist sich als konfluent, antisymmetrisch und noethersch6 . Die vom TES erzeugte Kongruenzrelation auf X ∗ besteht genau darin, Wörter in Relation zu setzen, wenn sie durch Vertauschen ihrer Faktoren in X auseinander hervorgehen. Nun bekommt man Repräsentanten in X ∗ : Ist etwa x < y < z so ergibt sich zyxxxyz → zxyxxyz → xzyxxyz → · · · → x3 y 2 z 2 . Das so entstandene Monoid heißt freies kommutatives Monoid über dem Alphabet X. 2. Es sei G ein beliebiges Monoid, {e} das triviale Monoid (d.h. ee = e) und f : G → {e} durch f (g) := e für alle g ∈ G gegeben. Dann ist f ein Monoidhomomorphismus, den man trivial nennt. 3. (Restklassenaddition in Z Z modulo m) Es sei (ZZ, +) die Gruppe der ganzen Zahlen mit der Addition. Sei m > 0 in ZZ. Es sei x ≡ y, falls es ein k ∈ ZZ mit y = x + km gibt. Dies ist die übliche Kongruenzrelation mod m. Die Menge der Äquivalenzklassen ist {0̄, . . . , m − 1}. Die Addition in ZZ/ ≡ ist definiert als x̄ + ȳ := x + y. Es sei f : ZZ → ZZ/ ≡ die Abbildung, die jedem z ∈ ZZ das Element z̄ zuordnet. Wie kann man die Addition in ZZ m ausdrücken? Jede Zahl z ∈ ZZ ist eindeutig in der Form z = km + r mit k ∈ ZZ und 0 ≤ r ≤ m − 1 darstellbar. Es sei r(z) die Bezeichnung für den Rest bei vorgegebenem z. Nun definieren wir als TES: (∀z ∈ ZZ)z → r(z) Dieses TES erweist sich als noethersch, antisymmetrisch und konfluent und impliziert die Kongruenzrelation im Sinne von Anmerkung 69 (S.81). Auf ZZ m = {0, 1, . . . , m − 1} wird durch x+y x ⊕ y := x+y−m falls x + y < m sonst eine Addition definiert, sodaß (ZZ m , ⊕) eine kommutative Gruppe ist (bitte checken!). Dann ist r : ZZ → ZZ m ein Gruppenhomomorphismus, weil laut Definition r(x + y) = r(x) ⊕ r(y) gilt. 4. (Charakterisierung der zyklischen Gruppen) Wie kann man die zyklischen Gruppen charakterisieren. Welche Rechengesetze sind möglich? Antwortfindung: Es ist G = {xl | l ∈ ZZ}. Es sind 2 Fälle denkbar. Fall 1 ist, wenn es ganze Zahlen k 6= l mit xk = xl gibt. Dann ist xk−l = 1. Somit ist die Menge {n ∈ IN | n > 0 ∧ xn = 1} nicht leer und besitzt ein kleinstes Element, nennen wir es m. Sei H := {1, x, . . . , xm−1 }. Wir behaupten, daß H eine Untergruppe7 6 7 Definition 67 (S.81) Definition 82 (S.93) 92 Algebra von G ist. Sind nämlich xk , xl ∈ H, so auch xk+l , sofern k + l < m, bzw. xk+l−m , sofern k + l ≥ m ist. Es ist auch x−k = x−k xm = xm−k ∈ H, sofern k ≥ 1 ist. Somit ist H Untergruppe. Ist nun g = xk ∈ G beliebig (also nicht notwendig 0 ≤ k ≤ m−1), so kann ähnlich wie in 3. ein s ∈ {0, . . . , m − 1} und l ∈ ZZ mit k = s + ml gefunden werden, sodaß xk = xk xml = xs ∈ H gilt. Schließlich überlegt man sich noch, daß xk = xl mit k, l ∈ {0, 1, . . . , m − 1} stets k = l nach sich zieht: andernfalls, wenn k > l wäre, hätte man xk−l = 1, und weil 0 < k − l < m ist, hätte man einen Widerspruch. Fall 2 ist, wenn keine 2 Potenzen xk , xl übereinstimmen, sofern k 6= l ist. Dann ist G eine multiplikative Version von ZZ. Antwort: Wir haben gezeigt, daß jede zyklische Gruppe isomorph zu entweder ZZ oder ZZ m für ein positives natürliches m ist. Für m = 1 erhält man die triviale Gruppe, nämlich ZZ 1 = {0}. 5. (Restklassenaddition in IR mod 2π) Es sei G := IR mit der Addition. Es sei r ≡ s, falls es ein k ∈ ZZ mit s = r + 2kπ. Liegt eine Äquivalenzrelation vor? Wenn ja, wie kann die Quotientengruppe IR/2πZZ := IR/ ≡ beschrieben werden? Antwort: Zunächst muß gezeigt werden, daß eine Äquivalenzrelation vorliegt. r ≡ r, weil r = r + 2 × 0 × π gilt, also k = 0 genommen werden kann. Somit ist ≡ reflexiv. Ist r ≡ s, so ist s = r + 2kπ, also r = s + 2 × (−k) × π, also s ≡ r. Somit ist ≡ symmetrisch. Ist r ≡ s und s ≡ t, so existieren k, l ∈ ZZ mit s = r + 2kπ und t = s + 2lπ. Demnach ist t = r + 2kπ + 2lπ = r + 2(k + l)π, somit r ≡ t. Also ist ≡ auch transitiv. Noch zu zeigen, daß die Kongruenzbedingung gilt: Ist r ≡ s und r0 ≡ s0 , so gibt es k, k 0 ∈ ZZ mit s = r + 2kπ und s0 = r0 + 2k 0 π. Dann ist s + s0 = r + r0 + 2(k + k 0 )π, also r + r 0 ≡ s + s0 . Nun ist {x̄ | x ∈ [0, 2π)} = {x̄ | x ∈ [−π, π)} = IR/2πZZ. Ähnlich wie im vorigen Beispiel kann nun eine neue Addition ⊕ auf z.B. [0, 2π) durch x+y falls x + y < 2π x ⊕ y := x + y − 2π sonst erklärt werden. Danach ist f : IR → [0, 2π) ein Gruppenhomomorphismus, der geometrisch gesehen, die Addition von Winkeln modulo 2π beschreibt. 6. (Exponential- und Logarithmusfunktion als Homomorphismen) Es sei G := IR und H := IR+ die Menge der positiven reellen Zahlen. Weiters sei f : IR → IR+ durch f (x) := ex definiert. Nun läßt sich die bekannte Formel ex+y = ex ey als Gruppenhomomorphismus von (IR, +) nach (R+ , .) interpretieren. Es läßt sich der natürliche Logarithmus ln : IR+ → IR als Gruppenhomomorphismus interpretieren, weil die für alle positiven x, y erfüllte Gleichung ln(xy) = ln x + ln y geradewegs die Bedingung dafür ist, daß ln ein Homomorphismus ist. Da ln und exp zueinander inverse Funktionen sind, sind sie Isomorphismen. 3.2. Halbgruppen und Gruppen 93 7. (Determinantenfunktion als Homomorphismus) Ist G die Menge der reellen n×nMatrizen mit der Multiplikation, so erfüllt det : G → IR bekanntlich den Determinantenmultiplikationssatz, d.h. det(AB) = det(A) det(B). Das ist gleichbedeutend damit, zu sagen, daß det : G → IR ein Monoidhomomorphismus ist, wenn IR als Monoid mit der Multiplikation aufgefaßt wird. 8. Es sei alles wie in Beispiel 63 (S.77), 1., insbesondere sei, wie eben dort, A eine Menge von Aussageformen von der Form α(x) mit x einer Variablen und M eine Menge. Wegen Anmerkung 30 (S.46) ist (A, ∧) und wegen Anmerkung 37 (S.59) ist (P(M ), ∩) eine kommutative Halbgruppe. Demnach erweist sich das im zitierten Beispiel definierte f mit f (α) := {m ∈ M | α(m)} als Halbgruppenhomomorphismus. 3.2.3 Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler Definition 82 (Unter(halb)gruppe, Teilmonoid) Eine Teilmenge H einer Halbgruppe G heißt Unterhalbgruppe, falls aus x, y ∈ H stets xy ∈ H folgt. Ist G ein Monoid, so ist H Teilmonoid, falls H Unterhalbgruppe und 1 ∈ H ist. Ist G Gruppe, so heißt H Untergruppe, falls H Teilmonoid und mit jedem x ∈ H auch x−1 ∈ H ist. Definition 83 (Nebenklassen(zerlegung)) Ist G eine Gruppe, H eine Untergruppe, und x ∈ G so heißt xH := {xh | h ∈ H} Linksnebenklasse von H. Die zugehörige Äquivalenzrelation xRy, definiert durch xH = yH ergibt eine Partition von G, die man Zerlegung von G in Linksnebenklassen nennt und als G \ H bezeichnet8 . Es ist (G, G \ H) eine Gruppenwirkung, wenn man g(xH) := (gx)H definiert. Jeder Schnitt (siehe Definition 53 (S.68)) s : G\H → G heißt Nebenklassenrepräsentantensystem. Beispiel 84 Einfache Beispiele 1. (Rechnen in Z Z modulo m) Ist H = mZZ die Untergruppe aller durch m ∈ IN teilbaren Zahlen in (ZZ, +), so besteht die Nebenklasse 1 + H, das ist jene die 1 enthält, aus allen Zahlen der Form 1 + km. Für m = 3 sind das alle “fetten” Punkte: ... •−2 ·−1 ·0 •1 ·2 ·3 •4 ... Offenbar kann man ZZ in genau drei Nebenklassen zerlegen: 3ZZ, 1 + 3ZZ und 2 + 3ZZ. Geometrisch versteht man diese Nebenklassen, wenn man ZZ “aufwickelt”, wobei jeder “Spulengang” genau die “Länge 3” hat. Punkte in der selben Nebenklasse werden übereinandergewickelt. Da G kommutativ ist x + H = H + x die gleiche Nebenklasse. 8 Leider das gleiche Symbol wie bei der Mengendifferenz. 94 Algebra 2. (Rechnen in IR modulo 2πZ Z) Ist G = IR und H = {2πk | k ∈ ZZ}, so ist die Nebenklasse 1+H die Menge aller reellen Zahlen der Form 1 + 2kπ mit k ∈ ZZ, d.i. 1 + 2πZZ. Eine 2π-periodische Funktion nimmt somit auf der ganzen zu 1 gehörigen Nebenklasse stets den gleichen Wert an! Hier gibt es zu jeder Zahl 0 ≤ x < 2π genau eine Nebenklasse der Form x+2πZZ. In der Skizze ist diese Nebenklasse die Menge aller jener Punkte, welche die gleiche Vertikalprojektion wie x in den “Basiskreis” besitzen. Die eingezeichneten Punkte sind die Klasse von x = 0, d.i. die Menge 2πZZ. 3. Es sei G aller regulären 2 × 2 reellen Matrizen und H die Untergruppe der oberen Dreiecksmatrizen. Da die Gruppe G nicht kommutativ ist, kann man für Nebenklassen nicht xH = Hx erwarten. 0 1 a b 0 1 = , so ist Hx die Menge aller Matrizen der Form Nehmen wir x = 1 0 0 c 1 0 0 c a b 0 1 b a , wobei a, b, c in IR = und xH jene der Bauart a b 0 c 1 0 c 0 und ac 6= 0 ist. Für a = b = c = 1 erkennt man, daß tatsächlich xH 6= Hx gilt. Anmerkung 85 (Komplexprodukt, von Teilmenge erzeugte Unter(halb)gruppe) Das Komplexprodukt AB zweier Teilmengen A und B einer Halbgruppe G ist durch AB := {ab | a ∈ A ∧ b ∈ B} definiert (in additiver Notation A + B = {a + b | a ∈ A ∧ b ∈ B}). Weiters wird rekursiv A1 := A und An+1 := An A definiert und für Monoide A0 := {1}. Ist A Teilmenge einer Halbgruppe (eines Monoids, einer Gruppe mit a ∈ A ⇒ a−1 ∈ A), so versteht man unter der/dem S von A erzeugten S Unterhalbgruppe (Untermonoid, bzw. ∞ n (hAi := n Untergruppe) die Menge hAi := ∞ A n=1 n=0 A für Monoid und Gruppe, um auch das Einselement einzuschließen). Man darf An als {a1 a2 . . . an | (∀i)1 ≤ i ≤ n ∧ ai ∈ A} ansehen, also sich ähnlich wie die Wörter von der Länge n im freien Monoid vorstellen. Es mag eine gute Übung sein, die Begriffe in additiver Notation zu formulieren. Beispiel 86 Einige Beispiele: 3.2. Halbgruppen und Gruppen 95 1. (ZZ, +) ist Untergruppe von (IR, +). 2. (IN, ·) ist Teilmonoid9 . von (ZZ, ·). 3. (IN ∪ {0}, +) ist Teilmonoid von (ZZ, +). 4. Die Menge der geraden Zahlen in IN ist bezüglich der Multiplikation Unterhalbgruppe von ZZ, jedoch kein Teilmonoid (es fehlt das 1-Element!). 5. Ist jede Untergruppe einer zyklischen Gruppe zyklisch? Ist jede Unterhalbgruppe einer Halbgruppe zyklisch? Ist jedes Teilmonoid eines zyklischen Monoids zyklisch? Antwort: Die 1.te Frage ist mit “JA” zu beantworten. Weil G zyklische Gruppe ist, ist jedes Element in G Potenz eines Elements x ∈ G. Ist {1} = 6 H eine Untergruppe, so k gibt es ein h ∈ H, mit kleinstmöglichem k, sodaß h = x ist. Ist y ∈ H beliebig, so ist y = xn . Nun benützt man Division mit Rest, um n in der Form n = kl + r mit 0 ≤ r ≤ k − 1 anzuschreiben. Dann ist xn = xkl+r = (xk )l xr also xr = xn (xk )−l ∈ H wegen der Abgeschlossenheit unter der Gruppenmultiplikation. Weil aber 0 ≤ r < k ist, muß r = 0 und somit ist y eine Potenz von xk , d.h. H ist zyklisch. Für Halbgruppen ist das nicht immer der Fall: Die Teilmenge U := {2k + 3l | k, l ∈ IN } ist nicht zyklische Unterhalbgruppe der Halbgruppe (IN, +). Auch für Monoide ist die Antwort “NEIN”: Es ist U ∪ {0} nicht zyklisches Teilmonoid von (IN ∪ {0}, +). Wie Nebenklassenzerlegung nach einer Untergruppe entsteht, kann in Beispiel 217 (S.248) ermessen werden. Ist G endlich, so ergibt sich sofort der Satz von Lagrange: Anmerkung 87 (Satz von Lagrange) Die Ordnung10 jeder Untergruppe einer endlichen Gruppe G ist ein Teiler der Gruppenordnung. Insbesondere ist die Ordnung jedes Elements der Gruppe ein Teiler der Gruppenordnung. Weiters, wenn xm = 1 ist dann ist die Ordnung von x ein Teiler von m. Beweis: Es muß nur gezeigt werden, daß für alle x ∈ G die Nebenklasse xH gleich viele Elemente wie H enthält. Ist x ∈ H, so ist das klar. Andernfalls definieren wir eine Abbildung f : H → xH, indem f (h) := xh gesetzt wird. Es ist f injektiv, weil aus f (h) = f (h0 ) sofort xh = xh0 also h = h0 folgt. Da f surjektiv ist, ist f bijektiv. 9 10 Es ist wie in [29] die Menge der natürlichen Zahlen gleich IN = {1, 2, 3, . . .} Definition 71 (S.85) 96 Algebra Die nächste Behauptung besagt für ein beliebiges Element g ∈ G, daß seine Ordnung11 , d.i. die Ordnung von H := hgi die Gruppenordnung teilt, somit folgt dies aus dem Satz von Lagrange. Schließlich sei xm = 1 und k die Ordnung von x. Dann kann mittels Division mit Rest ein 0 ≤ r < k und q ∈ ZZ mit m = kq + r gefunden werden. Somit ist 1 = xm = xkq+r = (xk )q xr = 1k xr = xr , also xr = 1. Weil aber k die Ordnung von x ist, und 0 ≤ r < k gilt, muß r = 0 sein, und k Teiler von m. W.z.b.w. Beispiel 88 (Satz von Lagrange und Bestimmung der Ordnung einer Symmetriegruppe) Wie in Beispiel 75 (S.86) ist die “Zähligkeit” einer Symmetrieachse (etwa beim Würfel die Achse durch den vorderen und hinteren Flächenmittelpunkt) gleich der Ordnung der Drehung um diese Symmetrieachse. Welche Ordnung hat die Gruppe G der Drehungen eines Würfels? Teilantwort: Die Drehungen S (um den Flächenmittelpunkt) und T (um die Raumdiagonale) haben die Ordnung 4 bzw. 3. Wegen des Satzes von Lagrange ist die Ordnung von G sowohl durch 4 also auch 3, mithin durch 12 teilbar. Man kann zeigen daß die Ordnung gleich 24 ist (Beim Beweis berücksichtigt man die Drehungen um Achsen durch diagonal gegenüberliegende Kantenmittelpunkte). Um den Begriff des Normalteilers einer Gruppe zu verstehen, vorweg ein Beispiel: Beispiel 89 Es sei G = ZZ, die ganzen Zahlen und H := 3ZZ (alle Vielfachen von 3). Dann kann man die Quotientenmenge G/H bilden und das übliche “Rechnen modulo 3” erweist sich als Rechnen in G/H. Dieses Modulo-Rechnen besteht darin, Nebenklassen x + H und y + H zu addieren, indem man x + y + H bildet. Zum Unterschied sei jetzt G = S3 , die Gruppe aller 6 Symmetrien des gleichseitigen Drei11 ecks. 1 111 1 und H die Untergruppe, welche 1 festläßt. Nun möchte man z.B. die Ne 3 2 benklasse xH mit yH multiplizieren, also versucht man xHyH := xyH. Das sollte z.B. mit x = y gleich der Drehung um 60 Grad funktionieren. Wir beschreiben die Elemente 123 123 von G als Permutationen, z.B. ist x = ( 123 231 ). Man findet xH = {( 231 ), ( 321 )} und somit 123 123 123 123 2 xHxH = {I, ( 123 312 ), ( 213 ), ( 132 )} und xxH = {( 312 ), ( 321 )}. Somit kann xHxH = x H nicht gebildet werden. Hingegen funktioniert das für N := {I, x, x2 }, wie man sich ein wenig selbst überlegen möge. Das liegt daran, daß N Normalteiler von G ist. Die folgende etwas allgemein gehaltene Motivation kann man zunächst durchaus “überlesen”. 11 Definition 73 (S.86) 3.2. Halbgruppen und Gruppen 97 Beispiel 90 (Motivation des Normalteilers mittels Homomorphismen) Ist G eine Gruppe und ≡ eine Kongruenzrelation, so bilden die Elemente N := {n ∈ G | n ≡ 1} eine Untergruppe: Die Reflexivität besagt 1 ≡ 1, also 1 ∈ N . Sind m, n ∈ N , dann ist m ≡ 1 und n ≡ 1, somit, wegen der Kongruenzeigenschaft, mn ≡ 1, also mn ∈ N . Schließlich folgt aus n ≡ 1 wegen der Kongruenzeigenschaft auch n−1 n ≡ n−1 , also n−1 ≡ 1, somit n−1 ∈ N . Unser N hat noch eine Eigenschaft: Aus n ≡ 1 und x ∈ G folgt x−1 n ≡ x−1 und durch Multiplizieren von rechts mit x sofort x−1 nx ≡ 1, also ist mit n ∈ N stets xnx−1 ∈ N , also xN x−1 ⊆ N . Andrerseits, wenn man x durch x−1 ersetzt, erkennt man x−1 N x ⊆ N , bzw. durch Multiplikation von links mit x und von rechts mit x−1 bekommt man N ⊆ xN x−1 . Insgesamt hat man also xN x−1 = N . Ist umgekehrt N eine Untergruppe mit xN x−1 = N für alle x ∈ G, so ist die durch x ≡N y, falls xy −1 ∈ N definierte Relation eine Kongruenzrelation auf G. Definition 91 (Normalteiler, Quotientengruppe) Eine Untergruppe N einer Gruppe G heißt Normalteiler von G, im Zeichen N /G, falls eine der folgenden äquivalenten Bedingungen gilt: • Für alle g ∈ G ist gN g −1 = N . • Für alle g ∈ G ist gN = N g := {ng | n ∈ N }. • Die in Definition 83 (S.93) beschriebene Äquivalenzelation auf G, nämlich x ≡ y genau dann, wenn xN = yN gilt, ist eine Kongruenzrelation. • Es gibt eine Kongruenzrelation ≡ auf G mit N = {x ∈ G | x ≡ 1}. • Es gibt einen Gruppenhomomorphismus f : G → G0 mit N = {x ∈ G | f (x) = 1}. (In diesem Fall nennt man N = f −1 (1) den Kern von f ). Die Menge der Äquivalenzklassen12 bezüglich der von N bestimmten Kongruenz sind die Nebenklassen mod N und die Quotientenmenge wird mit G/N bezeichnet und Quotientengruppe oder auch Faktorgruppe genannt. Auf ihr ist klassenweise Multiplikation definiert im Sinne von Anmerkung 80 (S.90). Beispiel 92 Beispiele hierzu: 1. Ist G kommutativ, so ist jede Untergruppe Normalteiler, jedoch nicht umgekehrt. z.B.: Die Quaternionengruppe G = {±1, ±i, ±j, ±k} kann durch eine Kongruenzrelation, die durch das konfluente, antisymmetrische und noethersche TES ji → −ij, ki → −ik, kj → −jk, ii → −1, jj → −1, kk → −1 im Sinne von Definition 67 (S.81) festgelegt wird, definiert werden. Sie ist nicht kommutativ, jedoch ist jede Untergruppe Normalteiler. 12 Definition 53 (S.68) 98 Algebra 2. Es sei ein gleichseitiges Dreieck mit Eckpunkten A, B, C in der Ebene gegeben. Die Symmetrien, welche dieses Dreieck in sich überführen, können durch Permutationen dieser Eckpunkte beschrieben werden und wir geben zunächst die Identität, Spiegelung an der Seitensymmetralen durch die Seite AB und Drehung um 120 Grad an: C C B A B A B A C I := , s := , d := AC B BC A BC A C A C s B B A A d B C Nun bekommt man entweder ähnlich wie zu Beginn von Unterabschnitt 3.2.2 oder durch Rechnen mit den Permutationen, daß G = {I, d, d2 , s, sd, sd2 } und es gilt s2 = (sd)2 = d3 = I. Ein noethersches, antisymmetrisches und konfluentes TES13 , welches die Kongruenz im Sinne von Anmerkung 69 (S.81) ergibt, ist s2 → I, d3 → I, ds → sd2 . Nun sei H := {I, s}, dann ist H eine Untergruppe. Um zu zeigen, daß H kein Normalteiler ist, bemerken wir Hd = {d, sd}, jedoch dH = {d, ds} = {d, sd2 }, also dH 6= Hd ist. Die Menge N := {I, d, d2 } ist eine Untergruppe, wie man leicht einsieht. Wir wollen zeigen, daß N /G ist. Es ist sN = {s, sd, sd2 } und N s = {s, ds, dds}, und weil ds → sd2 , bzw. dds → dsd2 → sdddd → sd gilt, hat man sN = N s. Da G sechs Elemente hat, kann N nur zwei Nebenklassen, nämlich N und sN haben. Somit ist N / G gezeigt. ¯ Nun hat G/N genau 2 Elemente, I¯ und s̄ und es gilt s̄s̄ → I. 3. (volumstreue lineare Transformationen) Es sei G die Menge aller regulären n × nMatrizen (d.h. Determinante nicht Null) und N die Teilmenge aller Matrizen A mit det A = 1. Ist N ein Normalteiler? Antwort: Ja. Wegen des Determinatenmultiplikationssatzes ist für det x = det y = 1 auch det(xy −1 ) = det(x) det(y −1 ) = det(y)−1 = 1, also N eine Untergruppe. Ist g ∈ G | {z } =1 13 Definition 67 (S.81) 3.2. Halbgruppen und Gruppen 99 und x ∈ N , so ist det(g −1 xg) = det(g)−1 det(x) det(g) = det(x) = 1, also mit jedem x ∈ N auch g −1 xg ∈ N . 4. (Translationen als Normalteiler der affinen Gruppe) Eine affine Transformation im k-Vektorraum V ist eine Funktion der Form f (x) = Ax+b mit A invertierbare lineare Abbildung und b ∈ V . Ist die Menge G aller affinen Abbildungen bezüglich Komposition eine Gruppe? Antwort: Ja. Sei f (x) = Ax + b und g(x) = Cx + d. Dann ist gf (x) = g(Ax + b) = C(Ax + b) + d = CAx + (Cb + d), also von der gleichen Form wie f und g. Somit ist G Monoid, weil f (x) = Ix + 0 Einselement ist. Um die Inverse zu f zu bestimmen, genügt es, x = Ay + b nach y zu lösen und findet f −1 (x) = A−1 (x) − A−1 b. Somit ist G eine Gruppe. Ist die Menge N := {f ∈ G | f (x) = x + b, b ∈ V } aller Translationen ein Normalteiler? Antwort: Ja. Man prüft leicht nach, daß N eine Untergruppe ist. Sei nun f ∈ N , also f (x) = x+b. Sei g ∈ G von der Form g(x) = Ax+a. Dann ist g −1 f g(x) = g −1 (f (g(x)) = g −1 (g(x) + b) = x + g −1 (b), also wieder ein Element in N . 3.2.4 Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe von Quotienten Die Konstruktion der ganzen Zahlen aus den natürlichen und der Brüche aus den ganzen Zahlen (ungleich Null) haben eine Gemeinsamkeit, nämlich im ersten Fall IN mit der Addition, im zweiten ZZ \ {0} als Halbgruppe mit Kürzungseigenschaft zu einer Gruppe zu erweitern: Definition 93 (Kürzungseigenschaft in Halbgruppe) In einer Halbgruppe G gilt die Links- bzw. Rechtskürzungseigenschaft, wenn aus ab = ac (bzw. ba = ca) stets b = c gefolgert werden darf. Beispiel 94 Als wichtigstes Beispiel nehme man das freie (kommutative) Monoid über einem Alphabet X. Es hat sowohl die Links- als auch Rechtskürzungseigenschaft. Insbesondere hat IN bezüglich der Addition (als freies Monoid über dem Alphabet {1}) diese Eigenschaft. Natürlich hat jede Gruppe die Rechts- und Linkskürzungseigenschaft. Weiters hat IN bezüglich der Multiplikation die (Links)kürzungseigenschaft. Anmerkung 95 (Erweitern von ’+’ zu ’-’ bzw ’×’ zu ’/’ in kürzbarer Halbgruppe) Es sei (G, ·) eine kommutative Halbgruppe mit Kürzungseigenschaft. Dann gibt es eine Gruppe G̃ und einen injektiven Halbgruppenhomomorphismus φ : G → G̃. Ist G ein Monoid, so kann G̃ als Menge aller “Brüche” der Form (g, h) mit g, h ∈ G angesehen werden, wobei (g, h) ≡ (g 0 , h0 ) gesetzt wird, falls gh0 = g 0 h ist14 . In additiver Schreibweise hätte man (g, h) ≡ (g 0 , h0 ) genau dann, wenn g + h0 = g 0 + h. 100 Algebra Beweis: Zunächst kann man “künstlich” ein Einselement “hinzufügen”. Es sei e 6∈ G ein Element (z.B. die Menge {G}), so erweitert man die Operation in G, indem man eg = ge = g für alle g ∈ G und ee = e definiert. Danach hat G ∪ {e} immer noch die entsprechenden Kürzungseigenschaften. Ab nun nehmen wir an, daß G bereits ein kommutatives Monoid mit Kürzungseigenschaft ist. Nun bildet man G × G und definiert (g, h)(g 0 , h0 ) := (gg 0 , hh0 ). Es ist nicht schwierig einzusehen, daß G × G eine kommutative Halbgruppe mit Kürzungseigenschaft ist. Wir sagen (g, h) ≡ (g 0 , h0 ), falls gh0 = g 0 h gilt. Es liegt eine Kongruenzrelation vor: aus (g, h) ≡ (g 0 , h0 ) und (u, v) ≡ (u0 , v 0 ) schließt man wegen gh0 = g 0 h und uv 0 = u0 v auf (gu)(h0 v 0 ) = (g 0 u0 )(hv), also (gu, hv) ≡ (g 0 u0 , h0 v 0 ). Somit läßt sich die Quotientenhalbgruppe15 G̃ := G/ ≡ bilden. In G̃ gibt es ein Einselement, nämlich die Äquivalenzklasse von (e, e). Ist (g, h) Repräsentant einer Klasse in G̃, so ist offenkundig (g, h)(h, g) = (gh, gh) ≡ (e, e), also ist jedes Element in G̃ invertierbar, somit G̃ eine kommutative Gruppe. Wir definieren φ : G → G̃ durch φ(g) := (g, e) (man denke an Brüche g1 ). Die Homomorphieeigenschaft ist unmittelbar einzusehen. Wir wollen zeigen, daß φ injektiv ist und nehmen an, daß φ(g) = (g, e) = (g 0 , e) = φ(g 0 ) gelte. Dann ist ge = g 0 e, also g = g 0 , also φ tatsächlich injektiv. w.z.b.w. Die nachstehende einfache Beobachtung spielt eine Rolle bei der Konstruktion endlicher Körper (Anmerkung 111 (S.113) und nicht nur dort): Anmerkung 96 Eine endliche Halbgruppe mit Kürzungseigenschaft ist eine Gruppe. Beweis: Sei G eine solche Halbgruppe. Zunächst zeigen wir, daß G ein Einselement hat. Sei a ∈ G beliebig und k, r ∈ IN minimal mit ak = ak+r . Dann ist offenbar ar ein Kandidat für das Einselement. Um dies nachzuweisen bilden wir ak b = ak ar b, und benützen die Kürzungseigenschaft, um b = ar b abzuleiten. Nun sei f : G → G durch f (x) := ax definiert. Es ist f injektiv, weil f (x) = f (y) g.d.w. ax = ay, also x = y gilt. Da G endlich ist, ergibt sich aus der Injektivität f (G) = G, also gibt es ein b ∈ G mit f (b) = 1, d.h. ab = 1. w.z.b.w. 3.3 3.3.1 Ringe und Körper Definitionen und Allgemeines Ringen begegnet man zunächst in der Analysis: Ist z.B. I := [0, 1] das Intervall der Länge 1, und betrachtet man die stetigen Funktionen, so weiß man, daß man mit f, g stetig, die 0 Intuition: man denke an hg = hg 0 , was genau dann der Fall ist, wenn obige Bedingung gilt. In multiplikativer Notation verwendet man diese Konstruktion beim Übergang von den ganzen Zahlen zu den rationalen Brüchen, m.a.W. Erweitern von ZZ \ {0}, um “Dividieren” zu können. Die Relation (g, h) ≡ (g 0 , h0 ) läuft genau darauf hinaus, zu sagen, daß “g und h im gleichen Verhältnis wie g 0 und h0 stehen, also kommensurabel im hellenistischen Sinn” sind. Siehe auch Unterabschnitt A.2.7 (S.256). In additiver Notation hat man den Übergang von IN zu ZZ, um die Subtraktion einführen zu können, d.i. (g, h) ≡ (g 0 , h0 ) bedeutet (nach vollbrachter Konstruktion) g − g 0 = h − h0 , also “Gleichheit der Differenz”. 15 Unglückliches Zusammentreffen verschiedener Bedeutungen des Wortes Quotient. 14 3.3. Ringe und Körper 101 Funktion f ± g, bzw. f g bilden kann (als (f ± g)(x) := f (x) ± g(x)), bzw.16 f g(x) := f (x)g(x) und diese Funktionen auch wieder stetig sind. Allerdings kann man f /g nicht in der gleichen Weise bilden (z.B. dann nicht, wenn g in I eine Nullstelle hat). Die stetigen Funktionen auf I, die ganzen Zahlen ZZ, die Menge der n × n-Matrizen erlauben ein ‘+’ und ein ‘·’ und Regeln, die dem Konzept des Ringes entsprechen: Definition 97 Die Ringaxiome : Ein Ring (R, +, ·) ist eine Menge R zusammen mit zweistelligen Operationen + : R × R → R und · : R × R → R, derart daß die folgenden Eigenschaften gelten: • (R, +) ist eine kommutative Gruppe, die additive Gruppe • (R, ·) ist eine Halbgruppe. • Es gelten die Distributivgesetze: (∀a, b, c ∈ R) a(b + c) = ab + ac ∧ (a + b)c = ac + bc. Spezielle Elemente eines Ringes: Für weitere Eigenschaften, die Elemente im Ring womöglich erfüllen, gibt es gesonderte Bezeichnungen: Bedingung an a, b, c ∈ R c = ab 0 = ab und a 6= 0 und b 6= 0 1 = ab Benennung von a, b a ist linker, b rechter Faktor oder Teiler von c a ist linker, b rechter Nullteiler. a ist Links-, b Rechtseinheit Im kommutativen Fall spricht man von Einheiten statt Linkseinheiten. Ringe mit speziellen Eigenschaften: Bedingung (R, ·) ist Monoid ∀a, b ∈ R ab = 0 ⇒ a = 0 ∨ b = 0 R ist nullteilerfrei und kommutativ R \ {0} ist bezüglich Multiplikation eine Gruppe R \ {0} ist bezüglich Multiplikation eine kommutative Gruppe Bezeichnung für R R hat ein Einselement R ist nullteilerfrei R heißt Integritätsbereich oder -ring R ist ein Schiefkörper R ist ein Körper Nullteilerfreie Ringe mit 1: Für weitere Eigenschaften, die ein solcher Ring oder seine Elemente womöglich erfüllen, gibt es gesonderte Bezeichnungen: 16 Wie in Definition 56 (S.72) angemerkt, würde man für die Komposition von f mit g, sofern sie definiert ist, entsprechend g ◦ f schreiben. 102 Algebra Bedingung an a, b, c, p ∈ R bzw. R c = ab ⇒ a oder b ist Einheit R kommutativ, p Teiler von ab impliziert stets p Teiler von a oder b Jede Struktur auf tieferem Niveau “erbt” die Eigenschaften einer höheren, mit ihr durch eine Linie verbundenen. Bezeichnung c ist irreduzibel oder unzerlegbar p ist Primelement ll lll lll l l l lll hat 1 Element R ist Ring RRR RRR RRR RRR R nullteilerfrei ll lll l l lll lll kommutativ ll lll l l lll lll Schiefkörper X Integritätsbereich XXXXX QQ XXXXX QQQ XXXXX QQ XXXXX XXXXX QQQQQ XXXXX Q XX Körper Beispiel 98 Es gibt vielfältige Beispiele zu Ringen: 1. Es ist ZZ mit der üblichen Addition und Multiplikation ein Integritätsbereich mit Einselement. Die geraden Zahlen bilden einen Integritätsbereich ohne Einselement. 2. (Restklassenring (Z Z m , +, ·), d.h. Rechnen modulo m). In Beispiel 72 (S.86) ist (ZZ m , +) als abelsche Gruppe behandelt worden. Man kann zu einem Ring (ZZ m , +, ·) übergehen, indem x, y ∈ ZZ m zunächst als ganze Zahlen auffaßt, multipliziert, und dann Division mit Rest xy = mg + r mit 0 ≤ r < m ausführt. Dann ist r das Ergebnis der “Modulo m Multiplikation von x und y”. Erleichterung: Man darf in jeder Rechnung jede der beteiligten Zahlen durch eine modulo m kongruente ersetzen (im Zeichen “≡”): Sei m := 7, so ist 5 × |{z} 6 −(3| {z + 5} − |{z} 9 ) × (6 − 4) × 2 ≡−1 ≡1 ≡2 ≡ |−5{z− 1} −2 × 2 × 2 ≡1 ≡ 1 − 8 ≡ 0. Probe: 30 − 8 − 9 × 2 × 2 = 22 − 36 = −14 ≡ 0. 3. Q, IR und C sind Körper. 4. Es sei R := { a b c d | a, b, c, d ∈ IR}. 3.3. Ringe und Körper 103 R mit der koordinatenweisen Addition von Matrizen und dem üblichen Matrizenmultiplizieren ist ein (nicht kommutativer) Ring mit Einselement. Die Matrizen 1 0 0 0 A := , B := 0 0 1 0 ergeben als Produkt die Nullmatrix, also hat der Ring Nullteiler. Wir vermerken noch, daß BA nicht die Nullmatrix ist. Analoges gilt in Matrizenringen von n × n-Matrizen über einem beliebigen Körper, sofern n > 1 ist. 5. Es sei, wie in der Einleitung, I = [0, 1] das Einheitsintervall und R die Menge der auf I stetigen Funktionen mit Werten in IR. Definiert, man wie üblich, (f + g)(x) := f (x) + g(x) und f g(x) := f (x)g(x), so kann die übliche Aussage, daß “Punktweise Addition (Subtraktion) sowie Multiplikation von auf I stetigen Funktionen eine stetige Funktion ergibt” so ausgesprochen werden, daß R ein kommutativer Ring mit Einselement ist. Hat R Nullteiler? Antwort: Es sei f (x) := 12 − x für 0 ≤ x ≤ 12 und f (x) := 0 für 21 ≤ x ≤ 1. (Skizze!). Danach sei g(x) := f (1 − x). Es sind f und g beide stetig auf I. Da f g(x) = 0 für alle x ∈ I ist, sind f und g Nullteiler. 6. (Quaternionenschiefkörper) R. Hamilton gelang es, die Konstruktion der komplexen Zahlen als Paare reeller Zahlen zu verallgemeinern. Dabei ließ er das Kommutativgesetz fallen und fand Rechenregeln für Paare von komplexen Zahlen (Überstreichen bedeutet im folgenden Konjugation, also x + iy := x − iy): ∀a, b, a0 , b0 ∈ C : (a, b) + (a0 , b0 ) := (a + a0 , b + b0 ) (a, b)(a0 , b0 ) := (aa0 − bb̄0 , ab0 + ā0 b). Es stellt sich heraus, daß C×C mit dieser Addition und Multiplikation ein Schiefkörper ist, allerdings – ohne mehr Theorie zu betreiben, ist der Nachweis eher “längere Rechnerei”. Der Schiefkörper ist als Hamiltonquaternionen bekannt. Eine reelle Beschreibung des Quaternionenschiefkörpers bekommt man, indem man im Polynomring IR[i, j, k] ein Ideal mittels des sich als konfluent und noethersch erweisenden TES (jenes aus Beispiel 92 (S.97) 1.) i2 → 1, j 2 → 1, k 2 → 1, k → ij, ki → −ik, kj → −jk, ji → −ij definiert. Ein Ergebnis der klassischen Algebra besagt, daß jeder endliche Schiefkörper ein Körper ist. 7. Es sei (ZZ m , +, ·) der Restklassenring m anmerken, ob ZZ m Nullteiler hat? (mod m) wie unter 2. Wie kann man der Zahl 104 Algebra Antwortfindung: Ist m = m1 m2 eine Faktorzerlegung, so gilt (mod m) die Gleichung m̄1 m̄2 = 0̄. Hat umgekehrt m keine solche Zerlegung, so ist m eine Primzahl. Wäre x̄ȳ = 0̄, so müßte definitionsgemäß ein k ∈ ZZ mit xy = km existieren. Da m prim ist, müßte entweder x oder y von m geteilt werden, was bedeutet, daß x̄ oder ȳ Null ist. Antwort: ZZ m ist genau dann ein Integritätsbereich, wenn m prim ist. Ist für primes p der Ring ZZ p ein Körper? Antwortfindung: Es ist ZZ p ein Integritätsbereich, wie soeben festgestellt worden ist. Wenn man zeigen will, daß ein Körper vorliegt, ist es nötig zu beliebigem x ∈ ZZ p mit x 6= 0 die Existenz eines Elements y ∈ ZZ p mit xy = 1 nachzuweisen. Dies folgt aber aus Anmerkung 96 (S.100), weil ZZ p \ {0} eine endliche Halbgruppe mit Kürzungseigenschaft, und somit eine Gruppe ist. Antwort: (ZZ p , +, ·) ist ein Körper. Er heißt Primkörper zur Charakteristik p. Wie läßt sich der endliche Körper mit minimaler Anzahl von Elementen beschreiben? Antwort: Es muß ein Nullelement, 0 und ein Einselement 1 geben. Daß es tatsächlich einen Körper mit 2 Elementen gibt, zeigt ZZ 2 mit der Addition und Multiplikation: 0 · 0 = 0 · 1 = 0 und 1 · 1 = 1, sowie Addition modulo 2. Der so gebildete Körper IF2 hat Charakteristik 2. 8. Gilt der binomische Lehrsatz in jedem kommutativen Ring? Antwortfindung: Wenn ab = ba ist, so hat man (a + b)2 = (a + b)(a + b) = a2 + ab + ba + b2 = a2 + 2ab + b2 . Danach vollständige Induktion, so wie man es für IR oder Q gewöhnt ist. Die Beobachtung kann interessant sein: Wenn z.B. die quadratischen Matrizen (oder allgemeiner – Operatoren) A und B kommutieren, so ist z.B. (A + B)3 = A3 + 3A2 B + 3AB 2 + B 3 . Ist etwa ∆ eine k × k obere Dreiecksmatrix mit Hauptdiagonale Nullen und k ≤ n, so ist n X n j n−j n (λI + ∆) = λ ∆ . j j=n−k 9. (Ebenes Gitter als Ring) √ Es sei ζ := 12 (1 + i 3). Dann bilden die Zahlen der Form k + lz mit k, l ganzzahlig bilden einen Ring. Zeigen Sie das. Versuchen Sie auch, diesen Ring im beigefügten Bild zu “sehen”. 3.3. Ringe und Körper 3.3.2 105 Abstrakte Polynomdefinition als Terme Polynome sind grundsätzlich “Terme” in der Sprache der Ringe. Wenn man den Ausdruck 5x2 y + 7z hinschreibt, so sind x, y, z syntaktische Variablen17 , 2, 7, + Terminalzeichen, und man hat den rechts skizzierten Ableitungsbaum. Fügt man an das Polynom noch einen weiteren Term an, sodaß etwa 5x2 y + 7z + 3xyx entsteht, so ist der Baum von der ganz rechts abgebildeten Gestalt. Hierin sind T1 , T2 und T3 Terme in der Sprache des freien Monoids {3, 5, 7, x, y, z}∗ . + @@ ~ @@ ~~ @@ ~ ~ @@ ~ ~~ · · ?? CCC ?? CC ?? CC ?? C C z · 7 5 B || BBB | BB || BB || | B | x ·? || ??? | ?? | ?? || || x + AA AA AA AA + CC CC CC CC 5T1 3T3 7T2 y In diesem Sinne ist jedes Polynom eine mit Koeffizienten behaftete Summe von “Potenzprodukten”, wie es die übliche Schreibweise zum Ausdruck bringt. Diese Auffassung führt zu folgenden zunächst sehr abstrakt klingenden Definitionen: Definition 99 (Formale Potenzreihen und Polynome in nicht kommutierenden Variablen) Ist R ein Ring und X eine Menge, sowie X ∗ das freie Monoid18 , so heißt jede Funktion f : X ∗ → R (formale) Potenzreihe in den Variablen X. Der Träger von f ist die Menge T (f ) := {m ∈ X ∗ | f (m) 6= 0}. Ist der Träger endlich, so heißt f Polynom. Ähnlich wie im Beispiel der Einleitung definiert man (f + g)(m) := f (m) + g(m). Die Multiplikation wird jedoch in Anlehnung an das Cauchyprodukt durch X f g(m) := f (k)g(l) {k,l∈X ∗ |kl=m} festgelegt. Man beachte, daß es nur endlich viele Möglichkeiten geben kann, ein festes Wort im freien Monoid als Produkt von zwei Wörtern anzuschreiben. Daher ist die Menge {k, l ∈ X ∗ | kl = m} endlich. ∗ Mit diesen Definitionen wird RX zum Potenzreihenring (in den nicht kommutierenden Variablen X). Die Potenzreihen mit endlichem Träger bilden den Ring der Polynome (in den ∗ Variablen X) – er wird mit RhXi bezeichnet. Es ist üblich, die Notation RhhXii := RX zu verwenden, und jedes f formal als X fm m m∈X ∗ anzuschreiben. Addition und Multiplikation nehmen hiedurch die vertraute Form X X X fm m + gm m = (fm + gm )m m∈X ∗ 17 Definition 207 (S.239) m∈X ∗ m∈X ∗ 106 Algebra und ( X k∈X ∗ fk k)( X l∈X ∗ gl l) = X X m∈X ∗ fk gl m {k,l∈X ∗ |kl=m} an. Schließlich, wenn man die gleichen Konstruktionen mit dem freien kommutativen Monoid über X ausführt (jetzt dürfen alle Variablen kommutieren, vgl. die Konstruktion in Beispiel 81 (S.90) 1.), so spricht man vom Ring der formalen Potenzreihen bzw. Polynomen in den kommutierenden Variablen X und schreibt R[[X]] bzw. R[X]. Anmerkung 100 Man stellt sich vor, daß man die Elemente in X (die Unbestimmten oder auch Variablen) “formal” mit Koeffizienten in einem Ring R behaftet und dann solche Ausdrücke in “schulgewohnter” Weise addiert und multipliziert. Erlaubt man den Unbestimmten zu kommutieren, so entsteht der kommutative Polynomring R[X]. Ist X = {x} nur univariat, so schreibt man R[x]. Auch Schreibweisen R[X, Y ] etc. sind gebräuchlich. Typische Polynome: 3x2 − 5x + 7, 8xy − 5y 3 − 4, etc. Anmerkung 101 (Universelle Eigenschaft des Potenzreihenrings bzw. Polynomrings) Es gibt analog zur Diskussion in Beispiel 216 (S.245),7 eine universelle Eigenschaft von RhXi bzw. R[X]: Jede Abbildung f : X → S, wobei S ein Ring (bzw. ein kommutativer Ring) ist, hat eine eindeutige Erweiterung zu einem Homomorphismus f : RhXi → S (bzw. f : R[X] → S). Das gilt, weil Polynome Terme sind, in die man “universell” einsetzen kann. Beispiel 102 Hier einige Beispiele: 1. Bekanntlich läßt sich eine in einem Bereich analytische Funktion in eine Potenzreihe P (−1)i x2i+1 entwickeln, z.B. ist sin x = ∞ i=0 (2i+1)! . Die übliche Schreibweise wäre (in allgemeiP i ner Form) f (x) = ∞ i=0 ai x . In der obigen Auffassung wird das so ausgedrückt, daß ∗ a : {x} → IR eine Funktion ist. Also wäre z.B. beim Sinus a(x3 ) = − 61 . 2. Es ist 2X + 3Y ∈ ZZhX, Y i. Da X und Y nicht kommutieren, findet man (2X + 3Y )2 = 4X 2 + 6Y X + 6XY + 9Y 2 . 3. Erlaubt man im vorigen Beispiel XY = Y X, so rechnet man in ZZ[X, Y ] und es ergibt sich 4X 2 + 12XY + 9Y 2 . 4. Jede an einem Punkt unendlich oft differenzierbare Funktion gibt Anlaß zur Definition einer formalen Potenzreihe, nämlich, wenn f an 0 unendlich oft differenzierbar ist, so 18 Definition 65 (S.80) 3.3. Ringe und Körper 107 ergibt sich eine formale Potenzreihe, in der x die Rolle einer Variablen spielt: T (f ) := ∞ X f (i) (0) i=0 i! xi . Man kann zwar hier keine Werte einsetzen (um z.B. f zu approximieren), das Rechnen in formalen Potenzreihen kann jedoch nützliche Dienste beim Berechnen von Ableitungen höherer Ordnung leisten, sogar für in einer Umgebung von Null analytische Funktionen: Es seien f = 1 1−x und g = cos x. Man berechne die 5.te Ableitung (f · g)(5) (0). Antwortfindung: Cauchymultiplikation formaler Potenzreihen ergibt: T (f g) = (1 + x + x2 + x3 + x4 + x5 + · · ·)(1 − 4 2 = · · · + x x24 − x3 x2 + x5 + · · · 1 − 12 + 1 x5 + · · · = · · · + 24 x2 2 + x4 24 + · · ·) Teile der Rechnung, die für den Term mit x5 unerheblich sind, wurden durch ‘· · ·’ angedeutet. Jetzt besinnt man sich auf die Taylorformel, der man entnimmt, daß der Koeffizient von x5 im Taylorpolynom vom Grad 5 für eine beliebige 5 mal an 0 diffe(5) (5) renzierbare Funktion h von der Form h 5!(0) ist, und findet (f ·g)5! (0) = 13 24 . Antwort: (f · g)(5) (0) = 3.3.3 13×5! 24 = 65. Ringe von Quotienten in einem Integritätsbereich. Der Übergang von den ganzen Zahlen zu den rationalen, aber auch von den Polynomen zu den rationalen Funktionen gehorcht einem allgemeinen Schema, das jetzt erläutert werden soll. Ist R ein Integritätsbereich, so hat R \ {0} die Kürzungseigenschaft (Definition 93 (S.99)) und man kann die Konstruktion aus Anmerkung 95 (S.99) dazu benützen, um eine Gruppe S̃ und eine Injektion φ : R \ {0} → S̃ zu definieren. Erklärt man noch (0, 1) ≡ (0, r) für alle r 6= 0, so läßt sich eine Addition durch (r, s) ⊕ (r0 , s0 ) := (rs0 + r0 s, ss0 ) definieren, sodaß R̃ := S̃ ∪ {(0, 1)} zu einem Ring wird. Als Beispiel, daß das alles funktioniert, zeigen wir, daß ⊕ wohldefiniert ist: Ist nämlich (r, s) ≡ (r1 , s1 ) und (r0 , s0 ) ≡ (r10 , s01 ), so hat man die Beziehungen rs1 = r1 s und r0 s01 = r10 s0 , sodaß man (rs0 + r0 s, ss0 ) ≡ (r1 s01 + r10 s1 , s1 s01 ) nachweisen muß, also die Gleichung (rs0 +r0 s)s1 s01 = (r1 s01 +r10 s1 )ss0 aus den genannten Beziehungen zu folgern sind, eine harmlose Rechenübung. Ähnlich weist man die Gültigkeit der Rechengesetze im Ring19 R̃ nach. 19 Definition 97 (S.101) 108 Algebra Da, wie in Anmerkung 95 (S.99) gezeigt worden ist, φ eine Injektion von R in R̃ veranlaßt, und S̃ = R̃ \ {(0, 1)} eine Gruppe ist, wird R̃ zu einem Körper. Er heißt Quotientenkörper20 des Integritätsbereichs R. Es ist üblich, statt (r, s) die Bruchschreibweise rs zu benützen, wobei r Zähler und s Nenner des Bruches rs ist. In dieser Schreibweise gelten die aus dem Schulunterricht geläufigen Rechenregeln für Brüche (= Quotienten): a a0 + 0 b b a a0 b b0 = = ab0 + a0 b bb0 0 aa bb0 Beispiel 103 (Quotientenkörper) 1. Geht man von R := ZZ aus, so ergibt sich der Körper der rationalen Zahlen Q. 2. Geht man von R := k[x] (dem Polynomring in einer Variablen mit Koeffizienten im Körper k) aus, so bekommt man den Körper k(x) der rationalen Funktionen21 über k. 3. Geht man von R := k[X] (dem Polynomring in den kommutierenden Variablen X mit Koeffizienten im Körper k) aus, so bekommt man den Körper k(X) der über k rationalen Funktionen. 3.3.4 Kongruenzen in kommutativen Ringen mit Einselement, Ideale Der elementare Begriff der Kongruenz von ganzen Zahlen, nämlich a ≡ b (mod m), falls a − b durch m teilbar ist, erfüllt die erste der nachstehenden Eigenschaften: Definition 104 Es sei R ein kommutativer Ring mit Einselement. Kongruenzrelation ≡ auf R: ist eine Äquivalenzrelation, die zusätzlich (∀r, r0 , s, s0 )(r ≡ r0 ) ∧ (s ≡ s0 ) ⇒ (r + s ≡ r0 + s0 ) ∧ (rs ≡ r0 s0 ) erfüllt. Ideal: Ein Ideal J in R ist ein Teilring von R, für den mit r ∈ R und j ∈ J stets rj und jr beide in J liegen. Ringhomomorphismus: f : R → S ist ein Ringhomomorphismus, wenn für alle a, b ∈ R stets f (a + b) = f (a) + f (b), f (ab) = f (a)f (b), und, im Falle der Existenz eines Einselements in R auch S ein Einselement, nämlich f (1R ) hat. 20 Der Quotientenkörper ist kein Quotientenring im Sinne von Anmerkung 105 (S.109), sondern ein Körper, dessen Elemente formale Quotienten aus Ringelementen sind! 21 Es sind dies leider keine Funktionen, sonder eher Terme, auch wenn man sie per Gepflogenheit so nennt. 3.3. Ringe und Körper 109 Anmerkung 105 (Kongruenz – Homomorphismus – Ideal) Die Begriffe Ringkongruenz, Ideal und Homomorphismus sind in folgendem Sinne äquivalent: 1. Ist ≡ eine Ringkongruenz, so ist J := {r ∈ R | r ≡ 0} ein Ideal. Z.B., bei der Kongruenzrelation “modulo m” in ZZ ist J = mZZ, die Menge aller Vielfachen von m. Ähnlich wie bei den Normalteilern kann man durch x̄ + ȳ := x + y und x̄ȳ := xy eine neue Addition und Multiplikation auf der Menge der Äquivalenzklassen R/ ≡ definieren, und es erweist sich R/ ≡ als ein Ring, den man üblicherweise mit R/J bezeichnet und Quotientenring22 nennt. Im Beispiel erhält man ZZ m . Die Abbildung, die jedem r ∈ R seine Äquivalenzklasse (genannt Kongruenzklasse) zuordnet, ist ein Ringhomomorphismus. 2. Ist J ein Ideal, so soll r ≡J r0 gelten, wenn x − y ∈ J ist. Nun überlegt man sich ähnlich wie bei den Normalteilern (vgl. Definition 91 (S.97)), daß ≡J eine Kongruenzrelation auf R ist, deren Ideal geradewegs J ist. 3. Nun sei f : R → S ein Ringhomomorphismus. Dann ist f −1 (0) = {r ∈ R | f (r) = 0} ein Ideal, der Kern von f . Ist f eine Bijektion, so spricht man von einem Ringisomorphismus, bzw. Körperisomorphismus, wenn R ein Körper ist. Schließlich erweist sich der Durchschnitt beliebig vieler Ideale als Ideal, sodaß es insbesondere ein kleinstes Ideal im Ring gibt, welches eine vorgegebene Teilmenge A des Ringes enthält. Dieses Ideal nennt man das von A erzeugte Ideal und bezeichnet es mit hAiR , bzw. mit hAi, falls klar ist, welcher Ring R gemeint ist. Besteht A = {a} aus einem einzigen Element, so heißt hai ein Hauptideal. In der Literatur, wie etwa in [1] oder [31], werden Hauptideale eher mit (a) bezeichnet. Beispiel 106 Beispiele hierzu: 1. Wie lassen sich die Kongruenzrelationen auf ZZ beschreiben? Antwortfindung: Man muß nach den Idealen J von ZZ Ausschau halten. Ist J 6= {0} ein solches Ideal, so gibt es eine kleinste positive Zahl m in J. Ist k ∈ J positiv, so kann man durch Division mit Rest k in der Form k = ml + r mit 0 ≤ r < m darstellen. Weil aber k und m in J liegen, ist das für r auch der Fall. Wegen der Minimalität von m ∈ J muß r = 0 sein. Antwort: Jedes Ideal in ZZ besteht aus Vielfachen einer festen Zahl. 2. Wie lassen sich bei gegebenem Körper k die Kongruenzrelationen auf k[x] beschreiben? Antwortfindung: Man muß nach Idealen in k[x] Ausschau halten. Ist J 6= {0} ein solches Ideal, so gibt es ein Polynom m in J von kleinstem Grad. Ist nun p ∈ J, so kann mittels 22 Nicht mit Quotientenkörper – Abschnitt 3.3.3 – verwechseln. 110 Algebra Division mit Rest für Polynome eine Darstellung p = ml + r gefunden werden, wobei r entweder Null ist, oder kleineren Grad als m hat. Da p ∈ J und m ∈ J, ist auch p − ml ∈ J, also r ∈ J. Allerdings hat r kleineren Grad, falls es nicht Null wäre. Dementsprechend kann nur r = 0 gelten. Antwort: Zu jedem Ideal in k[x] gibt es ein Polynom m, sodaß alle Polynome im Ideal von der Form km für ein k ∈ k[x] sind. Gibt es ein konfluentes, antisymmetrisches und noethersches TES, welches die durch J bestimmte Kongruenzrelation nach sich zieht? Antwort: Ist m = xk + m0 mit m0 = 0 oder kleinerem Grad als k ein Polynom kleinsten Grades in J, so definiert man xk → −m0 . (das läuft auf Polynomdivision durch m mit Rest hinaus). 3. Wie lassen sich Ideale in einem euklidischen Ring beschreiben? Antwortfindung: Sei {0} = 6 J ein Ideal und a ∈ J ein Element mit minimalem Wert für θ(a). Dann gibt es für beliebiges j ∈ J Elemente q, r ∈ R mit j = aq + r. Es ist wegen der Idealeigenschaft auch r ∈ J und wäre r 6= 0, so könnte man θ(r) < θ(a) erreichen, ein Widerspruch. Somit ist r = 0 und j = qa. Antwort: Jedes Ideal ist ein Hauptideal. Definition 107 (Hauptidealring) Ein Integritätsbereich R, in dem jedes Ideal Hauptideal ist, heißt Hauptidealring. Anmerkung 108 Wegen Beispiel 106 (S.109) 3. ist jeder euklidische Ring ein Hauptidealring. Der Ring {2k | k ∈ ZZ} ist Hauptidealring, jedoch nicht euklidisch, weil er kein 1-Element besitzt. 3.3.5 Kommutativer Polynomring, Algebraische Körpererweiterung Wir wollen (sehr kurz) auf Polynomfaktorisierung in k[x] eingehen, sowie auf die Konstruktion von algebraischen Erweiterungskörpern von k. Anmerkung 109 Es sei k ein Körper und f ∈ k[x] ein irreduzibles Polynom, wobei der Koeffizient der höchsten Potenz in x gleich eins sei 23 Wie in Beispiel 106 (S.109) 2. ausführlicher erklärt worden ist, wird das Ideal hf i (das sind alle Polynome der Form pf mit p ∈ k[x]) betrachtet. Dann ist der Faktorring K := k[x]/hf i ein Körper, eine sogenannte algebraische Körpererweiterung. Der kanonische Ringhomomorphismus, der jedem Polyonm p sein Bild in K zuordnet (nämlich den Rest, welcher verbleibt, wenn man p durch f polynomdividiert – die übliche Mittelschulpolynomdivision mit Rest) soll mit p 7→ p̄ bezeichnet werden. Die Zuordnung c 7→ cx0 ergibt eine Injektion von k in K, sodaß 3.3. Ringe und Körper 111 k als Teilkörper von K aufgefaßt werden kann. Weiters ist K ein endlichdimensionaler k-Vektorraum mit einer Basis {1, x̄, . . . , x̄n−1 } wobei n der Grad von f ist. Ist f = xn + r mit r = 0 oder r vom Grad n − 1, so läßt sich durch xn → −r ein konfluentes, noethersches, antisymmetrisches TES im Sinne von Anmerkung 69 (S.81) festlegen, welches die Menge der Polynome vom Grad höchstens n − 1 zusammen mit dem Nullpolynom zu einem Repräsentantensystem von k[x]/hf i macht. Beweis: Zunächst behaupten wir, daß K ein Integritätsbereich ist. Angenommen āb̄ = 0̄. Dann gibt es Polynome a, b, c mit ab = cf . Wegen Anmerkung 236 (S.260) ist f ein Teiler von a oder b, also o.B.d.A. kann man die Existenz von d ∈ k[x] mit a = f d annehmen. Dann ist ā = 0̄, somit K nullteilerfrei. Es genügt, für jedes ā 6= 0̄ ein Inverses in K zu finden, m.a.W. die diophantische Gleichung ax + bf = 1 in k[x] als lösbar nachzuweisen. Da f irreduzibel und a 6∈ hf i ist, sind a und f relativ prim, sodaß (etwa mittels erweitertem euklidischem Kettenalgorithmus, siehe Unterabschnitt A.2.7 (S.256)) entsprechendes x und y gefunden werden können. Schließlich ordnen wir jedem c ∈ k das konstante Polynom c und diesem seine Kongruenzklasse zu. Man sieht leicht ein, daß kein c in hf i liegen kann, somit k ∩ hf i = {0} gilt. Deshalb kann k als Teilkörper von K aufgefaßt werden. Angenommen, die angegebenen Elemente sind k-linear abhängig. Dann gibt es eine Relation 0= n−1 X ci x̄i . i=0 Pn−1 Dann gilt für das Polynom g := i=0 ci xi die Beziehung ḡ = 0̄, also g ∈ hf i. Somit ist g zerlegbar als g = f a, und weil f irreduzibel ist, muß es ein Teiler von g sein. Das geht jedoch nicht, weil g kleineren Grad hat. Ein Widerspruch. w.z.b.w. Beispiel 110 (Beispiele zu algebraischen Körpererweiterungen u.A.) : 1. Es sei IR[x] der Polynomring mit reellen Koeffizienten und J jenes Ideal, das von x2 + 1 erzeugt wird. Ist IR[x]/J ein Körper? Antwortfindung: Das TES ergibt x2 → −1. Somit kann jedes Element in IR[x]/J durch ein lineares Polynom in x beschrieben werden. Das Polynom x2 + 1 ist reell irreduzibel, sodaß IR[x]/hx2 + 1i ein Körper ist. Die Multiplikation verläuft so: (a + bx)(a0 + b0 x) = aa0 + (ab0 + a0 b)x + bb0 x2 → aa0 − bb0 + (ab0 + a0 b)x √ d.i. man hat aus den reellen Zahlen C durch Adjunktion von −1 = x̄ konstruiert. Antwort: IR[x]/hx2 + 1i ist ein zu C isomorpher Körper. 23 Solches f wird oft als normiertes Polynom bezeichnet 112 Algebra 2. Kann ein Erweiterungskörper von ZZ 7 mittels eines irreduziblen quadratischen Polynoms gefunden werden? Ist der Erweiterungskörper auch endlich? Antwort(findung): Auf gut Glück versuchen wir es mit f := x2 + 1. Es genügt, festzustellen, daß (±1)2 = 1, (±2)2 = 4 und (±3)2 ≡ 2 (mod 7) gilt, also f irreduzibel über ZZ 7 ist. Somit ist ZZ 7 [x]/hx2 + 1i ein solcher Erweiterungskörper. Als Basis hat man {1, x̄}, also hat der Körper 49 Elemente. P 3. (Formales Differenzieren) Ist f ∈ R[x] so läßt sich f = j fj xj formal differenzieren P (siehe hierzu auch Anmerkung 238 (S.261)), indem man f 0 := j≥1 jfj xj−1 setzt. Wie kann man n(1 + x) n−1 n X n k x= k x k k=1 herleiten? Pn n k n = Antwort: Man startet mit dem binomischen Lehrsatz: (1 + x) k=0 k x und differenziert links und rechts, um n(1 + x)n−1 = k nk xk−1 zu finden. Links und rechts mit x multiplizieren ergibt das Resultat. Analog erhält man n(n − 1)x2 (1 + x)n−2 + nx(x + 1)n−1 = n X k=1 k2 n k x k 4. (Identitäten für die hypergeometrische Verteilung). Man beweise, daß für alle M ,s und a in IN X 1 s a − s s k a =m k m−k a s k und X k 1 s a−s m (m − 1)(s − 1) =s k a +1 k m−k a a−1 s 2 gilt. Antwortfindung. Beide Identitäten ergeben sich ähnlich wie im vorigen Beispiel aus einer geschickten Interpretation der Cauchymultiplikation (siehe Definition 99 (S.105)). Wir m a−s führen das hier nur für die erste Identität vor.P Setzt man ak := kP k und bl := l , so würde P die Cauchymultiplikation von f := k ak xk mit g := l bl xl ein Polynom h = f g = t ct xt ergeben und X ct = ak bt−k . k xm Deshalb ist der Koeffizient von geradewegs die gesuchte Summe. Aus dem vorigen Beispiel erkennt man sofort f = s(1 + x)s−1 x und g = (1 + x)a−s , sodaß h = m(1 + x)s+a−1 x ist. Somit ist cm = m s+a−1 der gesuchte Koeffizient. Division durch ka m−1 ergibt die Behauptung. 3.3. Ringe und Körper 113 Für die zweite Identität findet man ähnlich f = s(s − 1)x2 (1 + x)s−2 + sx(1 + x)s−1 , g ist das gleiche geblieben, und h = f g = s(s − 1)x2 (1 + x)a−2 + sx(1 + x)a−1 . Demnach a−1 a−2 . ergibt sich cm = 1a s(s − 1) m−2 + s m−1 (s) 3.3.6 Endliche Körper Endliche Körpern spielen eine Rolle in der Kodierungstheorie. Dort möchte man wissen, wie man in einem solchen Körper “rechnen” kann. Anmerkung 111 (Fakten über endliche Körper) Folgendes kann über einen endlichen Körper F gesagt werden: 1. Jeder endliche Integritätsbereich (sieh Definition 97 (S.101)) ist ein Körper und es gibt genau eine Primzahl p mit einem zu ZZ p isomorphen Teilkörper. Für dieses p gilt px = x | +x+ {z· · · + x} = 0 für alle x ∈ F . Weiters gilt p mal (x + y)p = xp + y p . 2. Die Abbildung φ : F → F , definiert durch x 7→ xp ist ein Isomorphismus (genannt Frobeniusautomorphismus). n 3. Es gibt ein positives natürliches n, sodaß xp − x = 0 für alle x ∈ F gilt. 4. Ist n kleinstmöglich gewählt, so erweist sich die Menge der invertierbaren Elemente, F \ {0} als zyklische Gruppe von der Ordnung24 pn − 1. n 5. Es gibt ein in ZZ p [X] unzerlegbares Polynom g, ein Teiler von X p −1 − X, derart, daß F als Ring isomorph zu ZZ p [X]/hgi ist. Ist g = xm + r, wobei r = 0 oder nur Terme mit Grad ≤ m − 1 enthält, so ist durch xm → −r ein konfluentes, antisymmetrisches und noethersches TES im Sinne von Anmerkung 69 (S.81) gegeben (weil algebraische Erweiterung vorliegt, ganz genau so wie in Anmerkung 109 (S.110)), welches die Menge der Polynome vom Grad kleiner als jener von g zusammen mit dem Nullpolynom zu einem Repräsentantensystem von F = ZZ p [X]/hgi in ZZ p [X] macht, wobei es bequem ist, statt ‘X’ den Buchstaben ‘x’ zu verwenden. Insbesondere gibt es bis auf Isomorphie nur einen Körper mit q := pn Elementen, der gewöhnlich als IFq oder auch als GF(q) (für Galoisfeld) bezeichnet wird. Die Primzahl p heißt Charakteristik von IFq , im Zeichen p = charIFq . Zu vermerken ist auch, daß IFp = ZZ p , sodaß die multiplikative Gruppe {1, . . . , p − 1} zyklisch ist. 24 Definition 71 (S.85) 114 Algebra Beweis: 1. Der Nachweis geht genauso wie im 2.ten Teil von Beispiel 98 (S.102) 6. Der Teilkörper besteht aus allen Elementen der Form k·1F := 1F + 1F + · · · + 1F mit k = 0, 1, . . . , p−1 {z } | k mal und 1F das Einselement in F . Wenn nun x ∈ F ist, so hat man px = x · · + x} = | + ·{z p mal x (1 + · · · + 1) = x · 0 = 0, wie behauptet. | {z } p mal Um (x + y)p = xp + y p zu zeigen, bemerken wir zunächst, daß k! für 0 ≤ k ≤ p − 1 in ZZ p kein Nullteiler (keiner der Faktoren ist es) ist. Deshalb ist x := k!1F ∈ F \ p {0} und somit k x = p!1F = 0 für 1 ≤ k ≤ p − 1. Danach ergibt der binomische Lehrsatz25 Behauptung. Ist F ein endlicher Integritätsbereich, so ist F \{0} eine endliche Halbgruppe mit Kürzungseigenschaft. Deshalb ist sie wegen Anmerkung 95 (S.99) eine Gruppe und somit F ein Körper. 2. Die Abbildung φ : F → F , die durch φ(x) := xp definiert ist, ist wegen 1. ein Homomorphismus. Ihr Kern ist trivial, weil xp = 0 natürlich x = 0 zur Folge hat, also ist sie eine Bijektion. 3. Da F endlich ist, ist die von φ erzeugte zyklische Halbgruppe endlich. Es gilt die Kürzungseigenschaft, weil φ ein Isomorphismus ist. Demnach ist wegen Anmerkung 96 (S.100) hφi eine endliche Gruppe. Sei n die Ordnung von φ. Umformuliert heißt das, daß n (∀x ∈ F ) xp = x gilt. 4. Es ist F ein IFp -Vektorraum. Deshalb besitzt er eine endliche Basis und hat daher die Ordnung q := pk für ein passendes k ≥ 1. Somit ist die Ordnung der multiplikativen Gruppe von F , d.i. |F \ {0}| genau q − 1, also genügen alle Elemente von F \ {0} der Gleichung xq−1 = 1 wegen Anmerkung 87 (S.95). Deshalb genügen alle x ∈ F der Gleichung xq − x = 0. Dies ist gleichbedeutend mit φk (x) = x, und da die Ordnung von φ gleich n ist, gilt k ≥ n. Wegen Anmerkung 95 (S.99) und (xq − x)0 = −1 hat die Gleichung keine mehrfachen Wurzeln, also genau die q Elemente von F als Nullstellen. Andrerseits hat der Frobeniusautomorphismus die Ordnung n, was darauf hinausläuft, n daß jedes Element von F auch der Gleichung xp − x = 0 genügt. Da diese Gleichung nicht mehr als pn Wurzeln haben kann, hat F höchstens pn Elemente, somit hat man pn ≤ pk , also n ≤ k und daher ist n = k. Nun wählen wir in F \ {0} ein Element f mit größtmöglicher Ordnung s und wir wollen zeigen, daß s = q − 1 gilt. Es ist f q−1 = 1, also s ein Teiler von q − 1. Angenommen es ist s < q − 1. Da das Polynom xs − 1 = 0 in F nicht mehr als s Wurzeln haben kann, 25 Vgl.Beispiel 98 (S.102) 7. 3.3. Ringe und Körper 115 gibt es dann ein Element a ∈ F mit as − 1 6= 0. Dieses a hätte größere Ordnung im Widerspruch zur Annahme über f . Somit ist F \ {0} zyklisch. Mit diesem Wissen ausgestattet, kann man grundsätzlich alle endlichen Körper konstruieren. Beispiel 112 (Konstruktion eines Körpers mit 8 Elementen) Als Beispiel nehmen wir p = 2 und n = 3, also genügen alle Elemente von F der Gleichung x8 − x = 0. Andrerseits wissen wir, daß IF8 genau 8 Elemente hat. Deshalb muß IF8 von der Form IF8 = IF2 [x]/hx3 + ax2 +bx+ci sein, wobei x3 +ax2 +bx+c keine Nullstellen in IF2 haben kann. Jetzt zerlegen wir x8 − x = x(x7 − 1) = x(x − 1)(x6 + x5 + x4 + x3 + x2 + x + 1) = x(x − 1)(x3 + x2 + 1)(x3 + x + 1) in über IF2 unzerlegbare Polynomfaktoren und erkennen Kandidaten für x3 + ax2 + bx + c. Nun gehen wir genauso vor wie bei Beispiel 106 (S.109) 2., nämlich, wir bilden IF2 [x] und erzeugen eine Kongruenz durch Vorgabe von x3 ≡ x+1 (die andere Wahl, nämlich x3 ≡ x2 +1 geht auch), indem wir sie durch ein noethersches, antisymmetrisches und konfluentes TES, nämlich x3 → x + 1 festlegen26 . Wie multipliziert man z.B. (x2 + x + 1)(x + 1)? Antwort: x3 + x2 + x + x2 + x + 1 = x3 + 1 → x + 1 + 1 = x. Wie kann man x+1 x2 +1 in der Form a + bx + cx2 anschreiben? Antwortfindung: Wir wissen x+1 = (x2 +1)(a+bx+cx2 ) = ax2 +bx3 +cx4 +a+bx+cx2 → (a + c)x2 + b(x + 1) + c(x2 + 1) + a = ax2 + cx + a + b. Koeffizientenvergleich ergibt a = 0, b = c = 1. Eine andere Methode wäre mittels erweitertem euklidischem Algorithmus (siehe Unterabschnitt A.2.7 (S.256)). Es ist üblich die Elemente von IF8 als Wörter der Länge 3 mit Buchstaben 0, 1 anzuschreiben, also z.B. 1 = 001, x = 010, x2 = 100. Dann ist z.B. x2 + 1 = 101 und x + 1 = 011, die Summe ist x2 + x = 110. Man bestimme alle Potenzen von x Antwort: Man findet ohne Mühe x0 x1 x2 x3 x4 x5 x6 = = = = x3 → = = x3 + x2 → = x3 + x2 + x → x + 1 + x2 + x = 1 x x2 x+1 x2 + x x2 + x + 1 x2 + 1 Wie kann dies für Personen A und B zur Kommunikation ohne Einsichtnahme dritter verwendet werden? Antwort: Die Personen A und B einigen sich auf den Körper IF8 . Nun nimmt A seine Bitfolge, etwa 011, die er senden will. Sie entspricht 1 + x. Sein Kodiergerät multipliziert sie 26 Anmerkung 69 (S.81) 116 Algebra mit x, bekommt x2 + x = 110 heraus und dieses Wort wird an B geschickt. Nun bekommt B das Signal 110, welches x2 +x ist. Sein Gerät multipliziert es mit x2 +1, d.h. (x2 +x)(x2 +1) = x4 + x3 + x2 + x = (x + 1)x3 + x2 + x → (x + 1)2 + x2 + x = x2 + 1 + x2 + x = 1 + x. Einwand? Ja, aber man kennt ja die Länge der Wörter! Ist ja nicht schwer, IF8 zu “erraten”. Dies umgeht man, indem man Körper beliebiger Charakteristik p nimmt, deren Arithmetik implementiert, sodaß die Länge der Bitfolgen nicht unmittelbar etwas mit der Arithmetik des Körpers zu tun hat. Beispiel 113 (Zyklische Codes) Endliche Körper spielen eine wichtige Rolle in der Kodierungstheorie. Wir wollen dies für den Körper IF8 unter Zuhilfenahme der obigen Rechnungen zeigen. 1. Zunächst haben wir (auch in Beispiel 239 (S.262)) die Zerlegung x7 − 1 = (x3 + x + 1)(x3 + x2 + 1)(x + 1) gefunden, wobei “−1 = 1” in IF2 schon berücksichtigt ist. Es sei g := (x3 +x2 +1)(x+1) und h := (x3 + x + 1), sodaß insbesondere x7 − 1 = gh eine Faktorzerlegung ist. 2. Nun will Sender A eine Nachricht als Folge von 01-Folgen fester Länge n an Empfänger B senden, allerdings muß er noch Extrainformation senden, sodaß B zumindest erkennen kann, ob er (bei gestörtem Empfang) einen typischen Nachrichtenblock von A bekommt, oder eben doch etwas “Gestörtes”. Sein Sendegerät interpretiert jede feste 01-Folge p als Polynom vom Grad höchstens n − 1 mit Koeffizienten in IF2 (allgemeiner in IF2k ). Nun multipliziert sein Sendegerät das Polynom p mit obigem g und reduziert es modulo x7 − 1, d.h. Benützung des TES x7 → 1. In diesem Sinne wird z.B. das Wort 0111 als p := x2 + x + 1 interpretiert, ergibt nach Multiplikation pg = (x2 + x + 1)(x3 + x2 + 1)(x + 1) = x6 + x5 + x2 + 1 und dieses Polynom ist schon reduziert. Somit wird von A das Wort 1100101 an B gesendet. 3. Das Empfangsgerät von B bekommt nun im fehlerfreien Fall das Wort w = 1100101. Die weitere Vorgehensweise ist grundsätzlich die, w wieder als Polynom x6 + x5 + x2 + 1 zu interpretieren und den Vorgang von As Gerät rückgängig zu machen, im vorliegenden Fall also durch h zu dividieren. Man vermutet richtig, daß das immer dann geht, wenn man sich auf höchstens quadratische Polynome beschränkt, also n = 3 wählt. 4. Um dies zu klären, gehen wir auf die nachstehenden Fragen ein: Falls A beliebig lange 01-Folgen sendet, also der Grad n von p beliebig sein kann, welche Art von Wörtern kommen bei B an? Antwort: Im Quotientenring R := IF2 [x]/(x7 − 1) bedeutet Multiplizieren eines Polynoms q mit x und danach Reduzieren lediglich “Rotieren nach links” des Wortes, z.B.: Ist q = 1100100, also q = x6 + x5 + x2 so wäre xq = x7 + x6 + x3 → x6 + x3 + 1, entspräche also 1001001. 3.3. Ringe und Körper 117 Somit ist mit jedem Wort q, das B empfangen kann, auch jedes “zyklisch permutierte” Wort möglich. Deshalb der Name “Zyklischer Code” für die Menge aller dieser von B empfangbaren Wörter. Man kann dies in der Tabelle auf der nächsten Seite sehen. Wie kann B feststellen, ob die Nachricht q von der Form q = pg (mod x7 − 1) ist? Antwortfindung: Ist q = pg +r(x7 −1), so ergibt Multiplikation mit h wegen x7 −1 = gh sofort qh = (p + r)(x7 − 1), also läßt es sich qh →∗ 0 reduzieren. Ist umgekehrt qh →∗ 0, so gibt es ein Polynom s mit qh = s(x7 −1), also ist qh = sgh und wegen der eindeutigen Faktorzerlegung in IF2 [x] bekommt man q = sh. Antwort: Genau dann ist q von der Form q = ph (mod x7 − 1), wenn qh →∗ 0 ist. Das Polynom h heißt Kontrollpolynom. Kann es vorkommen, daß pg = p0 g für verschiedene Wörter p 6= p0 , die A senden möchte? Wenn ja, wie kann man eine Übersicht darüber bekommen? Antwortfindung: Leider ja, z.B. wird das Wort g nach Multiplikation mit h zu gh = x7 − 1 →∗ 0. Ist umgekehrt ph →∗ 0, so gibt es ein Polynom r mit ph = r(x7 − 1), und demnach ist ph = rgh, also p = rg. Antwort: Genau die Polynome im Hauptideal (g), d.i. von der Form gr mit einem Polynom r werden als Nullpolynom gesendet. Genau die Polynome p0 = p + gr mit einem Polynom r werden nach dem Senden als das Wort ph (mod x7 − 1) gesendet. Unter welchen Umständen kann der von As Gerät getätigte Prozess von Bs Gerät rückgängig gemacht werden? Antwort: Offenbar genügt es, daß A sich auf Polynome vom Grad ≤ 2 beschränkt, dann wird nach Multiplikation mit h höchstens ein Polynom vom Grad 6 daraus, das nach Division durch h auf Bs Gerät das von A seinem Gerät zur Sendung übergebene Wort ergibt. Das Beispiel q = x2 + x + 1 unter 2. zeigt das ganz deutlich. Zusammenfassung: A sendet Wörter der Länge n = 3 (interpretierbar als Polynome vom Grad ≤ 2), nachdem er sie mit h multipliziert hat. Danach checkt B das empfangene Wort durch Multiplikation mit g und Reduzieren mod x7 − 1 und wenn das geht, dividiert er das empfangene Wort durch g, um As Wort zu bekommen. Der Vorteil der endlichen Körper IFq in gerader Charakteristik ist die schnelle Implementierbarkeit der Arithmetik. Das trifft auch auf die (zyklische) Polynomarithmetik zu. Anmerkung zur Fehlererkennung (mehr dazu ist im Abschnitt über normierte lineare Räume geplant, wo das thematisch besser hinpaßt): Wenn man davon ausgehen darf, daß höchstens eine Stelle in einem gesendeten Wort falsch ist, kann B das stets erkennen? Auch wenn 2 Fehler gemacht werden? Antwortfindung: Betrachten wir die nachstehende Tabelle, in der zunächst das Polynom von A, dann seine Deutung als Binärwort, danach das mit g multiplizierte Polynom, und 118 Algebra schließlich das an B gesendete Binärwort steht. 0 1 x x2 1+x 1 + x2 x + x2 1 + x + x2 000 001 010 100 010 011 110 111 0 x4 + x2 + x + 1 x5 + x3 + x2 + x x6 + x4 + x3 + x2 x5 + x4 + x3 + 1 x6 + x3 + x + 1 x6 + x5 + x4 + x x6 + x5 + x2 + 1 0000000 0010111 0101110 1011100 0111001 1101110 1110010 1100101 Die Minimalzahl an Stellen, an denen in der linken Spalte Binärwörter sich unterscheiden, ist eins. Würde man solche Wörter senden, reicht ein falsches Bit, um es nicht von einem anderen möglichen korrekten Wort zu unterscheiden. Im rechten Teil hat sich die Minimalzahl der Stellen, an denen sich 2 Binärwörter unterscheiden vergrößert: Wörter, die sich vorher nur um eine Stelle unterscheiden, müssen sich nach Multiplikation mit g = x4 + x2 + x + 1 an zumindest drei Stellen unterscheiden. In der Tabelle ist das klar zu erkennen, je zwei Wörter in der rechten Spalte unterscheiden sich an mindestens 3 Stellen. Antwort: Deshalb können Wörter mit einem, sogar mit zwei Fehlern von B erkannt werden (und notfalls nachgefragt werden). Kapitel 4 Metrische Räume 4.1 4.1.1 Metrische Räume Grundlegende Definitionen Definition 114 Ein metrischer Raum (X, d) besteht aus: Raum : Einer Menge X, dem Raum, und Elementen, den Punkten. Abstand/Metrik : Einer Abbildung d : X × X → IR, der Metrik oder Abstandsfunktion mit folgenden Eigenschaften: 1. d(x, y) ≥ 0 für alle x, y ∈ X (Abstand ist niemals negativ). 2. d(x, y) = 0 genau dann, wenn x = y ist. 3. Für alle x, y ∈ X ist d(x, y) = d(y, x) (Symmetrie). 4. Für alle x, y, z ∈ X gilt d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung – Skizze) x z ??? ???d(y, z) ?? d(x, z) ? jj y j j j jjjj jjjjjjd(x, y) j jjj Beispiel 115 Vorweg einfache Beispiele: 1. (Euklidische Metrik) (y1 , y2 ) Für die Punkte x = (x1 , x2 ) und y = (y1 , y2 ) der Ebene 2 X p := IR ist der “vertraute” euklidische Abstand d(x, y) := (x1 − y1 )2 + (x2 − y2 )2 eine Metrik. ww ww w ww ww (x1 , x2 )www w ww 2. Ist X := IR und d(x, y) := |x − y| für x, y ∈ IR (Absolutbetrag der Differenz), so gelten die Axiome eines metrischen Raumes. 119 120 Metrische Räume 3. Es sei X die Menge aller n-stelligen 01-Folgen, die wir als Elemente in {0, 1}∗ auffassen, d.h. in der Form 0001101 · · · 01 (Wörter der Länge n) angeschrieben denken. Nun definiert man d(x, y) als Anzahl der Stellen, an denen sich Wörter x und y unterscheiden. Es sind die Axiome erfüllt. (Hammingdistanz). 4. Es sei X eine beliebige Menge und d(x, y) = 1 genau dann wenn x 6= y, bzw. d(x, x) = 0. Die Axiome kann man sehr leicht nachvollziehen. Es ist dies die diskrete Metrik. 5. (Metrik auf dem Kreis) Auf dem Kreis vom Radius 1 soll eine Distanz d(x, y) zwischen Punkten x, y als die kürzere der beiden Bogenlängen der Bögen von x nach y bzw. y nach x (im Uhrzeigersinn gemessen) definiert. Man überlegt sich, daß eine formale Definition des Kreises durch Beschreiben als Intervall [0, 2π) und eine Abstandsfunktion durch d(x, y) := min{|x − y|, 2π − |x − y|} gegeben ist. Durch Fallunterscheidungen prüft man, daß ([0, 2π), d) die Axiome eines metrischen Raumes erfüllt. 4.1.2 fda_ ]ZXUSPM JG nki q •C@x; wt z 84 ~ 1. ,) '$ " ! # %( * 03 6: y =A • } EI x LOR ru TWY[^`cegjlo | 0 • x • y Konvergenz Definition 116 Die folgenden Begriffe sind in jedem metrischen Raum (X, d) für eine Folge {xn }∞ n=1 formulierbar: Konvergente Folge: Die Folge {xn }∞ n=1 ist konvergent mit Grenzwert x, im Zeichen x = limn→∞ xn , falls limn→∞ d(xn , x) = 0 gilt. Cauchyfolge: Die Folge {xn }∞ n=1 ist Cauchyfolge, wenn zu jedem noch so kleinen positiven ein N ∈ IN mit d(xn , xm ) < für alle m, n ≥ N gibt. Beispiel 117 Einfache Übungsaufgaben. p 1. Es sei X := IR2 und d(~x, ~y ) := (x1 − y1 )2 + (x2 − y2 )2 . Ist die Folge ~xn = π 1 (n sin n , cos( n )) konvergent? Wenn ja, welchen Grenzwert hat sie? Antwort: Als Grenzwerte der Koordinaten ergibt sich beide male 1. Um die DN genau nachzuvollziehen, muß jetzt 1 2 1 π 2 2 lim (n sin − 1) + (cos( ) − 1) =0 n→∞ n n gezeigt werden. ◦ 2π 4.1. Metrische Räume 121 Aus der Konvergenz von |n sin n1 − 1| und | cos( πn ) − 1| gegen Null bei n → ∞ folgt aus den üblichen Rechenregeln für konvergente Folgen im IR1 , daß der obige Grenzwert gleich (1, 1) ist. + 2. (“klein und groß?” abhängig von der Metrik) Ist auf X := R durch d(x, y) := 1 1 n+1 x − y eine Metrik gegeben? Ist die Folge {an }∞ n=1 mit an := n bezüglich dieser ∞ Metrik konvergent? Ist die Folge {bn }∞ n=1 mit bn := n konvergent? Ist die Folge {an }n=1 eine Cauchyfolge? Ist die Folge {bn }∞ n=1 eine Cauchyfolge? Antwort: Wie die Metrik zustandekommt, zeigt die nebenstehende Abbildung. Es mag hilfreich sein, selbst Skizzen anzufertigen, welche die Konvergenzaussagen verdeutlichen. bO O d(x, y) Graph von b = 1 a • • /a y x Nachweis der Axiome d(x, y) ≥ 0 ist sicher stets richtig. Symmetrie ist auch der Metrik. 1 1 klar. Aus d(x, y) = x − y = 0 schließt man x = y. Die Dreiecksungleichung ergibt sich aus der für den Absolutbetrag: 1 1 1 1 1 1 1 1 1 1 d(x, z) = − = − + − ≤ − + − = d(x, y) + d(y, z). x z x y y z x y y z Jetzt zu den Konvergenzuntersuchungen: Im Fall der Folge {an }∞ n=1 erhofft man als Grenzwert 1 und betrachtet 1 1 1 d(an , 1) = n+1 − = . n 1 n + 1 1 = 0 (im üblichen Sinn), also gilt im Sinne der Es ist limn→∞ d(an , 1) = limn→∞ n+1 Definition unserer Metrik limn→∞ an = 1. Auch die Definition der Cauchyfolge läßt sich bei {an }∞ n=1 nachvollziehen: 1 1 |m − n| d(an , am ) = n+1 − m+1 = · · · = . n (m + 1)(n + 1) m Ist dann > 0 vorgegeben, dann kann z.B. N ∈ IN so gewählt werden, daß N > 2 gilt. Sind dann m und n beide ≥ N , so kann der Ausdruck ganz rechts weiter abgeschätzt werden, nämlich 1 1 2 |m − n| ≤ + ≤ < . (m + 1)(n + 1) m n N Somit liegt eine CF vor. 122 Metrische Räume Die Folge {bn }∞ n=1 mit bn = n erweist sich ebenfalls als CF. Wählt man > 0 beliebig 2 und N > , so findet man für alle m, n ≥ N die Abschätzung 1 1 1 1 2 < . + ≤ d(bm , bn ) = − ≤ m n m n N Die Folge konvergiert nicht: Angenommen x ∈ IR+ wäre ein Grenzwert. Dann ist 1 1 1 0 = lim d(bn , x) = lim − = · · · = , n→∞ n→∞ n x x wobei “. . .” entsprechendes Anwenden der Grenzwertregeln im üblichen Sinn konvergenter Folgen bedeutet. Jedenfalls hat 0 = x1 keine Lösung x in IR+ – die Folge konvergiert nicht. 3. Es sei auf den Wörtern der Länge n wie in Beispiel 115 (S.119) 3. die Hammingdistanz gegeben. Wie kann limn→∞ xn = x ausgedrückt werden? Antwort: Die Konvergenz ist genau dann gegeben, wenn ab einem Index N stets x = xn für n ≥ N gilt. Die gleiche Antwort bekommt man in Beispiel 115 (S.119) 4. für die diskrete Metrik. 4. Wie kann man in 5. von Beispiel 115 (S.119) nachweisen, daß limn→∞ (2π − n1 ) = 0. Antwort: d(0, xn ) = min{|xn |, |2π−xn |} = min{2π− n1 , n1 } = n1 . Hieraus folgt limn→∞ d(0, xn ) = 0, was zu zeigen war. Definition 118 (Vollständigkeit) Der Raum X heißt bezüglich der Metrik d vollständig, falls jede Cauchyfolge konvergent ist. Man sagt dann auch, daß (X, d) vollständig ist. Anmerkung 119 Es gelten folgende Fakten in einem metrischen Raum (X, d): 1. Jede konvergente Folge {xn }∞ n=1 ist auch Cauchyfolge. 2. Nicht jede Cauchyfolge muß notwendigerweise konvergieren (vgl. Beispiel 117 (S.120), 2.). Ist (X, d) jedoch vollständig, so konvergiert (auf Grund der Definition der Vollständigkeit) jede Cauchyfolge {xn }∞ n=1 gegen ein x ∈ X. Es soll der Nachweis für 1. erbracht werden: Angenommen, die Folge {xn }∞ n=1 konvergiert. Nun sei > 0 vorgegeben. Um die CF-Eigenschaft zu beweisen, muß ein N ∈ IN mit d(xm , xn ) < für alle m, n ≥ N gefunden werden. Weil limn→∞ d(xn , x) = 0 gibt es N ∈ IN mit d(xn , x) < 2 für alle n ≥ N . Dann ist für alle m, n ≥ N sowohl d(xn , x) < 2 als auch d(xm , x) < 2 , sodaß die Dreiecksungleichung für all diese m, n die geforderte Ungleichung d(xm , xn ) ≤ d(xm , x) + d(x, xn ) < ergibt. Somit ist {xn }∞ n=1 eine Cauchyfolge. + = 2 2 4.1. Metrische Räume 123 ˜ Anmerkung 120 (Vervollständigung) Zu (X, d) kann eine Vervollständigung (X̃, d) konstruiert werden mit folgenden Eigenschaften: 1. X kann als Teilmenge von X̃ betrachtet werden. ˜ y) = d(x, y) (X ist isometrisch in X̃ eingebettet). 2. Wenn x, y ∈ X, so ist d(x, 3. Jede Cauchyfolge in X̃ (und somit jede in X) konvergiert in X̃ bezüglich der Metrik ˜ M.a.W. der Raum (X̃, d) ˜ ist vollständig. d. 4. Zu jedem x̃ ∈ X̃ gibt es eine Cauchyfolge {xn }∞ n=1 mit Werten in X, die im Sinne der Metrik d˜ gegen x̃ konvergiert. (Man sagt auch, die Einbettung von X liegt dicht in X̃). Eine gängige, mengentheoretisch fundierte Konstruktion der Vervollständigung findet man in Unterabschnitt A.3.1 (S.263). Sie beruht im Prinzip darauf, Cauchyfolgen {xn }∞ n=1 und {yn }∞ als äquivalent zu erachten, wenn d(x , y ) nach Null konvergiert (was ja auf die n n n=1 Folgen zutrifft, falls sie gegen den gleichen Grenzwert in X konvergieren). Diese Äquivalenzklassen von Cauchyfolgen sind in ihrer Gesamtheit zwar schwer vorstellbar, am besten, man denkt sich jede Klasse durch eine “Lieblingsfolge”, die zum “ideellen Grenzwert” strebt, repräsentiert. Beispiel 121 Die nächsten Beispiele sollen Intuition wecken. 1. (Vervollständigung eines metrischen Raumes durch Zugabe eines Punktes) 1 1 + In Beispiel 117 (S.120) 2. war X = IR und die Metrik d(x, y) := x − y gegeben. Inspektion des Beispiels läßt erkennen, daß alle Cauchyfolgen in dieser Metrik entweder Cauchyfolge im üblichen Sinn und Grenzwert (auch im üblichen Sinn) ungleich Null, oder (im üblichen Sinn) gegen Unendlich strebende Folgen sind. Es erscheint naheliegend, formal einen Punkt x̃ zu IR+ “am rechten Ende” hinzuzufügen (oft, und wir tun das auch hier, mit der Bezeichnung “∞”) und die Metrik d wie folgt zu einer Metrik d˜ ˜ y) := d(x, y) genommen wird und auszudehnen, indem für x, y ∈ IR+ als Metrik d(x, ˜ ∞) := 1 , d(∞, ˜ d(x, ∞) := 0 x ˜ ganz leicht nach. festgelegt wird. Man prüft die Metrikaxiome für (IR+ ∪ {∞}, d) √ 2. ( 2 als Äquivalenzklasse von Cauchyfolgen – Babylonische Methode) Beim Übergang von den rationalen Zahlen Q zu IR ist es die Cantorsche Methode, welche in verallgemeinerter Form die Konstruktion in Unterabschnitt A.3.1 (S.263) ist. √ √ Wenn z.B. jemand das Symbol 2 hinschreibt und danach etwa 2 = 1.414213562, denkt man eher an eine Folge von rationalen Zahlen (1.0, 1.4, 1.41, 1.4142, 1.41421, 1.414213, 1.4142135, 1.41421356, 1.414213562, . . .), 124 Metrische Räume die bei erschöpftem Bedarf an Genauigkeit abgebrochen wird. Jemand kann aber auch, die Babylonische Methode benützend, eine Folge rationaler 1 Zahlen durch x0 := 1, xn := 21 xn−1 + xn−1 für n ∈ IN festlegen, die bekanntermaßen √ gegen 2 konvergiert;√man findet derart eine neue, wesentlich rascher zum gleichen “ideellen” Grenzwert 2 konvergente Folge 3 577 17 = 1.5, ≈ 1.4166667, ≈ 1.414215686, . . .) 2 12 408 √ √ Es ist diese Idee, die Zahl 2 als√Gesamtheit aller nach 2 konvergenten Folgen rationaler Zahlen anzusehen, welche 2 zum Körper der rationalen Zahlen “hinzufügt”. (1, 3. (Raum stetiger Funktionen – nicht vollständig in der L1 -Metrik) Es geht darum, daß Integralnormen Räume stetiger Funktionen im Allgemeinen nicht vollständig machen. Auf X := C[−1, 1],R dem auf dem Intervall [−1, 1] stetigen Funktionen, soll eine Metrik 1 durch d(f, g) := −1 |f (x) − g(x)| dx definiert werden. Wir werden in Beispiel 161 (S.171) 4. zeigen, daß tatsächlich eine Metrik auf X vorliegt. Geometrisch ist klar, was die Metrik “mißt”: die “absolute” Fläche, die vom Graphen von f , jenem von g und den in −1 und 1 errichteten Ordinaten liegt. Nun soll der Graph der Funktion fn durch den Streckenzug, der die Punkte (−1, −1), (− n1 , −1), ( n1 , 1) und (1, 1) verbindet, gegeben sein (der ausgezogene Streckenzug). Die Deutung der Metrik im Auge behaltend ergibt sich für m, n ∈ IN der Wert von d(fn , fm ) als zweimal der Flächeninhalt des schmalen Dreiecks in der oberen Halbebene das von 2 strichlierten und einer ausgezogenen Linie berandet wird. Dessen Höhe ist 1 und die 1 1 Basis hat Länge n1 − m . Somit ist d(fn , fm ) = n1 − m und man erkennt, daß die ∞ Folge {fn }n=1 bezüglich dieser Metrik eine Cauchyfolge ist. _ _ _ 1 − n1 − m 1 1 m n _ _ _ −1 1 Daß die Folge in X = C[−1, 1] nicht konvergiert, erahnt man aus der Skizze, weil die Flanken des mittleren Teiles immer steiler werden, und die Grenzfunktion dadurch kaum stetig werden kann (am Nullpunkt “auseinandergerissen”). Wir wollen den Nachweis führen, er ist typisch im Umgang mit Metriken auf Funktionenräumen. Angenommen, es gibt eine stetige Funktion f ∈ C[−1, 1], gegen welche die Folge konvergiert. Es sei 1 > a > 0. Ist dann n > a1 , so ist fn (x) = sign (x) für |x| ≥ a. Deshalb 4.1. Metrische Räume muß Z 1 125 Z |f (x) − sign (x)| dx = d(fn , f ) |f (x) − fn (x)| dx ≥ −1 |x|≥|a| für alle diese n gelten. Weil nun für n → ∞ der Wert links gegen Null konvergiert, ergibt sich wegen der Stetigkeit von f die Bedingung f (x) = sign (x) für alle x mit a < |x| ≤ 1. Dies gilt bei beliebigem positiven a, sodaß f (x) = sign (x) für alle x 6= 0 folgt. Solches f kann an 0 nicht stetig sein. Also konvergiert die Cauchyfolge {fn }∞ n=1 nicht, sodaß X := C[−1, 1] nicht vollständig ist. Probleme beim Vervollständigen dieses Raumes: (a) Für die eine vorliegende CF könnte man einige neue Funktionen “hinzufügen”, indem man an Null den Funktionswert beliebig festlegt. Dann hätte man einen Funktionenraum, bei dem man an z.B. endlich vielen Stellen Werte abändern darf. Dann muß man aber Funktionen als äquivalent ansehen, wenn sie bis auf endlich viele Stellen gleich sind. (b) Hat man eine passende Klasse gefunden, so müßte danach der Integralbegriff neu formuliert werden (dies wird durch das Lebesgueintegral geleistet), weil man ja die Metrik definiert wissen will. Es erscheint zweckmäßig, jedes Element der Vervollständigung durch eine Folge von Approximationen als bestimmt zu sehen – dies ist auch der Gesichtswinkel der abstrakten Konstruktion in Unterabschnitt A.3.1 (S.263). Es ist auch der Gesichtswinkel, der bei numerischen Methoden vorliegt. Eine Beschreibung der zu approximierenden Elemente gelingt etwa dann, wenn der zu vervollständigende metrische Raum in isometrischer Weise als Teilmenge eines vollständigen Raumes aufgefaßt werden kann. In Anmerkung 173 (S.186) wird z.B. ein nicht vollständiger Funktionenraum in den Dualraum eines (durchaus nicht vollständigen) Funktionenraumes isometrisch eingebettet – und weil man, wie dort gezeigt wird, weiß, daß der Dualraum stets vollständig ist, ist der Abschluß des eingebetteten Raumes auch gleich die Vervollständigung. 4.1.3 Fixpunktsatz von Banach und Anwendungen Die Idee der Fixpunktsuche besteht im Lösen von x = f (x) (x ist Fixpunkt), indem man einen Startwert x0 festlegt, und dann iterativ x1 = f (x0 ), x2 = f (x1 ), · · · bildet. So hofft man, Approximationen von x zu bekommen. Sehr viele Gleichungssysteme lassen sich in eine Fixpunktaufgabe umwandeln. Z.B. ist x2 +x−3 = 0 in die Gleichung x = 3−x2 umwandelbar. Wir werden den Banachschen Fixpunktsatz vorführen, seine Anwendungen umfassen • Nullstellensuche im IRn . • Newtonmethode. • Relaxationsmethoden, numerische lineare Algebra. 126 Metrische Räume • Beweistechnik beim Hauptsatz der impliziten Funktionen. • Existenz- und Eindeutigkeitsatz bei Systemen gewöhnlicher Differentialgleichungen und Verfahren von Picard-Lindelöf. Auf all dies soll im vorliegenden Unterabschnitt eingegangen werden. Anmerkung 122 (Banachscher Fixpunktsatz) Es sei (X, d) ein vollständiger metrischer Raum und f : X → X eine kontrahierende Abbildung, d.h., es existiert ein λ < 1 mit d(f (x), f (y)) ≤ λd(x, y) für alle x, y ∈ X (hieraus folgt, daß λ ≥ 0 ist). Dann gilt: 1. f ist stetig. 2. Es existiert genau ein p ∈ X mit p = f (p), ein Fixpunkt von f . 3. Ist x0 ∈ X beliebig, so wird durch die Rekursion xn := f (xn−1 ), wobei n ∈ IN läuft, eine gegen p konvergente Folge definiert. 4. Der Fehler der Approximation kann wie folgt abgeschätzt werden: d(p, xn ) ≤ d(x0 , x1 )λn . 1−λ Der Nachweis folgt in Beispiel 241 (S.265). Beispiel 123 Einige Beispiele. 1. (Lineare Funktion im IR1 ) Das einfachste Beispiel ist von der Bauart f (x) = ax + b und die Fixpunktaufgabe x = ax + b. Welche Lösungen hat die Fixpunktaufgabe? b Antwort: Offenkundig ist x = 1−a für a 6= 1 eindeutig bestimmte Lösung der Aufgabe, während für a = 1 nur für b = 0 Lösungen (alle x ∈ IR) existieren, weil ja f dann die Identität ist. Man berechne 3 Werte der Iteration für f (x) = 14 x − 15 2 und Startwert x0 := 20, bzw. für f (x) := 3x + 60 und Startwert x0 := −25? Konvergiert die Folge der Werte gegen den Fixpunkt x∗ ? Antwort(findung): In der Skizze sieht man links die Situation (a, b) = ( 14 , − 15 2 ) und rechts (a, b) = (3, 60). Jeweils vom Startwert x0 ausgehend findet für den Fixpunkt x∗ (in der Skizze mit einem Stern auf der Abszisse symbolisiert) und die ersten paar Werte der “Näherungen”: x∗ x0 x1 x2 x3 x4 −10 20 −2.5 −8.125 −9.53125 −9.8828125 −30 −25 −15 15 105 375 4.1. Metrische Räume 127 y=x O O x0 x1 x2 • ∗ • • y = 3x + 60 y=x O (x , x1 ) g0 ggggg • g g ∗• g g ggg ggggg ggggg ggggg(x y = x4 − 15 1 , x2 ) gg 2 • / / (Iterationsschritt) Die Skizze veranschaulicht die Iteration. Man geht von einem Wert x der Abszisse aus, schneidet die dort errichtete (punktiert gezeichnete) Ordinate mit dem Graphen von f , um den Schnittpunkt (x, f (x)) zu erhalten, legt durch diesen Schnittpunkt eine achsenparallele Gerade, die man mit der Mediane y = x schneidet, um den Punkt (f (x), f (x)) zu erhalten, den man auf die Abszisse projiziert, um somit den Iterationsschritt geometrisch nachvollzogen zu haben. Für welche Werte (a, b) liegt eine Kontraktion vor? Welches der beiden Beispiele ist Kontraktion? Antwort: Es ist f (x) − f (x0 ) = a(x − x0 ), sodaß genau dann eine Kontraktion vorliegt, wenn |a| < 1 ist. Somit ist f (x) = 14 x − 15 2 kontrahierend, nicht jedoch f (x) = 3x + 60. (Deckt sich mit dem Verhalten der “Approximationen” von x∗ .) Wie kann der FPS in den Beispielen angewendet werden? Antwort: Für a = 1 4 kann X := IR und λ := 1 4 gewählt werden. 1 4, Man erkennt im linken Bild für a = wie die Iteration zum Fixpunkt konvergiert (Treppenzug von links nach rechts verfolgen und die fetten Punkte als gegen den Stern konvergente Folge erkennen). Für a := 3 kann der Fixpunktsatz nicht verwendet werden, weil f nicht kontrahiert. Man sieht das auch: im rechten Bild “läuft die Iteration davon”. (Ein guter Trick ist es, die Rolle von x und y zu vertauschen.) Wie lauten im linearen Fall die Formeln für xn ? Wie kann man aus ihnen direkt die Konvergenz der Iteration bei beliebigem Startwert x0 entscheiden? Antwort: xn = an x0 + (1 + a + · · · + an−1 )b, und wenn a 6= 1 ist, gilt xn = an x0 + 1 − an b. 1−a woraus die Kontraktionsbedingung sich als zur Konvergenz der Folge {xn }∞ n=1 äquivalente Bedingung erweist, außer wenn b = 0 und a = 1 ist. 128 Metrische Räume 2. (Fixpunktsatz und babylonische Methode des Wurzelziehens) Welche Konvergenzaussage kann mittels des Fixpunktsatzes für √ die in Beispiel 121 (S.123) 2. zitierte babylonische Methode,Approximationen von 2 durch Vorgabe eines Startwertes x0 1 2 und Iteration xn := 2 xn−1 + xn−1 zu gewinnen, getroffen werden? Antwortfindung: Es ist nicht schwer, auf f (x) = 21 x + x2 zu kommen. Für den zu definierenden Raum X ⊆ IR √ müssen die entsprechenden Bedingungen erfüllt sein. Im vorliegenden Fall kann nur 2 Fixpunkt sein, falls die Folge {xn }∞ n=1 konvergiert. Deshalb erscheint es sinnvoll X als Teilmenge von R+ zu wählen, sodaß f auf ganz X definiert ist. Um λ zu erahnen, kann man f (x) − f (y) x−y betrachten, was geometrisch der Steigung einer Sehne des Graphen von f bedeutet. Ihr Anstieg läßt sich durch |f 0 (x)| für x ∈ X abschätzen. Nimmt man nun an, daß in ganz X die Abschätzung |f 0 (x)| ≤ λ gilt, so folgt aus dem MWS der DR f (x) − f (y) = f 0 (ξ)(x − y) mit einem ξ ∈ (x, y), somit |f (x) − f (y)| ≤ λ|x − y|, d.i. eine Abschätzung, wie sie im FPS bezüglich der Abstandsmetrik benötigt wird. Dies vor Augen bestimmt man f 0 (x) = · · · = 1 1 − 2. 2 x Man möchte nun ein λ < 1 garantieren, daß für alle x im (noch nicht bestimmten) X die Abschätzung 1 1 −λ ≤ − 2 ≤ λ 2 x gilt. Versuchen wir λ := 21 , dann ist der rechte Teil der Ungl. schon erfüllt und es verbleibt, in äquivalenter Form x2 ≥ 1, also x ≥ 1. Das “Gefühl stimmt noch”, weil ja √ 2 diese Ungleichung erfüllt. Die zweite Forderung steckt “heimlich” in f : X → X, d.h. aus x ∈ X muß auch f (x) ∈ X ableitbar sein, sodaß sich die folgende Frage ergibt: Folgt aus x ≥ 1 stets f (x) = 12 x + x2 ≥ 1? Die Antwort hierauf sind (im vorliegenden Fall) Äquivalenzumformungen: f (x) ≥ 1 ⇔ x2 − 2x + 2 ≥ 0 ⇔ (x − 1)2 + 1 ≥ 0, somit erfüllt das Intervall X := [1, ∞) die Voraussetzungen des Fixpunktsatzes für λ := 12 . 4.1. Metrische Räume 129 Antwort: Für jedes x0 ∈ [1, ∞) konvergiert die Folge xn := 1 2 xn−1 + 2 xn−1 gegen √ 2. Wendet man von x0 := 1 ausgehend, 3 Schritte an, d.h. ermittelt man x3 , welche Genauigkeit gibt der FPS an und welche Genauigkeit wurde in Beispiel 121 (S.123) 2. gefunden? √ Antwort: Es ist | 2 − x3 | ≤ 3 |1− 23 |( 12 ) 1− 21 = 1 8 = .125, also (so die Aussage des FPS), darf man nicht einmal der ersten Nachkommastelle trauen (es könnte sogar die führende 1 falsch sein), die Genauigkeit im angegebenen Beispiel sind jedoch jedenfalls 6 gesicherte Stellen. Kommentar: Die gelegentliche “Genauigkeitsunterschätzung” des FPS ist bekannt, besser ist jene, die man mittels Newtonalgorithmus bekommt, vgl. Beispiel 124 (S.129) und dort den entsprechenden kurzen Abschnitt hiezu. Beispiel 124 Hier ist eine Auswahl “prominenter” Anwendungen des Fixpunktsatzes von Banach (Anmerkung 122 (S.126)), wobei der vorgesetzte Stern ‘*’ andeutet, daß benötigte Begriffe später kommen. Formulierung des FPS für stetig differenzierbares f im IRn : Ist D ⊆ IRn konvex und abgeschlossen, sowie f : D → D auf einer D umfassenden offenen Teilmenge U von IRn stetig differenzierbar und gilt λ := supx∈D kf 0 (x)k < 1, so erfüllt f die Voraussetzungen des Fixpunktsatzes für X := D und das angegebene λ. * Hierin ist kf 0 (x)k eine (Operator)norm der Funktionalmatrix (für eine Matrix A ist kAk := max{~x|k~xk=1} kA~xk, siehe Anmerkung 167 (S.181)), die sich für n = 1 als Betrag der zu einer Zahl degenerierten Matrix A entpuppt. Im Beispiel f (x) = 12 (x + x2 ) wurde der Fixpunktsatz mittels x = f (x) zur Nullstellenbestimmung von x2 − 2 = 0 in Beispiel 123 (S.126) 2. herangezogen. Für D := [1, ∞) haben wir λ := supx∈D |f 0 (x)| = supx∈D | 21 − x12 | = 12 . Die stetige Differenzierbarkeit ist auf U := IR+ erfüllt und U ⊃ D. Es verbleibt der Nachweis f (D) ⊆ D, der in Fixpunktanwendungen meist Geschick erfordert, und für den auf Beispiel 123 (S.126) 2. zurückverwiesen werde. Nullstellenverfahren, Relaxationsmethoden: Um Nullstellen von g : X → X mit X ⊆ IRn zu bestimmen, wird die Aufgabe g(x) = 0 sehr oft mittels Relaxation in x = x + H(g(x)) umformuliert. Nun erhofft man, daß f (x) := x + H(g(x)) die Voraussetzungen des Fixpunktsatzes erfüllt. Schnell erklärt ist das am Beispiel der Fixpunktsuche von x = 3x + 60 aus Beispiel 123 (S.126) 1. Offenbar kann die Aufgabe als Nullstellensuche von g(x) := 2x + 60 = 0 angesehen werden. Danach auch als Fixpunktaufgabe x = x − 31 (2x + 60). Somit ist H(x) = 31 x und f (x) = 13 x − 20. Mit D := IR1 und wegen λ := supx∈IR |f 0 (x)| = 13 < 1 ist der FPS von Banach jetzt anwendbar. Bezug zum Newtonverfahren: Hierbei ist f : U → U ⊆ IRn , eine (meist) zweimal stetig partiell differenzierbare Funktion und von einem Punkt x0 ∈ U ausgehend, möchte man, 130 Metrische Räume die Taylorentwicklung 0 ≈ f (xn ) ≈ f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ), benützend, die rechte Seite zur Gleichung umformulieren, sodaß xn = xn−1 − f 0 (xn−1 )−1 f (xn−1 ) entsteht. Für n = 1 entsteht die gewohnte Formel xn = xn−1 − f (xn−1 ) . f 0 (xn−1 ) Es liegt daher nahe, die Abbildung F (x) := x − f 0 (x)−1 f (x) ins Auge zu fassen und von ihr (nebst der Invertierbarkeit von f 0 (x) jene Bedingungen aufzuerlegen, daß der FPS anwendbar wird. Die übliche rasche Konvergenz des Verfahrens kann z.B. durch folgende Bedingungen, die ich hier lediglich für n = 1 (siehe jedoch z.B. Seite 104 in [21]) formuliere: Es sei I ein offenes Intervall im R1 , und f , dessen Nullstelle x∗ , d.i. Lösung von f (x∗ ) = 0 gesucht werde, erfülle für alle x ∈ I folgende Bedingungen: • |f 00 (x)| ≤ γ. • Es existiert β > 0 mit |f 0 (x)| ≥ β1 . 0) 1 • Es sei α := ff0(x (x0 ) und q := αβγ < 2 . • [x0 − 2α, x0 + 2α] ⊆ I. Dann hat f in I genau eine Nullstelle x∗ , die durch das Newtonverfahren approximiert wird. Die Fehlerrate kann durch n −1 |xn − x∗ | ≤ 2αq 2 abgeschätzt werden (quadratische Konvergenz). Im Beweis spielt eine “tüftelige” Anwendung des Fixpunktsatzes die wesentliche Rolle. √ Als Beispiel diene f (x) = x2 − 2 mit Nullstelle x∗ = 2, und es soll mit Beispiel 123 (S.126) 2. verglichen werden. Wir versuchen es mit I := (1, ∞) Die Newtoniteration ergibt sich zu f (xn−1 ) 1 2 = xn−1 + , xn = xn−1 − 0 f (xn−1 ) 2 xn−1 d.i. genau die Formel aus dem zitierten Beispiel. Zunächst ist f 00 (x) = 2 ist, also γ = 2 und sicherlich ist |f 0 (x)| = 2|x| ≥ 2 in I, sodaß β = 21 . Versuchen es mit x0 := 23 (ist hoffentlich “nahe genug an der Lösung”). Es ergibt sich 1 2 3 2 1 1 1 α = 12 und somit [ 23 − 12 , 2 + 12 ] ⊆ (1, ∞). Danach ist q = 12 2 · 2 = 12 < 1. Somit sollte der Newtonalgorithmus mit dem Startwert x0 := 32 konvergieren. 4.1. Metrische Räume 131 Um mit die Fehlerabschätzung mit jener vom zitierten Beispiel zu vergleichen, nehmen wir hier x2 = 1.41421568 (welches mit dem x3 aus dem zitierten Beispiel übereinstimmt) und man hat 22 −1 √ 5 5 |x2 − 2| ≤ 2 ≈ 0.008930612711, 12 18 m.a.W. zumindest die ersten 2 Nachkommastellen sind gesichert. Tatsächlich sind es die unterstrichenen, jedenfalls ist die hier abgegebene Schätzung berechtigt optimistischer als jene im zitierten Beispiel. Hauptsatz der impliziten Funktionen: Hier wird der FPS als Beweisdetail benützt. Ist F : U (x0 , y0 ) ⊆ IRn × IRm → IRm mit U (x0 , y0 ) offen und F stetig differenzierbar, sowie F (x0 , y0 ) = 0 und Fy (x0 , y0 ) invertierbar, so gibt es eine Umgebung von W (x0 ) und eine eindeutige Lösungsfunktion h : W (x0 ) → IRm von F (x, y) = 0, d.h. es ist F (x, h(x)) = 0 für alle x ∈ W (x0 ). Das entscheidende Beweisdetail benützt die Formulierung y = y − Fy (x, y)−1 F (x, y), um geeignet die Funktion f mit f (h)(x) := h(x) − Fy (x, h(x))−1 F (x, h(x)) auf einem geeigneten metrischen Raum von Kandidaten h zu definieren. Danach wird mittels f gezeigt, daß Iteration auf die Lösungsfunktion h führt und somit deren Existenz gesichert. Siehe z.B. in [36] Seite 150. * Operatorgleichung x + Ax = y : Es sei (V, k · k) ein Banachraum und A : V → V ein linearer Operator mit kAk := sup{v∈V |kvk=1} kAvk < 1 (vgl. Anmerkung 167 (S.181)), so kann (I + A)x = y durch die sogenannte Neumannreihe (im wesentlichen geometrische Reihe) ∞ X x=( Aj )y j=0 eindeutig gelöst werden. Der Fixpunktsatz liefert einen Beweis für Existenz und Eindeutigkeit der Lösung und auch für die Konvergenz der Neumannreihe, indem man sie als Ergebnis der folgenden Iteration formuliert: xn = Axn−1 + y Die gleiche Art der Rechnung wie in Beispiel 123 (S.126) 1. ergibt xn = An x0 + (I + A + · · · + An−1 )y, und ist kAk < 1, so ist für f (x) := Ax + y die Abschätzung kf (x) − f (x0 )k = kAx − Ax0 k ≤ kAkkx − x0 k 132 Metrische Räume gültig, sodaß für X := V und λ := kAk der FPS anwendbar ist. Gewisse Erneuerungs- und Volterra-Integralgleichungen können solcherart behandelt werden. Sie treten z.B. bei Markovprozessen auf. Nachiteration linearer Gleichungssysteme: Der Bezug zum FPS möge am oft verwendeten Gauß-Seidelverfahren angedeutet werden. (Das Jacobiverfahren ist ähnlich gebaut). Um das lineare Gleichungssystem y = Ax für A eine n×n (reelle oder komplexe) Matrix nach x aufzulösen, geht man (schematisch) wie folgt vor: • Die Matrix A wird in der Form A = AL + D + AR zerlegt, wobei D der Diagonalanteil und AL , bzw. AR untere bzw. obere Dreiecksmatrix sind. • Die Gleichung wird in äquivalenter Form als x = −(D + AL )−1 AR x + (D + AL )−1 y angeschrieben, wobei man lediglich die Invertierbarkeit von D voraussetzen muß. • Als Rekursion findet man bei vorliegendem Startwert x0 für n ∈ IN (D + AL )xn = −AR xn−1 + y, ein System, welches leicht zu lösen ist, weil links eine untere Dreiecksmatrix steht. Z.B. für das System x̃ x 2 −1 0 −1 2 −1 y = ỹ , z̃ z 0 −1 2 das bei Diskretisierung der 2.ten Ableitung einer Funktion in einer Variablen entsteht, findet man solcherart xn−1 x̃ xn 0 1 0 2 0 0 −1 2 0 yn = 0 0 1 yn−1 + ỹ , z̃ 0 0 0 zn−1 0 −1 2 zn und man sieht, daß solche Systeme durch “Vorwärtseinsetzen” schnell lösbar sind. Unter sehr technischen Bedingungen (etwa den Sassenbergbedingungen, die im Bspl. erfüllt sind) kann man zeigen, daß der FPS anwendbar wird. Nachiteration wird gelegentlich in der Form xn = xn−1 + ωD−1 (y − Axn−1 ) ausgehend von einem auf anderem Wege gefundenen, “nahe” der gesuchten Lösung liegenden Startwert x0 angewendet, wobei der Relaxationsparameter ω geeignet zu wählen ist. Genaueres siehe z.B. in [21], ab Seite 60. 4.1. Metrische Räume 133 * Picard-Lindelöf: Existenz und Eindeutigkeit von Anfangswertproblemen (AWP): Ist [0, a] mit a > 0 ein Intervall, und U offene Teilmenge von IRn , sowie f : I × U → U stetig mit kf (s, x) − f (s, y)k ≤ C|x − y| für alle s ∈ I und x, y ∈ U , so führt das Anfangswertproblem ẋ = f (t, x), x(0) = x0 auf die Integraldarstellung t Z x(t) = x0 + f (s, x(s)) ds. 0 Die Grundidee der Picarditeration besteht, von der Kurve x0 (t) = x0 , die im Raum C(I, U ) der stetigen Funktionen von I nach U liegt, ausgehend, die Iteration Z xn (t) := x0 + t f (s, xn−1 (s)) ds 0 zu untersuchen. Dies führt dazu, den Banachraum X := (C(I, U ), k · k) mit kxk := supt∈I |x(t)|, wobei der Betrag für die euklidische Länge von x(t) steht, einzuführen und dort F : X → X als Z t F (x)(t) := x0 + f (s, x(s)) ds 0 zu definieren. Danach ergibt sich im IRn die Abschätzung Z t Z t |F (x)(t)−F (y)(t)| = | (f (s, x(s)−f (s, y(s))) ds| ≤ | C|x(s)−y(s)| ds| ≤ aCkx−yk, 0 0 sodaß für λ := aC < 1 der FPS die Konvergenz zu einem eindeutigen Fixpunkt, der somit eindeutig bestimmten Lösung des AWPs ergibt. Die Punkte des Raumes X sind Funktionen, die auf I definiert, stetig sind und Werte in R t U annehmen, und das f aus dem FPS die Integraltransformation x 7→ (t 7→ x0 + 0 f (s, xn−1 (s)) ds) von X = C(I, U ) in sich selbst. 4.1.4 Offene, abgeschlossene, beschränkte, dichte und kompakte Teilmengen eines metrischen Raumes Definition 125 Eine Teilmenge A eines metrischen Raumes (X, d) ist Offene Kugel K(x0 , r): falls sie von der Gestalt A = K(x0 , r) := {x ∈ X | d(x, x0 ) < r} ist. Es ist r der Radius und x0 der Mittelpunkt. Insbesondere (für r ≤ 0) erweist sich die leere Menge als offene Kugel. offen: Wenn A leer ist, oder wenn zu jedem Punkt a ∈ A ein r > 0 existiert, sodaß die offene Kugel K(a, r) ganz in A liegt. 134 Metrische Räume beschränkt: wenn es eine offene Kugel K(x0 , r) mit A ⊆ K(x0 , r) gibt, d.h., wenn es r ∈ IR und x0 ∈ X gibt, sodaß für alle a ∈ A stets d(x0 , a) < r gilt. abgeschlossen (in X): Wenn für jede gegen einen Punkt x ∈ X konvergente Folge {an }∞ n=1 , deren sämtliche Folgenglieder an in A liegen, ihr Grenzwert x = limn→∞ an zu A gehört. folgenkompakt: wenn A abgeschlossen ist und jede Folge {an }∞ n=1 von Punkten an ∈ A eine konvergente Teilfolge besitzt. dicht: Wenn für jedes x ∈ X jedes positive r die offene Kugel K(x, r) mindestens einen Punkt von A enthält. Dies bedeutet, daß man jedes x in X beliebig genau durch Elemente in A approximieren kann. Beispiel 126 Einfache Beispiele: 1. In IR mit d(x, y) := |x − y| ist jede “offene Kugel” ein Intervall der Form (x0 − r, x0 + r). Jedes Intervall der Form [a, b] ist abgeschlossen. p In IR2 mit d((x, y), (u, v)) := (x − u)2 + (y − v)2 ergeben sich “randlose Kreisscheiben” mit Radius r um den Mittelpunkt (x0 , y0 ) als “offene Kugeln”. Ab n ≥ 3 ergeben sich in der entsprechenden Metrik (Hyper)kugeln. 2. Ist die Metrik diskret, d.h. d(x, y) = 1, genau dann, wenn x 6= y und d(x, x) := 0, so ist K(x0 , r) = {x0 }, wenn r < 1 und X sonst. 3. Die rationalen Zahlen sind dicht in IR, weil in jedem noch so kleinen Intervall K(x, r) = (x − r, x + r) um eine beliebige reelle Zahl x auch rationale Zahlen liegen. 4. Wichtig ist die dichte Einbettung eines metrischen Raumes in seine Vervollständigung (siehe Anmerkung 120 (S.123)). Anmerkung 127 Die folgenden Aussagen sind Konsequenzen der Definitionen: 1. Jede offene Kugel ist offen. 2. Eine Menge ist genau dann offen, wenn sie Vereinigung offener Kugeln ist. 3. Die Vereinigung beliebig vieler und der Durchschnitt endlich vieler offener Mengen ist offen. 4. Der Durchschnitt beliebig vieler und die Vereinigung endlich vieler abgeschlossener Mengen ist abgeschlossen. 5. Das Komplement einer offenen (abgeschlossenen) Menge ist abgeschlossen (offen). 4.1. Metrische Räume 135 6. Jede kompakte Menge ist beschränkt und abgeschlossen (aber im allgemeinen nicht umgekehrt). Schließlich sei noch der Satz von Heine-Borel vermerkt (M2 ET): Eine Teilmenge von (IRn , d) bzw. (Cn , d) mit d die euklidische Metrik ist genau dann kompakt, wenn sie beschränkt und abgeschlossen ist. Nachweise dieser Aussagen findet man in Beispiel 242 (S.266). Definition 128 (Stetigkeit) Eine Abbildung f : (X, d) → (Y, δ) ist (folgen)stetig an x0 ∈ X, falls für jede gegen x0 konvergente Folge {xn }∞ n=1 die Gleichung f (x0 ) = f ( lim xn ) = lim f (xn ) n→∞ n→∞ stetige Funktion gilt. Anmerkung 129 Die folgenden Aussagen für eine Abbildung f : (X, d) → (Y, δ) sind Konsequenzen der Definitionen: 1. f ist genau dann stetig, wenn das Urbild jeder offenen (abgeschlossenen) Menge offen (abgeschlossen) ist. 2. Ist f stetig, so ist der Graph {(x, f (x)) | x ∈ X} eine abgeschlossene Teilmenge von X × Y , wobei als Metrik in X × Y die Funktion d((x, y), (x0 , y 0 )) := d(x, x0 ) + d(y, y 0 ) dient. 3. Ist f stetig, so ist das Bild einer kompakten Menge stets kompakt. 4. (Weierstraß) Ist X kompakt und f : (X, d) → (IR, | · |) stetig, so gibt es ein x∗ ∈ X mit supx∈X f (x) = f (x∗ ). Ist insbesondere {xn }∞ n=1 eine gegen ein x0 ∈ X konvergente Folge in X mit lim f (xn ) = sup f (x), n→∞ x∈X so ist supx∈X f (x) = f (x0 ). 5. (Stetige Fortsetzung einer auf dichter Teilmenge gleichmäßig stetigen Funktion). Ist Y vollständig, D dicht in X, so läßt sich jede auf D gleichmäßig stetige Funktion zu einer auf ganz X gleichmäßig stetigen Funktion erweitern. 136 Metrische Räume Beispiel 130 Einige einfache Beispiele sollen konkreten Nutzen andeuten: 1. Warum ist {(x, y) ∈ IR2 | x2 + y 2 = 1} abgeschlossen? Antwort: Die Abbildung f : IR2 → IR, gegeben durch f (x, y) := x2 + y 2 − 1, ist stetig (sogar differenzierbar). Da {0} eine abgeschlossene Teilmenge von IR ist, ergibt das Stetigkeitskriterium die Abgeschlossenheit von f −1 ({0}) = {(x, y) | f (x, y) = 0} = {(x, y) | x2 + y 2 = 1}. Warum ist die Menge {(x, y) | 1 < x2 + y 2 < 4} offen? Antwort: Die Abbildung f : IR2 → IR, gegeben durch f (x, y) = x2 + y 2 , ist stetig. Weiter ist die Menge (1, 4) ein offenes Intervall in IR und somit f −1 ((1, 4)) = {(x, y) | f (x, y) ∈ (1, 4)} = {(x, y) | 1 < f (x, y) < 4} = {(x, y) | 1 < x2 +y 2 < 4} offen. 2. Man zeige, daß es (x∗ , y ∗ ) mit sup{(x,y)|x2 +y2 =1} xy = x∗ y ∗ und (x∗ )2 + (y ∗ )2 = 1 gibt. Wie kann (x∗ , y ∗ ) gefunden werden? Antwort. Der Kreis S := {(x, y) | x2 + y 2 = 1} ist kompakt, weil abgeschlossen und beschränkt. Die Funktion f , definiert durch f (x, y) := xy nimmt wegen des Satzes von Weierstraß auf S ihr Supremum an und daher gibt es (x∗ , y ∗ ) mit den geforderten Eigenschaften. Um (x∗ , y ∗ ) zu finden, eignet sich die Methode der Lagrangeschen Multiplikatoren, d.h. man bildet Φ(x, y, λ) := xy + λ(x2 + y 2 − 1), differenziert nach x, y, setzt Null und findet y + 2λx = x + 2λy = x2 + y 2 − 1 = 0, also (nach elementarer Rechnung) x = ±y. Als Supremum findet man schließlich den Wert 21 , der an der Stelle (x∗ , y ∗ ) = ( √12 , √12 ) angenommen wird. 3. (Bestapproximation) Es sei K eine kompakte Teilmenge von (X, d) und x ∈ X, gibt es ein k ∈ K, welches von x minimalen Abstand hat? Ist die Aufgabe eindeutig lösbar? Antwort: Es sei f : K → IR durch f (k) := d(k, x) definiert. Da f stetig auf der kompakten Menge ist, nimmt sie dort wegen des Satzes von Weierstraß ihr Minimum an. Die Lösung muß nicht eindeutig sein, es genügt hiezu für K := {(x, y) | x2 + y 2 = 1}, d.i. die Einheitskreislinie in der Ebene (beschränkt+abgeschlossen, also kompakt) und den Mittelpunkt, sowie die euklidische Metrik zu nehmen. Beispiel 131 Nachweis der Behauptungen in Anmerkung 129 (S.135). Zunächst die Charakterisierungen der Stetigkeit: 1. Es sei f folgenstetig und V offen in Y . Es soll gezeigt werden, daß f −1 (V ) offen ist. Sei x ∈ f −1 (V ) und y := f (x). Nun sei Un := K(x, n1 ). Die Idee des BW besteht darin, 4.1. Metrische Räume 137 ein N zu finden, für das UN in f −1 (V ) enthalten ist. Wir zeigen das indirekt: falls jede Kugel Un ein Element xn mit f (xn ) 6∈ V enthält, so ergibt sich aus d(x, xn ) < n1 , daß limn→∞ xn = x ist. Dann ist limn→∞ f (xn ) = f (x) ∈ V 0 , da ja das Komplement V 0 von V abgeschlossen ist, ein Widerspruch, weil ja f (x) ∈ V ist. Es sei nun das Urbild f −1 (V ) jeder offenen Menge offen in X. Nun sei B beliebige abgeschlossene Teilmenge von Y . Dann ist f −1 (B 0 ) offen in X und weil f −1 (B 0 ) = (f −1 (B))0 (wie man aus den Definitionen der entsprechenden Komplementbildungen in Y bzw. X sofort entnimmt), ist f −1 (B) somit abgeschlossen. Schließlich sei das Urbild f −1 (B) jeder abgeschlossenen Teilmenge von Y abgeschlossen in X. Nun sei {xn }∞ n=1 eine gegen x ∈ X konvergente Folge. Wir wollen limn→∞ f (xn ) = f (x) zeigen. Es sei B := {f (xn ) | n ∈ IN } der Abschluß der Bildmenge der Folge ∞ {xn }∞ n=1 . Das Urbild von B ist abgeschlossen, und die Folge {xn }n=1 ist in diesem Urbild enthalten. Daher liegt x in diesem Urbild. Deshalb muß es eine Teilfolge der Folge {xn }∞ n=1 geben, deren Bilder gegen f (x) konvergiert. Da unsere gegen x konvergente Folge beliebig gewählt war, und sie stets eine eine Teilfolge enthält, deren Bilder gegen f (x) konvergieren, ist limn→∞ f (xn ) = f (x). 2. Es sei f stetig. Nun sei {(xn , yn )}∞ n=1 eine konvergente Folge von Punkten im Graphen G(f ), d.h. yn = f (xn ). Wegen der Stetigkeit hat man lim d(xn , x) = lim d(f (xn ), f (x)) = 0, n→∞ n→∞ sodaß in der Produktmetrik lim (d(xn , x) + d(f (xn ), f (x))) = 0 n→∞ folgt. Deshalb ist limn→∞ (xn , yn ) = (x, f (x)) ∈ G(f ), sodaß der Graph von f eine abgeschlossene Teilmenge von X × Y ist. 3. Es sei K kompakte Teilmenge von X und f stetig. Dann ist zu zeigen, daß jede Folge {f (kn )}∞ n=1 mit kn ∈ K eine konvergente Teilfolge besitzt, und weiter, daß jede konvergente Folge von Elementen in f (K) gegen ein Element in f (K) konvergiert. Da K kompakt ist, gibt es eine konvergente Teilfolge und wegen der Stetigkeit von f konvergiert die Folge der Bilder. Sei nun {f (kn )}∞ n=1 eine gegen y ∈ Y konvergente Folge. Wir wollen zeigen y ∈ f (K). Da K kompakt ist, gibt es eine gegen ein k ∈ K konvergente Teilfolge der Folge {kn }∞ n=1 , deren Bildfolge wegen der Stetigkeit von f gegen f (k) ∈ f (K) konvergiert. Diese Bildfolge konvergiert als Teilfolge von {f (kn )}∞ n=1 gegen y, sodaß y = f (k) ∈ f (K) liegt. konvergiert. 4. Man verwendet die vorherige Situation mit Y := IR. Dann ist f (X) eine kompakte Teilmenge von IR, welche beschränkt und abgeschlossen ist. Sie besitzt deshalb ein Maximum, d.i. es gibt ein x∗ mit f (x∗ ) = max f (X). 5. Zunächst zeigt man die Konvergenz der Folge {f (dn )}∞ n=1 für jede gegen ein x ∈ X ∞ konvergente Folge {dn }n=1 . Ist x ∈ D, so ergibt sich dies aus der Stetigkeit von f . 138 Metrische Räume Nun sei x 6∈ D. Da f auf D gleichmäßig stetig ist, ist die Folge der {f (dn )}∞ n=1 eine Cauchyfolge und somit gegen ein y ∈ Y konvergent, weil Y vollständig ist. Danach definiert man als Erweiterung f˜(x) := limn→∞ fn (dn ). 4.1.5 Approximationssatz von Stone-Weierstraß Dieser Satz ist theoretische Grundlage für viele Approximationsfragen. Wie unten noch auszuführen, folgt aus diesem Satz, daß sich jede stetige 2π-periodische Funktion durch eine Reihe von der Bauart einer Fourierreihe (allerdings nicht genau die Fourierkoeffizienten) gleichmäßig approximieren läßt, wenn die Funktionswerte in den Endpunkten übereinstimmen. In der Fourieranalysis wird dieses Faktum dazu benützt, die Approximierbarkeit von quadratisch integrierbaren Funktionen mittels Fourierreihen im Sinne der quadratischen qR Pn 2π inx |2 dx = 0) herzuleiten. Siehe Beispiel 192 Konvergenz (limn→∞ k=−n cn e 0 |f (x) − (S.209) 1. Anmerkung 132 Es handelt sich um folgende Begriffe und Aussagen: Ausgangssituation : ist ein kompakter topologischer Raum X und eine Teilmenge S von reell- bzw. komplexwertigen auf X stetigen Funktionen. S ist punktetrennend, wenn es zu je zwei Punkten x 6= x0 in X eine Funktion f in S mit f (x) 6= f (x0 ) gibt. Approximationssatz I: Ist S ein reeller Vektorraum punktetrennender Funktionen, der mit je 2 Funktionen f und g die Funktion max{f, g} enthält, und dem die konstante Funktion 1 angehört, so kann jede auf X stetige Funktion gleichmäßig durch Funktionen in S approximiert werden. Approximationssatz II : Ist S eine Familie punktetrennender Funktionen, welche die konstante Funktion 1 enthält, so kann jede stetige Funktion auf X gleichmäßig durch Polynomausdrücke in S approximiert werden. Approximationssatz komplexe Version: Ist S eine Familie punktetrennender Funktionen, welche die konstante Funktion 1 enthält und mit jedem s auch die konjugierte, so kann jede stetige Funktion auf X gleichmäßig durch Polynomausdrücke in S approximiert werden. Der Beweis kann z.B. in [13] gefunden werden. Beispiel 133 Die prominentesten Situationen sind die folgenden: Polynomapproximation auf kompaktem Intervall I: Jede auf dem kompakten Intervall I stetige Funktion kann gleichmäßig durch Polynome approximiert werden. Hier besteht S aus allen Polynomen. Es ist 1 ein Polynom und jeder Polynomausdruck in Polynomen ein Polynom, also kann II herangezogen werden. 4.1. Metrische Räume 139 Trigonometrische Polynome: Man betrachtet alle Ausdrücke N X 1 a0 + An cos nx + Bn sin nx, 2 n=1 die wegen der trigonometrischen Identitäten bei Multiplikation wieder so eine Summe ergeben. Somit besagt II, daß jede auf [0, 2π] stetige Funktion gleichmäßig durch solche trigonometrischen Summen approximiert werden kann. (Trigonometrische) Exponentialsummen: Man betrachtet auf [0, 2π] als Familie S alle Funktionen N X cn einx n=−N mit komplexen Koeffizienten cn , welche die Voraussetzungen der komplexen Version erfüllen. Demnach kann jede auf [0, 2π] stetige Funktion gleichmäßig durch solche Polynome approximiert werden. Hutfunktionen: Es sei (beispielshalber) I = [0, 1] und man betrachtet alle Hutfunktionen mit Teilungspunkten an Vielfachen von Potenzen von 21 (“dyadischen Punkten”). Diese Familie erfüllt zusammen mit der konstanten Funktion 1 die Voraussetzungen von I, sodaß jede stetige Funktion gleichmäßig durch Hutfunktionen approximiert werden kann. In effizienter Weise wird dies bei FEM-Methoden benützt. Siehe auch Beispiel 146 (S.154). 140 Metrische Räume Kapitel 5 Lineare Funktionalanalysis 5.1 Vektorräume 5.1.1 Grundlagen, Axiome Definition 134 (K-Vektorraum) Ein K-Vektorraum oder linearer Raum (V, K, +, ·) über dem Skalarkörper K besteht aus folgenden Bestandteilen: 1. Dem Körper K. 2. Einer abelschen Gruppe (V, +). 3. Einer Abbildung · : K ×V → V , die als Multiplikation von Elementen in V mit Skalaren bezeichnet wird, sodaß für alle k, l ∈ K und alle u, v ∈ V , sowie die 1 in K die folgenden Gleichungen gelten: 1·v = v (k + l) · v = k · v + l · v k · (u + v) = k · u + k · v (kl) · u = k · (l · u). Wir werden das ‘·’ oft weglassen. Beispiel 135 Grundlegende Beispiele: 1. (Koordinatenraum) Es ist K n der Koordinatenraum, aufgefaßt als Zeilen bzw. Spalten (etwa n = 3) v1 ~v := (v1 , v2 , v3 ), eher jedoch ~v = (v1 , v2 , v3 )T = v2 , v3 wobei ‘T ’ Transponieren bedeutet, d.h. Übergang von jeweils Zeilen-/Spalten- zu Spalten/Zeilendarstellung. Addiert, bzw. Multipliziert mit Skalaren wird komponentenweise. Grundsätzlich ist es egal, ob man den Koordinatenraum als Menge von Zeilen- oder 141 142 Lineare Funktionalanalysis Spaltenvektoren auffaßt, jedoch legt es Matrizenrechnung nahe, Vektoren als Spalten (und später die linearen Funktionale oder auch Kovektoren als Zeilen) aufzufassen. Der Koordinatenraum K n kann als Funktionenraum von auf einer n-elementigen Menge definierten Funktionen mit Werten in K angesehen werden, wie das nächste Beispiel zeigt. 2. (Funktionenräume K X ) Ist X eine beliebige Menge, so wird die Menge aller Kwertigen Funktionen zu einem K-Vektorraum, wenn man für f, g ∈ K X und k ∈ K die Funktionen f + g bzw. k · f durch (f + g)(x) := f (x) + g(x) und (k · f )(x) := k · f (x) festlegt1 . Es ist üblich, statt K {1,...,n} einfach K n zu schreiben, da jedes f ∈ K {1,...,n} durch das n-Tupel (f (1), . . . , f (n)) ∈ K n eindeutig festgelegt ist. Umgekehrt läßt sich jedes n-Tupel (k1 , . . . , kn ) als Funktion f : {1, . . . , n} → K auffassen, indem man f (i) := ki definiert. Im Fall K = IR und n = 2 zeigt die folgende Skizze, wie man das Element (3, 4) ∈ IR2 links als Element im Koordinatenvektorraum interpretiert und rechts als Funktion auf der zweielementigen Menge {1, 2}. Der Leser möge für sich selbst die Situation n = 3 skizzieren. · ·4 (3,C 4) · ·3 • (0, 0) · 1 · 2 (3, 4) ∈ IR2 Graph der Funktion f mit f (1) := 3, f (2) := 4 Gibt es die beiden Sichtweisen auch für unendliches X, etwa für X := IN ? Antwort: Wenn X = IN ist, so ist K IN der Vektorraum der unendlichen Folgen {kn }∞ n=1 , wobei für f ∈ K IN das Tupel durch kn := f (n) festgelegt ist. Man bräuchte offenbar unendlich viele “Achsen”, sodaß die übliche im IR3 gebräuchliche Sichtweise von “Vektoren” zeichnerisch schwer realisierbar ist. Hingegen kann die Folge als Graph skizziert werden, in der nachstehenden Skizze sieht man die ersten 8 Glieder der reellen Folge xn := n1 angedeutet. 1 Links sind ‘+’ bzw. ‘·’ die neu definierten Operationen auf K X , und rechts Operationen in K. 5.1. Vektorräume 143 · · · · · · · · · · · · · · · · Wie kann man die Operationen ‘+’ und ‘·’ geometrisch interpretieren? Antwort: Die geometrische Interpretation im Rn erlaubt die Sichtweise der aus der Physik gewohnten “Vektoraddition”, jene als Graph von Funktionen jene der “linearen Überlagerung” von Funktionen. Für die Addition der Elemente ~c = ~a + ~b von Vektoren im IR2 wird die obige Interpretation als Funktionsgraph rechts wiedergegeben. Die punktierte Linie soll die “Koordinaten” der Vektoren erkennbar machen. Hier lediglich 4 2 2 . und ~c = ~a + ~b = , ~b = für Vektoren ~a = 3 0 3 · a1 a1 + b1 ~c ~ ~a = ~c = ~a + b = a2 a2 + b2 ; D· ww· · w ~a w w w ww ww w ww ww w ww wwww ww w ww w w /· ~b = b1 b2 · · 1 ~b · 2 Beispiel 136 (Raum der Testfunktionen) Es sei C ∞ (IR) die Menge der auf ganz IR definierten, beliebig oft in jedem x ∈ IR differenzierbaren Funktionen (wie z.B. sin(x)). Ist C ∞ (IR) ein reeller Vektorraum? Antwort: Man hat sich zu überlegen, daß mit f, g beliebig oft differenzierbar, auch kf + lg beliebig oft differenzierbar ist. Für die erste Ableitung verwendet man (kf + lg)(x + h) − (kf + lg)(x) f (x + h) − f (x) g(x + h) − g(x) =k +l h h h woraus beim Grenzübergang h → 0 die Existenz des Grenzwertes auf der linken Seite folgt und zudem die bekannte Regel (kf + lg)0 = kf 0 + lg 0 bestätigt wird. Nun verwendet man vollständige Induktion. 144 Lineare Funktionalanalysis Ist die Teilmenge D(IR), die Menge der Testfunktionen, welche definitionsgemäß aus allen Funktionen in C ∞ (IR) besteht, die außerhalb eines beschränkten Intervalls Null sind, ein linearer Teilraum von C ∞ (IR)? Antwort: Ja. Verschwindet nämlich f außerhalb des beschränkten Intervalls I und g außerhalb des beschränkten Intervalls J, so verschwindet kf + lg außerhalb der Menge I ∪ J. Nun sei a := min{x | x ∈ I ∪ J} und b := max{x | x ∈ I ∪ J}, so verschwindet f + g außerhalb des Intervalls [a, b] und dieses Intervall ist beschränkt. Gibt es überhaupt Testfunktionen außer der trivialen Funktion, die identisch Null ist? Antwort: Ja, es gibt eine Funktion ψ, die auf dem Intervall (0, 1) positiv und sonst Null ist, eine sogenannte Beulenfunktion. 1 Hier ist die übliche Konstruktion. Zunächst definiert man φ(x) := e− x , falls x > 0 ist, und φ(x) = 0 sonst. Die Funktion ist an Null stetig, weil limh→0+ x1 = +∞, und somit das Minus dazu führt, daß die Exponentialfunktion gegen Null strebt. Für x 6= 0 ist die Funktion sichtlich beliebig oft differenzierbar (links von Null ergibt sich stets Null, rechts “horrende” Ausdrücke der Gestalt (n ∈ IN ) Polynom(x)e−1/x . xn (∗) −1 Für x = 0 muß die Grenzwertdefinition der Ableitung herangezogen werden: φ(h)−φ(0) = e hh h und die Regel von De L’Hospital zeigt, daß der Grenzwert Null wird. Die gleiche Art der Überlegung zeigt, daß die Funktion in (∗) ebenfalls die Ableitung Null an Null hat. Es mag noch hilfreich sein, zu vermerken, daß die Funktion φ, wie bemerkt, “unendlich” flach an 0 ist, danach monoton ansteigt und sich der Asympote y = 1 von unten her nähert. Nun kann ein ψ mit den behaupteten Eigenschaften durch ψ(x) := φ(x)φ(1 − x) festgelegt werden. Es hat die Gestalt einer Beule, daher der Name. 5.1.2 Teil-, Quotienten- und Komplementärraum Definition 137 (Teil-, Quotienten-, und Komplementärraum) (Linearer) Teilraum: Eine Teilmenge U eines K-Vektorraums V heißt (linearer) Teilraum von V , falls U eine der folgenden äquivalenten Bedingungen erfüllt: • U ist eine Untergruppe von V und K · U := {k · u | k ∈ K, u ∈ U } ⊆ U . • Für alle u, v ∈ U und alle k, l ∈ K gehört k · u + l · v zu U . • Für alle u, v ∈ U und alle k ∈ K gehören u + v und k · u zu U . Quotientenraum: Ist U ein Teilraum von V so kann die Quotientengruppe V /U , nämlich die Menge aller Mengen der Form v + U = {v + u | u ∈ U } (genau wie in Definition 91 (S.97)) als K-Vektorraum auffassen, indem man (v + U ) + (w + U ) := (v + w) + U, k(v + U ) := kv + U definierta . 5.1. Vektorräume 145 Komplementärraum: Ein Teilraum W von V heißt Komplementärraum zu U (oder oft kurz Komplementb ), falls eine der folgenden äquivalenten Bedingungen erfüllt ist: • Jede Nebenklasse von U hat genau einen Schnittpunkt mit W , d.h. für alle v ∈ V besteht (v + U ) ∩ W aus genau einem Element. • Jedes Element v in V hat eine eindeutige Darstellung v =u+w mit u ∈ U und w ∈ W . • U ∩ W = {0} und U + W := {u + w | u ∈ U, w ∈ W } = V . Man drückt dies auch durch V = U ⊕ W aus, und bezeichnet V als direkte Summe der Teilräume U und W. Bitte nicht mit Komplement einer Menge verwechseln! V 0 U Im Bild ist U ein 2-dimensionaler Teilraum des IR3 (etwa die (x, y)-Koordinatenebene), die Gerade W ein Komplementärraum zu U (zusammen spannen sie V := IR3 auf und haben nur den Nullvektor gemeinsam). Das (mengentheoretische) Komplement zu U , im Zeichen IR3 \ U , entsteht, indem man die ganze Ebene U aus dem IR3 entfernt. a b Auf jeweils der linken Seite ist das nicht eingeklammerte ‘+’ (bzw. nicht explizit angeschriebene ‘·’) als zu definieren zu verstehen, rechts ist das ‘+’ (bzw. ‘·’) jenes in V . Man muß sich Wohldefiniertheit überlegen. Für ‘+’ besteht das darin, v 0 ∈ v + U und w0 ∈ w + U beliebig vorzugeben, und zu vermerken, da v 0 + w0 ∈ (v + w) + U ist, somit (v 0 + U ) + (w0 + U ) = (v + U ) + (w + U ) gilt. Analog für k(v + U ). Nicht mit dem mengentheoretischen Komplement A \ B = {a ∈ A | a 6∈ B} zu verwechseln. Beispiel 138 Einführende Übungen hiezu. 1. Ist die Gerade U := {(x, x) | x ∈ IR} ein linearer Teilraum von IR2 ? Antwort(findung): Das ist der Fall, der Nachweis soll mittels der dritten Formulierung 146 Lineare Funktionalanalysis erbracht werden: Sind u := (x, x) und v := (y, y) Elemente in U , so ist u + v = (x + y, x + y) ∈ U . Weiters ist für reelles r stets r · u = r · (x, x) = (rx, rx) ∈ U . Wie kann der Quotientenraum V /U beschrieben werden? Welche geometrische Deutung kann gegeben werden? U 1 +U 0 Antwort: Der Quotientenraum besteht aus der Menge aller zu U parallelen Geraden. “Schrumpft” man jede dieser Geraden auf einen Punkt der x-Achse (angedeutet durch die punktierte Linie), so erweist sich V /U als zu IR isomorpher Vektorraum. Wie sehen Komplementärräume zu U aus? Antwort: Jede Gerade durch den Ursprung, mit Ausnahme von U erweist sich als Komplementärraum. Mit der ersten Form der DN sieht man das am einfachsten ein. 2. Ist die Menge U der ungeraden, auf dem reellen Intervall [−1, 1] definierten reellwertigen Funktionen Teilraum von IR[−1,1] ? Antwort: Ja. Wir wollen die DN in der zweiten Form benützen. Sind u, v ungerade Funktionen, so erfüllen sie für alle x ∈ [−1, 1] die Gleichung u(x) = −u(−x), bzw. v(x) = −v(−x). Deshalb gilt für alle r, s ∈ IR und alle x ∈ [−1, 1] (ru+sv)(x) = ru(x)+sv(x) = r(−u(−x))+s(−v(−x)) = −(ru(−x)+sv(−x)) = −(ru+sv)(−x), sodaß ru + sv ∈ U ist. Wie kann die Tatsache, daß jede Funktion eine eindeutige Zerlegung in einen geraden und einen ungeraden Anteil hat, im Sinne von Komplementärräumen gesehen werden? Antwort: Ist G die Menge der geraden Funktionen, so ist K X = U ⊕ G, m.a.W. G ist Komplementärraum zu U und U einer zu G. 3. Für eine Funktion f ∈ K X ist {x ∈ X | f (x) 6= 0} der Träger von f . Ist die Menge W aller Funktionen in K X mit endlichem Träger ein linearer Teilraum? Antwort: Ja. Wir verwenden die DN in der dritten Form. Sind u, v ∈ K X solche Funktionen und A ⊆ X, B ⊆ X die Träger von u und v, so verschwinden beide Funktionen u und v außerhalb der Menge A ∪ B, sodaß der Träger von u + v sichtlich in A ∪ B enthalten ist. Deshalb ist der Träger von u + v endlich und somit gehört u + v zu W . Schließlich überlegt man sich daß der Träger von ku gleich jenem von u ist, sobald k 6= 0 ist. Wenn X unendlich ist, ist dann die Teilmenge jener f von K X , welche unendlichen Träger haben, ein linearer Teilraum? Antwort: Nein. Sei z.B. f jene Abbildung, die jedem x ∈ X den Wert f (x) := 1 zuordnet. Der Träger von f ist dann ganz X, ist also unendlichen. Auch die Funktion 5.1. Vektorräume 147 g := −f hat X als Träger. Der Träger der Summe von f + g = 0 ist leer, also endlich. Die Funktionen mit unendlichem Träger bilden somit keine abelsche Gruppe und daher keinen Teilraum (1.te Charakterisierung) von K X . 4. Wie beweist man die Äquivalenz der Kennzeichnung eines Komplementärraumes W zu U? Antwort: Es gelte die erste Kennzeichnung. Sei nun v ∈ V beliebig. Dann ist v + U die eindeutig bestimmte Nebenklasse, zu der v gehört. Es sei w(v) das eindeutig bestimmte Element in (v + U ) ∩ W . Da w(v) ∈ v + U ist, gibt es ein u ∈ U mit w(v) = v + u. Deshalb ist v = u + (−w(v)) eine Summe aus einem Element in U und einem in W . Angenommen, v = u0 + w0 ist eine beliebige Summendarstellung mit u0 ∈ U 0 und w0 ∈ W . Dann ist w0 = v + (−u0 ) ∈ v + U und w0 ∈ W , sodaß w = w0 sein muß. Dann ist auch u = u0 und die 2.te Kennzeichnung gilt. Es gelte die zweite Kennzeichnung für W . Angenommen x ∈ U ∩W . Dann sind 0 = x+0 und 0 = 0 + x Zerlegungen des Nullvektors in einen Anteil in U und einen in W und wegen der Eindeutigkeit kann dann nur x = 0 gelten. Da jedes Element v ∈ V (sogar eindeutig) als ein v = u + w mit u ∈ U und w ∈ W darstellbar ist, ist V = U + W . Die 3.te Kennzeichnung ist erfüllt. Es gelte die 3.te Kennzeichnung für W . Für eine beliebige Nebenklasse v +U betrachten wir (v + U ) ∩ W und wollen zeigen, daß diese Menge genau ein Element enthält. Seien w, w0 ∈ (v + U ) ∩ W . Dann gibt es u, u0 ∈ U mit v = u + w = u0 + w0 , sodaß Subtraktion auf u − u0 = w0 − w ∈ U ∩ W = {0} führt. Deshalb ist u = u0 und insbesondere w = w0 , sodaß die 1.te Kennzeichnung bewiesen ist. Anmerkung 139 Ist {Ui | i ∈ I} eine Familie von Teilräumen von V , so ist Teilraum von V . T i∈I Ui ein Beweis: Die dritte T Charakterisierung eines Teilraumes benützend,Tsoll lediglich der Nachweis für T u + v ∈ i∈I Ui erbracht werden, falls beide, u und v in i∈I Ui liegen (jener für ku ∈ i∈I Ui geht ähnlich): Es ist T T (u ∈ i∈I Ui ) ∧ (v ∈ i∈I Ui )) ⇔ (∀i ∈ I) ((u ∈ Ui ) ∧ (v ∈ Ui )) ⇒ (∀i ∈ I) Tu + v ∈ Ui ⇔ u + v ∈ i∈I Ui Beispiel 140 Beispiele zu hauptsächlich Teilräumen von Funktionenräumen. 1. Es sei V die Menge der auf [0, 2π] definierten reellen Funktionen, d.h. V = IR[0,2π] . Ist die Menge C[0, 2π] der auf [0, 2π] stetigen Funktionen ein linearer Teilraum von V ? 148 Lineare Funktionalanalysis Antwort: Zum Nachweis der ersten Teilbehauptung werde Definition 137 (S.144), dritte Charakterisierung herangezogen (wir werden lediglich “u + v stetig” vorzeigen, ku geht genauso). Eine Funktion f ist an x0 bekanntlich stetig, genau dann, wenn für jede ganz in [0, 2π] befindliche Folge {xn } mit limn→∞ xn = x0 auch limn→∞ f (xn ) = f (x0 ) gilt. Sind nun u, v stetig an x0 und {xn } eine gegen x0 konvergente Folge, so gilt wegen der Grenzwertregeln lim (u+v)(xn ) = lim (u(xn )+v(xn )) = lim u(xn )+ lim v(xn ) = u(x0 )+v(x0 ) = (u+v)(x0 ). n→∞ n→∞ n→∞ n→∞ Somit hat man gezeigt, daß für jedes feste x0 ∈ [0, 2π] die an diesem Punkt stetigen Funktionen einen linearen Teilraum Ux0 von V bilden. Weil \ U x0 C[0, 2π] = x0 ∈[0,2π] genau die Menge der auf [0, 2π] stetigen Funktionen ist, ist wegen Anmerkung 139 (S.147) die Menge C[0, 2π] linearer Teilraum von V . Ist U := {f ∈ V | f (0) = f (2π)} ein linearer Teilraum von V ? Ist Wx0 := {f ∈ V | f (x0 ) = 0} ein linearer Teilraum von V ? Ist M := {f ∈ V | f (0) = f (2π) = 0} linearer Teilraum? Ist C0 [0, 2π] := {f ∈ U | f (0) = f (2π) = 0} linearer Teilraum? Antwort: Um die erste Frage mit ‘Ja’ beantworten zu können, soll Definition 137 (S.144), dritte Charakterisierung herangezogen werden: Es seien k, l ∈ IR und u, v ∈ U . Dann ist u(0) = u(2π) und v(0) = v(2π). Deshalb ist (ku + lv)(0) = ku(0) + lv(0) = ku(2π) + lv(2π) = (ku + lv)(2π). Somit ist U linearer Teilraum. Es werde die zweite Charakterisierung zum Nachweis dafür, daß Wx0 linearer Teilraum ist, herangezogen. Sind k, l ∈ IR und u, v ∈ Wx0 so ist (ku + lv)(x0 ) = ku(x0 ) + lv(x0 ) = 0, also ku + lv ∈ Wx0 . Weil M = W0 ∩ W2π , folgt aus der vorigen Teilbehauptung und weil wegen Anmerkung 139 (S.147) der Durchschnitt linearer Teilräume linearer Teilraum ist, daß M linearer Teilraum ist. In analoger Weise ergibt sich C0 [0, 2π] = C[0, 2π]∩M , sodaß C0 [0, 2π] linearer Teilraum ist. 5.1.3 Lineare Hülle, Unabhängigkeit, Basen, Dimension 5.1. Vektorräume 149 Definition 141 (Lineare (Un)abhängigkeit, Basis) Linearkombination: Ist V ein K-Vektorraum und ist W ⊆ V eine endliche, nicht leere Teilmenge, so heißt jeder Ausdruck v= X kw w w∈W mit kw ∈ K eine Linearkombination der Elemente von W . Ist W die leere Menge, so wird X kw w := 0 w∈∅ definiert. Es heißt kw Koeffizient von w. Man sagt auch, daß v aus den Elementen in W linear kombinierbar ista . Lineare Hülle: Der kleinste lineare Teilraum von V , welcher eine gegebene Teilmenge X ⊆ V enthält, wird mit L bezeichnet und erweist sich für X 6= ∅ als die Menge aller Linearkombinationen von Elementen in X. Falls X leer ist, ergibt sich L(X) := {0}. Es heißt L(X) der von X aufgespannte oder erzeugte lineare Teilraum von V , bzw. die lineare Hülle von X (woher auch das “L” herrührt). Die Menge X nennt man auch Erzeugendensystem von U := L(X). Elementaroperationen mit Erzeugendensystemen: • Weglassen des Nullvektors: Ist U = L(X), so ist U = L(X \ {0}). • Addieren von skalaren Vielfachen eines festen Vektors in X zu allen anderen: Es sei U = L(X). Ist x0 ∈ X und λ : X \ {x0 } → K, sowie Y := {x0 } ∪ {x + λ(x)x0 | x ∈ X, x 6= x0 }, so ist U = L(Y ). Lineare (Un)abhängigkeit: Eine Teilmenge X ⊆ V heißt linear abhängig, falls es eine endliche Teilmenge W ⊆ X und Elemente kx ∈ K gibt, die nicht alle Null sind, sodaß X kw w = 0 w∈W giltb . Falls X nicht linear abhängig ist, so heißt X linear unabhängig. Die leere Menge ist stets linear abhängig. Man beachte, daß jede Menge X mit 0 ∈ X linear abhängig ist. Basis : Jede der folgenden Eigenschaften kennzeichnet eine nicht leere Teilmenge X von V als Basis von V : • X ist linear unabhängig, jedoch X ∪ {v} linear abhängig für jedes v ∈ V \ X. 150 Lineare Funktionalanalysis • Jedes v ∈ V ist mit eindeutig bestimmten Koeffizienten kx als Linearkombination X v= kx x x∈X darstellbar (dabei sind gemäß DN der Linearkombination alle bis auf endlich viele kx Null). a b Man stellt sich am besten vor, daß jedes w mit einem Koeffizienten “skaliert” wird, und danach die skalierten Vektoren (bzw. Funktionen) addiert werden. Andere Redensart: Der Nullvektor kann in nicht trivialer Weise durch Elemente in X linear kombiniert werden. Beispiel 142 Einfache Beispiele zu den Begriffen: 1 0 1. Es sei K := IR und V := IR3 . Weiters sei W := { 2 , 0 }. Welcher der Vektoren 3 1 1 0 1 in { 1 , 0 , 2 } ist eine Linearkombination von Elementen in W ? 2 0 1 v1 Antwortfindung: Jede Linearkombination v := v2 von Elementen in W hat die v3 Gestalt k1 0 v1 1 . v2 = k1 2 + k2 0 = 2k1 1 3k1 + k2 3 v3 Somit fällt die Antwort genau dann mit “Ja” aus, wenn man die drei Gleichungen v1 = k1 , v2 = 2k1 , v3 = 3k1 + k2 (5.1) simultan lösen kann. Man kann nun jedender 3 Vektoren der Angabe hernehmen und zu 0 1 0 0 2 lösen versuchen. Man erkennt, daß = 0· + 0 · 0 (also Koeffizienten 0 3 1 1 1 0 k1 = k2 = 0), bzw. 2 = 1 · 2 + (−1) · 0 (Koeffizienten k1 = 1, k2 = −1) 2 3 1 gilt. Welcher der 3 Vektoren liegt im von W aufgespannten linearen Teilraum? Antwort: Genau jene, welche Linearkombinationen von Vektoren in W sind! Somit der Nullvektor und (1, 2, 2)T . 5.1. Vektorräume 151 Kann man den Koordinaten v1 , v2 , v3 irgendwie ansehen, ob (v1 , v2 , v3 )T im von W aufgespannten Teilraum liegt? Antwort: Das ist genau dann der Fall, wenn v2 = 2v1 , wie sich aus den Gleichungen in (5.1) ergibt. Sind die Vektoren in W linear unabhängig? Antwort: Man muß herausfinden, ob (0, 0, 0)T = k1 (1, 2, 3)T + k2 (0, 0, 1)T lediglich die triviale Lösung k1 = k2 = 0 hat, und das ist der Fall, wie man aus den Gleichungen 0 = k1 , 0 = 2k1 , 0 = 3k1 + k2 abliest. 1 −1 1 0 2 (Elementaroperationen). Es sei X := { 1 , , 4 , 0 } und U = 1 1 3 0 L(X). Kann man ein Erzeugendensystem mit 1 oder 2 Elementen von U angeben? Antwort: Wir benützen die Elementaroperationen. Zunächst kann der Nullvektor weggelassen werden. Danach sei λ((−1, 2, 1)T ) := 1 und λ((1, 4, 3))T := −1 (wir wollen die erste Koordinate der beiden Vektoren zu Null machen). Es ergibt sich 1 0 0 U = L(Y ) wobei Y = { 1 , 3 , 3 }. 1 2 2 Jetzt empfiehlt sich x0 := (0, 3, 2)T , sowie λ((1, 1, 1)T ) := 0 und λ((0, 3, 2)T ) := −1 zu wählen (wir wollen den letzten Vektor zu Null machen und dann mit der ersten Regel entfernen), man findet: 1 0 U = L(Z) wobei Z = { 1 , 3 }. 1 2 Es ist somit Z ein Erzeugendensystem mit 2 Elementen. Daß es kein Erzeugendensystem P = {(a, b, c)T } geben kann, sieht man (ohne Benützung von weiterer Theorie) so ein: Wäre U = L({(a, b, c)T ), so müßte es Zahlen p, q ∈ IR mit 1 a 0 a 1 = p b , 3 = q b 1 c 2 c geben, somit die Gleichungen 1 = ap = bp = cq (insbesondere a 6= 0) und 0 = aq, 3 = bq, 2 = cq gelten, woraus wegen a 6= 0 sofort q = 0 folgt, im Widerspruch zu z.B. 3 = bq. Ist W eine Basis des von W aufgespannten linearen Teilraumes? Antwort: Die Menge W ist linear unabhängig, wie eben gezeigt worden ist. Ist nun v in der linearen Hülle, also v T = k1 · (1, 2, 3)T + k2 · (0, 0.1)T = (k1 , 2k2 , 3k1 + k2 )T , so 152 Lineare Funktionalanalysis ergäbe die lineare Abhängigkeit von (1, 2, 3)T , (0, 0, 1)T und v T , daß W Basis ist. Das läßt sich jedoch aus k1 · (1, 2, 3)T + k2 · (0, 0, 1)T + (−1) · v T = (0, 0, 0)T ablesen, weil der letzte Koeffizient, nämlich (−1) 6= 0 ist. 2. (Lineare (Un)abhängigkeit in einem Funktionenraum) Es sei V := IR[0,2π] (d.i. die Menge aller Abbildungen f : [0, 2π] → IR). Man beantworte der Reihe nach folgende Fragen: Ist T := {1}∪{cos(nx) | n ∈ IN }∪{sin(nx) | n ∈ IN } eine linear unabhängige Teilmenge von V , wenn man diese Funktionen lediglich auf [0, 2π] betrachtet? Ist T eine Basis von V ? Liegt cos3 (x) in der linearen Hülle von T ? Antwort: Offensichtlich ist T eine Teilmenge. Um die lineare Unabhängigkeit zu zeigen, muß man eine eine typische Linearkombination N a0 X 0= + (an cos(nx) + bn sin(nx)) 2 n=1 ansehen und beweisen, daß alle Koeffizienten Null sind2 . Nun integriert man den Ausdruck von 0 bis 2π und findet solcherart a0 = 0. Die Orthogonalitätsrelationen Z 2π Z cos(nx) sin(mx) dx = 0, 0 2π Z cos(nx) cos(mx) = 0 2π sin(nx) sin(mx) = 2πδmn , 0 wobei δmn = 1 für m = n und 0 für m = 6 n, wurden vom Leser möglicherweise schon erwartet, sie ergeben der Reihe nach an = bn = 0 für alle n ∈ IN , also ist die Menge T linear unabhängig. Die Funktion f (x) := x ist nicht in der linearen Hülle von T , weil jede Funktion g in T die Bedingung g(0) = g(2π) erfüllt, wie man sich leicht überlegt, und f (0) = 0, jedoch f (2π) = 2π 6= 0. Insbesondere kann f nicht als Linearkombination von Elementen in T dargestellt werden, somit ist T keine Basis von V . 3 Wir zeigen, daß cos3 (x) in der linearen Hülle von T liegt. Es ist cos3 (x) = 21 (eix + e−ix ) = 1 3ix + e−3ix + 3eix + 3e−ix ), wie sich aus der Formel von De Moivre und dem bi8 (e nomischen Lehrsatz ergibt. Nochmalige Anwendung von De Moivre ergibt cos3 (x) = 1 4 (cos(3x) + 3 cos(x)). Dieser Ausdruck läßt sich als Linearkombination der Elemente in {cos(x), cos(3x)} auffassen, und weil diese Menge Teilmenge von T ist, ist cos3 (x) in der linearen Hülle von T . 2 Zuvor ist es angebracht, die aus der Theorie der Fourierreihen gebräuchliche Schreibweise der Linearkombination mit der “abstrakten” zu vergleichen: z.B.: k1 = a20 , kcos(nx) = an , ksin(nx) = bn , 5.1. Vektorräume 153 Anmerkung 143 Elementaroperationen mit Basen: Ist X eine Basis von V und wendet man eine Elementaroperation im Sinn von Definition 141 (S.149) an, so entsteht wieder eine Basis von V . Basis in K n : Im K n bilden die Elemente ei := (0, . . . , 0, |{z} 1 , 0, . . . , 0)T (wobei T transi ponieren, also Übergang zu Spaltenvektorschreibweise bedeuten soll) eine Basis. Alle Basen X von K n haben die gleiche Anzahl, nämlich n. Basis in beliebigem V : Besteht V lediglich aus dem Nullvektor, so wird X = ∅ als Basis gewählt. Danach läßt sich mit Mitteln der Mengenlehre (Lemma von Zorn) die Existenz einer Basis X für jeden beliebigen Vektorraum zeigen. Auch hier gilt, daß jede Basis die gleiche Kardinalität hat. Sie heißt Dimension von V . P Ist X = {e1 , . . . , en } endlich, so wird aus der “abstrakten Schreibweise” x∈X kx x P die gewohnte Schreibweise ni=1 ki ei . Es hat K n die Dimension n. Beliebiges V aufgefaßt als Funktionenraum: Unter 3. in Beispiel 138 (S.145) wurde für eine beliebige Menge X der Teilraum von K X von Funktionen mit endlichem Träger beschrieben. Der Basisbegriff erlaubt es, jeden Vektorraum als Raum von Funktionen mit endlichen Trägern zu interpretieren: Ist nämlich X eine festgewählte Basis von V , so hat läßt sich jeder Vektor v ∈ V in eindeutiger Weise linear kombinieren, d.h. X v= kx x x∈X wobei höchstens endlich viele kx 6= 0 sind. Nun betrachtet man in K X den Teilraum U aller Funktionen f , für welche der Träger {x ∈ X | f (x) 6= 0} endlich ist. Offenbar entsprechen (nach der Festlegung der Basis X) die Elemente in V eineindeutig jenen von U . Ist X endlich, so hat natürlich jedes f ∈ K X endlichen Träger. Basiserweiterung: Jede Basis X eines Teilraumes U von V kann zu einer solchen von V erweitert werden. Die nachstehenden Beispiele streichen typische Anwendungssituationen heraus, bzw. beinhalten Beweisdetails. Beispiel 144 (Nachweis für die Basiserweiterung) Wie zeigt man, daß jede Basis X eines linearen Teilraumes U von V zu einer Basis von V erweitert werden kann? Antwort: Zunächst hat V /U eine Basis Z̄. Nun wählt man in jeder Nebenklasse z̄, die ja lt. DN von der Form v + U ist, ein Element z. Die solcherart entstandene Menge heiße Z. Es wird behauptet, daß X ∪ Z eine Basis von V ist, die X erweitert (d.h. umfaßt). Es muß 154 Lineare Funktionalanalysis P gezeigt werden, daß jedes v ∈ V eine eindeutige Darstellung v = w∈X∪Z kw w besitzt. Es P P ist vP+ U = z̄∈ PZ̄ kz z̄. Daher ist v − z∈Z kz z ∈ U als Linearkombination in der Form v − z∈Z kz z = x∈X P kx x anschreibbar. Setzt man kw := kx falls w ∈ X und kw = kz , wenn z ∈ Z ist, so ist v = w∈X∪Z kw w. Die lineare Unabhängigkeit der Menge X ∪Z (und somit die Eindeutigkeit der Koeffizienten in der P Linearkombination von v durch Vektoren in XP∪ Z) sieht man P wie folgt ein: Wenn 0 = w∈X∪Z kw w so folgt wegen X ⊂ U zunächst 0 = z∈Z kz z̄ = z̄∈Z̄ kz z̄,P also wegen der linearen Unabhängigkeit von Z̄, daß alle kz = 0 sind. Deshalb verbleibt 0 = x∈X kx x, und da X eine Basis (und somit linear unabhängig) ist, sind alle kx = 0. Wie schon bemerkt, ist die eindeutige Linearkombinierbarkeit von Vektoren durch Vektoren in X ∪Z gleichbedeutend dazu, daß X ∪ Z linear unabhängig ist. Beispiel 145 (Treppenfunktionen) Es sei I = [a, b] ein abgeschlossenes Intervall und a = x0 < x1 · · · < xn = b eine Intervallteilung. Eine Funktion, die auf jedem Teilintervall Ii := (xi−1 , xi ) mit i ∈ {1, . . . , n} konstant ist, heißt Treppenfunktion zur gegebenen Teilung. Ist die Menge der Treppenfunktionen zu gegebener Teilung ein Vektorraum? Antwort: Ja. Sind nämlich f und g auf jedem Intervall der angegebenen Art konstant, so offenkundig auch kf + lg. Ist dieser Vektorraum endlichdimensional? Wenn ja, wäre eine Basis interessant! Antwort: Es sei φi die Funktion, welche an der Stell xi den Wert 1 und sonst Null annimmt. ◦ ◦ 1 Weiters sei ψi die Funktion, die auf dem offenen Intervall (xi−1 , xi ) den Wert 1 und sonst Null · • • · annimmt (nebenstehende Skizze). Man überlegt xi−1 xi sich nun, daß {ψi | i = 1, . . . , n} ∪ {φi | i = a b 0, . . . n} eine Basis bildet. Die Dimension ist, wie man unschwer sieht, 2n + 1. Beispiel 146 (Hutfunktionen) In Kapitel 6 (S.215) wird ein simples mathematisches Modell der eingespannten Saite unter Belastung entwickelt werden. Als Approximation der “Durchbiegung” verwendet man eine stetige, stückweise lineare Funktion, deren Werte an den Enden Null ist (eingespannt – Randbedingung) und durch Werte ui an n − 1 Stützstellen xi definiert ist. o·? In der nebenstehenden Skizze ist die Länge der Seite mit 1 ·OOOOO ? OOoOo o ? Einheit, n = 3, x1 = .25 und x2 = .75 und man sieht zwei o OOOO ? o O o ·_ _ _ · · · stetige, stückweise lineare Funktionen, die an den Stützstellen jeweils entweder den Wert Null oder Eins annehmen. 0 .25 .75 1 Wie kann eine stetige stückweise lineare Funktion u bei vorgegebenem Funktionswert ui an der Stelle xi beschrieben werden? 5.1. Vektorräume 155 Antwort: Auf dem Intervall [xi−1 , xi ] wird f durch eine Gerade durch die Punkte (xi−1 , ui−1 ) und (xi , ui ) beschrieben, wobei u0 = un = 0 gelte. Die nebenstehende Skizze ergibt die Gleichung tan(αi ) = (xi , u· i ) t tt (x, u)•t ttt (xi−1 , ui−1 ) u − ui−1 ui − ui−1 = x − xi−1 xi − xi−1 tt tt t t tt t ttαi t ·_t _ _ _ _ _ _ _ _· xi − xi−1 aus der für i = 1, . . . , n − 1 die stückweise Beschreibung u(x) = ui−1 + ui − ui−1 (x−xi−1 ) für xi−1 ≤ x < xi xi − xi−1 ui − ui−1 · xi−1 · xi folgt. Bilden die stetigen stückweise linearen Funktionen mit vorgegebenen Stützstellen einen linearen Vektorraum? Antwort: Ja, der Beweis folgt. Es sei I das Intervall, auf dem die Funktionen definiert sind. Wie schon gezeigt worden ist, ist die Menge C0 (I) der stetigen Funktionen mit Randwerten Null ein linearer Teilraum von IRI . Eine Funktion heißt bekanntlich stückweise linear auf I, wenn es eine Teilung des Intervalls I gibt, sodaß die Funktion auf jedem Teilintervall linear ist. Das reelle Vielfache einer stückweise linearen Funktion ist es offenbar auch (mit den gleichen Teilungspunkten). Sind f und g stückweise linear mit Teilungen des Intervalls I, so ist f + g stückweise linear auf jedem Intervall, welches als Durchschnitt von Teilungsintervallen von f und g entsteht. Somit bilden die stückweise linearen Funktionen einen linearen Teilraum von IRI . Wird noch vereinbart, daß die Stützstellen für alle Funktionen die gleichen sind, so gilt das auch. Die Menge der stetigen stückweise linearen Funktionen zu fester Teilung bildet nun als Durchschnitt linearer Teilräume selbst einen linearen Teilraum von IRI . Es sei für i = 1, . . . , n − 1 die i.te Hutfunktion Hi jene stetige stückweise lineare Funktion, die an der Stützstelle xi den Wert 1 und an allen anderen Stützstellen den Wert Null annimmt (Siehe die erste der beiden zum Beispiel gehörigen Skizzen, wo für n = 3 beide Hutfunktionen H1 und H2 skizziert worden sind.). Bildet die Menge der Hutfunktionen {Hi | i = 1, . . . , n − 1} eine Basis des Raumes der stetigen stückweise linearen Funktionen mit vorgegebenen Stützstellen xi ? Antwort: Ja. Zunächst ist bei Vorgabe der Stützstellen (xi , ui ) mit u0 = un = 0 die hierdurch eindeutig festgelegte stetige stückweise lineare Funktion f von der Form f= n−1 X ui Hi . i=1 Dies sieht man ohne Rechnung ein: Die Funktion auf der rechten Seite ist stetig und stückweise linear. Sie nimmt an den Stützstellen genau dieselben Werte wie f an, ist daher mit f 156 Lineare Funktionalanalysis identisch. Um die lineare Unabhängigkeit zu prüfen, nehme man 0= n−1 X ci Hi i=1 für gewisse ci ∈ IR an. Einsetzen von x = xj für j ∈ {1, . . . , n − 1} ergibt 0= n−1 X ci Hi (xj ) = cj , i=1 woraus die lineare Unabhängigkeit folgt. 5.1.4 Lineare Abbildung, Kern, Bild und Rang Lineare Abbildungen (auch als lineare Operatoren bezeichnet) treten sehr häufig auf. Als simples Beispiel nenne ich die Differentialgleichung y 00 −2y 0 +y = x2 . Dann ist y 7→ y 00 −2y 0 +y eine lineare Abbildung vom Raum der 2-mal stetig differenzierbaren Funktionen auf IR in die Menge der stetigen Funktionen. Sie hat als Kern genau die Lösungen der homogenen DGL, also eine Basis des Kerns bestehend aus {ex , xex }. Offenbar liegt x2 im Bild der linearen Abbildung, weil die partikuläre Lösung yp (x) = x2 +4x+6 die gegebene inhomogene Gleichung erfüllt. Andere Beispiele ähnlicher Art sind (bei geeigneter Präzisierung – Definitionsbereich und Wertebereich müssen angegeben werden) der Laplaceoperator ∆, der Wellenoperator ∆ − 1 ∂2 ~ sowie ~v 7→ ∇ ~ × ~v , etc. , die Operatoren ∇, c2 ∂ 2 t Bekannte lineare Abbildungen sind die Laplace-, Z- und Fouriertransformation. Definition 147 (Lineare Abbildung, Kern und Bild) Sind U, V beides K-Vektorräume, so heißt eine Abbildung f : U → V linear (genauer K-linear) wenn sie für alle k, l ∈ K und alle u, v ∈ U eine der nachstehenden äquivalenten Bedingungen erfüllt: • f ist ein Homomorphismus abelscher Gruppen und f (ku) = kf (u). • f (ku + lv) = kf (u) + lf (v) (“Man kann die Operationen ‘+’ und ‘·’ durch das f durchziehen”); • f (ku) = kf (u) und f (u + v) = f (u) + f (v), also homogen vom Grad 1 und additiv ist. Die Menge ker(f ) := {u ∈ U | f (u) = 0} ist der Kern von f und f (U ) := {f (u) | u ∈ U } ist das Bild von U unter f , auch als R(f ) (wie “range”) bezeichnet. Ist U Teilraum von H, so ist f eine partielle Funktion im Sinne von Definition 56 (S.72) und wird linearer Operator von H nach V genannt mit Definitionsbereich D(f ) := U und Wertebereich. Beispiel 148 Es empfiehlt sich, die Linearität von L(y) := y 00 − 2y 0 + y nachzurechnen. Z.B. ist L(y1 +y2 ) = (y1 +y2 )00 −2(y1 +y2 )0 +(y1 +y2 ) = y100 +y200 −2y10 −2y20 +y1 +y2 = L(y1 )+L(y2 ). Hier noch weitere elementare Übungsaufgaben. 5.1. Vektorräume 157 1. Welche der nachstehenden Abbildungen von IR3 nach IR2 sind linear? f ((x, y, z)T ) = (x, z)T . Die Abbildung g ist wie folgt definiert: Gegeben ist ein Vektor ~a im IR3 und danach soll g(~x) := f (~a ×~x) sein (Vektorprodukt). Weiters soll h((x, y, z)T ) := (|x|, |x+ y|)T . Antwort: Die Linearität von f würde formal so bewiesen werden: kx1 + ly1 y1 x1 kx1 + ly1 y2 ) = f ( kx2 + ly2 ) = x2 = +l f (k kx3 + ly3 kx3 + ly3 y3 x3 x1 y1 x1 y1 k +l = kf ( x2 ) + lf ( y2 ). x3 y3 x3 y3 Das Vektorprodukt ~a × ~b erfüllt bekanntlich die Regeln ~a × (~x + ~y ) = ~a × ~x + ~a × ~y , ~a × k~x = k ~a × ~x, die wir uns zunutze machen: g(~x + ~y ) = f (~a × (~x + ~y )) = f (~a × ~x + ~a × ~y ) = f (~a × ~x) + f (~a × ~y ) = g(~x) + g(~y ). Analog zeigt man g(k~x) = kg(~x) für alle k ∈ IR und ~x ∈ IR3 . Um zu zeigen, daß h nicht linear ist, genügt es nachzuweisen, daß h(k~x) 6= kh(~x) passieren kann. Man wähle z.B. k := −1 und ~x := (1, 0, 0)T . 2. Welche der nachstehenden Abbildungen vom Raum C 1 [0, 1] der auf (0, 1) stetig differenzierbaren, auf [0, 1] stetigen und mit Ableitungen stetig fortsetzbar auf die Randpunkte nach RC[0, 1] bzw. nach IR sind linear? a) F (f ) := f 0 , b) G(f ) := f (0) − f (1), 1 c) H(f ) := 0 f (x)φ(x) dx, wobei φ eine fest vorgegebene auf [0, 1] stetige Funktion R1 ist, d) K(f )(x) := 0 k(x, y)f (y) dy, wobei k : [0, 1] × [0, 1] → IR stetig sein soll, e) p R1 L(f ) := 0 1 + f 0 (x)2 dx. Antwort: Der Nachweis, daß a),c),d) alle linear sind, besteht im Rekapitulieren von Rechenregeln der Differential- und Integralrechnung. In a) hat man für k, l ∈ IR und f, g ∈ C 1 [0, 1] F (kf +lg)(x) = (kf +lg)0 (x) = kf 0 (x)+lg 0 (x) = kF (f )(x)+lF (g)(x) = (kF (f )+lF (g))(x), und weil die Rechnung für alle x ∈ [0, 1] gilt, ergibt sich F (kf + lg) = kF (f ) + lF (g), d.h. die Linearität in a). Analog geht man in c),d) vor. Bei b) ergibt G(kf + lg) = (kf + lg)(0) − (kf + lg)(1) = k(f (0) − f (1)) + l(g(0) − g(1)) = kG(f ) + lG(g) die Linearität von G. Um die Linearität von L zu widerlegen, wählen wir f (x) := 0 und k := 0. Wäre L linear, so hätte man Z 1p Z 1p 2 0=0 1 + 0 dx = 0L(0) = L(0 · 0) = 1 + 02 dx = 1, 0 0 158 Lineare Funktionalanalysis ein Widerspruch. 3. (Riemannintegral und Quotientenräume) Bekanntlich ändert sich der Wert des Rb R(iemann)-Integrals a f (x) dx für eine R-integrierbare Funktion nicht, wenn man die Funktion an endlich vielen Stellen abändert. Dies führt auf folgende Fragen in der Terminologie der linearen Vektorräume Bilden die Menge R[a, b] der auf einem gegebenen Intervall [a, b] R-integrierbaren Funktionen einen Vektorraum? Es sei U die Menge aller Funktionen auf [a, b], deren Träger endlich ist (d.h. die nur an endlich vielen Punkten einen Wert nicht Null annehmen). Ist U ein linearer Teilraum von R[a, b]? Wie läßt sich die Aussage über das Abändern von Werten auf einer endlichen Teilmenge in der Terminologie der Vektorräume interpretieren? Antwort: Der übliche Nachweis der Linearität des R-Integrals zeigt auch, daß R[a, b] ein IR-Vektorraum ist. Die Funktionen mit endlichem Träger bilden einen Vektorraum, wie unter 3. ausgeführt worden ist. Sie sind alle R-integrierbar und der Wert des Integrals gleich Null. Deshalb läßt sich das R-Integral als lineare Funktion auf R[a, b]/U auffassen, hier mit Rb Iab bezeichnet, jedoch in der Praxis auch mit a ), siehe nebenstehendes Diagramm. Rb / IR : vv v v vv vv vv Iab R[a, b] a R[a, b]/U Anmerkung 149 (Kern und Bild, Matrixdarstellung) Die folgenden Fakten werden oft benützt: Kern: Der Kern einer linearen Abbildung f : U → V ist ein linearer Teilraum von U und das Bild einer von V . BW: Mit u, v ∈ ker f hat man f (ku + lv) = kf (u) + lf (v) = 0, also ku + lv ∈ ker f für alle k, l ∈ K. Ähnlich geht der Nachweis für das Bild. Die Dimension des Kerns von f ist der Defekt von f , jene des Bildes R(f ) der Rang von f . Matrixdarstellung: Ist f : U → V eine K-lineare Abbildung und sind X und Y Basen von U bzw. V , so läßt sich f (x) für jedes x ∈ X aus den Elementen in Y linear kombinieren: X f (x) = fyx y. y∈Y Sind insbesondere U und V endlichdimensional und ist |X| = n und |Y | = m, und nummeriert man die Basiselemente X = {e1 , . . . , en }, sowie Y = {f1 , . . . , fm }, so können die fxy in Form einer m × n-Matrix A angeordnet werden: a11 · · · a1n .. .. A = ... . . am1 · · · amn 5.1. Vektorräume 159 wobei aij := fei fj ist. Somit ist für i = 1, . . . , n f (ei ) = m X aji fj . j=1 Dies wird zur Auffindung einer Matrixdarstellung von f wie folgt verwendet: Man drückt den i.ten Basisvektor von U als Linearkombination der Basiselemente von V aus und ordnet die Koeffizienten als Spalte, die man als i.te Spalte der Matrix anschreibt. Beispiel 150 Elementare Übungsaufgaben. 1. (Drehmatrix) Es sei f : IR3 → IR3 dadurch gegeben, daß jeder Vektor ~x um 30 Grad gedreht werde. Der Drehwinkel sei 30 Grad, die Drehachse identisch mit der z-Achse und wenn man von oben auf die z-Achse blickt, soll entgegen dem Uhrzeigersinn gedreht werden. Ist f linear? Wie sieht die Matrix bezüglich der kanonischen Basis aus? Antwort: Die Linearität muß aus der Abbildungsvorschrift erkennbar gemacht werden. Wenn ~a und ~b entsprechend gedreht werden, dann auch k~a und ~a + ~b. Insofern leuchtet T wird die Linearität ein. Nun soll die Matrix aufgestellt werden. Der Vektor (1, 0, 0)√ 1 T offenbar (Skizze bitte selbst machen) in den Vektor (cos 30, sin 30, 0) = 2 (1, 3, 0)T √ übergeführt. Entsprechend wird (0, 1, 0)T in (− sin 30, cos 30, 0)T = 21 (− 3, 1, 0)T übergeführt. Schließlich wird (0, 0, 1)T als Drehachse in sich selbst übergeführt. In Übereinstimmung mit der Theorie ergeben sich die Spalten der Matrix als die soeben bestimmten Bilder der Einheitsvektoren ausgedrückt durch eben jene: √ 1 − 3 0 √ 1 A= 3 1 0 . 2 0 0 2 2. (Approximation eines Randwertproblems und lineare Abbildung) Es sei U der Raum aller Polynome u vom Grad ≤ 3 mit u(0) = u(1) = 0 (Randbedingung der eingespannten Saite) und X := {x(1 − x), x2 (1 − x)}. Ist X eine Basis von U ? Weiters sei V der Raum aller Polynome vom Grad höchstens 2 mit der Basis Y := {1, x, x2 }. Es sei A(u)(x) := (1 + x)u00 (x) ein Differentialoperator. Ist A : U → V eine lineare Abbildung? Wenn ja, gebe man eine Matrizendarstellung von A bezüglich der Basen X und Y an. Antwort: X ist eine Basis. Jedes Polynom, das an 0 und 1 verschwindet, hat den Teiler x(1 − x), somit ist jedes beliebige Polynom u ∈ U von der Bauart u(x) = x(1 − x)(ax + b) = bx(1 − x) + ax(1 − x)x, also Linearkombination der Elemente in X. Die lineare Unabhängigkeit von X prüft man in üblicher Weise: angenommen 0 = ax(1 − x) + bx(1 − x)x, so kann man entweder Koeffizientenvergleich machen, oder z.B. 160 Lineare Funktionalanalysis x = 2 einsetzen, um 0 = −2a − 4b, und x = −1, um 0 = −2a + 2b und somit a = b = 0 herauszubekommen, also die lineare Unabhängikeit von X. Überprüfen der Linearität von A: A(ku+lv)(x) = (1+x)(ku+lv)00 (x) = k(1+x)u00 (x)+ l(1 + x)v 00 (x) = (kA(u) + lA(v))(x), und weil das für alle x ∈ [0, 1] gilt, hat man A(ku + lv) = kA(u) + lA(v), die Linearität von A. Das Auffinden einer Matrix geschieht durch Anwenden von A auf die Elemente in X und Ausdrücken der Ergebnisse als Linearkombination der Elemente in Y , und die entstehenden Koeffizienten als Spalten der Matrix zu nehmen: A(x(1 − x)) = (1 + x)(x − x2 )00 = (1 + x)(−2) = (−2) · 1 + (−2) · x + 0 · x2 , A(x(1 − x)x) = (1 + x)(x2 − x3 )00 = (1 + x)(2 − 6x) = 2 · 1 + (−4) · x + (−6) · x2 , woraus man, wenn A nun zugleich auch die Matrix bezeichnet, −2 2 A = −2 −4 0 −6 gewinnt. Welchen Vorteil kann die Matrizendarstellung bringen? Antwort: Jemand möchte A(u) = v mit vorgegebenem v ∈ V lösen. Statt die Differentialgleichung zu lösen, löst er (etwa für v(x) = 1 − x + 3x2 ) die Matrizengleichung 1 −2 2 a −2 −4 = −1 , b 3 0 −6 und stellt sofort fest, daß das gar nicht geht. 3. Es sei I := (0, 1), das offene Einheitsintervall und H := C(I), der Raum der stetigen Funktionen. Ist f : H → IRI , definiert durch f (u) := u0 (Ableitung) ein linearer Operator? Man beschreibe D(f ). Antwort: Die Linearität der Ableitung und die Tatsache, daß Summe und skalares Vielfaches von auf I differenzierbaren Funktionen selbst differenzierbar sind, bedeutet, daß auf D(f ), der Menge aller differenzierbaren Funktionen, ein linearer Operator vorliegt. 5.1.5 Dualraum, Dualität Definition 151 U und V seien K-Vektorräume. lineare Funktionale, Linearformen, Dualraum: Jede K-lineare Abbildung von U → K heißt lineares Funktional, bzw. (üblicherweise eher für endlich dimensionales U ) Linearform auf U . Die Menge aller linearen Funktionale auf U ist der (algebraische) 5.1. Vektorräume 161 Dualraum, der mit U ∗ bezeichnet werden soll. Es ist U ∗ ein linearer Teilraum von K U (unter der punktweisen Addition bzw. Multiplikation mit Skalaren von Funktionen vgl. auch Beispiel 135 (S.141) 2.). Duales System von Funktionalen: Ist X eine Basis von U , so werden Funktionale δx durch δx (y) := 1 falls x = y und δx (y) = 0, falls y 6= x ist definiert. Die Menge X ∗ := {δx | x ∈ X} ist genau dann eine Basis von U ∗ , wenn U endliche Dimension hat und heißt dann die zu X duale Basis (oder auch Kobasis) von U ∗ . Duale Abbildung: Es sei f : U → V eine K-lineare Abbildung. Es wird jedem v ∗ ∈ V ∗ unter Beachtung des nebenstehenden kommutativen Diagramms durch f ∗ (v ∗ )(u) := v ∗ f (u) = v ∗ (f (u)) das lineare Funktional f ∗ (v ∗ ) zugeordnet. Die Abbildung f ∗ erweist sich als K-lineare Abbildung von V ∗ nach U ∗ (bitte selbst nachprüfen). Es heißt f ∗ : V ∗ → U ∗ die zu f : U → V duale Abbildung. f /V AA A v∗ f ∗ (v ∗ ) AA UA A K Beispiel 152 Einfache Übungsaufgaben hiezu: 1 −1 1 1. Man bestimme alle linearen Funktionale auf IR3 . Zur Basis 2 , 1 , 1 1 1 3 gebe man die duale Basis an. x1 Antwort: Der IR3 ist der Koordinatenraum aller x2 mit x1 , x2 , x3 ∈ IR. Jedes x3 lineare Funktional ist von der Form x1 x1 f ( x2 ) = a1 x1 + a2 x2 + a3 x3 = (a1 , a2 , a3 ) x2 . x3 x3 Insbesondere kann (IR3 )∗ als zeilenweise geschriebener Koordinatenraum angesehen werden, wenn man die Rechenregeln der Matrizenrechnung in Betracht zieht. Um die duale Basis zu finden, genügt es offenbar, die Zeilen der Lösung A der Matrizengleichung 1 −1 1 1 0 0 1 1 = 0 1 0 , A 2 3 1 1 0 0 1 1 −1 1 2 1 1 zu bestimmen. Die Inverse ergibt sich zu mithin der Inversen von 3 1 1 0 −1 1 1 − 21 , A−1 = − 12 1 2 − 23 2 162 Lineare Funktionalanalysis sodaß sich als duale Basis die Zeilen dieser Matrix ergeben. Es sei f : IR3 → IR2 die Projektion auf (x1 , x2 )-Ebene. Im IR2 sei die kanonische Basis vorgegeben und das Funktional v ∗ (x, y) := 3x − 5y. Wie lautet f ∗ (v ∗ )? Antwort: Verwendet man auch im IR3 die kanonische Basis, so hat f die Matrizendarstellung 1 0 0 Af = . 0 1 0 (Wie üblich wendet man f der Reihe nach auf die Basis (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T an, um dadurch die Spalten der Matrix Af zu erhalten, indem man das jeweilige Ergebnis durch die kanonische Basis in IR2 ausdrückt, bzw. hier einfach abliest.) Insbesondere ist f ∗ (v ∗ ) = v ∗ f (Zusammensetzung von Abbildungen), also x1 x1 x1 x1 1 0 0 x2 = (3, −5, 0) x2 , f ∗ (v ∗ )( x2 ) = v ∗ (f ( x2 )) = (3, −5) 0 1 0 x3 x3 x3 {z } x3 | ausmultiplizieren somit ist f ∗ (v ∗ ) = (3, −5, 0). 2. (Duale Basis und Auswerten von Integralen) Es sei U die Menge der höchstens quadratischen Polynome mit Koeffizienten in IR. Es ist U ein 3-dimensionaler reeller Vektorraum. Als Basis werde X := {1, x, x2 } gewählt. R∞ Ist durch J(u) := 0 e−x u(x) dx ein lineares Funktional J auf U gegeben? Wenn ja, wie läßt es sich durch die duale Basis ausdrücken? Antwort: Ja. Sichtlich ist J(u) ∈ IR und Konvergenz sowie Linearität der Integration ergeben die Linearität von J. Um den zweiten Teil der Aufgabe zu lösen, reicht es, J der Reihe nach auf 1, x und x2 anzuwenden, weil hierdurch die Werte von 1∗ (1), x∗ (x) und (x2 )∗ (x2 ) bestimmt werden. Partielle Integration liefert J(1) = J(x) = 1 und J(x2 ) = 2. somit ergibt sich als Antwort zum 2.ten Teil J = 1∗ + x∗ + 2(x2 )∗ . Gibt es eine Situation, wo diese Beschreibung von J hilfreich ist? Antwort: Angenommen, jemand muß für die Polynome u ∈ {1 − x + x2 , 3 + 5x + 7x2 } (und noch ein paar mehr) das Integral J(u) bestimmen. Es ergibt sich 1 3 2 2 J(1 − x + x ) = (1, 1, 2) −1 = 2, J(3 + 5x + 7x ) = (1, 1, 2) 5 = 22, 1 7 und wer es nicht glaubt, integriert schön brav. 5.1. Vektorräume 163 Es sei V die Menge aller linearen Polynome und K das soeben beschriebene Funktional, eingeschränkt auf V . Weiters sei f : U → V die lineare Abbildung, welche jedem u das differenzierte Polynom u0 ∈ V zuordnet. Wie lautet f ∗ (K)? R∞ Antwort: Genau wie vorher muß man f ∗ (K)(u) = K(f (u)) = K(u0 ) = 0 u0 (x)e−x dx bestimmen. Man findet (partielle Integration) als Ergebnis K(u0 ) = J(u), also f ∗ (K) = J. Beispiel 153 R(Erste Variation bzw. Richtungsableitung als lineare Funktionale) 1 Es sei J(y) := 0 L(x, y, y 0 ) dx, wobei 3 L hinreichend oft stetig differenzierbar sei. Somit ist J unter entsprechenden Annahmen über die vorkommenden Funktionen ein (nicht lineares) Funktional. Als klassische Variationsaufgabe gilt die Maximierung/Minimierung von J(y), wobei y : [0, 1] → IR in einer geeigneten Klasse von Funktionen liegt. Als einfachstes Beispiel sei bei vorgegebenen Funktionswerten y(0) := y0 und y(1) := y1 die Länge des Graphen J(y) := R1p 0 2 1 + (y ) dx möglichst kurz, wobei als Klasse der Funktionen z.B. alle stetig differenzier0 baren Funktionen genommen werden können. Im 18.Jhdt wurde von L. Euler die Variationsrechnung begründet, die (in moderner Fassung) zunächst die Vorgabe einer C ∞ -Formfunktion φ mit φ(0) = φ(1) = 0 erfüllt vorsieht, somit in D([0, 1]) liegt. Nun wird die Funktion F () := J(y + φ) y+εφ y φ x a b betrachtet, die im Falle y eine Lösung ist, an der Stelle = 0 ein lokales Extremum besitzt. Das gilt für jedes solche φ. Der Ausdruck d δJ(φ) := J(u + φ) d =0 wird als erste Variation oder Richtungsableitung4 des Funktionals J in Richtung φ bezeichnet. Sichtlich ist δJ, sofern definiert, ein Element des Dualraumes von D([0, 1]). 3 L wie Lagrange Sie wird als Gâteauxableitung bezeichnet, wenn man die Richtungsableitung als normierten Vektor ansehen möchte. Normieren kann man hier nicht, weil ja keine Norm gegeben ist. 4 164 Lineare Funktionalanalysis Es soll das Bilden der 1.ten Variation anhand einiger weniger Beispiele geübt werden. Rb Es sei L(x, y, z) := 21 p(x)z 2 − f (x)y. Wie kann für J(y) := a L(x, y, y 0 ) dx die erste Variation berechnet werden? Antwort: Es muß nur eingesetzt werden. Rb J(y + φ) = a ( 21 p(x)((y(x) + φ(x))0 )2 − f (x)(y(x) + φ(x))) dx Rb = a (21 p(x)(y 0 (x))2 − f (x)(y(x))) dx Rb + a (p(x)y 0 (x)φ0 (x) − f (x)φ(x)), dx R b +2 a 12 p(x)(φ0 (x))2 dx Rb Rb = J(y) + a (py 0 φ0 − f φ) dx + 2 a 12 pφ0 2 dx Hieraus ergibt sich in ganz elementarer Weise (Differenzieren nach und danach Null setzen, d.i. den “Koeffizienten” von nehmen: Z b (py 0 φ0 − f φ) dx δJ(φ) = a als 1.te Variation. Angenommen, p ist stetig differenzierbar und man sucht nur Lösungen, die mindestens 2-mal stetig differenzierbar sind. Kann δJ zur Herleitung einer DGL für y herangezogen werden? Antwort: Ja, es gilt (im offenen Intervall) −(py 0 )0 − f = 0 (Randbedingungen waren y(a) = y0 , y(b) = y1 ), also ein Randwertproblem. BW: Zunächst folgt mittels partiellen Integrierens (wir integrieren nach φ0 ): Rb Rb δJ(φ) = a py 0 φ0 dx − a f φ dx Rb Rb b = py 0 φa − a (py 0 )0 φ dx − a f φ dx | {z } R b=0 = a (−(py 0 )0 − f )φ dx. Jetzt erweist sich unter den gemachten Voraussetzungen ψ := −(py 0 )0 − f auf dem offenen Intervall (a, b) als stetig. Wir behaupten, daß ψ = 0 gilt. Wenn nicht, gibt es ein x0 ∈ (a, b) mit ψ(x0 ) 6= 0 und wir nehmen einfachheitshalber ψ(x0 ) > 0 an. Dann gibt es wegen der Stetigkeit von ψ ein Teilintervall (x0 − η, x0 + η) von (a, b) auf dem ψ > 0 ist. Mittels der Testfunktion aus Beispiel 136 (S.143) konstruiert man durch Skalieren eine Testfunktion φ, die auf genau dem gleichen Intervall positiv ist. Danach ergibt sich δJ(φ) > 0 für dieses φ, ein Widerspruch. Rb Es sei jetzt J(y) := a L(x, y, y 0 ) dx, wobei L stetig differenzierbar sei. Wie lautet die entsprechende Formel für die 1.te Variation? Rb Antwort: Es ist δJ(φ) = a (Ly (x, y, y 0 )φ + Ly0 (x, y, y 0 )φ0 ) dx. BW: Zunächst berechnen wir die Ableitung nach . Es ist Rb d d J(y + φ) = L(x, y + φ, y 0 + φ0 ) dx d Rdb ∂a = a ∂ (L(x, y + φ, y 0 + φ0 )) dx Rb = a Ly (x, y + φ, y 0 + φ0 )φ + Ly0 (x, y + φ, y 0 + φ0 )φ0 dx 5.1. Vektorräume 165 Nun setzt man = 0 und bekommt den obigen Ausdruck. Unter der Annahme, daß L stetig differenzierbar (als Funktion in 3 Variablen) und 2-mal d stetige Lösungen gesucht werden, soll die Eulergleichung Ly − dx Ly0 = 0 hergeleitet werden. Rb BW: Es geht ganz analog wie vorhin. Lediglich der Term a Ly0 (x, y, y 0 )φ0 dx wird nach φ0 b R b d partiell integriert und ergibt Ly0 (x, y, y 0 )φa − a dx Ly0 (x, y, y 0 ) φ dx. Hierin verschwindet der erste Term, weil φ(a) = φ(b) = 0 gilt, und somit ergibt sich insgesamt Z b d 0 0 Ly (x, y, y ) − Ly0 (x, y, y ) φ(x) dx = 0 dx a woraus genauso wie oben auf das Verschwinden des Differentialausdrucks in (a, b) geschlossen wird. Wenn man 2-mal stetig differenzierbare Funktionsgraphen y(x) zuläßt, bekommt man mit dieser Methode tatsächlich R 1 p genau die Gerade y = x als kürzeste Verbindung von (0, 0) und (1, 1) im Falle J(y) = 0 1 + (y 0 )2 dx (Länge des Funktionsgraphen von y) und Randbedingungen y(0) = 0, bzw. y(1) = 1, wie es die Anschauung erwarten läßt? Antwort: Man bekommt zunächst, daß unter den 2-mal stetig differenzierbaren Kurven bestenfalls die Gerade y = x Lösung sein kann. 0 BW: Es ist Ly = 0 und Ly0 = √ y 0 2 . Die Eulergleichung ergibt sich zu 1+(y ) !0 y0 p = 0, 1 + (y 0 )2 p sodaß es eine Konstante c mit y 0 = c 1 + (y 0 )2 geben muß. Als Konsequenz ergibt sich (y 0 )2 = c2 (1 + (y 0 )2 ), also y 0 konstant, d.h. es kommen lediglich Geraden als Lösung in Frage. Die einzige Gerade, welche die Randbedingungen erfüllt, ist von der Form y = x. Angemerkt soll werden, daß die Methode keinen Beweis dafür liefert, ob J tatsächlich ein Minimum besitzt, so naheliegend dies auch erscheinen mag. Anmerkung 154 (Dualitätstheorie) Die wesentlichen Aussagen über Dualität und duale Abbildungen werden durch Dualitätstheorie für K-Vektorräume beschrieben: Annullator: Für eine Teilmenge X von V wird die Menge aller Funktionale v ∗ , für die X im Kern von v ∗ liegt, als Annullator X 0 von X bezeichnet. Er ist ein linearer Teilraum von V ∗ . Für eine Teilmenge Y von V ∗ soll der Annullator Y0 die Menge aller Elemente v ∈ V sein, für die u∗ (v) = 0 für alle u∗ ∈ Ũ gilt, kürzer Y0 = \ ker(u∗ ). u∗ ∈Ũ Man beachte, daß L(X)0 = X 0 und L(Y )0 = Y0 gilt. 166 Lineare Funktionalanalysis Dualität von Teilräumen von V und V ∗ : Jeder Teilraum von V (bzw. V ∗ ) ist eindeutig durch seinen Annullator in V ∗ (bzw. in V ) bestimmt, etwas formaler: Startet man von einem Teilraum U von V (bzw. Ũ von V ∗ ), und bildet den Annullator U 0 (bzw. Ũ0 ), so ist U = (U 0 )0 bzw. (Ũ0 )0 = Ũ . Ist U 0 Teilraum von U , so ist U 0 Teilraum von (U 0 )0 . “Annullator des Annullators eines Teilraumes ist eben dieser Teilraum.” Der Nachweis kommt in Beispiel 157 (S.167). Dualität und lineare Abbildungen: Ist f : U → V eine K-lineare Abbildung und f ∗ : V ∗ → U ∗ die duale Abbildung so ist f (U ) = X0 , wobei L(X) = ker(f ∗ ). Mit anderen Worten, die Gleichung v = f (u) hat eine Lösung u ∈ U genau dann, wenn man eine Basis X des Kerns von f ∗ angeben kann, derart, daß für alle x∗ ∈ X stets x∗ (v) = 0 gilt. Nachweis: Weil ker(f ∗ ) = {v ∗ ∈ V ∗ | ∀u ∈ U f ∗ (v ∗ )(u) = v ∗ (f (u)) = 0} = f (U )0 , ergibt die Dualität von Teilräumen f (U ) = (f (U )0 )0 = ker(f ∗ )0 = {v ∈ V | ∀u∗ ∈ ker f ∗ ist u∗ (v) = 0}. Bilinearform und Dualität: Es ist (v ∗ , v) 7→ v ∗ (v) eine Bilinearform, weil sie linear in jedem der beiden Argumente, wenn das jeweils andere Argument festgehalten wird. Deshalb schreibt man in Anlehnung an das übliche Skalarprodukt (etwa in der Theorie der Distributionen) v ∗ (v) in der Form hv ∗ , vi := v ∗ (v). Die zu f duale Abbildung f ∗ erfüllt hf ∗ (v ∗ ), ui = hv ∗ , f (u)i für alle v ∗ ∈ V ∗ und alle u ∈ U . Gelegentlich wird der Annullator U 0 = {v ∗ ∈ V | hv ∗ , U i = 0} von U als Orthogonalraum von U in V ∗ bezüglich dieser Bilinearform angesehen (und auch mit U ⊥ bezeichnet), bzw. Ũ0 = {v ∈ V | hŨ , vi = 0} (und mit Ũ ⊥ bezeichnet). Beispiel 155 (Geometrische Deutung der Dualität im IR3 ). Im K n lassen sich die Ideen ähnlich verstehen. Es sei U ein 1-dimensionaler Teilraum, also eine Gerade durch den Ursprung. Sie ist der Durchschnitt aller jener Ebenen, die durch diese Gerade gehen. Jede dieser Ebenen hat einen Normalvektor, und alle diese Normalvektoren liegen in einer Normalebene auf die Gerade durch den Ursprung. Diese Normalebene ist das U 0 . Vektoren (a, b, c) in U 0 (als Zeilen gedeutet) sind ja geradewegs durch die Bedingung ax + by + cz = 0 für alle (x, y, z)T auf der Geraden festgelegt. Geht man nun von U 0 aus, so ist (U 0 )0 als Menge jener Vektoren, die in all jenen Ebenen liegen, welche Kern von einem u∗ ∈ U 0 sind, offenbar geradewegs die Ausgangsgerade. Die Dualität besagt eben lediglich, daß die Normalebene auf die Gerade diese festlegt, und umgekehrt, die Normalebene durch die Gerade festliegt. Die Deutung von h·, ·i ist in V := IR3 wie folgt: Die Elemente von V ∗ sind Zeilen (a, b, c) 5.1. Vektorräume 167 U U U Ker(u^*) U^0 u^* Ebenen, die U enthalten Normalvektoren, die U^0 aufspannen U^0 x und jene in V Spalten y . Danach ist z x h(a, b, c), y i = ax + by + cz. z Im endlichdimensionalen Fall ist der Dualraum im wesentlichen der Gleiche wie der Ausgangsraum (genauer, sie sind algebraisch isomorph). Im nächsten Beispiel zeigen wir, daß das für unendlich dimensionale Vektorräume nicht einmal für einen endlichen Skalarkörper richtig sein kann. Beispiel 156 Es sei K = IF2 der Körper mit 2 Elementen (d.i. ZZ modulo 2) und wir betrachten die Menge V aller f ∈ K IN mit endlichem Träger. Man kann sich diese Menge als alle Polynome mit Koeffizienten in IF2 vorstellen. Dann ist {xj | j ∈ IN } ∪ {1} eine Basis von V (es ist zwar x0 = 1, jedoch 0 6∈ IN wie in Math.1 ET). Es leuchtet ein, daß V abzählbar ist. Es ist jedoch V ∗ nicht abzählbar: Sei nämlich eine beliebige Folge {an }∞ n=0 von Zahlen an ∈ IF2 gegeben. Davon gibt es sicher mehr als abzählbar viele. Jede solche Folge legt aber auch ein Funktional fest, indem jedem Basiselement xn der Wert an zugewiesen wird. Beispiel 157 (Nachweis für die Dualitätsaussage) Der Nachweis für die Dualität von Teilräumen und Annullatoren ist wie folgt: Es sei U Teilraum von V und X eine Basis von U 0 . Dann ist x∗ (u) = 0 für alle x∗ ∈ X und alle u ∈ U . Deshalb ist U in X0 = (L(X))0 = (U 0 )0 enthalten. Angenommen es gibt ein u ∈ U \ (U 0 )0 . Dann gibt es eine Basis B von U , die 168 Lineare Funktionalanalysis man zu einer Basis B ∪ {u} von L(U ∪ {u}) erweitern kann, welche schließlich zu einer Basis B ∪{u}∪C von ganz V erweiterbar ist. Definiert man nun die Abbildung φ : B ∪{u}∪C → K, indem man φ(b) = φ(c) = 0 für alle b ∈ B und alle c ∈ C und φ(u) = 1 setzt, so ist φ zu einem linearen Funktional erweiterbar (Basiseigenschaft!). Sichtlich liegt U im Kern von φ (weil die Basis B von U annulliert wird). Deshalb ist φ ∈ U 0 . Dann sollte aber φ(u) = 0 sein, weil ja u ∈ (U 0 )0 gewählt worden ist, ein Widerspruch. Der Nachweis für (Ũ0 )0 = Ũ verläuft ähnlich. Beispiel 158 (Dualität und Gleichungen) Es sei f : IR3 → IR2 die durch die bezüglich der kanonischen Basis festgelegte Matrix 1 1 −1 A= −1 −1 1 definierte lineare Abbildung. Für welche Vektoren ~b = b1 b2 kann die Gleichung A~x = ~b gelöst werden? Man überlege die Aufgabe elementar und erkläre die Aussage über Dualität und lineare Abbildungen in Anmerkung 154 (S.165). 1 (x1 + x2 − x3 ), wie man sofort mittels Matrizenrechnung Antw.: Offenbar ist A~x = −1 1 ~ ) einsieht. Deshalb kommen als Vektoren b lediglich Vektoren in der linearen Hülle L( −1 in Frage. Das ist gleichbedeutend damit, daß b1 + b2 = 0 gilt. Nun zur Erklärung der Dualitätsaussage: Man betrachtet lineare Funktionale y (als Zeilenvektoren) mit yA = 0 und findet somit eine Basis von Lösungen 1 1 −1 (y1 , y2 ) = (0, 0). −1 −1 1 Elementare Rechnung ergibt {(1, 1)} als solch eine Basis. Deshalb kann für einen vorgegebenen Vektor ~b die Lösbarkeit von A~x = ~b getestet werden, indem man (1, 1)~b = b1 + b2 = 0 überprüft. Genau dann, wenn diese Gleichung gilt, ist die Lösbarkeit gegeben. Beispiel 159 (Linearer Code) Es soll K := IF2 der Körper mit 2 Elementen sein. Weiters soll f : IF23 → IF24 durch f ((x1 , x2 , x3 )T ) := (x1 , x2 , x3 , x1 + x2 + x3 )T . definiert sein. Wie lautet eine Basis von ker(f ∗ )? 5.1. Vektorräume 169 Antwort: Bezüglich der kanonischen Basen in U 1 0 0 1 A= 0 0 1 1 := IF23 und V := IF24 ergibt sich als Matrix 0 0 1 1 (das übliche Rezept: Die Abbildung f der Reihe nach auf (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T anwenden und die entstehenden Spaltenvektoren als Spalten von A auffassen.) Wird V ∗ als Raum von Zeilenvektoren aufgefaßt, so findet man eine Basis von ker(f ∗ ) am einfachsten, indem man die Matrix A zunächst transponiert, somit eine Basis des Lösungsraumes AT ~y = 0 bestimmt (das sind gewisse Vektoren im IR3 ) und danach diese Basisvektoren (“rück”)transponiert, konkretermaßen: y 1 0 0 1 1 0 y2 T 0 1 0 1 0 A ~y = = y3 0 0 1 1 0 y4 Es ist nicht schwer, als Basis des Kerns von AT die einelementige Menge {(1, 1, 1, 1)} auszumachen. Nun kommt die eigentliche Deutung im Kontext mit der Kodierungstheorie: Jemand will 3-stellige Bitcodes, genauer, Wörter der Länge 3 im freien Monoid über dem Alphabet {0, 1}∗ senden und versieht sie mit einem Extrabit (Paritycheck), sendet also Wörter der Länge 4 nach folgendem Prinzip: 3 • Die 3-stelligen Wörter werden als Elemente in IF2 aufgefaßt. So entspricht z.B. 101 dem 1 Vektor 0 . 1 • Jedem Wort 100, 010 bzw. 001 wird (in unserem Beispiel) das ungerade Bit, nämlich 1 angehängt. Danach deutet man diesen Vorgang als Festlegen einer linearen Abbildung f : IF23 → IF24 , nämlich genau jene von oben. Die lineare Abbildung f ergibt somit eine Vorschrift, welches Bit an ein Wort, etwa 110, angehängt wird, nämlich die letzte Koordinate des Bildes f ((1, 1, 0)T ) = (1, 1, 0, 0)T , d.h. ‘0’, also hat man danach das Wort 1100. Die Menge aller dieser Wörter wird (linearer) Code genannt. Lediglich Wörter in C werden gesendet (und sollten empfangen werden). Nun wird das Wort 1100 gesendet (Extrainformation das Extrabit am Ende des Wortes). 170 Lineare Funktionalanalysis • Angenommen, beim Empfänger kommt ein möglicherweise verändertes Wort (z.B. ein Bit wird falsch übertragen) an, etwa 1110. Wie kann er feststellen, ob das Wort überhaupt zum Code gehört (wenn nicht, so ist mit Sicherheit ein Übertragungsfehler vorgefallen). Zum Code gehört das empfangene Wort, wenn es, als Vektor in IF24 gedeutet im Bild von f liegt. Dies läßt sich aber sofort testen, indem man die Elemente der Basis des Kerns von f ∗ als Zeilenvektoren deutet (in unserem Fall lediglich das (1, 1, 1, 1), es ist nur ein Basiselement vorhanden) und auf das vorgegebene Wort “anwendet”. Für das Wort 1110 ergibt Matrizenmultiplikation 1 1 (1, 1, 1, 1) 1 = 1 6= 0, 0 sodaß das Wort 1110 als fehlerhaft erkannt wurde. Die Terminologie ist in der Literatur (z.B. in http://www.inf.fh-flensburg.de/lang/algorithmen/code/linear.htm) wie folgt: Das Bild von f heißt (linearer) Code und wird üblicherweise als Zeilen geschrieben. Die Matrix AT heißt in diesem Kontext Generatormatrix und der Code entsteht durch Linksmultiplikation mit Zeilen, z.B. ist 1 0 0 1 (1, 1, 0) 0 1 0 1 = (1, 1, 0, 0) 0 0 1 1 das Codewort 1100. Die Basis des Kerns von f ∗ (unser (1, 1, 1, 1)) wird nunmehr als Spalte geschrieben und die Matrizenrechnung eben “andersherum” ausgeführt, nämlich als 1 1 (1, 1, 0, 1) 1 = 1 6= 0, 1 somit ist 1101 nicht im Code. Die Matrix H := (1, 1, 1, 1) wird als Kontrollmatrix bezeichnet. 5.2 Normierte lineare Räume, Banachräume p Die übliche Länge eines Vektors im IR3 , definiert durch k~v k = v12 + v22 + v32 (“Satz von Pythagoras”) erfüllt die nachstehenden Eigenschaften. Die erste besagt, daß die Länge des Vektors niemals negativ ist, die zweite, daß beim Skalieren eines Vektors mit dem Skalar k die Länge des skalierten Vektors das |k|-fache des unskalierten Vektors ist, und die dritte Eigenschaft ist im Bild dokumentiert. Vektorräume, die eine solche Normfunktion besitzen, nennt man normierte Vektorräume: 5.2. Normierte lineare Räume, Banachräume 5.2.1 171 Norm, Vollständigkeit Definition 160 Es sei V ein Vektorraum mit Skalarkörper K einer der Körper IR oder C und für k ∈ K sei |k| der Betrag von k. Normierter Vektorraum: Unter einer Norm auf V versteht man eine Funktion k · k : V → IR mit folgenden für alle u, v ∈ V und k ∈ K geltenden Eigenschaften: • kuk ≥ 0 und kuk = 0 genau dann, wenn u = 0 ist. (Definitheit) • kkuk = |k|kuk. (Homogeneität) • ku + vk ≤ kuk + kvk. (Dreiecksungleichung) u E= + v { v E {{{{ { {oo7 {o{o{ou { o o{ Dreiecksungleichung Die durch d(u, v) := ku − vk definierte Funktion ist eine Metrik und heißt durch die Norm k · k induziert. Das Paar (V, k · k) heißt normierter Vektorraum. Banachraum: Ist der normierte lineare Raum in der induzierten Metrik vollständig, so heißt er Banachraum. Jeder abgeschlossene Teilraum eines Banachraumes ist selbst vollständig bezüglich der von der Norm auf ihm induzierten Metrik. Beispiel 161 Einfache Beispiele: 1. Es sei K := IR und V := IR. Weiter sei kvk := |v|, also der übliche Betrag einer reellen Zahl (ihr Absolutbetrag). Man verifiziert • |kv| = |k||v| und |u + v| ≤ |u| + |v| für alle reellen Zahlen k, u, v, also die Gültigkeit der Gesetze einer Norm. • Die induzierte Metrik d(u, v) = |u − v| ist die übliche Abstandsmetrik (Abstand zweier Zahlen auf der Zahlengeraden). • IR ist somit ein reeller Banachraum. Ähnlich überlegt man sich das für C. Es ist C sowohl als reeller, als auch komplexer Banachraum auffaßbar, wobei C als reeller Banachraum die Dimension 2 hat. 2. (Würfelnorm, auch Maximumsnorm) Es sei V = IR2 , aufgefaßt als Vektorraum mit Skalarkörper K = IR. Nun sei die Funktion k·k : V → IR durch k(x, y)k := max{|x|, |y|} definiert. 172 Lineare Funktionalanalysis y x In der Skizze sieht man einen Vektor x . Seine Norm ergibt sich, wie im y Bild angegeben als Betrag der betragsgrößten Komponente. ||(x,y)||=|x| Liegt eine Norm vor? Antwort: (Definitheit) Die Funktion ist nicht negativ und Null genau dann, wenn der Vektor (x, y) = (0, 0). (Homogeneität) Für alle k 6= 0 ist |x| ≤ |y| genau dann, wenn |k||x| = |kx| ≤ |ky| = |k||y|, sodaß im Falle k(x, y)k = |y| die geforderte Gleichung kkuk = |k|kuk gilt. Ist |y| ≥ |x| so geht man analog vor, um diese Gleichung nachzuweisen. (Dreiecksungleichung) Es seien u := (u1 , u2 ) und v = (v1 , v2 ). Die Dreiecksungleichung für die Betragsfunktion von Zahlen ergibt für i ∈ {1, 2} |ui + vi | ≤ |ui | + |vi | ≤ max{|u1 |, |u2 |} + max{|v1 |, |v2 |} = kuk + kvk. Hieraus ergibt sich insbesondere ku + vk = max{|u1 + v1 |, |u2 + v2 |} ≤ kuk + kvk. Ist (V, k · k) ein Banachraum? Antwort: Es sei {un }∞ n=1 , mit un := (xn , yn ) eine Cauchyfolge. Dann ist |xn − xm | ≤ kun − um k, |yn − ym | ≤ kun − um k, ∞ sodaß sowohl {xn }∞ n=1 als auch {yn }n=1 CF in IR sind. Da IR vollständig ist, gibt es Limiten sodaß man den Vektor u := (x, y) mit x := limn→∞ xn und y := limn→∞ yn definieren kann. Wir zeigen die Konvergenz der Folge {un }∞ n=1 gegen u im Sinne der gegebenen Norm: sei > 0, so gibt es ein N ∈ IN mit |xn − x| < und |yn − y| < für n ≥ N . Dann ist kun − uk = max{|xn − x|, |yn − y|} < für diese n, somit ist die CF konvergent, somit IR2 bezüglich der Norm Banachraum. Man skizziere die Einheits“kugel”, d.i. die Menge K(0, 1) := {u | kuk ≤ 1}. Man überlegt sich sofort, daß (x, y) ∈ K(0, 1) genau dann liegt, wenn sowohl |x| ≤ 1, also auch |y| ≤ 1 gilt. Es ist somit K(0, 1) = {(x, y) | |x| ≤ 1 ∧ |y| ≤ 1}, ein Quadrat mit der Seitenlänge 2. Anmerkungen zum Beispiel: (-1,1) (1,1) (-1,-1) (1,-1) 5.2. Normierte lineare Räume, Banachräume 173 IRn mit der Würfelnorm : Analog erweist sich für (x1 , . . . , xn ) ∈ IRn die Funktion k(x1 , . . . , xn )k := max{|xi | | i = 1, . . . , n} als Norm und IRn ist ein Banachraum. Eine Folge konvergiert bezüglich der Norm, wenn sie “koordinatenweise” konvergiert. Als Einheitskugel entsteht im IR3 ein Würfel, und ein “Hyperwürfel” in höheren Dimensionen. Reellwertige beschränkte Funktionen mit Supremumsnorm: Schließlich ist es mit der gleichen Art von Überlegungen möglich, für eine beliebige Menge X nachzuweisen, daß die Menge B(X, IR) der beschränkten, reellwertigen Funktionen, d.i. die Menge aller f ∈ IRX , für welche kf k∞ := supx∈X |f (x)| existiert, daß (B(X, IR), k · k∞ ) ein Banachraum ist. Für X := {1, 2} kehrt man zum Ausgangsbeispiel des IR2 zurück. 3. (Stetige Funktionen und Supremumsnorm) Es sei I = [0, 1] das Einheitsintervall und V := C(I, IR) die Menge aller stetigen, reellwertigen, auf I definierten Funktionen. Es werde kf k := supx∈I |f (x)| definiert. Ist hierdurch eine Norm definiert und C(I, IR) ein normierter Vektorraum? Antwort: Ja. Wir gehen die einzelnen Punkte durch. (Wohldefiniertheit) Zunächst ist zu zeigen, daß für auf I stetiges f supx∈I |f (x)| nicht womöglich +∞ ist. Es ist I ein kompaktes Intervall und nach dem Satz von Weierstraß (Anmerkung 129 (S.135) 4.) ist f deshalb beschränkt. (Definitheit) Sichtlich ist die Funktion k · k nicht negativ. Angenommen kf k = 0 und es sei x ∈ I. Dann ist |f (x)| ≤ supx∈I |f (x)| = kf k = 0, also f die Nullabbildung. (Homogeneität) Es sei k ∈ IR. Dann ist |kf (x)| = |k||f (x)| für alle x ∈ I. Hieraus entnimmt man für alle x ∈ I sowohl |k||f (x)| = |kf (x)| ≤ sup |kf (x)| = kkf k, x∈I als auch |kf (x)| = |k||f (x)| ≤ |k| sup |f (x)| = |k|kf k, x∈I und geht man jeweils links zum Supremum über, ergeben sich die Ungleichungen |k|kf k ≤ kkf k und kkf k ≤ |k|kf k, aus denen die Gleichheit |k|kf k = kkf k folgt. (Dreiecksungleichung) Es seien f, g ∈ C(I). Dann gilt für alle x ∈ I |f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ sup |f (t)| + sup |g(t)| = kf k + kgk, t∈I t∈I sodaß man auch links zum Supremum übergehen kann. Es ist die Supremumsnorm eine Norm und deshalb C(I) ein normierter linearer Raum. Ist C(I) mit dieser Norm ein Banachraum, m.a.W., ist er vollständig? Antwort: Ja. Hier der Beweis. Es sei {fn }∞ n=1 eine Cauchyfolge. Dann ist für jedes x ∈ I auch die Folge der Werte {fn (x)}∞ eine CF. Wegen der Vollständigkeit von IR gibt n=1 es somit einen Grenzwert f (x) für jedes x ∈ I. 174 Lineare Funktionalanalysis Um die Stetigkeit von f an der Stelle x ∈ I zu zeigen, muß zu beliebigem > 0 ein δ > 0 mit |h| < δ ⇒ |f (x + h) − f (x)| < garantiert werden (Stetigkeitsdefinition). Weil {fn }∞ n=1 eine CF ist, gibt es N ∈ IN mit kfn − fm k < 3 für alle m, n > N . Dann ist auch für alle x ∈ I und diese m, n stets |fn (x) − fm (x)| < 3 , woraus für m → ∞ die Ungleichung |fn (x) − f (x)| < 3 folgt. Sei n ≥ N fest gewählt. Da fn an x stetig ist, gibt es ein δ mit |fn (x + h) − fn (x)| < 3 für alle h mit |h| < δ. Damit ergibt sich |f (x+h)−f (x)| ≤ |f (x+h)−fn (x+h)|+|fn (x+h)−fn (x)|+|fn (x)−f (x)| < + + = 3 3 3 für alle solchen h, also die Stetigkeit von f an x. Anmerkung zum Beispiel: Die Anmerkung vom vorigen Beispiel einbeziehend, erweist sich B(I, IR) mit der Supremumsnorm als Banachraum. Nimmt man das als gegeben an, verbleibt lediglich der Nachweis, daß jeder Grenzwert von stetigen Funktionen auf I wieder stetig ist. 4. (Stetige Funktionen und R 1 Integralnorm) Auf dem Raum C(I, IR) werde die Funktion k · k1 durch kf k1 := 0 |f (x)| dx erklärt. y f 1 x 0 Norm: Beträge der Flächen addieren Ist k · k1 eine Norm? Antwort: Ja. Hier der Nachweis der einzelnen Punkte. (Wohldefiniert) Da jede stetige Funktion f R-integrierbar ist, ist es auch |f |, sodaß kf k1 wohldefiniert ist. (Definitheit) Da |f (x)| ≥ 0 für alle x ∈ I gilt, kann das Integral nie negativ sein. Angenommen kf k1 = 0. Angenommen es existiert x0 ∈ I mit f (x0 ) 6= 0. Dann gibt es wegen der Stetigkeit von f ein δ mit |f (x)| ≥ 12 |f (x0 )| für |x − x0 | < δ. Deshalb ist Z 0 = kf k1 = 1 Z min{x0 +δ,1} |f (x)| dx ≥ 0 |f (x)| dx ≥ 2δ max{x0 −δ,0} ein Widerspruch. Somit ist f die Nullabbildung. |f (x0 )| = f (x0 )δ > 0, 2 5.2. Normierte lineare Räume, Banachräume 175 (Dreiecksungleichung) Sie folgt aus Sätzen der Integralrechnung: Z 1 Z 1 Z 1 |g(x)| dx = kf k1 + kgk1 . |f (x)| dx + |f (x) + g(x)| dx ≤ kf + gk1 = 0 0 0 Ist (C(I, IR), k · k1 ) ein Banachraum? Antwort: Nein, der Nachweis wurde in Beispiel 121 (S.123) 3. geführt. Anmerkungen zum Beispiel: Die Vervollständigung dieses Raumes bezüglich der k · k1 Norm heißt L1 (I, IR). In der Maßtheorie werden die Elemente von L1 (I, IR) als Funktionen beschrieben, die bis auf eine Nullmenge definiert sind, und die im Sinne des Lebesgueintegrals absolut integrierbar sind. Für die weiteren Entwicklungen (und Praxis numerischer Methoden) genügt es vorerst, die Elemente von L1 (I, IR) sich durch geeignete stetige Funktionen hinreichend genau approximiert zu denken. 5.2.2 Abgeschlossene Teilräume, Dimension Anmerkung 162 Folgende Fakten für abgeschlossene Teilräume, d.s. Teilräume, die im normierten Vektorraum V zugleich abgeschlossen sind, gelten: Normen im IRn : Im IRn sind alle Normen äquivalent zur Maximumsnorm, d.h. es gibt positive Konstanten c, C mit c max{|xi | | i = 1, . . . , n} ≤ k~xk ≤ C max{|xi | | i = 1, . . . , n}. Endlich-dimensionale Teilräume: sind stets abgeschlossen, auch dann, wenn V nicht vollständig ist. Folgenkompaktheit im Teilraum: Ein Teilraum L eines normierten linearen Raumes V ist genau dann folgenkompakt bezüglich beschränkter Teilmengen, d.h., jede beschränkte Folge enthält eine konvergente Teilfolge, wenn er endliche Dimension hat. Beispiel 163 Hier die Beweise: Äquivalenz der Normen im IRn : Zunächst ergibt sich aus X X k~x − ~y kV = k (xi − yi )~ei kV ≤ |xi − yi |kei kV ≤ max{|xi − yi | | i = 1, . . . , n}C i i für C := n max{k~ei kV | i = 1, . . . , n} sowohl die Behauptung für die Schranke nach oben (für ~y = ~0) als auch die Stetigkeit der Funktion φ(~x) := k~xkV . Deshalb ist im IRn die Menge K := {~x | k~xkV = 1} beschränkt und abgeschlossen, also kompakt. Demnach besitzt die Funktion φ wegen des Satzes von Weierstraß (Anmerkung 129 (S.135) 4.) ein Minimum c auf K, welches nicht Null sein kann. Deshalb ist k~xkV ≥ c. Nun ersetzt 1 man ~x := max{|yi ||i=1,...,n} ~y und erhält die behauptete Äquivalenz von Normen im IRn . 176 Lineare Funktionalanalysis Abgeschlossenheit von endlich-dim. Teilräumen: Es sei L endlichdimensionaler Teilraum des normierten Raumes (V, k·kV ) und B eine beliebige Basis von L. Dann P induziert die Norm k · kV eine Norm auf L, welche nach dem vorigen zur für ~x = b xb b ∈ L durch k~xkL := max{|xb | | b ∈ B} gegebenen äquivalent ist. Deshalb ist jede bezüglich der V -Norm konvergente Folge auch bezüglich der L-Norm konvergent, also insbesondere der GW in L und somit L abgeschlossen. Folgenkompaktheit für beschränkte Teilmengen im Teilraum ⇒ endlichdimensional: Es sei L zunächst ein beliebiger endlich-dimensionaler Teilraum von V , der nach vorigem abgeschlossen ist. Falls L 6= V , so ergibt sich aus Anmerkung 244 (S.269), daß stets ein y 6∈ L mit kykV = 1 und kl −ykV ≥ 21 für alle l ∈ L gefunden werden kann. Angenommen, der Raum hat unendliche Dimension. Dann kann damit induktiv eine Folge von Elementen yn der Länge 1 und Teilräume Ln = L(y1 , . . . , yn ) mit kyn −yj kV ≥ 12 für alle j < n gewonnen werden. Hieraus ergibt sich sofort daß für alle i, j stets kyi − yj k≥ 12 ist. Eine solche Folge ist somit zwar beschränkt, kann aber keine konvergente Teilfolge enthalten, ein Widerspruch. 5.2.3 Lp und lp Normen Im Abschnitt über Hilberträume wird das im Folgenden zu findende p = q = 12 sein. Die hier vorgestellten Räume sind klassische Standardbeispiele der Funktionalanalysis. Anmerkung 164 Die folgenden Ungleichungen spielen eine wichtige Rolle: Young : Es sei f : [0, ∞) → [0, ∞) streng monoton und stetig, weiter f (0) = 0 und limx→∞ f (x) = ∞, sowie g die Umkehrfunktion zu f . Dann ist für alle u, v ≥ 0 stets Z u Z v f (x) dx + uv ≤ g(y) dy . | 0 {z } | 0 {z } 1 2 Hölder, Integralform: Sind f, g beide auf dem Intervall [a, b] stückweise stetige, reellwertige Funktionen, und p > 1 sowie q durch die Gleichung p1 + 1q = 1 festgelegt, so ist Z b p1 Z b 1q Z b p q |f (x)g(x)| dx ≤ |f (x)| dx |g(x)| dx . a a a Für p = q = 2 kann die Cauchy-Schwarzsche Ungleichung (Anmerkung 182 (S.197)) in Integralform hergeleitet werden. 5.2. Normierte lineare Räume, Banachräume 177 Minkowski, Integralform: Auf dem Raum der auf [a, b] stetigen Funktionen ist durch p1 b Z p kf kp := |f (x)| dx a eine Norm definiert. Man nennt sie die Lp -Norm. Minkowski, Summenform: Ist I eine endliche Menge, so wird auf IRI durch !1 p kakp := X p |ai | i∈I eine Norm festgelegt, welche lp -Norm genannt wird. Lp und lp : Die Vervollständigung des Raumes der stetigen Funktionen bezüglich der Lp Norm heißt Lp (-Raum) und des Raumes der Folgen {xn }∞ n=1 mit fast allen Glieder gleich Null, heißt lp (-Raum). Wenn kfn − f kLp → 0, so spricht man von Konvergenz im Lp -Mittel, für p = 2 auch von Konvergenz im quadratischen Mittel, wobei man üblicherweise noch durch die Länge des Integrationsintervall dividiert (sie ist in unserem Beispiel 1). Beispiel 165 Hier sind Beweisskizzen der Ungleichungen. Young: Geometrisch ist der Sachverhalt einleuchtend: O x = g(y) y = f (x) y Die Fläche des Rechtecks mit den Seiten u, v ist nicht größer als die Fläche unterhalb des Graphen von f (bis u) plus die Fläche links vom Graphen von g (bis v). v _ _ _ _ __ _ _ _ 2 2 1 0 u /x Hölder: Zunächst wählt man in der Youngschen Ungleichung als Funktion f (x) := xp−1 und findet durch elementares Integrieren uv ≤ up v q + . p q Rb 1 Setzt man jetzt Jp (f ) := a (|f (x)|p dx) p , um die Schreibarbeit zu reduzieren, und (x)| g(x) u := |f Jp (f ) , v := Jq (g) und integriert von a bis b, so ergibt sich Rb a |f (x)g(x)| dx ≤ 1, Jp (f )Jq (g) 178 Lineare Funktionalanalysis woraus die Ungleichung folgt. Minkowski, Integralform: Die Ungl. von Minkowski ist die Dreiecksungleichung, die nun zu beweisen ist. Man geht von |f (x)+g(x)|p = |f (x)+g(x)||f (x)+g(x)|p−1 ≤ |f (x)||f (x)+ g(x)|p−1 + |g(x)||f (x) + g(x)|p−1 aus und wendet auf der rechten Seite für jeden Summanden auf die beiden Faktoren die Höldersche Ungleichung an. Man findet (mit etwas Akribie) kf + gkpp ≤ kf kp k|f + g|p−1 kq + kgkp k|f + g|p−1 kq . Der Ausdruck k|f + g|p−1 kq p entpuppt sich bei entsprechendem Einsetzen als kf + gkpq wobei auch q(p − 1) = p (als Konsequenz von p1 + 1q = 1) benützt wird. Danach zieht man links und rechts die p.te Wurzel. Minkowski, Summenform: Es genügt, I := {1, 2, . . . , n} und somit Folgen (a1 , a2 , . . . , an ) zu betrachten. Auf dem Intervall [0, n] werde nun f (x) := ai definiert, falls i − 1 ≤ x < i gilt. Nun ergibt sich die Lp -Norm geradewegs als lp -Norm und die Minkowskiungleichung für Folgen ergibt sich als Konsequenz. 5.2.4 Soboleffnormen Da im Sinne von Lp -Normen konvergente Funktionenfolgen im allgemeinen bestenfalls bis auf Lebesguenullmengen definiert sind, benötigt man zur Formulierung von Randwertproblemen Banachräume, die durch entsprechende Integralnormen kalkülmäßig leichter zu beherrschen sind (etwa wegen geeigneter Integrationsroutinen) als Räume mit gleichmäßiger Konvergenz, deren Konvergenzbegriff zu restringiert ist (schlechte Konvergenz – schwierige Approximationsprobleme). Deshalb wurden Räume definiert, welche Integralnormen auch von Ableitungen berücksichtigen. Hier soll das einfachste Beispiel (nämlich p = 1) präsentiert werden, welches bereits aufzeigt, daß man die Elemente des Raumes als stetige Funktionen interpretieren kann. Beispiel 166 1. (Der Soboleffraum W11 (I)), ein Banachraum stetiger Funktionen mit einer Integralnorm). Es sei C k (I, IR) mit I = [0, 1] der Raum der stetigen, auf (0, 1) k-mal stetig differenzierbaren (d.h. Ableitungsfunktion dort stetig) und mit in die Endpunkte 0 und 1 stetig fortsetzbaren Ableitungen. Es sei kf k := R1 0 |f (x)| dx + R1 0 |f 0 (x)| dx. Liegt eine Norm vor? Antwort: Ja, der Nachweis verläuft recht ähnlich wie in Beispiel 161 (S.171) 4. Ist C 1 ([−1, 1], IR) mit der Norm kf k := liegt ein Banachraum vor? R1 −1 |f (x)| dx + R1 −1 |f 0 (x)| dx vollständig, d.h. Antwort: Nein. Es sei fn := x2n−1 und wir betrachten die Folge {fn }∞ n=1 . Es ergibt sich nach etwas elementarem Integrale ausrechnen 1 1 1 1 + kfn − fm k = 2 − − 2n − 1 2m − 1 n − 1 m − 1 und mit Mitteln der Analysis überlegt man sich, daß dieser Ausdruck für m, n beide hinreichend groß, selbst beliebig klein wird, m.a.W., daß eine Cauchyfolge vorliegt. 5.2. Normierte lineare Räume, Banachräume 179 Ähnlich wie in Beispiel 161 (S.171) 4. ergibt sich, daß die einzig mögliche Grenzfunktion links von 0 den Wert −1 und rechts davon 1 annehmen muß. Dann ist, genau wie im zitierten Beispiel, die Grenzfunktion nicht stetig. Somit ist der Raum nicht vollständig. Anmerkung: In analoger Weise kann gezeigt werden, daß C 1 (I, IR) mit der obigen Norm nicht vollständig ist. Auf C 1 (I, IR) werde die Funktion φ(f ) := einer Norm erfüllt φ? R1 0 |f 0 (x)| dx betrachtet. Welche Eigenschaften Antwort: (Wohldefiniert) Es ist f 0 stetig, somit kann das Integral gebildet werden. 0 (Definitheit R 1 – Nein) Es ist |f (x)| ≥ 0, also φ(f ) ≥ 0 stets. Jedoch für f (x) := 1 ist φ(f ) = 0 |0| dx = 0 obwohl f nicht die Nullfunktion ist. (Dreiecksungleichung) Ihr Nachweis folgt aus den Regeln der Integralrechnung analog wie in Beispiel 161 (S.171) 4. Es sei nun C01 (I, IR) der Teilraum von C 1 (I, IR) mit u(0) = u(1) = 0 (homogene Randbedingungen). Ist φ eine Norm auf diesem Teilraum? Antwort: Ja. Wegen des vorigen Punktes ist lediglich zu zeigen,R daß φ(f ) = 0 stets 1 f = 0 nach sich zieht. Das ist jedoch der Fall, weil 0 = φ(f ) = 0 |f 0 (x)| dx zunächst f 0 = 0, also f = c, mit einer Konstanten c nach sich zieht, und weil wegen der Randbedingungen dann f = 0 folgt. (Poincarésche Ungleichung) Es werde die Norm φ(f ) ab jetzt mit k · k11 bezeichnet. Man zeige die Poincarésche Ungleichung kf k∞ ≤ kf k11 . Aus ihr folgere man, falls {fn }∞ n=1 bezüglich der Norm φ Cauchyfolge ist, so auch bezüglich der Supremumsnorm. Rx Antwort: Ist f ∈ C01 (I, IR), so gilt wegen f (x) = 0 f 0 (t) dt die Integralabschätzung Z x Z 1 |f (x)| ≤ |f 0 (t)| dt ≤ |f 0 (t)| dt = kf k11 0 0 für alle x ∈ I gültig. Hieraus ergibt sich die Poincarésche Ungleichung kf k∞ ≤ kf k11 . 1 Ist nun {fn }∞ n=1 bezüglich der Norm k · k0 eine CF, so ergibt die Abschätzung kfn − 1 fm k∞ ≤ kfn − fm k0 , daß sie auch CF bezüglich der Supremumsnorm ist. (Vervollständigung von C01 (I, IR) in C0 (I, IR)) Kann die Vervollständigung von C01 (I, IR) als Teilraum von C0 (I, IR) aufgefaßt werden? Antwort: Ja. Gemäß des Vervollständigungsprozesses wird jeder Klasse von Cauchyfolgen in C01 (I, IR) ein Grenzelement in der (abstrakten) Vervollständigung zugewiesen. 180 Lineare Funktionalanalysis Da jedoch jede Klasse von solchen CF auch eine solche in C0 (I, IR) ist, und dort genau ein Grenzwert vorhanden ist, darf man die Vervollständigung als Teilraum ansehen. Anmerkung: Die Norm kgk10 ist durch Grenzwertbildung zugänglich (was man in der Praxis kaum zu tun braucht). 2. (Soboleffraum H k (I) = Wk2 (I)) Analog wie vorher sei I := [0, 1] und V := C k (I) der Raum im Inneren von I mindestens k-mal stetig differenzierbaren und stetiger Fortsetzung der j.ten Ableitungen an den Rand für j ≤ k − 1. Man zeige, daß s Z 1 (|f (x)|2 + |f 0 (x)|2 + · · · + |f (k) (x)|2 ) dx kf k := 0 die Eigenschaften einer Norm erfüllt. Antwort: Ja, die Beweisführung ist völlig analog zur entsprechenden für W11 (I). Die Vervollständigung dieses Raumes entsprechend oft differenzierbarer Funktionen ist der Soboleffraum H k (I). Ähnlich wie bei W11 (I) erweisen sich seine Elemente als im klassischen Sinn k − 1 mal stetig differenzierbar. 3. (Der Raum H01 (I) – eingespannte Saite) qR 1 0 2 Es sei ψ(f ) := 0 |f (x)| dx. Welche Eigenschaften einer Norm sind erfüllt? Für welche Funktionen in C 1 (I) ist ψ(f ) = 0? Antwort: Die positive Definitheit ist nicht erfüllt, weil z.B. jede konstante Funktion f den Wert ψ(f ) = 0 ergibt. Ist umgekehrt ψ(f ) = 0, so folgt aus der Stetigkeit der Ableitung, daß f 0 = 0, also f konstant sein muß. Es sei C01 (I) die Menge der stetig differenzierbaren Funktionen, die an den Intervallenden Null ist (“eingespannte Saite”). Man zeige eine Poincarésche Ungleichung kf k∞ ≤ ψ(f ). Aus ihr soll abgeleitet werden, daß ψ eine Norm ist. Rx Antwort: Es ist f (x) = 0 f 0 (t).1 dt (Hauptsatz der Differential- und Integralrechnung) und wegen der Cauchy-Schwarzschen Ungleichung Anmerkung 164 ergibt sich qR q(S.176) qR Rx 0 Rx √ x 0 x 2 2 0 2 zunächst |f (x)| = | 0 f (t).1 dt| ≤ 0 |f (t)| dt 0 1 dt ≤ 0 |f (t)| dt x ≤ qR qR x 0 1 0 2 2 0 |f (t)| dt ≤ 0 |f (t)| dt = ψ(f ). Zusammengefaßt hat man die Ungleichung |f (x)| ≤ ψ(f ). Indem man links zum Supremum übergeht, ergibt sich die Poincarésche Ungleichung. Somit darf aus ψ(f ) = 0 auf f = 0 für f ∈ C0 (I) geschlossen werden. 5.3. Stetige lineare Operatoren 181 Kann die Vervollständigung von C01 (I) als Teilraum von C0 (I) angesehen werden? Antwort: Ja, die Begründung ist analog wie im vorigen Item des Beispiels. Numerische Verfahren (etwa die Ritzmethode) konstruieren Approximationen im Sinne der k · k10 -Norm. Diese Näherungsfunktionen sind dann automatisch Näherungen im Sinne der Supremumsnorm der stetigen Lösungsfunktion. Insbesondere läßt sich hierdurch das maßtheoretische Problem einer womöglich nur bis auf Lebesguenullmenge definierten Lösungsfunktion f vermeiden. Ein Vorteil des letztgenannten Soboleffraumes liegt in der Existenz eines inneren R1 Produkts (nämlich hf, gi = 0 f 0 g 0 dx), welches bei FEM auf quadratische Formen führt, wie wir in Kapitel 6 (S.215) ausführen wollen. 5.3 5.3.1 Stetige lineare Operatoren Stetigkeit=Beschränktheit, Operatornorm Anmerkung 167 Die folgenden Eigenschaften eines linearen Operators A : U → V sind für normierte K-Vektorräume (U, k · kU ) und (V, k · kV ) gleichwertig: 1. Stetigkeit: Für jede gegen ein u ∈ U konvergente Folge {un }∞ n=1 konvergiert die gegen Au. Folge {Aun }∞ n=1 2. Folgenstetigkeit in einem Punkt: Es gibt eine gegen ein u ∈ U konvergente Folge ∞ {un }∞ n=1 , für die {Aun }n=1 gegen Au konvergiert. 3. Gleichmäßige Stetigkeit auf U : A ist auf U gleichmäßig stetig. 4. Lipschitzstetigkeit: Es gibt ein λ mit kAu1 − Au2 kV ≤ λku1 − u2 kU . 5. Beschränktheit I: Das Bild jeder in U beschränkten Menge ist beschränkt. 6. Beschränktheit II: Das Bild der Einheitskugel in U ist beschränkt, d.h. es existiert C mit kAukV ≤ CkukU . Sind die Räume U, V zusätzlich vollständig (also Banachräume), so ist noch äquivalent dazu, daß: 7. Abgeschlossener Graph: Der Graph G(A) := {(u, Au) | u ∈ U } ist eine abgeschlossene Teilmenge von U × V bezüglich der Norm k(u, v)kU ×V := kukU + kvkV . Operatornorm: Die Zahlen supkukU ≤1 kAukV und supkukU =1 kAukV stimmen überein und werden als Operatornorm bezeichnet, kurz kAkVU oder auch kAk, wenn über die auf U bzw. V gewählten Normen kein Zweifel besteht. Der Operator heißt dann stetig oder beschränkt und es gilt für alle u ∈ U stets kAukV ≤ kAkVU kukU . 182 Lineare Funktionalanalysis Beispiel 168 Bevor wir Nachweise geben, einfache Beispiele: 1. Erfüllt die lineare Abbildung A : IR → IR, gegeben durch A(x) = 3x die 7 Kriterien. Antwort: Zunächst ist IR ein reeller Banachraum, also ist es sinnvoll, alle 7 Kriterien zu checken. Es sind 1. und 2. leicht einzusehen. 4. ist für λ := 3 erfüllt, und weil aus Lipschitzstetig stets die gleichmäßige Stetigkeit folgt, ist auch 3. erfüllt. Ist |x| ≤ C für eine Konstante C, so ist kAxk = |3x| ≤ 3C, also das Bild jeder beschränkten Menge, und insbesondere, der “Einheitskugel”, d.i. A([−1, 1]) = [−3, 3] beschränkt, also gelten 5. und 6. Schließlich besteht der Graph von A aus allen Punkten (x, Ax) = (x, 3x) mit x ∈ IR, und wenn (xn , 3xn ) eine konvergente Folge ist, so ist der GW von der Form (x, 3x), gehört also wieder zum Graphen, es gilt somit auch 7. Welchen Wert hat kAk? Antwort: kAk = sup|x|≤1 3|x| = 3. 2. (Alle linearen Abbildungen zwischen endlich-dimensionalen Räumen sind stetig) Es sei A : Cn → Cm gegeben. Welche der Bedingungen 1.-7. erfüllt A? Antwort: Weil Cn und Cm beides Banachräume sind, ist es sinnvoll, auch 7. mit einzubeziehen. Wiederum sind 1. und 2. sofort einsichtig – lineare Abbildungen im Koordinatenraum sind stetig, das weiß man! Wir wollen 6. nachweisen. Dazu vermerkt man, daß jede abgeschlossene Kugel in Cn kompakt ist, sodaß ihr Bild wegen Anmerkung 129 (S.135) 3. ebenfalls kompakt, und somit beschränkt ist. Hieraus folgt 5., weil ja jede beschränkte Menge in Cn in einer Kugel enthalten ist. Insbesondere ist kAk wohldefiniert und man hat kAxk ≤ kAk für alle x mit kxk ≤ 1. Ist u1 −u2 u1 6= u2 , so ist deshalb kA ku1 −u2 k k ≤ kAk, woraus wegen der Linearität von A sofort kA(u1 − u2 )k ≤ kAkku1 − u2 k folgt, also für λ := kAk die Lipschitzstetigkeit, d.i. 4. Da aus “Lipschitzstetig” stets “gleichmäßig stetig” folgt, gilt auch 3. Die Abgeschlossenheit des Graphen sieht man ähnlich wie in 1. ein. 3. Es sei A : IR2 → IR2 ein linearer Operator, der bezüglich kanonischer Basen durch die Matrix 2 1 , A := 0 1 gegeben ist. Wie kann seine Norm bestimmt werden? p x k = x2 + y 2 ≤ y 1 bestimmt, ist somit eine Kreisscheibe. Ihr Bild unter A ist die Menge 2x + y { | x2 + y 2 ≤ 1}. y Antwort: Die “Einheitskugel” wird hier durch die Ungleichung k p Weil die Kreisscheibe kompakt ist, ergibt sich kAk = maxx2 +y2 =1 (2x + y)2 + y 2 und somit erscheint es sinnvoll, die Aufgabe als Extremwertaufgabe zu formulieren: Gesucht 5.3. Stetige lineare Operatoren 183 ist das Maximum von f (x, y) := kA x y k2 = (2x + y)2 + y 2 unter der Nebenbedingung g(x, y) = 1 − (x2 + y 2 ) = 0. Die Multiplikatormethode von Lagrange führt dazu Φ(x, y, λ) := (2x + y)2 + y 2 + λ(1 − (x2 + y 2 )) nach x und y zu differenzieren, Null zu setzen und die Nebenbedingung verwendend, die Lösungen von 0 = 4x + 2y − λx 0 = 2x + 2y − λy 0 = x2 + y 2 − 1 zu ermitteln. Man hat somit ein Eigenwertproblem x x 4 2 =λ y y 2 2 vor sich und findet aus Gleichung (die λ2 − 6λ + 4 = 0 lautet) √ der charakteristischen √ die Werte λ ∈ {3 + 5, 3 − 5}. Multipliziert man die 1. der Gleichungen mit x, die 2. mit y, addiert, und setzt die 3.te ein, so ergibt sich λ = x(4x + 2y) + y(2x + 2y) = 2 = (2x + y)2 + y 2 = f (x, y), sodaß die gesuchte Lösung für die Norm 4x2 + 4xy p + 2y √ kAk = 3 + 5 ist. Anmerkungen: Warum bezüglich der hier gewählten euklidischen Norm ein Eigenwertproblem entsteht, läßt sich kurz so umreißen: Die Matrix AT A ist positiv semidefinit und somit kann sie durch eine orthogonale Matrix auf Diagonalgestalt gebracht werden mit nicht negativen Elementen in der Diagonale. Ordnet man diese der Größe nach, so wird schnell klar, daß der größte von ihnen das Quadrat der Norm sein muß. Die Quadratwurzeln der Eigenwerte sind die Längen der Halbachsen der Ellipse des Bildes des Einheitskreises und die Eigenvektoren deren Achsenrichtungen. Bezüglich der Würfelmetrik auf IR2 ist die Bestimmung der Norm von A schwieriger. 4. (Norm eines Funktionals auf lp ) Es soll für p > 1 auf IR2 die lp -Norm gewählt √ x ∗ werden, also k kp := p xp + y p . Wie kann für ein beliebiges Funktional f ∈ IR2 y nicht Null, gegeben als f (x, y) := ax + by die Norm kf k berechnet werden, wobei in IR die Betragsnorm gewählt wird? Antwort: Die Vorgehensweise kann ähnlich wie im vorigen Beispiel gewählt werden. Es soll f (x, y) := ax + by unter der Nebenbedingung g(x, y) = 1 − xp − y p = 0 maximal 184 Lineare Funktionalanalysis gemacht werden, wobei der Einfachheit halber a ≥ 0 und b ≥ 0 und dementsprechend insbesondere x ≥ 0 und y ≥ 0 gefordert werden kann. Die Kompaktheit der “Einheitssphäre” {(x, y) | xp + y p = 1} ergibt die Existenz des Maximums, sodaß die Methode von Lagrange, d.h. Ansatz Φ(x, y, λ) := ax + by + λ(1 − xp − y p ), nützlich erscheint. Differenzieren und Null setzen ergibt a − λxp−1 = b − λy p−1 y = 1 − xp − y p = 0, woraus 1 1 a p−1 b p−1 x = λp , y = λp , woraus man (bitte selbst die elementaren Zwischenschritte der Rechnung durchführen) mit der Bezeichnung q := 1 1 p + q = 1) 1 − p−1 1 = xp + y p = (λp) p p−1 (das ist gleichwertig zu k(a, b)kqq bekommt, aus der man den Wert von f an der Extremumsstelle kf k = f (x, y) = ax + by = (λp) 1 − p−1 (aq + bq ) = · · · = √ q x y ermitteln kann: aq + bq = k(a, b)kq . Anmerkungen: Zunächst folgt aus der Bedeutung der Norm von f die Ungleichung √ √ |ax + by| ≤ p xp + y p q xq + y q . Dies ist jedoch (für n = 2) eine diskrete Version der Hölderschen Ungleichung aus Anmerkung 164 (S.176), aus der man die Minkowskiungleichung (in der Summenform) leicht herleiten kann. Für p = 2 ist auch q = 2, sodaß in diesem Fall die Norm im Dualraum die “gleiche” wie im Ausgangsraum ist, eine Beobachtung, die für Hilbertraummethoden eine Rolle spielt. Angemerkt darf auch kf k = |a| + |b| werden, falls man in IR2 die Würfelnorm, also x k: = max{|x|, |y|} wählt. k y Definition 169 Ein Operator A : U → V heißt Isometrie, falls für alle u ∈ U stets kuk = kAuk gilt. Man beachte, daß jede Isometrie Kern Null hat. 5.3.2 (Topologischer) Dualraum In Definition 151 (S.160) wurde der algebraische Dualraum V ∗ eines linearen Vektorraumes V als Menge der linearen Abbildungen von V mit Werten im Skalarkörper vorgestellt, die linearen Funktionale. Bei der Verwendung normierter linearer (Funktionen)räumen betrachtet man sehr oft die stetigen linearen Funktionale. Definition 170 (topologischer Dualraum V 0 ) Ist (V, k·kV ) ein normierter linearer Raum mit Skalarkörper K (= IR oder C), so ist der aus allen stetigen linearen Funktionalen bestehende Teilraum von V ∗ der (topologische) Dualraum von V . Er soll mit V 0 bezeichnet werden. 5.3. Stetige lineare Operatoren 185 Anmerkung 171 (topologischer Dualraum V 0 ) Zusammenstellung von Fakten: Norm für stetige Funktionale: Wird im Einklang mit Anmerkung 167 (S.181) die Operatornorm kv 0 kV 0 := supkvkV ≤1 |v 0 (v)| verwendet, so ist (V 0 , k · kV 0 ) ein Banachraum. Der Nachweis ist in Unterabschnitt A.4.1 (S.267) zu finden. (Topologisch) duale Abbildung: Ist A : U → V stetige lineare Abbildung, und v 0 stetiges lineares Funktional auf V , so wird durch A0 (v 0 )(u) := v 0 (A(u)) die (topologisch) duale Abbildung A0 : V 0 → U 0 festgelegt (vgl. die Skizze in Definition 151 (S.160), in der A die Rolle von f und v 0 die von v ∗ zu übernehmen hat). Sie ist beschränkt, es gilt sogar kA0 k = kAk. Den Beweis findet man in Unterabschnitt A.4.1 (S.267). Beispiel 172 (Stetige und unstetige lineare Funktionale) 1. Es sei I := [0, 1] und C(I) der Raum der stetigen Funktionen Rmit der Supremumsnorm. 1 Welche der nachstehenden Funktionale sind stetig? J1 (f ) := 0 f (x) dx, δ(f ) := f (0) Antwort: Da J stetig mit J beschränkt für lineare Operatoren gleichwertig ist, genügt es, die Existenz von C ∈ IR mit |J(f )| ≤ Ckf k nachzuweisen. R1 Da |J1 (f )| ≤ 0 |f (x)| dx ≤ kf k ist, kann C = 1 gewählt werden und somit ist J1 stetig. Da |δ(f )| = |f (0)| ≤ kf k, gilt, kann C = 1 gewählt werden, und somit ist δ (die “Deltafunktion” als lineares Funktional interpretiert, man schreibt ja das gerne als R∞ f (0) = −∞ f (x)δ(x) dx, ein reiner Formalakt!) ist stetig. Welche Norm haben J1 bzw. δ? Antwort: Wir wissen schon |J(f )| ≤ 1 für alle f mit kf k = 1 und J = J1 bzw. J = δ. Deshalb ist kJk ≤ 1. Wählt R 1 man für f die konstante Funktion 1, so ergibt sich kf k = 1. Weil auch 1 = |J1 (f )| = 0 1 dx = |δ(1)| ist, ergibt sich 1 ≤ kJk ≤ 1, also kJk = 1 für J = J1 bzw. J = δ. R1 Es werde jetzt C[0, 1] mit der Integralnorm kf k1 := 0 |f (x)| dx (vgl. Item 4 in Beispiel 161 (S.171)) betrachtet. Man untersuche die Stetigkeit von J1 und δ und bestimme gegebenenfalls die Norm. Antwort: Für J1 ergibt sich Z |J1 (f )| ≤ 1 |f (x)| dx = kf k1 , 0 woraus man kJk ≤ 1 schließt, ähnlich wie vorhin. Wählt man f konstant gleich 1, so ergibt sich analog wie vorhin kJ1 k = 1. 186 Lineare Funktionalanalysis Die “δ-Funktion” (vgl. Anmerkung 247R (S.274)) ist nicht stetig in unserer Norm! Es 1 sei fn (x) := (1 − x)n . Dann ist kfn k1 = 0 (1 − x)n dx = n1 . Wäre nun δ stetig, so müßte limn→∞ δ(fn ) = 0 gelten. Es ist jedoch δ(fn ) = fn (0) = 1, also der Grenzwert gleich 1. qR 1 0 2 Es werde C0 (I) mit der Soboleffnorm kf k10 := 0 |f (x)| dx wie in Beispiel 166 1 (S.178).2 versehen. Ist das durch δ 1 (f ) := f ( 2 ) definierte Funktional δ 1 linear und 2 2 stetig? Antwort: Die Linearität istRrecht einfach zu beweisen. (In der Diracschreibweise würde ∞ man das Funktional durch −∞ f (x)δ(x − 21 ) dx ausdrücken, rein formal!). Um die Stetigkeit nachzuweisen, beachtet man 1 |δ 1 (f )| = |f ( )| = | 2 2 Z 1 2 Z 0 f (x) dx| ≤ 0 1 |f 0 (x)| · 1 dx, 0 und nun kann man mittels Cauchy-Schwarzscher Ungleichung (in Integralform, vgl. etwa Anmerkung 164 (S.176)) der Term rechts durch kf k10 abgeschätzt werden. Also ist das Funktional stetig! Anmerkung 173 (Vervollständigung durch isometrische Einbettung in einem Dualraum) Ist (V, k · kV ) ein zu vervollständigender normierter (Funktionen)raum, und läßt er sich als Teilraum des Dualraumes eines normierten Vektorraums (W, k · kW ) auffassen, derart daß für alle v ∈ V stets kvkV = kvkW 0 (Norm im Dualraum) gilt, so ist die Vervollständigung von V bezüglich k · kV gleich der Menge aller Häufungspunkte in W 0 bezüglich k · kW 0 . Beispiel 174 Als klassische Anwendung zeigen wir: 1. Beschreibung von Lq für q > 1 als Dualraum von Lp ). Es sei V = C([0, 1]) der R 1 p 1 p Raum der stetigen Funktionen und auf ihm für p > 1 die Norm kf kp := 0 |f (x)| dx gegeben. (Dies ist die Lp -Norm, siehe Anmerkung 164 (S.176)). Man zeige, daß für q, definiert durch p1 + 1q = 1 und stetiges g das lineare Funktional J, definiert durch R1 J(f ) := 0 g(x)f (x) dx stetig ist und die Norm von J sich als kJkV 0 = kgkq ergibt. Antwort(findung): Zunächst liest man aus der Integralform der Hölderungleichung (bei vertauschten Rollen von f und g) Z |J(f )| = | 1 Z 1 g(x)f (x) dx| ≤ 0 |g(x)f (x)| dx ≤ kgkq kf kp 0 ab. Somit ist J beschränkt und kJkV 0 ≤ kgkq . Die umgekehrte Ungleichung ist für g = 0 klar und für g 6= 0 gewinnt man sie mit p einem Kunstgriff: Wir betrachten f := |g|q−1 sign g. Zunächst ist wegen q = p−1 der 5.3. Stetige lineare Operatoren 187 Exponent> 0 und weiter ist |f |p = |g|q . Dies setzen wir in die grundlegende Ungleichung für die Norm, nämlich |J(f )| ≤ kf kp kJkV 0 ein und bekommen Z 0 1 Z q−1 g(x)|g| sign g dx ≤ 1 ||g|q−1 sign g|p p1 kJkV 0 . 0 Die linke Seite erweist sich als kgkqq , und die rechte Seite nach etwas Rechnung als kgkq−1 q kJkV 0 . Danach wird aus der Ungleichung kgkqq ≤ kgkqq−1 kJkV 0 , woraus Division die umgekehrte Ungleichung kgkq ≤ kJkV 0 ergibt. Wie kann man Lq nun als Raum linearer Funktionale verstehen? Antwort: Es wurde gezeigt, R 1 daß jedes g ∈ C[0, 1] als lineares Funktional auf C[0, 1] durch die Bedingung Jg (f ) := 0 g(x)f (x) dx aufgefaßt werden kann. Dies kann als Abbildung J : C(I) → C(I)0 verstanden werden, nämlich J(g) = Jg . Im Vorangegangenen wurde kJ(g)k = kgkq gezeigt. Deshalb ist J eine Isometrie. Der Abschluß des Bildes von J (also die Menge aller Häufungspunkte) in C(I)0 ist somit als Banachraum isomorph zu Lq , der Vervollständigung von C(I) unter der Lq -Norm. 2. (Variationsaufgabe eingespannte Saite und isometrische Einbettung) Es sei I = [0, 1] und p stückweise stetig auf unten durch eine positive KonR 1 I und nach 0 stante beschränkt. Nun soll J(y) := 0 L(x, y, y ) dx für L(x, y, y 0 ) := 12 (y 0 )2 − f (x)y minimiert werden (Vgl. das Variationsproblem in Beispiel 153 (S.163)), wobei noch y(0) = y(1) = 0 als Randbedingungen gestellt werden (mit Kraftdichte l belastete, an den Enden eingespannte Saite). Wie dort gezeigt, interessiert man sich für die 1.te R1 Variation δJ(φ) := 0 (py 0 φ0 + f φ) dx, die man Null setzt. Dabei verlangt man von φ stetig differenzierbar zu sein und die Randbedingungen qR zu erfüllen. Auf C0 (I) werde 1 0 1 2 wie in Beispiel 166 (S.178) die Soboleffnorm kφk0 := 0 |φ (x)| dx definiert. Es sei f stückweise stetig. Man zeige, daß für beliebiges y ∈ C01 (I) das Funktional δJ(y) stetig ist. R1 Antwort: Die Stetigkeit von J(φ) := 0 py 0 φ0 dx läßt sich wie folgt nachweisen: Z 1 Z 1 |J(φ)| ≤ p(x)|y 0 ||φ0 | dx ≤ kpk∞ |y 0 ||φ0 | dx ≤ kyk10 kφk10 , 0 0 wobei kpk∞ := supx∈I |p(x)| die Supremumsnorm5 ist, und beim letzten Term die Cauchy-Schwarzsche Ungleichung (vgl. Anmerkung 164 (S.176)) in Integralform bzw. die Definition der Norm benützt wurden. R1 Nun zur Stetigkeit des zweiten Anteils des Funktionals δJ(y), nämlich φ 7→ 0 f (x)φ(x) dx. Man findet Z Z 1 1 f (x)φ(x) dx| ≤ kf k∞ | 0 5 siehe die Anmerkung zu Beispiel 161 (S.171).2. |φ(x)| dx, 0 188 Lineare Funktionalanalysis und da |φ(x)| ≤ kφk10 wegen der Poincaréungleichung, ergibt sich schließlich insgesamt die Stetigkeit von δJ(y). (Schwache Lösung) Welchen Wert hat die bisherige “Turnübung”? Antwort: Es erscheint sinnvoll, alle bezüglich der Norm k · k10 stetigen linearen Funktionale v 0 auf C01 (I) zu suchen, für die Z 0 1 lφ dx = 0 v (φ) + 0 für alle φ ∈ C01 (I) gilt. Jedes solche v 0 heißt schwache Lösung des Variationsproblems. In Kapitel 6 (S.215) wird gezeigt werden, wie man mittels des Darstellungssatzes von Riesz grundsätzlich v 0 beschreiben kann. Hierauf fußen wohl auch FEM-Methoden. Andrerseits ist jedes solche v 0 als stetige Funktion auffaßbar, ein entscheidendes Faktum für die physikalische Interpretation. Deshalb wird jede numerische Methode (FEMRitzverfahren) darauf abzielen, Abschätzungen der k · k∞ für die Güte der Näherung anzugeben. Es ist dieser Punkt, bei dem die Rolle der Hutfunktionen Beispiel 146 (S.154) zu tragen kommt. 5.3.3 Kompakte Operatoren Kurze Vorgeschichte: das Randwertproblem y 00 = f (x) wobei y(0) = y(1) = 0 gilt, führt unter entsprechenden Voraussetzungen auf eine geschlossene Integralformel6 für die Lösung, nämlich Z 1 y(x) = K(x, u)f (u) du, 0 wobei Rt Hier ist die Herleitung: Zunächst ergibt Integration y 0 (t) = f (u) du + c mit noch zu 0 R Rt x bestimmender Konstante c. Nochmaliges Integrieren ergibt y(x) = dt 0 f (u) du + cx, wo0 R1 Rt bei schon y(0) = 0 erfüllt ist. Damit y(1) = 0 gilt, muß c := − 0 dt 0 f (u) du gewählt werden. Die beiden iterierten Integrale können in einfache Integrale verwandelt werden. 6 t x u x Rx Rt R Es ist 0 dt 0 f (u) du = f (u)d(u, t) wobei R B das in der B auftretende Dreieck ist. Dann ist jedoch B f (u)d(u, t) = RSkizze R R x x x du f (u) u dt = 0 (u − x)f (u) du. Beim 2.ten Integral ist x = 1 0 und die gleiche Umformung funktioniert. Danach ergibt sich die Definition von K durch Fallunterscheidungen. 5.3. Stetige lineare Operatoren 189 x K(x, u) = u(x − 1) 0 ≤ x ≤ u ≤ 1 oberes Dreieck: 1 x(u − 1) 0 ≤ u ≤ x ≤ 1 unteres Dreieck: 2 1 2 u Das K wird oft als Greenfunktion bezeichnet und der Integraloperator, der vorgegebener Inhomogeneität des Randwertproblems die offenbar eindeutige Lösung zuordnet, als Greenoperator. Auch beim Dirichlet- bzw. Neumannproblem, welches bei der Berechnung des Potentials eines Feldes bei homogenen Randdaten und vorgegebener Ladungsdichte auftritt, ergibt sich eine (wesentlich kompliziertere) Integraldarstellung der Lösung. Eine Annehmlichkeit dieser Integraloperatoren ist ihre sogenannte Kompaktheit, nicht zu verwechseln mit jener von Mengen im metrischen Raum. Als Konsequenz dieser Kompaktheit ergibt sich die Existenz von Eigenwerten und Räumen, auf die in Unterabschnitt 6.2.4 (S.223), bei der Konstruktion der Rieszabbildung für das Problem der eingespannten Saite eingegangen werden soll. Wir wollen diese wichtigen Eigenschaften hier kurz zusammenfassen. Definition 175 (Kompakter linearer Operator) Ein linearer Operator A : U → V ist ∞ kompakt, wenn für jede in U beschränkte Folge {un }∞ n=1 die Folge {Aun }n=1 eine in V konvergente Teilfolge besitzt. Anmerkung 176 (Kompakter linearer Operator – Fakten) Wesentliche Fakten für einen kompakten Operator K : U → V sind: Stetigkeit: K stetig. (Nicht jeder stetige Operator ist kompakt). Endliche Dimension von Kernen von I − σK: Der Lösungsraum von (I − σK)u = 0 ist für beliebiges σ ∈ C endlich-dimensional. Diese Aussage impliziert die endliche Dimension jedes Eigenraumes E(λ) = {u | (K − λI)u = 0} für λ 6= 0. Konvergenz: Bezüglich der Supremumsnorm bilden die kompakten Operatoren einen abgeschlossenen Teilraum des Raumes der beschränkten Operatoren, d.h. wenn Kn → K im Sinne von kKn − Kk → 0, so ist K kompakt, sofern es die Kn sind. Dualer Operator K 0 , Fredholmeigenschaft von K: Der duale Operator K 0 ist kompakt. Es ist das Bild R(I − K) gleich dem Annulator des Kerns von I − K 0 und somit ein abgeschlossener Teilraum von V . Es gibt Teilräume M von U und N von V , sodaß I − K : ker(I − K) ⊕ M → R(I − K) ⊕ N, 190 Lineare Funktionalanalysis wobei M abgeschlossen und N endlichdimensional sind und I − K eine stetige Bijektion von M auf R(I − K) ist. Die Nachweise finden sich in Beispiel 245 (S.271). Beispiel 177 Paradebeispiele kompakter Operatoren sind von der Form Z (Ku)(x) := K(x, t)u(t) dt, I wobei an u, an den Integralkern K(x, t) und an den Wertebereich V geeignete Voraussetzungen gestellt werden. Auch hier wird uns der Abschnitt über die Saite Kapitel 6 (S.215) die 1dimensionale Version typischer Anwendungen liefern. Hier ist ein elementares Schulbeispiel, welche durchaus Standardüberlegungen widerspiegelt: Es sei U = V = C(I) mit I = [0, 1] und auf U . V die Supremumsnorm gegeben. Weiter sei K : I × I → IR stetig. Ist der wie oben definierte Operator kompakt? Hinweis: Zunächst zeige man dies für K(x, t) = xk f (t) und verwende danach den Satz von Stone-Weierstraß. R1 Antwort(findung): Es ist Ku(x) = xk 0 f (t)u(t) dt. Insbesondere liegt Ku im eindimensionalen Teilraum von C(I), der von xk erzeugt wird. Ist danach {un }∞ n=1 beschränkt, so ist die R1 Menge der Werte der Integrale { 0 f (t)un (t) dt | n ∈ IN } beschränkt, somit kann eine konvergente Teilfolge dieser Wertemenge gefunden werden. Somit konvergiert die entsprechende Teilfolge der Kun gegen ein xk r mit r ∈ IR. Deshalb ist solches K kompakt. Hieraus ergibt sich die Kompaktheit von K für jeden Kern ein Polynom in den 2 Variablen x und t, weil ja jede Linearkombination kompakter Operatoren kompakt ist. Schlußendlich verwendet man den Satz von Stone-Weierstraß, um zu beliebigem, stetigem K(x, t) ein Polynom P (x, t) zu finden, welches im Sinne der Supremumsnorm hinreichend nahe ist. Für diese Näherung P (x, t) ergibt sich die Abschätzung R1 |Ku − P u|(x) = | 0 (K(x, t) − P (x, t))u(t) dt R1 ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I} 0 |u|(t) dt ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk. Deshalb kann man links zur Supremumsnorm übergehen, bekommt kKu − P uk ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk, sodaß wegen der Definition der Operatornorm kK − P k ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I} gilt. Weil hierin der Ausdruck rechts durch geeignete Wahl von P (x, t) beliebig klein gemacht werden kann, wird K durch kompakte Operatoren der Bauart P im Sinne der Operatornorm approximiert, ist also nach obigem selbst ein kompakter Operator. 5.4. Hilberträume 5.4 191 Hilberträume Hilberträume sind Banachräume, deren Norm durch ein inneres Produkt induziert wird. Im p 3 2 Ip R , welcher ein sehr einfaches Beispiel ist, wäre dieses “Induzieren” durch k~ak= a1 + a22 + a23 = h~a, ~ai gegeben. Diese Form des Norminduzierens geht in jedem (Prä)hilbertraum. Das im IR3 bestgeübte innere Produkt (Skalarprodukt) ist das einfachste Beispiel und erlaubt, geometrische Intuition auch für Hilberträume unendlicher Dimension zu entwickeln. Dies betrifft • Winkel und Länge von Vektoren (dabei spielt die Ungleichung von Cauchy–BunyakovskiĭSchwarz die Hauptrolle). • Orthogonalität, Orthogonalprojektion, Zerlegen eines Vektors in Orthogonalkomponenten. • Orthogonalisierungsverfahren von Gram-Schmidt. • Minimierung positiv definiter quadratischer Funktionen. Im IRn ist jede quadratische Funktion von der Bauart f (~x) = ~xT A~x + 2~bT ~x + c, und wenn A positiv definit ist, kann man ein inneres Produkt (“Energieprodukt”) durch h~x, ~y iA := ~xT A~y festlegen und quadratisches Ergänzen ergibt f (~x) = k~xk2A + f (m), ~ wobei m ~ = −A−1~b der Mittelpunkt des Kegelschnittes mit der Gleichung f (~x) = 0 ist. Man erkennt die Minimumeigenschaft des Mittelpunkts sofort: f nimmt an m ~ das globale Minimum an. ist für n = 1 √ Die Idee √ in der Skizze klar zu sehen. Es wäre hx, yia = axy und kxka = ax2 = a|x|. y=ax^2+2bx+c y x m=−b/a Gelegentlich, vor allem bei “elementar bewältigbaren” Problemen, diagonalisiert man das Problem unter Benützung einer P Orthonormalbasis S = {sλ | λEigenwert von A} und bekommt nach dem Ansatz ~x = λ xλ sλ die bequemere Darstellung X X ~bT ~sλ xλ + c, f (~x) = λx2λ + 2 λ λ ~T deren Lösung ebenfalls durch Differenzieren auf xλ = − b λ~sλ führt. Diese Methode ist im wesentlichen die Singulärwertzerlegung. Probleme dieser Art sind üblicherweise statischer Natur (stabiles Gleichgewicht von belasteten Saiten, Seilen, Balken, Platten, und natürlich Elektrostatik und Magnetostatik) und sind FEM-Methoden i.A. zugänglich. 192 Lineare Funktionalanalysis • Lösen von Anfangswertproblemen ~x˙ + A~x = ~0, ~x(0) = ~x0 mit A positiv definit. Hierbei kann man die Matrix A mittels orthogonaler Transformation diagonalisieren, d.h. es gibt eine ONB aus Eigenvektoren von A. Danach kann das Anfangswertproblem in der Form X ~x(t) = e−λt h~x0 , ~sλ i~sλ λ gelöst werden. Auf diese Form von Problemen stößt man typisch bei der Wärmeleitungsgleichung (bei Diskretisieren bzw. FEM-Ansätzen). ¨ + A~x = ~0 und ~x(0) = ~x0 , ~ẋ(0) = ~y0 . Es wird gerne eine • Lösen von AWP der Form ~x P Orthogonalbasis {~ s } von Eigenvektoren von A verwendet. Es ist dann ~ x = sλ 0 λ λ ξλ~ P und ~y0 = λ ηλ~sλ , sodaß elementare Rechnung auf folgende Lösung führt: X √ √ ηλ ~x(t) = (ξλ cos( λt) + √ sin( λt))~sλ . λ λ Dies ist der Harmonische Oszillator in mehreren Freiheitsgraden, d.i., schwingende Ketten, miteinander durch Federn verbundene Kugeln, Schwingkreise ohne Dämpfung (keine Ohmschen Widerstände). Solche Probleme treten auch auf, wenn man die Wellengleichung diskretisiert, bzw. FEM-Methoden benützt. Aus Zeitgründen wird in Kapitel 6 (S.215) lediglich auf die erste Klasse von Problemen am Beispiel der belasteten Saite eingegangen werden. Für intensives Studium, vor allem von Problemen jenseits der eingespannten Saite, ist z.B. das Buch von J. Wloka, [35] geeignet. 5.4.1 Inneres Produkt, Prähilbertraum Definition 178 (Inneres Produkt) Es sei K der Körper der reellen oder der komplexen Zahlen und “¯ ” Konjugation. Weiter sei H ein K-Vektorraum. Ein inneres Produkt auf H ist eine Funktion h·, ·i : H × H → K, die für alle u, v, w ∈ H und alle k, l ∈ K folgende Eigenschaften hat: Definitheit: hu, ui ≥ 0 und hu, ui = 0 genau dann, wenn u = 0 ist. Symmetrie bis auf Konjugiertheit: hu, vi = hv, ui. Linearität in der zweiten Variablen: hu, kv + lwi = khu, vi + lhu, wi. Das Paar (H, h·, ·i) wird Prähilbertraum, auch euklidischer Vektorraum bzw. Raum mit innerem Produkt genannt. Beispiel 179 Elementarstes Beispiel ist das übliche Skalarprodukt des IRn (in der Einführung für n = 3 erwähnt). Weitere einfache Beispiele im Folgenden. 1. Es sei eine Funktion in 2 komplexen Variablen ha, bi := āb definiert. Ist (C, h·, ·i) ein Prähilbertraum? 5.4. Hilberträume 193 Antwort: Ja, wir gehen die Punkte durch. (Definitheit) Es ist ha, ai = āa = |a|2 ≥ 0, und weiter ist ha, ai sicher nur dann Null, wenn a = 0 gilt. (Symmetrie bis auf Konjugiertheit) Es ist ha, bi := āb = ab̄ = b̄a = hb, ai. (Linearität in der 2.ten Variablen) ha, kb + lci = ā(kb + lc) = kāb + lāc = kha, bi + lha, ci. Wenn man a und b in der komplexen Zahlenebene deutet, wie läßt sich ha, bi geometrisch deuten? Antwort: Stellt man a und b in der Form a = |a|eiα und b = |b|eiβ dar, so ist ha, bi = |a||b|ei(β−α) = |a||b|(cos(β − α) + i sin(β − α)). Haben somit a und b die Länge 1, so hat das innere Produkt als Real- bzw. Imaginärteil Kosinus, bzw. Sinus des Winkels zwischen a und b, entgegen dem Uhrzeigersinn gemessen. 2. (Durch Integral gegebenes inneres Produkt) Es sei I = [0, 1] das abgeschlossene Einheitsintervall und H := C(I, R 1 C) die Menge aller stetigen Abbildungen von I nach C. Für f, g ∈ H sei hf, gi := 0 f¯(t)g(t) dt. Ist (H, h·, ·i) ein Prähilbertraum. Antwort: Ja, die Punkte sollen kurz durchgegangen werden. R1 R1 (Definitheit) Es ist hf, f i = 0 f (t)f (t) dt = 0 |f (t)|2 dt, und weil mit die reellwertige Funktion t 7→ |f (t)|2 nicht negativ ist, ist gilt hf, f i ≥ 0. Ist hf, f i = 0, so folgt aus der Stetigkeit von f jene der reellen Funktion t 7→ |f (t)|2 , sodaß aus dem Verschwinden des Integrals für alle t ∈ I stets f (t) = 0 gefolgert werden kann. (Symmetrie bis auf Konjugiertheit) Z hf, gi = 1 Z 1 g(t)f (t) dt = hg, f i, f (t)g(t) dt = 0 0 wobei Rechenregeln für Integrale benützt worden sind. (Linearität in der 2.ten Variablen) Man muß Z 1 Z 1 f (t)(kg(t) + lh(t)) dt = k 0 Z f (t)g(t) dt + l 0 1 f (t)h(t) dt 0 nachweisen, und das geht mittels der Regeln zur Berechnung von Integralen. Hinweis: Seite 110 in Signale und Systeme 1. 194 Lineare Funktionalanalysis Beispiel 180 (Inneres Produkt im Cn bzw. IRn Zusammenfassung) 1. Es sei h·, ·i ein beliebiges inneres Produkt auf Cn . Man zeige, daß es eine n × n-Matrix A mit folgenden Eigenschaften gibt (a) Aij = h~ei , ~ej i und h~x, ~y i = ~x∗ A~y . (b) A∗ := AT erfüllt A∗ = A (A ist hermitisch). (c) A ist positiv definit, d.h. ~x∗ A~x > 0 für alle ~x 6= ~0. Umgekehrt, wenn A die drei Eigenschaften erfüllt, wird durch h~x, ~y i = ~x∗ A~y ein inneres Produkt auf Cn definiert. P P Antwort(findung): Es ist für ~x = i xi~ei und ~y = j yj ~ej wegen der Sesquilinearität des inneren Produkts XX X X h~x, ~y i = hxi~ei , yj ~ej i = x̄i yj h~ei , ~ej i = x̄i yj Aij = ~x∗ A~y . i j i,j i,j Also gilt (a). Um (b) zu zeigen, genügt es (A∗ )ij = Āji = h~ej , ~ei i = h~ei , ~ej i = Aij zu vermerken. Schließlich ist (c) gleichbedeutend mit der positiven Definitheit des inneren Produkts, weil wegen (a) die Gleichung k~xk2 = ~x∗ A~x gilt. 2. (Choleskyzerlegung) Jede positiv definite Hermitische Matrix (ihre definierende Eigenschaft ist, daß sie bei Transponieren und komplex-Konjugieren aller Einträge in sich selbst übergeht) erlaubt eine Zerlegung der Form A = LL∗ , mit L untere Dreiecksmatrix. Antwort: Hier ist ein Beweis gefragt, und üblicherweise wird er mittels Induktion nach n geführt: Ist n = 1, so ist nichts zu zeigen. Andernfalls erlaubt die Matrix die Blockzerlegung α ~a∗ A= ~a B und man bestätigt durch Rechnung ! √ ~0∗ α ~0 1 A= √1 ~ ~0 B − 1 ~a∗~a a I α α √ α ~0 √1 ~ a∗ α ! I Hiermit ist ein 1. Schritt des Choleskyverfahrens getätigt. Faßt man ihn als Koordinatentransformation auf, so erweist sich die mittlere Matrix wieder als positiv definit, insbesondere die (n − 1) × (n − 1) Matrix B − α1 ~a∗~a, die laut Induktionsvoraussetzung eine Zerlegung der Form U U ∗ mit U untere Dreiecksmatrix besitzt. Hieraus ergibt sich ! ! √ √ α ~0 α ~0 1 ~0∗ L= = , √1 ~ √1 ~ ~0 U a I a U α α welche sichtlich untere Dreiecksmatrix mit A = LL∗ ist. 5.4. Hilberträume 195 3. Es sei A hermitisch. Dann hat A eine Eigenbasis orthogonaler Vektoren. Ordnet man sie in eine Matrix S, so ist diese unitär, d.h. erfüllt S ∗ S = I und es gilt AS = SΛ, wobei Λ eine Diagonalmatrix aus Eigenwerten von A ist. Es ist die i.te Spalte von S Eigenvektor zum i.ten Eigenwert (als Diagonalelement in Λ). Die Matrix Λ ist reell und hat genau dann positive Diagonalelemente, wenn A positiv definit ist. Antwort: Auch hier sind Beweise gefragt. Ist λ ein Eigenwert, so gibt es ein ~v 6= 0 mit A~v = λ~v . Dann ist ~v ∗ A~v = λ~v ∗~v , also ~v ∗ A~v = λk~v k2 . Da das Element auf der linken Seite reell ist. ist es auch λ. Somit kann A nur reelle Eigenwerte haben. Um die Existenz der Eigenbasis zu zeigen, benützen wir Induktion. Für eine n × nMatrix ist nichts zu zeigen. Sei nun λ ein Eigenwert und ~v ein zugehöriger Eigenvektor (der Länge 1). Ist dann ~u ∈ ~v ⊥ , so auch A~u, weil ~v ∗ A~u = ~u∗ A∗~v = ~u∗ A~v = λ~u∗~v = 0, also ist A~u auch im Orthogonalraum zu ~v . Ergänzt man ~v mit einer ONB des Orthogonalraumes, so gewinnt A bezüglich der neuen ONB von Cn eine Blockstruktur α ~0∗ A= ~ 0 B mit B hermitisch. Danach ergibt die Induktionsannahme die Existenz von S mit den geforderten Eigenschaften. Welche Bedeutung für innere Produkte hat die unitäre Diagonalisierbarkeit? Antwort: Charakterisierung innerer Produkte im Cn : Ist ein beliebiges inneres Produkt gegeben, so gibt es stets eine ONB in Cn und positive Zahlen λi mit h~x, ~y i = X λi x̄i yi . i Energiemethode, Hermitesche Formen: Man bestimme die Extrema von ~x∗ A~x unter der Nebenbedingung ~x∗ B~x = 1 für hermitisches A und positiv definites hermitisches B. Es wird uns beim Problem der Eigenfunktionen der gespannten Saite in Kapitel 6 (S.215) begegnen und ist auch zur Bestimmung der einer pPNorm n Matrix L bezüglich der euklidischen Metrik (gegeben durch k~xk= |x |2 = i i=1 ∗ ~x ~x) wichtig, weil kLk= sup{kL~xk | ~x∗ ~x = 1} ist, also hierbei B = I gilt. 196 Lineare Funktionalanalysis Die Aussage besteht darin, daß man eine reguläre Matrix X und eine Diagonalmatrix Λ mit AX = BXΛ finden kann. Die Spalten von X sind, wie man durch Matrizenrechnung sofort bestätigt, verallgemeinerte Eigenvektoren A~vi = λi B~vi . Der Nachweis ist wie folgt: Zunächst existiert eine unitäre Matrix U sodaß für ~x = U ~y in neuen Koordinaten für ~y ∗ U ∗ AU ~y unter der Nebenbedingung ~y ∗ D2 ~y = 1 gesucht sind. Setzt man ~y = D~z mit D Diagonalmatrix mit positiven Einträgen, so hat man nunmehr ~z∗ DU ∗ AU D~z unter der Bedingung ~z∗~z = 1 auf Extrema zu untersuchen. Schlußendlich findet sich eine unitäre Eigenbasis T der hermitischen Matrix D−1 U ∗ AU D−1 mit T ∗ D−1 U ∗ AU D−1 T = Λ diagonal und reell. Die schlußendliche Koordinatentransformation ~z = T w ~ führt dazu, w ~ ∗ Λw ~ unter der ∗ Nebenbedingung w ~ w ~ = 1 auf Extrema zu untersuchen. Als Nebenprodukt erweist sich X := U D−1 T als gemeinsame Eigenbasis, nämlich AX = BXΛ Singulärwertzerlegung: Es sei A eine beliebige (komplexe) n×n-Matrix. gibt 2 Dann D 0 mit D es Orthonormalbasen U und V und eine Diagonalmatrix Λ = 0 0 eine r × r Diagonalmatrix mit lauter positiven Einträgen, sodaß die Wirkung von A durch die Formel r X A~x = di h~x, ~ui i~vi i=1 beschrieben werden kann. Dies wiederum verhilft bei singulärem A zu einer Lösung von A~x = ~b durch r X 1 ~ ~x = hb, ~vi i~ui di i=1 sofern ~b im Orthogonalraum von ker A∗ liegt. Der Wert der Zerlegung liegt darin, auch über die “Kleinheit” von di entscheiden zu können, ob es “wie eine Null” behandelt werden soll. Die Matrizen U und V werden wie folgt gefunden: Zunächst ist U eine Eigenbasis des offenkundig hermitischen Operators A∗ A, derart, daß die ersten r Spalten 2 Ur zu D 0 ∗ den nicht verschwindenden Eigenwerten gehören. Da dann A AU = U 0 0 ist mit D eine r × r Matrix mit positiven Einträgen, kann V durch Angabe von r Spaltenvektoren mit der Eigenschaft Vr = AUr D−1 und die verbleibenden Spalten eine ONB des Kerns von A∗ . 5.4. Hilberträume 197 Beispiel 181 (Zerlegung eines Vektors ~b in einen Anteil in Richtung ~a und einen senkrecht dazu.) Es seien zwei Vektoren ~a, ~b in einem Prähilbertraum (V, h·, ·i) vorgegeben (Skizze in V = IR2 ). Die Vektoren ~t und ~n sollen jeweils ~t = k~a (also in Richtung ~a) und ~n soll senkrecht auf die Richtung von ~a sein. Man gebe einfache Formeln zur Berechnung von ~t und ~n für ~a, ~b in IR2 an. J Antwort: Elementargeometrisch ~b würde man z.B. so vorgehen: Die Länge von ~t ist k~bk cos(α) und jene von ~n ist k~bk sin(α). Somit 1 ~ sollte ~t = kbk cos(α) k~ak ~a. Nun weiß man (vergleiche Anmerkung 182 [7 (S.197) und dort die Skizze mit dem ~ Kosinussatz) cos(α) = h~a,bi~ und k~akkbk somit ergibt sich nach ein wenig h~a,~bi Rechnung sofort ~t = k~ ~a und ak 2 h~a,~bi ~a, genau danach ~n = ~b − ~t = ~b − k~ ak2 jene Formeln, die in der Skizze eingetragen sind. ~a ; ww ww w · ww; 7 ww w w 7 h~a,~bi ww ~n = P~a⊥ (~b)7= ~b − k~ ~a ww ak2 w 7 ww 7 ww ~t = P (~b) = h~a,~bi ~a w w ~a 7 k~ak2 ww 7 ww w 7 α ww 7 www 7;w ww 0 Sei jetzt (V, h·, ·i) ein beliebiger Prähilbertraum. Gegeben seien ~a und ~b, beide nicht Null. Gesucht ist eine Zerlegung ~b = ~t + ~n in einen Anteil ~t := k~a und einen Anteil ~n mit h~t, ~ni = 0. Antwort: Bildet man das innere Produkt mit ~a auf beiden Seiten der Gleichung ~b = ~t + ~n, und setzt ~t = k~a ein, so erhält man h~a, ~bi = h~a, ~ti + h~a, ~ni = kh~a, ~ai + 0 = kk~ak2 , also ergibt sich h~a, ~bi k~ak2 und Einsetzen ergibt als Lösung genau die gleichen Formeln, wie jene, die in der Skizze eingetragen sind. k= Anmerkung 182 Nach den Einführungsbeispielen eine Sammlung wichtiger Fakten zum p inneren Produkt, wobei kuk := hu, ui (die induzierte Norm) gesetzt wird. Zunächst die Cauchy-Schwarzsche Ungleichung (und ihr Bezug zur Längen-, Winkel-, und Flächenmessung), aus der man schließen kann, daß die so definierte Funktion die Axiome einer Norm erfüllt: Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung: Ist (H, h·, ·i) ein Prähilbertraum und sind k, l ∈ K sowie u, v ∈ H beliebig, so gilt |hu, vi| ≤ kukkvk 198 Lineare Funktionalanalysis und Gleichheit genau dann, wenn u und v linear abhängig sind. Beweis in Beispiel 184 (S.200). Ist H ein reeller Prähilbertraum, so wird die kleinere der beiden Zahlen γ, π − γ als Winkel zwischen u und v bezeichnet, wobei cos(γ) := Deutung der Ungleichung mittels Flächeninhalt eines Parallelogramms. Es p ist durchaus üblich, die Größe A := kuk2 kvk2 − hu, vi2 als Fläche des von den Vektoren u, v aufgespannten Parallelogramms zu definieren. Dies verallgemeinert die im IR3 bekannte Formel A = ||u × v||. hu, vi . kukkvk vllll5 l l l ll l h l ll lll γ u l lll lll l l l lll l/ ll h = ||v|| sin(γ), A = ||u||h = ||u||||v|| sin(γ) 0 ≤ A2 = kuk2 kvk2 (1 − cos2 (γ)) = kuk2 kvk2 − hu, vi2 Sesquilinearität: Für alle k, l ∈ K und alle u, v, w ∈ H gilt hku + lv, wi = k̄hu, wi + ¯lhv, wi. Orthogonalität: Die Vektoren u und v nennt man orthogonal bezüglich h·, ·i, falls hu, vi = 0 gilt. Zwei Teilmengen A und B nennt man orthogonal (zueinander), falls jedes a ∈ A zu jedem b ∈ B orthogonal ist. Die Menge A⊥ := {v ∈ V | (∀a ∈ A) v ⊥ a} ist ein linearer Teilraum, der Orthogonalraum zu A genannt wird. Vom inneren Produkt induzierte Norm: Es ist (H, k · k) ein normierter KVektorraum. Die Norm k · k ist von h·, ·i auf H induziert. Der BW findet sich in Beispiel 184 (S.200). Polarform für reelles H: (“=Kosinussatz”, wobei γ der von u und v eingeschlossene Winkel ist): Für alle u, v ∈ H gilt stets 1 hu, vi = (||u + v||2 − ||u||2 − ||v||2 ) 2 ?44 44 4 u γ 444 v 44 4 d2 d d d d d d d d d d ddddddud+ v ||u + v||2 = ||u||2 + ||v||2 − 2 cos(π − γ)||u|| · ||v|| hu, vi = ||u|| · ||v|| cos(γ) bzw. 1 hu, vi = (||u + v||2 − ||u − v||2 ). 4 5.4. Hilberträume 199 Polarform für komplexes H: Für alle u, v ∈ H gilt stets 1 hu, vi = (||u + v||2 − ||u − v||2 + i(||u + iv||2 − ||u − iv||2 ). 4 Parallelogrammregel: Für alle u, v ∈ H gilt stets ||u + v||2 + ||u − v||2 = 2(||u||2 + ||v||2 ). Normierter Raum ein Prähilbertraum? Ist (H, || · ||) ein normierter Vektorraum, p so gibt es genau dann ein inneres Produkt h·, ·i mit kuk = hu, ui, wenn für alle u, v ∈ H die Parallelogrammregel erfüllt ist. Ist die Parallelogrammregel erfüllt, so kann das innere Produkt mittels der Polarform definiert werden. Beispiel 183 Einfache Übungen hierzu. 1. Einige innere Produkte berechnen. Sei ~u := (−i, 1, 2i, 1)T und ~v := (3, −i, 2, 0) in C4 . Welchen Wert hat h~u, ~v i? Antwort: i · 3 + 1 · (−i) + (−2i) · 2 + 1 · 0 = −2i. R∞ Es sei f (t) := e−2t+3it und g(t) := e−t+2it . Welchen Wert hat hf, gi := 0 f¯(t)g(t) dt? R∞ R∞ (−3−i)t ∞ Antwort: Es ist hf, gi = 0 e−2t−3it e−t+2it dt = 0 e−3t−it dt = e −3−i = . . . = 1 3+i = 0 3−i 10 . 2. Cauchy-Schwarzsche Ungleichung – verschiedenes “Aussehen” Wie R ∞ lautet die Cauchy-Schwarzsche Ungleichung für das innere Produkt hf, gi := ¯ 0 f (t)g(t) dt explizit angeschrieben? qR qR R∞ ∞ ∞ 2 dt · 2 |f (t)| Antwort: | 0 f¯(t)g(t) dt| ≤ 0 0 |g(t)| dt. qR qR R ~ · ∇gd(x, ~ ~ |2 d(x, y, z) ~ 2 d(x, y, z) Kann die Ungleichung | ∇f y, z)| ≤ |∇f |∇g| B B B für hinreichend glatte Funktionen f, g : IR3 → IR und B z.B. eine Vollkugel mit Radius 1 stimmen? ~ (x, y, z) Antwort: Ja. Zunächst ergibt die Cauchy-Schwarzsche Ungleichung für ~u := ∇f ~ und ~v := ∇g(x, y, z) q q ~ (x, y, z)|2 |∇g(x, ~ ~ (x, y, z) · ∇g(x, ~ y, z)|2 |∇f y, z)| ≤ |∇f und nun darf man die Ungleichung “über B integrieren”. 200 Lineare Funktionalanalysis Es sei H die Menge aller auf f~ : I 3 → IR3 stetigen Vektorfelder, wobei I 3 = {(x, y, z) ∈ R 3 IR | 0 ≤ x, y, z ≤ 1} ist (Einheitswürfel). Ist durch hf~, ~g i := I 3 f~ · ~g d(x, y, z) ein inneres Produkt gegeben und, falls ja, wie lautet die Cauchy-Schwarzsche Ungleichung. Wie lautet die induzierte Norm in diesem Fall? Antwort: Es liegt ein inneres R Produkt vor. Die Bilinearität ist leicht zu sehen. Definitheit: Man muß zeigen, daß I 3 |f~|2 d(x, y, z) = 0 das Verschwinden von f~ auf I 3 zur Folge hat. Zunächst sind f~ und somit |f~|2 stetig. Deshalb, weil das Integral verschwindet, ist |f~(x, y, z)|2 = 0 für alle (x, y, z) in I 3 . Demnach ist f~ = ~0 die Nullfunktion, also h, i definit. qR qR R ~ ~|2 d(x, y, z) Die gefragte Ungleichung lautet | I 3 f ·~g d(x, y, z)| ≤ | f g |2 d(x, y, z). 3 I I 3 |~ qR ~2 Die induzierte Norm ist kf k = I 3 |f | d(x, y, z). 3. (Parallelogrammregel und induzierte Norm) 2 InBeispiel 161 (S.171) 2. ist die Würfelnorm vorgestellt worden. Im IR ist sie durch a k k := max{|a|, |b|} gegeben. Ist sie von einem inneren Produkt auf IR2 induziert? b 2 Antwort: Die Antwort ist “NEIN”, wenn man ~u, ~v∈ IR für die ||~u + angeben kann, 0 2 ergibt die linke , ~v := ~v ||2 + ||~u − ~v ||2 6= 2(||~u||2 + ||~v ||2 ). Z.B. für ~u := 1 1 Seite den Wert 8, die rechte hingegen 10. Es sei I := [0, 1] das Einheitsintervall und C(I) der Raum der reellwertigen stetigen Funktionen. Wegen Beispiel 161 (S.171) 3. ist kf k := supx∈I |f (x)| eine Norm auf C(I). Ist sie durch ein inneres Produkt induziert? Antwort: Man darf “NEIN” argwöhnen und zum Nachweis genügt es, zwei Funktionen f, g ∈ C(I) mit kf + gk2 + kf − gk2 6= 2(kf k2 + kgk2 ) anzugeben. Man muß nicht lange probieren, z.B. für f (x) := x und g(x) := 1 ergibt die linke Seite 5, die rechte hingegen 4. Beispiel 184 Hier sollen fehlende Beweise nachgetragen werden. Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung: Ausgehend von 0 ≤ hkx − ly, kx − lyi = |k|2 kxk2 − k̄lhx, yi−k¯lhy, xi+|l|2 kyk2 wählt man k := kyk2 und l := hy, xi = hx, yi und findet nach kurzer Rechnung 0 ≤ kyk2 (kxk2 kyk2 − |hx, yi|2 ), woraus die Ungleichung unmittelbar folgt. Sesquilinearität: Es ist hku + lv, wi = = = = hw, ku + lvi khw, ui + lhv, wi k̄hw, ui + ¯lhv, wi k̄hu, wi + ¯lhv, wi. 5.4. Hilberträume 201 (H, k · k) ist Prähilbertraum: Zunächst folgt aus der Definitheit des inneren Produkts jene der Norm. Um die Dreiecksungleichung ku + vk ≤ kuk + kvk nachzuweisen, genügt es ku + vk2 ≤ (kuk + kvk)2 nachzuweisen, also (nach ein wenig Rechnung) <(hu, vi) + <(hv, ui) ≤ 2kukkvk. Weil <hu, vi ≤ |hu, vi| und <hv, ui ≤ |hu, vi| folgt der Nachweis nun aus der CauchySchwarzschenpUngleichung. Schließlich ergibt Benützung der Sesquilinearität kkuk = p p hku, kui = k̄khu, ui = |k| hu, ui = |k|kuk, also die Homogeneität. Polarformen: Verifizieren ergibt sich durch Benützen der Definition der Norm kwk2 = hw, wi durch das innere Produkt, danach Benützen der (Sesqui)linearität und Wegkürzen der Terme, es sei an der reellen Polarform demonstriert: 1 2 (||u + v||2 − ||u||2 − ||v||2 ) = 21 (hu + v, u + vi − hu, ui − hv, vi) = 12 (hu, ui + 2hu, vi + hv, vi − hu, ui − hv, vi) = hu, vi. Parallelogrammregel: Der Beweis der Parallelogrammregel geht genauso wie jener der Polarformen, bitte selbst ausführen. Die elementargeometrische Deutung der Namensgebung sei an einem wie in der Schule mit Seiten a, b, c, d und Diagonalen e, f beschrifteten Parallelogramm erläutert. Dann ist a2 + b2 + c2 + d2 = e2 + f 2 und wenn man ||u|| = a = c, ||v|| = b = d, e = ||u+v|| sowie f = ||u−v|| einsetzt, erhält man die Parallelogrammregel auf elementarem Weg. Um nun eben diese elementare Beziehung von Seiten und Diagonalen in einem beliebigen Parallelogramm zu verstehen, benützen wir den Kosinussatz auf 2 Arten: 2 a b2 2 f ef = + − 2 cos(γ) 2 2 22 e 2 f 2 ef = + − 2 cos(π − γ) 2 2 22 e 2 o ooo f o o o γ ooo ooo a o ooo o o o ooo b ooo e Addition der Gleichungen und Beachten von cos(γ) = − cos(π − γ) und a = c, sowie b = d ergeben die elementare Form der Parallelogrammregel. Der algebraische Nachweis, d.i. das Nachrechnen der Parallelogrammregel und geometrischen Deutung der Vektoren als Parallelogramm in der euklidischen Ebene erlauben es, die Parallelogrammregel als Aussage über Elementargeometrie der euklidischen Ebene aufzufassen. 202 Lineare Funktionalanalysis * Parallelogrammregel ⇒ Prähilbertraum: Es soll hier nur der Fall K = IR gezeigt werden. Dann ist notwendigerweise (weil ja im Falle der Richtigkeit der Aussage die Polarform gilt) 1 hu, vi := (ku + vk2 − ku − vk2 ). 4 (Definitheit) Es ergibt sich für u = v hu, ui = kuk2 und somit folgt die Definitheit aus der Definitheit der vorgegebenen Norm. Die Symmetrie ist aus der Formel sofort ersichtlich. Der Nachweis der Linearität in u gelingt in einigen Schritten. • Zunächst wird lediglich T (u, v, w) := hu + v, wi − hu, wi − hv, wi = 0 gezeigt: Einsetzen der Definition von h·, ·i ergibt 1 T (u, v, w) = (ku + v + wk2 − ku + vk2 − ku + wk2 − kv + wk2 + kuk2 + kvk2 + kwk2 . 2 Ein Kunstgriff ist nötig, um den Term ku+v+wk2 durch die Normen von Vektoren mit lediglich 2 oder 1 der Vektoren u, v, w auszudrücken, und das geht z.B. so, daß man die Parallelogrammregel verwendet: ku + v + wk2 + ku − (v + w)k2 = 2(kuk2 + kv + wk2 2 2 −k(u − v) + wk − ku − (v + w)k = −2(ku − vk2 − kwk2 k(u + w) − vk2 + ku + w + v)k2 = 2(ku + wk2 + kvk2 Nach Addition der drei Gleichungen und Kürzen durch “2” verbleibt ku + v + wk2 = −ku − vk2 − kwk2 + kuk2 + kv + wk2 + ku + wk2 + kvk2 . Setzt man dies in das T (u, v, w) ein, so verbleibt ein Ausdruck, der kein w enthält und der durch Anwendung der Parallelogrammregel für u und v sich als Null erweist. Also hat man hu + v, wi = hu, wi + hv, wi gezeigt. • Es fehlt noch, hku, vi = khu, vi für alle k ∈ IR zu zeigen. Aus dem vorigen Punkt und vollständiger Induktion ergibt sich für alle n ∈ IN hnu, vi = nhu, vi Aus der DN von h·, ·i ergibt sich unmittelbar h−u, vi = −hu, vi. Somit hat man insgesamt hku, vi = khu, vi für alle k ∈ ZZ. Nun sei k = pq eine beliebige rationale Zahl, wobei q ∈ IN ist. Dann ist p p phu, vi = hpu, vi = hq u , vi = qh u, vi q q also pq hu, vi = h pq u, vi. Somit gilt hku, vi = khu, vi für alle rationalen Zahlen. Schlußendlich benützt man ein Stetigkeitsargument. Die Funktion k 7→ kkuk ist stetig, sodaß die Funktion k 7→ hku, vi − khu, vi ebenfalls stetig auf IR ist. Da Q dicht liegt, und die Funktion auf Q verschwindet, ist sie Null. 5.4. Hilberträume 5.4.2 203 Vollständigkeit Anmerkung 185 (Hilbertraum) Ein in der induzierten Norm (d.h. kvk := vollständiger Prähilbertraum ist ein Hilbertraum. p hv, vi) Beispiel 186 Einige Beispiele: Raum der quadratisch konvergenten l2 : Es sei l2 die Menge aller reellen (bzw. P Folgen ∞ 2 komplexen) Folgen {an }n=1 mit n |an | konvergent. Der l2 (S) spielt die Rolle eines “Koordinatenraumes”, ähnlich wie der K n nach Wahl einer Basis in einem ndimensionalen Vektorraum. P ∞ ∞ ∞ Es sei für 2 Folgen {an }∞ n=1 und {bn }n=1 in l2 h{an }n=1 , {bn }n=1 i durch n ān bn definiert. Man zeige, daß diese Reihe absolut konvergiert, und ein inneres Produkt vorliegt. Antwort: Aus der Cauchy-Schwarzschen Ungleichung für endliche reelle Folgen bekommt man für festes N ∈ IN v v v v uN uN u∞ u∞ N uX uX X uX uX t t 2 2 2 t |ān | |bn | ≤ |an | |bn | ≤ |an | t |bn |2 . n=1 n=1 n=1 n=1 n=1 Nun erweist sich die rechte Seite für die in N monotone Folge P∞auf der P als Schranke ∞ , sodaß das innere Produkt ā b } linken Seite. Also konvergiert { N n=1 ān bn n=1 n n N =1 von l2 -Folgen wohldefiniert ist. Die Symmetrie- und (Sesqui)-Linearitätseigenschaft sind leicht erkennbar. Wie sieht die induzierte Norm in l2 explizit angeschrieben aus? Antwort: Es handelt sich um v u∞ uX ∞ k{an }n=1 k = t |an |2 , n=1 ein Ausdruck, der vorhin schon aufgetreten ist. Wie sieht die Cauchy-Bunjakowskiĭ-Schwarzsche Ungleichung in ausgeschriebener Form aus? pP∞ pP∞ P 2 2 Antwort: | ∞ n=1 ān bn | ≤ n=1 |an | n=1 |bn | . Wie zeigt man die Vollständigkeit von l2 ? Antwort: Man kann das ganz direkt machen, wir wollen jedoch einen zu Anmerkung 173 (S.186) ähnlichen Weg nehmen und die Vervollständigung der Menge aller endlichen Folgen bezüglich der l2 -Norm im Dualraum des gleichen Raumes isometrisch einbetten. Ist v 0 ein beliebiges stetiges lineares Funktional, so weist es jeder Folge φl , die an der Stelle l eine 1 und sonst lauter Nullen hat, eine Zahl ξl = v 0 (φl ) zu. Wie berechnet sich 204 Lineare Funktionalanalysis ∞ die Norm von v 0 ? Dazu muß für beliebige endliche Folgen {an }∞ n=1 mit k{an }n=1 k = 1 das Supremum der Werte |v 0 ({an }∞ n=1 )| gefunden werden. Nun sei ψl0 jenes lineare Funktional, welches jeder endlichen Folge {an }∞ n=1 den Koeffizienten al als Wert zuordnet. Sichtlich ist jedes solche ψl0 stetig, weil s X |ψl0 ({an }∞ )| = |a | ≤ |an |2 = k{an }∞ l n=1 n=1 k n ist. Andrerseits ist {an }∞ n=1 = P n al φl und somit X v 0 ({an }∞ ξl a l . n=1 ) = l Wählt man für al := ξ¯l für l ≤ N , mit N ∈ IN beliebig, aber fest, und Null sonst, so bekommt man zunächst kv 0 kk{an }∞ n=1 k ≥ |v 0 ({an }∞ n=1 )| = N X |ξl |2 , l=1 und weil k{an }∞ n=1 k = qP N l=1 |ξl | 2 ist, ergibt Division v uN uX 0 kv k ≥ t |ξl |2 . l=1 Weil hierin die linke Seite kein N enthält, schließt man kv 0 k ≥ k{ξl }∞ l=1 k, sodaß die dem Funktional v 0 entsprechende Folge {ξl }∞ l=1 tatsächlich in l2 ist. Um die isometrische Einbettung zu zeigen, m.a.W., daß die Norm des Funktionals gleich der l2 -Norm der Folge {ξl }∞ l=1 ist, benötigen wir lediglich noch die Ungleichung kv 0 k ≤ k{ξl }∞ l=1 k. Ist {an }∞ n=1 eine beliebige endliche Folge, welche ab dem N + 1.ten Glied Null ist, so ist |v 0 ({an }∞ n=1 )| ≤ N X ∞ |ξn an | ≤ k{ξn }∞ n=1 kk{an }n=1 k, n=1 woraus wegen N beliebig die behauptete Ungleichung mittels der Definition der Norm des Funktionals folgt. 5.4. Hilberträume 205 Quadratisch integrierbareRFunktionen auf I = [0, 2π]: Es werde C(I, C) mit dem in2π neren Produkt hf, gi := 0 f¯g versehen. Die Vervollständigung dieses Raumes bezüglich der L2 -Norm s Z 2π kf k = |f (x)|2 dx 0 ist der Raum der quadratisch integrierbaren Funktionen. Man spricht von Konvergenz im quadratischen Mittel, falls kfn − f k → 0 gilt. (Es ist eine gute Übung, die Bedingung durch Integrale ausgedrückt, anzuschreiben). Das übliche Riemannintegral erweist sich als bezüglich der L2 -Norm stetiges lineares Funktional auf C([0, 2π], C), ist somit gleichmäßig stetig und kann deshalb wegen Anmerkung 129 (S.135) auf ganz L2 (I, C) stetig fortgesetzt werden. Der Standardweg, die Elemente des L2 (I, C) als Funktionen zu interpretieren ist wie folgt: Man sucht im Raum der Funktionen von [0, 2π] nach C all jene heraus, für welche es eine L2 -Cauchyfolge stetiger Funktionen gibt, und für welche bis auf eine Lebesguenullmenge (das ist eine Menge, die man bei vorgegebe∞ nem P∞ > 0 durch eine höchstens abzählbare Vereinigung offener Intervalle {In }n=1 mit n=1 |In | ≤ überdecken kann) punktweise Limiten besitzt. Nun kann jeder solchen Funktion ein Element in L2 zugeordnet werden, jedoch gehören Funktionen, die sich nur auf einer Nullmenge unterscheiden, zum gleichen Element in L2 [0, 2π]. Raum der auf IR quadratisch integrierbaren Funktionen L2 (IR, C): Man betrachtet zunächst die Menge aller auf IR stetigen, außerhalb eines kompakten Intervall verschwindenden Funktionen, der in der Literatur meist mit C0 (IR, C) bezeichnet wird. Nun versieht man ihn mit dem inneren Produkt Z ∞ hf, gi := f¯(x)g(x) dx −∞ und betrachtet seine Vervollständigung. In analoger Weise wie vorhin können gewissen Funktionen solche Elemente im L2 zugeordnet werden. Beispiele hierfür sind die Funktionen e−|a|+it für a 6= 0. Hingegen sind die Funktionen eiat bzw. cos(at) für kein reelles a als Elemente im L2 interpretierbar, weil bekanntlich jede stetige Funktion mit absolut konvergentem Integral im Unendlichen abklingen muß. 5.4.3 Orthonormalsysteme Definition 187 (Orthogonal- und Orthonormalsystem) Ist S eine Teilmenge linear unabhängiger Vektoren eines Prähilbertraumes H und hs, s0 i = 0 für alle s, s0 ∈ S mit s 6= s0 , so ist S ein Orthogonalsystem. Haben alle Vektoren in S Länge 1, so spricht man von einem Orthonormalsystem (kurz ONS), bzw. Orthonormalbasis (ONB) von L(S). Lassen Sie mich an das Gram-Schmidt Orthogonalisierungsverfahren erinnern: 206 Lineare Funktionalanalysis Anmerkung 188 (Gram-Schmidt Orthogonalisierung) Input: Eine Teilmenge B eines Prähilbertraumes H. Output: Eine Orthogonalbasis U des von B aufgespannten linearen Teilraumes L(B) von H. Initialisierung: Setze U := ∅, weil wir noch kein Element der gesuchten Basis U haben. Wir beachten, daß wegen Definition 141 (S.149) L(∅) = {0} ist. Iterationsschritt: Ist B nicht leer, so wählt man b ∈ B beliebig und ersetzt B durch B \ {b}. Im Falle u := b − PU (~b) 6= 0 ist, ersetzt man U durch U ∪ {u}. Anmerkung: Die Orthogonalprojektion PU (b) von b in den von U aufgespannten linearen Teilraum von H ergibt sich, indem man für jedes u ∈ U die Orthogonalhu,bi projektion Pu (b) := kuk 2 u berechnet und summiert PU (b) := X Pu (b). u∈U Abbruchbedingung: Falls B leer ist, was bei endlich-dimensionalem V nach endlich vielen Iterationen zutrifft. Normierung : Für alle u ∈ U bilde man ONB von L(B). 1 kuk u. Die so normierten Vektoren bilden eine Beispiel 189 (Gram-Schmidtverfahren (kurz GS-Verfahren), die ersten 3 Schritte) Gegeben sind linear unabhängige Vektoren ~a, ~b und ~c in H. Man finde die Orthogonalprojektion PU (~b) von ~b in den von ~a aufgespannten Teilraum U := L(~a) (Formel angeben). Man gebe explizit die Formeln für die Schritte im GS-Verfahren an. Vgl. Beispiel 181 (S.197). Antwort: G~ h~b,~ai b PU (~b) = h~u1 ,~bi ~ u Weil U = L(~a) ist PU (~b) = k~ ~ a . ? ||~ u1 ||2 1 ak2 ? ~u2 = ~b − PU (~b) _?? ~a = ~u1 ?? ? Nun zum GS-Verfahren: Schritt 1: U := ∅ und daher ~u1 := ~a − PU (~a) = ~a. Schritt 2: U := {~u1 } und daher ~u2 := ~b − PU (~b) = ~b − h~b,~ u1 i ~u . k~ u1 k2 1 5.4. Hilberträume 207 Schritt 3: U := {~u1 , ~u2 } und daher ~u3 := ~c − PU (~c) = ~c − h~c,~ u1 i ~u k~ u1 k2 1 − h~c,~ u2 i ~u . k~ u2 k2 2 ~ Wie lautet die Projektion PU (d)? ~ = Antwort: PU (d) ~ u1 i hd,~ ~u k~ u1 k2 1 + ~ u2 i hd,~ ~u k~ u2 k2 2 + ~ u3 i hd,~ ~u . k~ u2 k2 3 Man möchte nun d~ hinzufügen. Wie geht man vor, um gegebenfalls ~u4 zu finden? ~ falls die rechte Seite nicht der Nullvektor ist. Andernfalls Man bildet ~u4 = d~ − PU (d), “stagniert” das Verfahren, d.h. es gibt eben kein ~u4 , weil d~ schon in U liegt. Man müsste dann ein anderes d~ ∈ H \ L(U ) finden, um weitermachen zu können. Beispiel 190 Als z.T. Wiederholung aus der M2 ET Beispiele: 1. (Orthogonalpolynome auf I = [−1.1] und Rekursion.) Auf dem Intervall I = [−1, 1] sei eine stückweise stetige Gewichtsfunktion p ≥ 0 gegeben, die auf einem Teilintervall strikt positiv ist, und für das Z 1 Z 1 2 p(x)|f (x)| dx p(x)|f (x)| dx, −1 −1 R1 beide als (uneigentliche) Riemannintegrale existieren. Durch hf, gi := −1 f (x)g(x) dx läßt sich unter diesen “technischen Voraussetzungen” garantieren, daß ein inneres Produkt auf C(I), dem Raum der auf I stetigen, reellwertigen Funktionen, vorliegt. Zeigen Sie, daß Gram-Schmidtorthogonalisierung, ausgehend von B := {1, x, x2 , . . .} auf eine 2-stufige Rekursion hpn , xpn i kpn k2 hx, 1i pn+1 (x) = x − p (x) + pn−1 (x), p0 (x) = 1, p1 (x) = x − n 2 2 kpn k kpn−1 k k1k führt. Für p(x) = 1 bekommt man die Legendrepolynome. Man berechne p0 , p1 , p2 und p3 . Antwort(findung): Um zu erahnen, daß die 2-stufige Rekursion vorliegt, kann man p0 bis p3 berechnen. Danach hat man ein wenig Gefühl, warum die Rekursion stimmen kann. Zum Beweis verwendet man Induktion. Für n = 2 ergibt sich die Richtigkeit durch Orthogonalisierung von B = {1, x, x2 }. Angenommen, pn = (x − an−1 )pn−1 + bn−1 pn−1 gilt für ein n ≥ 2, wobei die Koeffizienten an−1 , bn−1 wie oben durch Quotienten aus inneren Produkten gegeben sind. Dann ist xpn−1 = pn + an−1 pn−1 − bn−1 pn−1 , eine Relation, die wir gleich verwenden werden. Der mit noch Unbekannten an , bn ∈ IR versehene unbestimmte Ansatz pn+1 = (x − an )pn + bn pn−1 208 Lineare Funktionalanalysis führt, die obige Relation in der zweiten Gleichung verwendend, auf die Bedingungen 0 = hpn+1 , pn i = hxpn , pn i − an kpn k2 0 = hpn+1 , pn−1 i = hxpn , pn−1 i + bn hxpn , pn−1 i = kpn k2 + bn kpn−1 k2 aus der die gesuchten Koeffizienten sich sofort ergeben. Weiter ergibt sich sofort, daß pn+1 im Orthogonalraum {p0 , p1 , . . . , pn }⊥ liegt. Man findet, die Rekursion benützend und schließlich Normieren die Polynome 1, x, 21 (3x2 − 1), 21 (5x3 − 3x), . . . Auf mögliche Deutungen der Orthogonalpolynome siehe Kapitel 6 (S.215) über die Saite. Anmerkung 191 (Charakterisierungen eines vollständigen ONS bzw. ONB, Rieszabbildung) Ist (H, h·, ·i) ein Hilbertraum, so sind folgende Bedingungen an ein ONS S gleichwertig: 1. L(S) ist dicht in H. 2. S ⊥ = {0}. 3. S ist ein vollständiges ONS in folgendem Sinne: Für jedes h ∈ H ist für hs := hs, hi X h= hs s. s∈S Dabei ist für höchstens eine abzählbare Teilmenge von S das hs 6= 0. Diese Reihe heißt (verallgemeinerte) Fourierreihe und der verallgemeinerte Fourierkoeffizient hs = hs, hi ist eindeutig bestimmt. 4. Für jedes h ∈ H gilt die Parsevalsche Gleichung X khk2 = |hs |2 . s∈S Auch hier sind höchstens abzählbar viele hs 6= 0. Es gelten die folgenden Fakten für ein ONS S, ein Element h ∈ H und den von ihm aufgespannten abgeschlossenen Teilraum L(S) (der definitionsgemäß aus den Grenzwerten aller aus Gliedern in L(S) gebildeten, konvergenten Folgen besteht): Existenz einer ONB in H: Jeder Hilbertraum besitzt eine ONB. Sie muß allerdings nicht abzählbar sein (so hat z.B. der L2 (IR) zwar eine ONB, aber sie ist nicht abzählbar). Hat H eine abzählbare ONB, so nennt man H separabel. 5.4. Hilberträume 209 Isometrie zu l2 (S): Es sei l2 (S) der Raum aller komplexwertigen Funktionen a auf S (als Menge aufgefaßt), für die X |as |2 < ∞ s∈S ist. Es ist ha, bi := X ās bs s∈S wohldefiniert und l2 (S) ein Hilbertraum. Die Abbildung χ : H → l2 (S) ist eine Isometrie. D.h. hh, ki = ha, bi, wobei as := hs und bs := ks die entsprechenden Fourierkoeffizienten bezüglich S sind. Nun kann S in gewissem Sinn analog zur kanonischen Basis im K n (Koordinatenraum) angesehen werden. Allerdings müssen die Koordinatenquadratsummen absolut konvergieren! Falls S abzählbar ist, besteht Isometrie zu l2 . Satz von Riesz, Rieszabbildung R: Zu jedem stetigen linearen Funktional φ : H → C gibt es genau ein R(φ) ∈ H mit φ(h) = hR(φ), hi. Es ist R(φ) = P s∈S φ(s)s. Die Rieszabbildung R : H0 → H ist eine Isometrie. Orthogonalprojektion: PS (h) := X hs, his s∈S ist die Orthogonalprojektion von h in L(S) und h − PS (h) ∈ S ⊥ . Bestapproximation: PS (h) ist die eindeutig bestimmte Lösung des Minimierungsproblems min{kh − bk | b ∈ L(S)}. P Dabei hat das Minimum den Wert khk2 − kPS (h)k2 = khk2 − s∈S |hs |2 . In Beispiel 193 (S.212) findet man Beweise, im folgenden sollen die vorgestellten Begriffe durch eine Auswahl wesentlicher Beispiele beleuchtet werden. Beispiel 192 1. (Klassische Fourierreihen R 2πmit komplexen Koeffizienten – L2 ([0, 2π], C)) Bezüglich des inneren Produkts hu, vi := 0 ū(x)v(x) dx erweisen sich die Funktionen 210 Lineare Funktionalanalysis {φn (x) := √12π einx | n ∈ ZZ} als orthonormales System. Die Orthogonalität ist leicht einzusehen: ( 2π Z 2π Z 2π 1 −i(n−m) m 6= n =0 −i(n−m) e e−inx eimx dx = e−i(m−n)x dx = 0 0 0 2π m=n Die Vollständigkeit zu zeigen bedeutet, zu jedem f ∈ L2 ([0, 2π], C) und jedem > 0 eine Linearkombination s in S anzugeben mit ||f − s|| < . Das wird üblicherweise mittels Dirichletkernen gezeigt. Unter Benützung des Satzes von Stone-Weierstraß (Anmerkung 132 (S.138)) läßt sich ein sehr kurzer Nachweis wie folgt führen: Wählt man f stetig mit f (0) = f (2π), so gibt es wegen des Satzes eine Linearkombination s0 ∈ S, für welche die Supremumsnorm die Eigenschaft 1 ||f − s0 ||∞ < √ 4 2π erfüllt (der Vorfaktor ist “Kosmetik”). Hieraus ergibt sich für solches f und alle x ∈ [0, 2π] 1 |f (x) − s0 (x)|2 < . 8π Integration über das gesamte Intervall ergibt 1 ||f − s0 || < . 2 P Die Orthogonalprojektion PS (f ) = n∈ZZ cn einx erfüllt als Element des L2 die Extremumseigenschaft, sodaß ||f − PS (f )|| ≤ ||f − s0 || gelten muß. Insbesondere gibt es dann eine endliche Linearkombination s ∈ S welche ||f − s|| < erfüllt. Um schließlich für beliebiges f die Dichteeigenschaft zu bekommen, vermerkt man, daß der L2 Vervollständigung des Raumes der stetigen Funktionen h mit h(0) = h(2π) bezüglich der L2 -Norm ist, es also stets ein solches h nahe genug an f bezüglich der L2 -Norm gibt, und somit auch ein s ∈ S. P Die verallgemeinerte Fourierreihe f = s∈S hs s, mit hs = hs, f i wird üblicherweise als klassische Fourierreihe in der Form X f (x) ∼ cn einx n∈Z Z mit cn = √1 2π R 2π 0 e−inx f (x) dx angeschrieben. 5.4. Hilberträume 211 Bestapproximation bedeutet für jeden abgeschlossenen (z.B. endlich dimensionalen) Teilraum mit ONB S, daß die Orthogonalprojektion von f ∈ L2 X X 1 Z 2π √ hs, f is = s̄(x)f (x) dx s 2π 0 s∈S s∈S (mit Integralen im Sinne von Grenzwerten über f im Sinne der L2 -Norm approximierenden stetige Funktionen) jenes Element im Teilraum ist, welches den kürzesten L2 -Abstand zu f besitzt. Dieser L2 -Abstand drückt sich im konkreten Fall durch Z 2π X X 1 2 |f (x)|2 dx − |hf, si|2 kf − hf, sisk = 2π 0 s s aus. Die Parsevalsche Gleichung wird im klassischen Kontext (etwa für stetiges f ) zu: Z 2π X 1 |f (x)|2 dx = |cn |2 . 2π 0 n 2. (Orthogonalpolynome auf [−1, 1]) Auf I := [−1, 1] sei eine stückweise stetige Funktion p ≥ 0 gegeben und wir erlauben durchaus, daß sie unbeschränkt ist. Allerdings sei gefordert, daß die beiden Integrale Z 1 Z 1 p(x)|f (x)| dx, p(x)|f (x)|2 dx −1 −1 für jede auf I stetige Funktion als uneigentliche Integrale konvergent sind. Die Situation ist wie in Beispiel 190 (S.207) 1. Dann ist Z 1 hf, gi := p(x)f (x)g(x) dx −1 ein inneres Produkt auf C(I, IR), dem Raum der auf I reellwertigen, stetigen Funktionen. Es sei H seine Vervollständigung. Ähnlich wie vorhin kann der Satz von StoneWeierstraß benützt werden, um von der Familie von Potenzen S0 := {xk | k ∈ IN } ausgehend, eine vollständige ONB von H, bestehend aus Orthogonalpolynomen. zu konstruieren. Hier ist eine Tabelle einiger recht bekannter, auf solche Art entstehender Orthogonalpolynome p 1 (1 − x2 )−1/2 (1 − x2 )1/2 (1 − x)a (1 + x)b Name Legendre-Polynome Tschebyscheff-Polynome 1.Art Tn Tschebyscheff-Polynome 2.Art Un Jacobi-Polynome, wobei a, b > −1 212 Lineare Funktionalanalysis Nicht explizit listen möchte ich Orthogonalpolynome über unendlichen Intervallen, wie etwa die Hermite- und Laguerrepolynome. Die Idee ist die Gleiche, allerdings bedarf es vor der Anwendung des Satzes von Stone-Weierstraß noch eines Kunstgriffs (sog. 1bzw. 2-Punktkompaktifizierung), worauf hier nicht eingegangen werden soll. Beispiel 193 (Beweis für die Äquivalenz der in Anmerkung 191 (S.208) gegebenen Charakterisierungen eines vollständigen ONS). “1 ⇒2”: Es sei h ∈ S ⊥ beliebig. Da L(S) dicht Pliegt, gibt es zu jedem P > 0 eine endliche Teilmenge S0 von S und ein Linearkombination s∈S0 cs s mit kh − s∈S0 cs sk < . Da bekanntlich (Mathematik 2 ET) X h0 := hs, his s∈S0 jenes Element in L(S) mit minimalem Abstand zu h ist, und hs, hi = 0 ergibt sich X khk = kh − hs, hisk < . s∈S0 Da beliebig positiv war, folgt h = 0, wie behauptet. “2 ⇒3”: Es sei S0 eine beliebige endliche Teilmenge von S. Aus der Ungleichung X 0 ≤ kh − hs, hisk2 s∈S0 und Umformung der rechten Seite ergibt ein wenig Rechnung X |hs |2 ≤ khk2 . s∈S0 Hieraus ergibt sich insbesondere, daß die unendliche Reihe X |hs |2 ≤ khk2 s∈S P P erfüllt, somit hs s ein in H wohldefiniertes Element ist. Danach ist h− s∈S hs s orthogonal auf alle Elemente s ∈ S und muß laut Voraussetzung gleich Null sein. Die Abzählbarkeit ist eine Konsequenz der Fußnote7 . “3 ⇒4”: Es sei h ∈ H beliebig. Da S vollständig ist, hat man X hs s h= s∈S 7 P Es sei I eine Menge und {ai | i ∈ I} eine Menge positiver Zahlen, für die das Supremum über alle Summen i∈J ai mit endlicher Teilmenge J von I endlich ist. Es wird behauptet, daß I höchstens abzählbar ist. Ist nämlich n ∈ IN beliebig, so kann die Menge In := {i ∈ I | ai ≥ n1 } höchstensSendlich sein, weil ja sonst endliche Teilsummen beliebiger Größe fabriziert werden könnten. Danach ist I ⊆ ∞ n=1 In abzählbar. Dies im P Auge kann i∈I ai als das genannte Supremum definiert werden, und die Reihe konvergiert genau dann, wenn die Menge der i mit ai 6= 0 höchstens abzählbar ist, und demnach die Reihe im üblichen Sinn konvergiert. 5.4. Hilberträume 213 mit hs = hs, hi. Diese Gleichung bedeutet für beliebiges positives die Existenz einer endlichen Teilmenge S0 von S mit X kh − hs sk < . s∈S0 Quadrieren und etwas Umformen führt auf X khk2 − |hs |2 < 2 , s∈S0 aus der insbesondere khk2 ≤ X |hs |2 s∈S folgt. Umgekehrt ergibt sich aus 0 ≤ kh − X P s∈S0 hs sk2 durch ähnliche Rechnung sofort |hs |2 ≤ khk2 , s∈S also insgesamt die Parsevalsche Gleichung. Zur Abzählbarkeit siehe die schon erwähnte Fußnote. “4 ⇒1”: Angenommen L(S) ist nicht dicht in H. Dann gibt es ein h 6= 0 und ein > 0 sodaß für alle b ∈ L(S) stets kb − hk ≥ ist. Die Gültigkeit der Parsevalschen Gleichung zieht die Existenz einer endlichen Teilmenge P P S0 von S nach sich mit khk2 − s∈S0 |hs |2 + . Es ist b := s∈S0 hs s in L(S) und kh − bk2 = kh − X hs sk2 = khk2 − s∈S0 X |hs |2 < , s∈S0 ein Widerspruch. Existenz einer ONB: Hat der Hilbertraum eine abzählbare dichte Teilmenge (wie z.B. L2 (I) für kompaktes Intervall I), so genügt es, das Orthogonalisierungsverfahren heranzuziehen. Im allgemeinen Fall benötigt man transfinite Induktion. Der Raum L2 (IR, C) ist nicht separabel. Eine ONB kann mit konstruktiven Mitteln nicht angegeben werden. Isometrie zu l2 (S): Die Parsevalsche Gleichung zeigt, daß jedem h ∈ H ein Element in l2 (S) zuordenbar ist. Offenkundig hat Pes die gleiche Norm. Sie zeigt auch, daß umgekehrt jede Funktion a in l2 (S) durch h = s∈S as s ein Element in H festlegt deren Bild a ist. Satz von Riesz: Es ist bequem, die Existenz einer ONB S voraus zusetzen. Danach sei φ ∈ H0 . Ist S0 endliche Teilmenge von S, so ergibt sich für h ∈ L(S0 ) X hs φ(s), φ(h) = s∈S0 214 Lineare Funktionalanalysis und wegen der Beschränktheit von φ |φ(h)| ≤ kφkkhk, sodaß für h := P s∈S0 φ(s)s sich X 2 |φ(s)| ≤ kφk sX s∈S0 und nach Kürzen |φ(s)|2 s∈S0 sX |φ(s)|2 ≤ kφk s∈S0 ergibt. Dies zeigt, daß der Vektor R(φ) := X φ(s)s s∈S ein wohldefiniertes Element in H ist, und sichtlich gilt φ(h) = hR(φ), hi für beliebiges h ∈ H. Beispiel 194 (Konstruktion der Rieszabbildung im H01 (I)) Es sei H01 (I) der Hilbertraum der stetigen Funktionen mit Randwerten Null. Man zeige, daß R(δa ) für Testfunktionen φ von der Form (1 − a)x 0≤x≤a R(δa )(x) = (1 − x)a a≤x≤1 sind. Antwort: Die Vorgehensweise ist wie folgt. Zunächst ist Z 1 δa (u) = hR(δa ), ui = R(δa )0 (x)u0 (x) dx, 0 woraus sofort die Distributionengleichung R(δa )00 + δa = 0 folgt. Ihre Lösung durch 2-maliges Integrieren ist R(δa ) = −(x − a)χ[a,1] + α + βx, eine Funktion, deren Randbedingungen Null sind (wir sind in H01 (I)). Es ist α = 0 und β = 1 − a, woraus die obige Form der Lösung resultiert. Automatisch wurde hier auch gezeigt, daß δa ∈ H01 (I)0 liegt, d.h. stetiges lineares Funktional ist. Es ist kein Zufall, daß genau der Kern K(a, x) herausgekommen ist, weil ja in Anmerkung 247 (S.274) die Rolle der Faltung aufgezeigt worden ist. Bis auf das Vorzeichen ist dies auch der Kern, welcher zu Beginn des Unterabschnittes über kompakte Operatoren berechnet worden ist Unterabschnitt 5.3.3 (S.188) Ein weiteres Beispiel zur Konstruktion einer Rieszabbildung findet sich in Unterabschnitt 6.2.4 (S.223) Kapitel 6 Saite - etwas mathematische Physik 6.1 Mathematisches Modell und Allgemeines zum Lösen Hier in diesem kurzen Abschnitt soll Grundsätzliches zur mathematischen Modellbildung und (numerischen) Lösung gesagt werden. Um nämlich zu effizienter mathematischer Simulation zu kommen, bedarf es der korrekten Gestelltheit des Problems: Existenz: Es sollte eine Lösung geben. Eindeutigkeit: Die Lösung sollte eindeutig sein. (Numerische) Stabilität: Kleine Änderungen (Fehler der Messung, numerische Fehler) sollten auch das Resultat nur geringfügig ändern. 6.1.1 Die involvierten physikalischen Begriffe 1 0 u Auslenkung u, Randwerte: Eine als auf I := [0, 1] definierte stetige Funktion u gebe die Auslenkung einer Saite von der Nullage an. Die Werte u(0), u(1) (bzw. ihrer Ableitungen u0 (0), u0 (1), u00 (0), u00 (1) etc.) am Rand heißen Randwerte. Es wird von sehr kleinen Auslenkungen die Rede sein, sodaß mancherlei Approximationen ins Spiel kommen. 215 216 Saite - etwas mathematische Physik 1 2 Von der Zugspannung geleistete Arbeit R1 0 (u0 )2 dx: ∆x ∆u ∆ x2 + ∆ u2 Es wird vom Hookeschen Gesetz ausgegangen, welches besagt, daß die Saite sich im √ Stück ∆x von der Länge ∆x in die Länge ∆x2 + ∆u2 verlängert hat, somit die Zugspannung Arbeit proportional zu s 2 p p ∆u ∆x2 + ∆u2 − ∆x = 1 + − 1 ∆x ≈ ( 1 + u0 (x)2 − 1)∆x ∆x leistet. Unter der weiteren Annahme, daß u0 (x) “sehr klein” ist, ergibt die Entwicklung √ 1 + a = 1 + 12 a + o(a) als ausreichende Approximation dieser Arbeit 1 0 2 u (x) ∆x. 2 Insgesamt ergibt sich unter Beachtung einer vom Ort abhängigen Materialfunktion p als Verformungsenergie Z 1 1 Ev (u) := p(x)(u0 )2 (x) dx. 2 0 Die den Elastizitätsmodul einbeziehende Funktion p wird im allgemeinen positiv und hinreichend oft differenzierbar sein, manchmal nur stückweise, wenn die Saite aus verschiedenen Materialien an einer Stelle zusammengefügt worden ist. Gelegentlich wird sie (in unseren Modellen) am Rand Null sein dürfen. Es wird davon ausgegangen, daß horizontale Verschiebungen nicht stattfinden, sodaß die in u-Richtung wirkende Komponente alleine der Verformung der Saite entgegenwirkt. R1 Gewichtsfunktion, Potential Ep (u) := 0 21 q(x)u(x)2 dx. im äußeren Feld: Gelegentlich wird sich die Saite in einem Kraftfeld befinden, welches linear in u ist (etwa, wenn die Saite um die Nullage rotiert). Die Arbeit, welche diese Kraft verrichtet ist unter Einbeziehen der Gewichtsfunktion, d.i. der Massendichte q(x) von der Gestalt Z Ep (u) := 0 1 1 q(x)u(x)2 dx. 2 Die Materialfunktion q erfüllt ähnliche Annahmen wie p und bezieht die Massendichte entlang der Saite ein. 6.1. Mathematisches Modell und Allgemeines zum Lösen 217 Arbeit einer in u-Richtung wirkenden Kraftdichte entlang der Saite: Gelegentlich leistet externe Kraft mit der Kraftdichte f entlang der Saite in u-Richtung ebenfalls Arbeit, nämlich Z 1 Ef (u) := f (x)u(x) dx. 0 Es wird f recht allgemein sein dürfen, z.B. die Deltafunktion, oft jedoch auch stetig differenzierbar, z.B. konstant (Gravitation). 6.1.2 Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem Es ist Z 1 J(u) := Ev (u) − Ep (u) − Ef (u) = 0 1 pu02 − qu2 − uf 2 dx die Energiebilanz R 1 für eine unter diesen Kräften befindlichen Saite. Dabei ist, üblicher Konvention folgend, 0 uf dx im Sinne von hf, ui, also Anwendung der distributionellen Kraftdichte auf die Funktion u zu verstehen (Anmerkung 247 (S.274)). Als Kandidaten für u im stationären Zustand, d.h., wo die Saite nicht in “Bewegung gerät”, also im Gleichgewicht ist (bezüglich eines mit der Saite mitrotierenden Koordinatensystems in “Ruhe befindet”) erweisen sich die stationären Lösungen u des Variationsproblems δJ(u)(h) = 0 für alle (z.B.) 2 mal stetig differenzierbaren h. Das interpretiert man oft so, daß “in Summe” so wenig als möglich Energieumwandlung von einer Art der Energie in eine andere stattfindet – insbesondere dann, wenn das Gleichgewicht stabil ist, ansonst eher wie einen Flachpunkt bzw. Sattelpunkt in der Theorie der Extremwertaufgaben. 6.1.3 Variationsformulierung – distributionelle Lösung Es ergibt sich Z δJ(u)(h) = 1 (pu0 h0 − quh − f h) dx (6.1) 0 wie Anmerkung 247 (S.274) ausgeführt, und in Beispiel 153 (S.163) in einem Spezialfall vorgerechnet worden ist. Hierin ist h ∈ D(I) beliebig, also eine C ∞ -Funktion mit Träger ein echtes Teilintervall von I. Hieraus findet man durch partielle Integration zunächst die Eulergleichung − (pu0 )0 − qu − f = 0 (6.2) und es sind noch Vorgaben an Randwerte zu setzen, weil die Gleichung, analog wie in der Theorie der DGL nicht eindeutig lösbar ist. Man faßt u und f als Distributionen auf, solange man für h lediglich Testfunktion, deren Träger die Punkte 0 und 1 nicht enthält, wählt. Danach weiß man, daß jede Distributionenlösung u eine Funktion auf I sein muß. Allerdings hat sie Ableitungen vorerst nur im distributionellen Sinn (=verallgemeinerte Ableitungen). 218 Saite - etwas mathematische Physik Ob, und inwieweit distributionelle Lösungen durch Randwerte bestimmt werden können, ist nicht grundsätzlich einfach, vor allem dann, wenn p bzw. q nicht konstant sind. Hier erweist sich die Hilbertraumformulierung (Soboleffnormen) im allgemeinen als zweckmäßiger. 6.1.4 Hilbertraumformulierung – Soboleffnormen Auch inwieweit eine etwaige distributionelle Lösung klassische Ableitungen hat, hängt im weiteren von p, q und f , bzw. den Ableitungsordnungen der Randwerte ab. Diese Ableitungsordnungen rufen die Soboleffnormen auf den Plan. Wie nämlich in Beispiel 166 (S.178) 2. vorgeführt wurde, sind die Elemente im Hilbertraum H 1 (I), der Vervollständigung der auf I stetig differenzierbaren Funktionen bezüglich der Norm s Z 1 kuk = (u2 + u02 ) dx 0 als stetige Funktionen auffaßbar. Deshalb ist H 1 (I) ein guter Kandidat für Randwertprobleme, die lediglich u(0) und u(1) involvieren. Für höhere Ableitungen sind es wohl eher k Teilräume R 1 von0 H0 (I) mit k ≥ 1. Eine wesentliche Beobachtung ist jedoch die bilineare Struktur von 0 (pu v − quv) dx bezüglich u und v. R1 Besonders interessant ist dabei der erste Ausdruck 0 pu0 v 0 dx, weil er die höchsten Ableitungsordnungen involviert und der Norm auf H01 (I), dem Raum mit Randdaten u(0) = u(1) = 0, sehr ähnlich ist. Tatsächlich sind unter der Annahme, daß p(x) durch eine positive KonqR 1 0 2 stante nach unten beschränkt ist (sogenannte Koerzivität), die Normen kukE := 0 p|u | dx 1 und die H0 -Norm äquivalent, wie man leicht einsieht. Jedenfalls versucht man, einen Hilbertraum H zu finden, der a) in H 1 (I) liegt, und b) Interpretation der Randdaten erlaubt. Hat man H gefunden (hängt von den Randbedingungen an u ab), so können ιp (u)(v) := R1 R1 0 0 0 0 pu v dx und ιq (u)(v) := 0 quv dx als Abbildungen ιp bzw ιq von H in den Dualraum H aufgefaßt werden. In abstrakter Form findet man für alle v ∈ H, h(Rιp (u) − Rιq (u) − Rf ), viH = 0 wobei u die Randbedingen zu erfüllen hat. Es ist dabei R die Rieszabbildung. Die Menge der u ∈ H, welche die (stets homogenen linearen) Randbedingungen erfüllt, ist ein abgeschlossener Teilraum U von H. 6.1.5 Lösungstechniken Aus dem Zusammenspiel der beiden Formulierungen ergeben sich folgende Lösungstechniken: Distributionen: Wenn p, q und f hinreichend einfache Form haben, können oft Distributionenlösungen kalkülmäßig rasch gefunden werden. Ist z.B. u eine Lösung von −(pu0 )0 − qu = δa , so ist bekanntlich u ∗ f eine Distributionenlösung von −(pu0 )0 − qu = f (Anmerkung 247 (S.274)). 6.1. Mathematisches Modell und Allgemeines zum Lösen 219 Rieszabbildung: Eine R 1 explizite Beschreibung der Rieszabbildung gelingt sehr oft in der Form hRu, f i = 0 G(x, t)f (t) dt, wobei G ein explizit bestimmbarer Integralkern, d.h. Funktion in 2 Variablen ist, eine sogenannte Greenfunktion. FEM – Finite Elementmethode: Die Grundidee besteht darin, einen endlich-dimensionalen Raum V durch eine ausgezeichnete Basis von z.B. Hutfunktionen vorzugeben, die bereits, jede einzeln, die Randbedingungen erfüllen. Danach wird das Variationsproblem auf V × V P eingeschränkt. Konkret, wenn B eine Basis von V ist, so ist jedes u von der Form u = x u(b)b mit u(b) ∈ IR, sodaß sich für alle c ∈ B Z 1 X u(b) (pb0 c0 − qbc − f c) dx = 0 0 b∈B R1 ergibt, insgesamt ein lineares Gleichungssystem der Form A~x = ~b mit Abc := 0 (pb0 c0 − R1 qbc) dx, Unbekannten ~xb := u(b) (b ∈ B) und rechter Seite ~bb = 0 f b dx, das mit Standardmethoden der numerischen linearen Algebra gelöst wird. Die Genauigkeitsschranken, welche V mitbestimmen, können im voraus eingestellt werden. Beispiel 195 (Bilinearform und eingespannte Saite) 1. Auf dem Raum der stückweise stetig differenzierbaren, stetigen Funktionen u : [−2, 2] → IR mit u(−2) = u(2) = 0 ist durch 1 B(u, v) := 2 Z 2 u0 (x)v 0 (x) dx −2 eine Bilinearform gegeben. Ist sie symmetrisch? Weiters seien ψ(x) := 1 − |x| auf [−1, 1] und sonst Null auf ganz IR (Skizze). Nun sei φi (x) := ψ(x − i) für i = −1, 0, 1, wobei wir diese Funktionen nur auf [−2, 2] betrachten. Es sind die Graphen der Funktionen zu skizzieren. Zeigen Sie: (a) B(φ−1 , φ1 ) = 0. (b) B(φ−1 , φ0 ) = B(φ0 , φ1 ) = − 21 . (c) B(φi , φi ) = 1. (d) Sind u, v von der Gestalt u = x−1 φ1 + x0 φ0 + x1 φ1 , v = y−1 φ1 + y0 φ0 + y1 φ1 , so ist 2 1 B(u, v) = (x−1 , x0 , x1 ) −1 2 0 −1 2 −1 Antwort: Es handelt sich um Hutfunktionen φ−1 , φ0 , φ1 : ?? ??? ?? ?? y−1 0 −1 y0 . y1 2 220 Saite - etwas mathematische Physik ? ??? ?? ?? ? ?? ??? ?? ?? Die Ableitungen sind lediglich an den Knickstellen nicht definiert und ansonst folgender Tabelle entnehmbar, die wiederum ganz leicht aus den Skizzen ablesbar ist: -1 0 1 (-2,-1) 1 0 0 (-1,0) -1 1 0 (0,1) 0 -1 1 (1,2) 0 0 -1 Sind nun die Indizes verschieden, so ist das Produkt der Ableitungen −1 auf einem Intervall der Länge 1, bzw. überall 0, je nachdem, ob die Indizes “Abstand 1” bzw “Abstand größer 1” haben. Sind die Indizes gleich, so gibt es 2 Intervalle, auf denen (φ0i )2 den Wert 1 annimmt, somit das Integral den Wert 2. Hieraus ergeben sich all die angegebenen Werte von B(φi , φj ). Schließlich zu d): B ist auch symmetrische Bilinearform auf dem von φ−1 , φ0 , φ1 aufgespannten linearen Teilraum. Wählt man diese Hutfunktionen als Basis, so ergeben sich die Koeffizienten der Matrix für B aus Bspl.3 zu Z 2 Aij = B(φi , φj ) = φ0i (x)φ0j (x) dx, −2 wobei die ungewohnte Indizierung “problemangepaßt” ist. 2. (Gleichmäßig belastete, an den Enden eingespannte Saite bei geringem Durchhang) Es seien u eine auf dem Intervall I = [−2, 2] gegebene stückweise stetig differenzierbare, stetige Funktion, sowie f (x) = 1. Durch 1 J(u) := 2 Z 2 02 Z 2 u (x) dx + −2 f (x)u(x) dx −2 ist ein in u quadratisches Funktional gegeben. Falls u = x−1 φ−1 + x0 φ0 + x1 φ1 ) ist, finde man A, ~b und c, sodaß J(u) = ~xT A~x + 2~bT ~x + c. Antwort: Nachdem Q(u) = B(u, u), kann man die Matrix für B verwenden, sodaß 2 −1 0 1 A = −1 2 −1 . 2 0 −1 2 6.1. Mathematisches Modell und Allgemeines zum Lösen 221 R2 Um ~bT zu gewinnen, erinnert man sich, daß u 7→ −2 f (x)u(x) dx bei festem f eine lineare Abbildung bezüglich u ist. Deshalb, dem üblichen Rezept folgend, wenden wir, hier für f (x) = 1, diese lineare Abbildung der Reihe nach auf φ−1 , φ0 , und φ1 an, m.a.W., man ermittelt als Komponenten von ~b die Integrale Z 2 Z 2 Z 2 b−1 = φ−1 (x) dx, b0 = φ0 (x) dx, b1 = φ1 (x) dx. −2 −2 −2 Aus der obigen Skizze erkennt man, daß es sich jeweils um den Flächeninhalt handelt, der bei allen drei Funtionen gleich 1 ist. Somit ergibt sich 1 1 ~b = 1 . 2 1 Schließlich ist c = 0. 3. (Ritzmethode für die eingespannte Saite unter gleichmäßiger Belastung) Man fine ~x0 ∈ IR3 und γ ∈ IR, sodaß f (~x) = (~x − ~x0 )T A(~x − ~x0 ) + γ ist, wobei ~x := (x−1 , x0 , x1 )T und 2 −1 0 1 f (~x) = ~xT −1 2 −1 ~x + (1, 1, 1)~x 2 0 −1 2 Man skizziere die dazugehörige Lösungsfunktion u = x−1 φ−1 + x0 φ0 + x1 φ1 . Vergleichen Sie die hier gewonnene “Ritznäherung”. 3 2 Antwort: Zunächst ergibt sich ~x0 = 2 durch Lösen des Gleichungssystems 3 2 2 −1 0 −1 −1 2 −1 −1 0 −1 2 −1 Somit ergibt sich der Graph der Näherungsfunktion u = − 32 φ−1 −2φ0 − 23 φ1 als Streckenzug, welcher der Reihe nach die Punkte 3 3 (−2, 0), (−1, − ), (0, −2), (1, − ), (2, 0) 2 2 2 verbindet. Die exakte Funktion u = x2 − 2 ist ein Parabelbogen, der an den Stützstellen die gleichen Werte u(±2) = 0, u(±1) = 32 und u(0) = 2 wie die gefundene Näherung hat. 222 Saite - etwas mathematische Physik 6.2 Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0 und q = 0. 6.2.1 Formulierung des Randwertproblems Wie findet man die in der Überschrift genannte distributionelle Formulierung? Antwort(findung): Die Saite befinde sich lediglich unter Krafteinwirkung f , somit ist der Energieterm mit der Massendichte q nicht vorhanden, was darauf hinausläuft q = 0 anzunehmen. Sie wird am Rand festgehalten, also muß offenbar u(0) = u(1) = 0 gelten. Deshalb (und nicht nur deshalb, sondern auch aus physikalischen Gründen) erweist sich die Stetigkeitsannahme an u als sinnvoll. Damit ergibt sich als distributionelle Formulierung der Formelanteil der Unterabschnittüberschrift. Welchen Hilbertraum wählen? Antwortfindung: Zumindest stetig sollten die Funktionen sein. In Beispiel 166 (S.178) 2. wurde der Hilbertraum stetiger Funktionen H 1 (I), d.i. die Vervollständigung des Raumes der stetig differenzierbaren Funktionen unter der Integralnorm s Z 2 kuk1 := (u2 + u02 ) dx 0 beschrieben. Er sollte für die meisten physikalischen Probleme dieser Art ausreichen. Es hat sich in Beispiel 166 (S.178) 2. herausgestellt, daß der Raum H01 (I) = {u ∈ H 1 (I) | u(0) = R1 u(1)} mit dem H01 -inneren Produkt hu, vi := 0 u0 v 0 dx ein Hilbertraum ist (dessen Norm wir einfachheitshalber nur mit k · k bezeichnen wollen). Das ist interessant, weil die Bilinearform recht ähnlich aussieht (z.B. für p = 1 wäre B(u, v) = −hu, vi). 6.2.2 Hilbertraumformulierung - Existenz und Eindeutigkeit Wie lautet die Hilbertraumformulierung, wenn man p(x) > c > 0 für alle x ∈ I annimmt (sogenannte Koerzivität)? Kann man hiermit Existenz und Eindeutigkeit der Lösung beweisen? Antwortfindung: Es erscheint sinnvoll H = H01 (I) zu wählen, dann erfüllt qRjedes u ∈ H 1 02 die Randbedingungen automatisch. Danach ist die Energienorm kukE := 0 pu dx zur H01 -Norm äquivalent, weil wir p > c > 0 für eine Konstante c annehmen. Falls man weiß, daß f stetiges lineares Funktional ist, ergibt die Rieszabbildung genau ein Rf ∈ H mit hRf, viE = f (v) für alle v ∈ H. Danach ergibt sich die Hilbertraumformulierung hu, viE = hRf, viE , für alle v ∈ H, also u = Rf 6.2. Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0 und q = 0. 223 als eindeutige H01 (I)-Lösung. R1 Es sei f ∈ L2 (I) bzw. f = δa , wobei a ∈ (0, 1) ist. Ist f bzw. u 7→ 0 δ(a − x)u(x) dx := f (a) als stetiges Funktional auf H01 (I) interpretierbar? Antwortfindung: Es hilft die Poincaréungleichung, nämlich kφk∞ ≤ kφk, die für alle φ ∈ H01 gilt, weiter (vgl. Beispiel 166 (S.178) 2.). Ist nun f eine L2 -Funktion, so ergibt zunächst die Cauchy-Schwarzsche Ungleichung in L2 und danach die Poincaréungleichung |hf, φiL2 | ≤ kf kL2 kφkL2 ≤ Ckφk, wobei man C := kf kL2 wählen kann. Mithin ist das Funktional f stetig bezüglich der H01 Norm. (Ein kleiner Schwindel: Das Integral muß man sich als Grenzwert von Integralen mit stetigen Integranden zustande gekommen denken - oder eben doch als Lebesgueintegral interpretieren.) Auch für f eine Deltafunktion, also hf, φi = hδa , φi = φ(a) kann die Stetigkeit bezüglich der H01 -Norm gezeigt werden: s Z a Z 1 Z 1 0 0 |hδa , φi| = |φ(a)| = φ (x) dx ≤ |φ (x)| · 1 dx ≤ (φ0 (x))2 dx = kφk. 0 6.2.3 0 0 Globale Minimumeigenschaft des Wirkungsintegrals J R1 Nimmt das Wirkungsintegral J(u) = 0 21 pu02 − uf dx an der Stelle u0 := Rf ein globales Minimum an? Antwortfindung: Das Energiefunktional nimmt die abstrakte Gestalt 1 1 1 J(u) = kuk2E − hR(f ), uiE = ku − R(f )k2E − kR(f )k2E 2 2 4 an, sodaß für u = R(f ) tatsächlich ein globales Minimum vorliegt. 6.2.4 Konstruktion der Rieszabbildung – Konsequenzen Man zeige, daß die Rieszabbildung für stetiges f durch Z 1 R(f )(x) = K(t, x)f (t) dt 0 mit K(t, x) = t(1 − x) für 0 ≤ t ≤ x ≤ 1 und K(t, x) = x(1 − t) für 0 ≤ t ≤ x ≤ 1 beschrieben werden kann Antwort(findung): Es sollte R(f ) eine quadratisch integrierbare Ableitung haben (was zum 224 Saite - etwas mathematische Physik Beispielende R 1 noch zu verifizieren R 1 ist) 0und 0die Randbedingungen erfüllen. Deshalb geht geht man von 0 u(x)f (x) dx = 0 (R(f )) (x)u (x) dx aus, wobei R(f )(0) = R(f )(1) = 0 gelten müssen. Partielle Integration auf der rechten Seite ergibt Z 1 Z 1 1 0 u(x)f (x) dx = (R(f )) (x) 0 − u(x)R(f )00 (x)u(x) dx. | {z } 0 0 =0 Weil dies für alle stetig differenzierbaren u in H01 (I) gilt, schließt man auf R(f )00 + f = 0. Zweimalige Integration und Einsetzen der Randbedingungen führt auf Z 1 Z s Z x Z s R(f )(x) = ds f (t) dt + ds f (t) dt x. 0 0 0 0 Die zweimalige Integration kann noch umgeformt werden zu Z x Z s Z x Z x Z x ds f (t) dt = f (t) dt ds = (x − t)f (t) dt, 0 0 0 t 0 und Einsetzen ergibt die Behauptung. Etwas genauer ist dies zu Beginn von Unterabschnitt 5.3.3 (S.188) zu verfolgen. Die stetige Differenzierbarkeit von R(f ) ergibt sich aus den üblichen Fakten über Parameterintegrale. Wie lautet die Rieszabbildung für das lineare Funktional δa ? Die Antwort findet sich in Beispiel 194 (S.214). Welchen Gewinn zieht man aus der Integraldarstellung? Antwort: Die Integration ist numerischen Methoden unter geeigneten Voraussetzungen an die Gewichtsfunktion p (die hier der Einfachheit halber gleich 1 war) Bei Benützung von FEM approximiert man f und p durch Hutfunktionen und verwendet Standardintegrationsroutinen. 6.3 6.3.1 Eingespannte Saite im Potentialfeld unter Krafteinwirkung Physikalische Fragestellung Es soll im Gegensatz zur vorigen Situation ein Kraftfeld auf die Saite wirken, welches proportional zur Auslenkung u der Saite ist. Dann ergibt sich für das Wirkungsintegral Z 1 1 0 2 J(u) = (u (x) − ω 2 u(x)2 ) − f (x)u(x)) dx, 0 2 6.3. Eingespannte Saite im Potentialfeld unter Krafteinwirkung 225 und da die Saite eingespannt wird, haben wir u(0) = u(1) = 0. Der Soboleffraum H01 (I) ist der natürliche Hilbertraumkandidat, in welchem Lösungen u von δJ(u)(φ) = 0 für alle Testfunktionen φ gesucht werden. Der Faktor ω kann als Winkelgeschwindigkeit einer um die Ruhelage der Saite als Achse rotierenden Flüssigkeit gedacht werden, welche die Saite “mitnimmt”. Wie früher angedeutet, betrachten wir das Problem als stationär, wenn der Beobachter “mitrotiert” und sich die Saite für ihn dann nicht bewegt. Solche Lösungen werden durch das obige Variationsproblem gesucht! Ist die Rotationsgeschwindigkeit ω = 0, so nimmt die Saite eine eindeutig bestimmte Lage in H01 (I) an, wie im vorigen Abschnitt gezeigt wurde. Das sollte man auch für kleines ω erwarten dürfen. Wenn man ω steigert, ist eine endlich-parametrige Schar von Gleichgewichtslösungen denkbar. Selbst wenn die Kraft f = 0 ist, darf man Verformungen mit immer mehr Knoten erwarten. 6.3.2 Hilbertraumformulierung Es sei p durch eine positive Konstante nach unten beschränkt. Man zeige, daß die Hilbertraumformulierung Rιp u − Rιq u − Rf = 0 lautet. Zeigen Sie daß Rιp invertierbar ist. Weiter, daß Rιq kompakt ist. Antwortfindung: Die Hilbertraumformulierung ergibt sich aus Unterabschnitt 6.1.4 (S.218): hRιp u − Rιq u − Rf, viE = 0 für alle v ∈ H = H01 (I), sodaß die erste Teilbehauptung klar ist. Die Invertierbarkeit von Rιp folgt aus der Äquivalenz der Norm k · kE mit der H01 -Norm: die Injektivität ergibt sich aus Rιp u = 0 gleichbedeutend zu hu, vi0 = hRιp u, vi = 0 für alle v ∈ H01 (I), also u = 0. In analoger Weise prüft man die Existenz der zusammengesetzten Abbildung / H 1 (I)0 0 ι H01 (I) S / H 1 (I) 0 qR 1 H01 (I) 02 wobei mit der üblichen Norm (kuk := 0 u dx) ausgestattet ist und S durch die Vorschrift hSu, vi = hu, viE festgelegt ist. Es ist nicht schwierig zu sehen, daß Sι Inverse zu Rιp ist. Um die Kompaktheit von Rιq zu erkennen, setzen wir y = Rιq u und finden Z 1 0 0 Z py v dx = 0 1 quv dx 0 für alle y, v ∈ H01 (I). Beschränkt man sich zunächst auf y, v ∈ D, also Testfunktionen, so kann die Gleichung distributionell gelesen werden: −(py 0 )0 = qu 226 Saite - etwas mathematische Physik Zweimalige Integration ergibt zunächst Z x Z s ds y(x) = − q(t)u(t) dt + αx, 0 p(s) 0 woraus Vertauschung der Integrationsreihenfolge die Darstellung Z x Z x ds y(x) = − q(t)u(t)dt + αx p(s) 0 t ergibt. Es ist α so zu wählen, daß y(1) = 0 gilt. Insgesamt bekommt man Z 1 G(x, t)u(t) dt y(x) = Rιq (u)(x) = 0 mit ( G(x, t) = q(t)(x R1 ds t p(s) − Rx q(t)x ds ) t≤x 0 p(s) x≤t Rt 1p(s) ds Ähnlich, wie in Beispiel 177 (S.190) zeigt man, daß sich durch diese Integraldarstellung Rιq als kompakter Operator erweist. 6.3.3 Bemerkungen zur Lösbarkeit – Fredholmalternative Die Hilbertraumformulierung ist äquivalent zu (I − K)u = (Rιp )−1 Rf mit K = ω 2 (Rιp )−1 Rq kompakter Operator. Der Kern von I − K kann nur endlichdimensional sein. Wie hängt die Bestimmung des Kerns mit Eigenwertproblemen zusammen? Antwortfindung: Es ist K = ω 2 (Rιp )−1 Rq die Zusammensetzung eines kompakten mit einem stetigen Operator, also kompakt. Wegen Anmerkung 176 (S.189) ist sein Kern endlichdimensional. Die distributionelle Formulierung zeigt, wie der Kern bestimmt wird: −(pu0 )0 − ω 2 qu = 0, u(0) = u(1) = 0. M.a.W., man löst ein spezielles Sturm-Liouville Eigenwertproblem. Welche Aussage läßt sich über die Lösbarkeit des Problems machen? Antwortfindung: Ist zunächst ω 2 klein, so verrät uns der Fixpunktsatz von Banach (vgl. Beispiel 124 (S.129)), bzw. eine geometrische Reihe, nämlich (I − K)−1 = ∞ X Kj, j=0 konvergent für kKk < 1, daß I − K invertierbar ist. Somit ist in solch einem Fall die Lösung sogar eindeutig. 6.3. Eingespannte Saite im Potentialfeld unter Krafteinwirkung 227 Ansonst kann die Gleichung (I −K)u = Rf wohl nur dann lösbar sein, wenn Rf im Bild des Operators auf der linken Seite ist. Das ist genau dann der Fall, wenn Rf von allen Elementen des Kerns des dualen Operators annulliert wird, also, wenn (I − K)0 (u0 ) = 0 stets u0 (Rf ) = 0 nach sich zieht. Es ist (I − K)0 ebenfalls kompakter Operator (vgl. Anmerkung 176 (S.189)), hat also ebenfalls endlich dimensionalen Eigenraum. Deshalb findet man ein endliches System von Funktionalen u0 , welche die Lösbarkeit entscheiden. Gibt es eine Lösung, dann auch unendlich viele, wenn der Eigenraum nicht trivial ist. 228 Saite - etwas mathematische Physik Anhang A ANHÄNGE A.1 Grundlagen A.1.1 Modelltheorie Es sei L eine gegebene prädikatenlogische Sprache1 und A eine Teilmenge von L. Es seien weiter M eine Menge, und es mögen jedem Konstantensymbol ein Element in M , jedem nstelligen Prädikatsymbol eine n-stellige Relation auf M n , jedem n-stelligen Funktionssymbol eine Funktion von M n nach M zugeordnet sein. Nun kann jedem Term durch Zerlegung in seine Bestandteile (Induktion nach der Struktur) eine Interpretation zugeordnet werden, deren Wahrheitswert in der durch M bestimmten Struktur festgestellt werden kann. Sind nun in der Interpretation alle Elemente von A W, so nennt man die Interpretation von L auf M ein Modell und A ein in der Sprache L formuliertes Axiomensystem. Jede Formel in L, die in jedem Modell W ist, heißt Folgerung aus dem Axiomensystem A. Eine mathematische Theorie besteht in der Wahl einer Sprache L, der Wahl der Axiome A, und den Folgerungen aus den Axiomen, welche die Theorie bilden. Der wesentliche Sinn der axiomatischen Methode besteht darin, Folgerungen unabhängig von speziellen Modellen zu ziehen. Hierzu wird als meist verwendete Technik der mathematische Beweis benützt. A.1.2 Formale Logik In der Praxis der Mathematiker wird ein Beweis zu einem solchen durch “Akzeptanz”. In der formalen Logik strengt man eine Formalisierung des Beweisbegriffs an. Dadurch erreicht man, niemals falsche Aussagen aus wahren Aussagen zu folgern. Definition 196 Es sei L eine Sprache und A ein Axiomensystem (also Teilmenge von A). Man verlangt: 1 Man kann solche Sprachen im Sinne einer Chomskygrammatik Definition 207 (S.239) formal erklären, das soll hier nicht geschehen. 229 230 ANHÄNGE Aussagenlogische Tautologien: Für Formeln F, G, H der Sprache L sind die Formeln F ⇒ (G ⇒ F ) (F ⇒ (G ⇒ H)) ⇒ ((F ⇒ G) ⇒ (F ⇒ H)) F ⇒ (¬F ⇒ G) (F ⇒ G) ⇒ ((¬F ⇒ G) ⇒ G) Tautologien, d.h. für jede Wahl der Wahrheitswerte von F , G, H stets W. Quantorenlogische Axiome: Falls x im Term t nicht vorkommt, gilt (∀x)F (x) ⇒ F (t), und falls x in F nicht vorkommt, hat man (∀x)(F ⇒ G) ⇒ (F ⇒ (∀x)G). Gleichheitsaxiome: ((x = x) ∧ (x = y)) ⇒ ((x = z) ⇒ (y = z)). Für ein n-stelliges Prädikat R, bzw. Funktion f hat man (x1 = y1 ) ∧ · · · ∧ (xn = yn ) ⇒ (R(x1 , . . . , xn ) ⇒ R(y1 , . . . , yn )) und (x1 = y1 ) ∧ · · · (xn = yn ) ⇒ (f (x1 , . . . , xn ) = f (y1 , . . . , yn )). Ableitungsregeln: Sind F und G Formeln, so kann man aus F und F ⇒ G auch die Formel G ableiten (Modus Ponens). Ist F eine Formel, und x eine Variable, die bezüglich F nicht gebunden ist, so kann man aus F die Formel (∀x)F herleiten (Modus universalis). Ableitbare Formeln: Man sagt, eine Formel F in L ist aus dem Axiomensystem A (formal) ableitbar, falls F ∈ A, F ein logisches Axiom, bzw. falls es aus A herleitbare Formeln F1 , . . . , Fn gibt, und F aus den Fi mittels Ableitungsregeln entstanden ist. Die wohl bekannteste Grenze wird der formalen Logik durch die Unvollständigkeitssätze von K.Gödel gesetzt: 1. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die Arithmetik der natürlichen Zahlen enthält, so gibt es in der gewählten Sprache eine Aussage A, für die weder A noch ¬A formal ableitbar ist. 2. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die Arithmetik der natürlichen Zahlen enthält, so kann im Rahmen der aus A herleitbaren Theorie ihre Widerspruchsfreiheit nicht gezeigt werden, (d.h. man kann nicht zeigen, ob mit einer Aussage A nicht auch ¬A ableitbar ist). Eine anderes Problem beschreibt der Satz von Löwenheim-Skolem, demzufolge jede mathematische Theorie mit einem unendlichen Modell stets Modelle verschiedener Mächtigkeit besitzt, so z.B. auch das Axiomensystem der Arithmetik. A.1. Grundlagen A.1.3 231 Axiomatische Mengentheorie Die Idee der Menge als “Zusammenfassung wohl unterschiedener Objekte” (Georg Cantor ca. 1870) ist vermutlich recht alt, sie kommt in der Formulierung der euklidischen Axiome vor, bei der die Ebene aus den “unteilbaren Atomen im Sinne Demokrits”, den Punkten besteht. Es wurde Ende des 19. Jahrhundert erkannt, daß man nicht jede Zusammenfassung wohl unterschiedener Objekte als Menge bezeichnen sollte. Etwa 1901 hat nämlich B.Russel die folgende Antinomie formuliert: Anmerkung 197 (Russel’sche Antinomie) Es sei X die Menge aller jener Mengen, die sich selbst nicht enthalten, also X = {x | x 6∈ x}. Ist dann X ∈ X, so folgt X 6∈ X, weil ja X gerade durch diese Eigenschaft definiert ist. Wenn aber X 6∈ X, so gehört X zu X, weil ja X gerade alle solchen Mengen enthält2 . Somit beschreibt X = {x | x 6∈ x} eine “Menge” mit nicht wohl unterschiedenen Elementen. Um diese Problematik zu umgehen, stützt man sich auf das Zermelo Fraenkelsche Axiomensystem, kurz ZF, Definition 198 (Zermelo-Fraenkel Axiome (ZF)) Extensionalität: Zwei Mengen M und N sind gleich, wenn sie dieselben Elemente enthalten. D.h. für 2 beliebige Mengen M und N gilt: (∀x) ((x ∈ M ⇔ x ∈ N ) ⇒ M = N )) Teilmengenaxiom: Ist A(x) eine Formel mit ungebundener Variabler x, so existiert zu jeder beliebigen Menge M eine Teilmenge N von M , deren Elemente x durch die Eigenschaft (∀x) ((x ∈ N ) ⇔ ((x ∈ M ) ∧ A(x)) bestimmt sind. Üblicherweise schreibt man N = {x ∈ M | A(x)}. Vereinigung: Enthält eine Menge M selbst Mengen, so bilden alle Elemente dieser Mengen zusammen selbst eine Menge, die Vereinigungsmenge dieser Mengen: (∃V )(∀x) ((x ∈ V ) ⇔ (∃C)(x ∈ C ∧ C ∈ M ) Als gängige Notation findet man [ V = C = {x | (∃C ∈ M ) ∧ (x ∈ C)} C∈M 2 Die folgende humorvolle Einkleidung des Sachverhalts ist bekannt: Ein Kompaniekommandant gibt dem Barbier den Auftrag, alle jene zu rasieren, die sich nicht selbst rasieren. Demensprechend macht der Barbier eine Liste der Selbstrasierer, um den Arbeitsaufwand zu schätzen. Dabei ist es für ihn nicht klar, ob er sich auf die Liste schreibt oder nicht. 232 ANHÄNGE Potenzmenge: Alle Teilmengen T einer Menge M bilden eine Menge, die Potenzmenge: (∃P )(∀T ) ((T ∈ P ) ⇔ (∀C)(C ∈ T ⇒ C ∈ M ) Es ist üblich, diese Menge mit P(M ) := {T | T ⊆ M } zu bezeichnen. Ersetzungsaxiom: Es sei A(x, y) eine funktionale Aussenformel, d.h. (∀x)(∀y)(∀y 0 ) (A(x, y) ∧ A(x, y 0 ) ⇒ y = y 0 ), dann bilden für jede Menge M die y, die für ein x ∈ M die Aussage A(x, y) erfüllen, eine Menge, d.h. (∃N )(∀y) ((y ∈ N ) ⇔ ((∃x)(x ∈ M ) ∧ A(x, y))) Es ist üblich, dafür N := {y | (∃x ∈ X)A(x, y)} zu schreiben, und sie als Bildmenge bezüglich der funktionalen Aussagenformel zu bezeichnen. Unendlichkeitsaxiom: Es gibt eine Menge, welche die leere Menge enthält, und mit jedem Element x auch das Element x ∪ {x}. (∃M ) ((∃y ∈ x)(∀z) (z 6= y) ∧ (∀y ∈ x)(∀w)(w ∈ z) ⇔ (w ∈ y) ∨ (w = y)) Dies berechtigt zur rekursive Definition der natürlichen Zahlen IN , nämlich durch 0 := ∅, 1 := {∅}, 2 := {∅, {∅}}, etc. allgemeiner nachfolger(n) := n ∪ {n}. Auswahlaxiom: Zu jeder Menge M von disjunkten Mengen gibt es eine Menge, die jedes Element von M in genau einem Element schneidet: ( (∀S)((S ∈ M) ⇒ (∃s ∈ S)) ) ∧ ( (∀S)(∀S 0 ) ( (S ∈ M) ∧ (S 0 ∈ M) ∧ ( (∃s) (s ∈ S) ∧ (s ∈ S 0 ) ) =⇒ (S = S 0 ) ) ) Beispiel 199 Es soll an Beispielen gezeigt werden, wie diese Axiome verwendet werden, um A.1. Grundlagen 233 Mengenkonstruktionen zu rechtfertigen. 1. Warum ist der Durchschnitt von zwei Mengen M und N eine Menge? Antwort: Es sei A(x) der durch (x ∈ M ) ∧ (x ∈ N ) definierte aussagenlogische Term. Er enthält die ungebundene Variable x, sodaß wegen des Teilmengenaxioms alle x mit x ∈ M und A(x) eine Menge, eben den Durchschnitt M ∩ N , bilden. 2. Es seien M und N Mengen. Warum ist {M, N } eine Menge? Antwort: Man braucht das Ersetzungsaxiom. Demnach betrachten wir die Formel A(x, y) gegeben durch ((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )). Wir zeigen, daß A(x, y) funktional ist: Angenommen fü alle x gelte A(x, y) ∧ A(x, y 0 ). Dann heißt das, daß sowohl ((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )), wie auch ((x = ∅) ∧ (y 0 = M )) ∨ ((x = {∅}) ∧ (y 0 = N )) gelten. Ist dann x = ∅, so ist y = M = y 0 , und ähnlich schließt man für x = {∅} auf y = y 0 . Nun betrachten wir alle Elemente y, die (∃x)A(x, y) erfüllen, also (∃x)((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )) erfüllen, als solche y kommen aber geradewegs nur M und N in Frage, also bilden sie eine Menge – in üblicher Notation – {M, N }. A.1.4 Kardinalität endlicher Mengen Unter Kardinalität einer endlichen Menge versteht man die Anzahl3 ihrer Elemente. In diesem Abschnitt, auch als Vorbereitung auf die Wahrscheinlichkeitstheorie sollen für endliche Mengen Fragen wie “Wieviele Elemente hat die Menge” gestellt werden, falls wir wissen, wie sie aus einfacheren Mengen, deren Elementanzahlen wir kennen, aufgebaut ist. Die Beantwortung solcher Fragen fällt in den Bereich der abzählenden Kombinatorik. Es soll |A| die Anzahl der in A enthaltenen Elemente bedeuten, wenn A endliche Menge ist. Anmerkung 200 (Abzählende Kombinatorik) Es sei Ω eine endliche Menge mit n = |Ω| Elementen. Partition : Ist {Ωi | i ∈ I} eine Partition von Ω (siehe Definition 39 (S.61)), so hat man X |Ω| = |Ωi |. i∈I Als Spezialfall ergibt sich für zwei disjunkte endliche Mengen A und B die Formel |A ∪ B| = |A| + |B|. 3 Die “Anzahl” ist im mengentheoretischen Sinn eine Klasse von Mengen, welche eine Bijektion auf einen festen Anfangsabschnitt {1, . . . , n} der natürlichen Zahlen besitzt. Ist die Menge leer, so ist die Anzahl ihrer Elemente Null. 234 ANHÄNGE Z.B.: Enthält eine Urne 3 schwarze, 2 rote, 4 blaue und 5 gelbe Kugeln, so hat I 4 Elemente und Ω 14 Elemente. Kartesisches Produkt: Ist Ω = Q i∈I Ωi und I endlich, so hat man |Ω| = Y |Ωi |. i∈I Als Spezialfall ergibt sich für zwei endliche Mengen A und B die Formel |A × B| = |A||B|. Z.B.: Wenn das Mittagsmenü 3 Vorspeisen, 2 Hauptspeisen, 4 Nachspeisen und 5 Getränkearten anbietet, und in jedem Gang gewählt werden darf, so hat I 4 Elemente und Ω hat 3×2×4×5 Elemente und stellt die Anzahl an zusammenstellbaren Menüs dar. Funktionen von I nach Ω: Ist I eine endliche Menge, so gibt es |Ω||I| Funktionen f : I → Ω. Z.B.: Es sei Ω eine Menge von Farben, mit denen man Kugeln in I markieren will. Dann läuft das Markieren darauf hinaus, jeder Kugel i ∈ I ihren Farbwert ω ∈ Ω zuzuordnen. Somit entsteht eine Funktion von I nach Ω. Variation von n Elementen zur Klasse k ohne Wiederholung: ist eine injektive Abbildung von einer k-elementigen Menge I in eine n-elementige Ω. n! Für die Anzahl solcher V. findet man Vnk = n(n − 1) . . . (n − k + 1) = (n−k)! , weil man für I := {1, . . . , k} nehmen darf und danach für f (1) n, für f (2) n − 1, etc. Möglichkeiten hat. Z.B. Man will aus n Personen eine Liste von k Leuten zusammenstellen. Anderes Beispiel: Zugfolge bei Kugel-nach-Kugel Entnehmen von k Kugeln aus der Urne Ω mit n Kugeln. Permutation von n Elementen ist eine andere Bezeichnung für bijektive Funktion f : Ω → Ω. Die Anzahl der P. ist n! := n · (n − 1) . . . 2 · 1 = Vnn . Z.B. Eine Permutation kann als Reihung (d.i. lineare Ordnung4 für n Personen angesehen werden. Anderes Beispiel: Zugfolge beim sukzessiven Entnehmen jeweils einer Kugel aus einer n Kugeln enthaltenden Urne Ω, bis sie leer ist. Kombination von n Elementen zur Klasse k ohne Wiederholung ist die Auswahl einer k-elementigen Teilmenge einer n-elementigen Menge. Z.B. Herausgreifen von k Kugeln aus einer Urne mit n Kugeln ohne Beachten der Reihenfolge. Um die Anzahl solcher Auswahlen festzustellen, denkt man sich in A.1. Grundlagen 235 geordnete Listen von k Elementen herausgegriffen. Da es auf die Reihenfolge in der Liste nicht ankommt, hat man somit n(n − 1) . . . (n − k + 1) n! n k Cn = = =: . k! k!(n − k)! k Kombination von n Elementen zur Klasse k mit Wiederholung: ist eine monotone Funktion f : Ω → {1, . . . , k}. Jede solche Abbildung kann als Folge 1 ≤ f (1) ≤ f (2) ≤ · · · ≤ f (n) ≤ k interpretiert werden. . Man sieht das wie folgt ein: Zunächst Die Anzahl solcher Abbildungen ist n+k−1 k zeichnet man den Funktionsgraphen einer monotonen Funktion, hier für k = 3 und n = 5 für die Folge (1, 2, 2, 3, 3): 3 • • 2 • • 1 • 1 2 3 4 5 Solch eine Funktion kann durch eine Liste der Argumente und entsprechend ↑ “kodiert” werden, nämlich, so viele Pfeile, als Einheiten hoch gegangen wird. Dann wählt man aus der n + k − 1-elementigen Menge, die aus Ω zusammen mit den k − 1 ↑s gebildet wird, eine k-elementige Menge aus, und kann damit eindeutig die Folge kodieren. Bei uns wäre das 1 ↑ 23 ↑ 45. Die Anzahl solcher Auswahlen ist somit Cnkw = n+k−1 . k Beispiel 201 Etwas Geschick im Umgang mit kombinatorischem Abzählen benötigt man z.B. in der Wahrscheinlichkeitstheorie. Hier einige Beispiele. 1. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung von 1., 2., und 3.tem Preis gezogen. Wieviele Möglichkeiten gibt es? Antwort: Offenbar ist jede Zugfolge eine injektive Abbildung von {1, 2, 3} nach {1, . . . , 100}. Somit ergibt sich 100 × 99 × 98 als Anzahl der Möglichkeiten. 2. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung eines Dreierteams gezogen. Wieviele Möglichkeiten gibt es? Antwort: Offenbar soll eine Menge aus einer 100-elementigen gewählt wer 3-elementige 100 100×99×98 den. Die Anzahl ist 3 = 1×2×3 = 100 × 33 × 49. 3. Auf wieviele Arten kann man 100 Teilnehmer in drei disjunkte Gruppen zu mindestens 33 Teilnehmern zusammenfassen? 15 4 Definition 39 (S.61) Definition 53 (S.68) 236 ANHÄNGE Antwort: Jede solche Auswahl besteht aus der Angabe einer 34-elementigen Menge und einer 33-elementigen Teilmenge der danach verbleibenden Menge. Der “Rest” ist in der 3.ten Gruppe. Sei Ω := {1, . . . , 100}. Die abzuzählende Menge A an Gruppeneinteilungen besteht aus Paaren (X, Y ) bei denen |X| = 34, |Y | = 33 und X ∩ Y = ∅ gilt, etwas (über)formal: A = {(X, Y ) ∈ P(Ω) × P(Ω) | X ∩ Y = ∅ ∧ |X| = 34 ∧ |Y | = 33}. 66 Für X hat man 100 34 Teilmengen und danach für Y noch 33 , also ergibt sich 100 66 |A| = × . 34 33 4. Es sei {0, 1, 2}∗ das freie Monoid (Definition 65 (S.80)) über dem Alphabet A := {0, 1, 2}. Wieviele Wörter der Länge mindestens 3 und höchstens 5 gibt es. Antwort: Es handelt sich um die Wörter der Form abc, abcd und abcde mit a, b, c, d, e ∈ {0, 1, 2}. Aufgrund der Definition sind es Elemente in A3 , A4 und A5 . Somit ergibt sich für die gefragte Anzahl: 33 + 34 + 35 = 33 (1 + 3 + 9) = 27.13 = 351. A.1.5 Kardinalität und unendliche Mengen Das folgende Beispiel stammt von Bolzano, auch wenn es unter dem Namen “Hilberts Hotel” bekannt ist: Beispiel 202 (Hilberts Hotel) Ein Hotel mit den Zimmernummern 1, 2, . . . ist völlig ausgebucht. Nun kommt eine unendliche Folge {Gi }∞ i=1 von Gästen am Abend an. Unterbringung? Die Bewohner der Zimmer multiplizieren ihre Zimmernummer mit 2 und übersiedeln. Nun ist Platz. Definition 203 (unendlich, abzählbar, und abzählbar unendlich) Eine Menge X heißt unendlich, falls es eine injektive Abbildung von IN nach X gibt. Sie heißt abzählbar, falls es eine Surjektion von IN nach X gibt. Ist sie unendlich und abzählbar, so nennt man sie abzählbar unendlich. Ist sie abzählbar und nicht unendlich, so heißt sie endlich. Satz 204 Jede Teilmenge einer abzählbaren Menge ist abzählbar. Ist die Teilmenge außerdem unendlich, so gibt es eine Bijektion auf die natürlichen Zahlen. Jede unendliche Menge besitzt eine unendliche Teilmenge mit unendlichem Komplement. BW: Zunächst zeigen wir, daß jede Teilmenge A von IN abzählbar ist. Es muß die Existenz einer Surjektion f : IN → A nachgewiesen werden. Hierzu benützen wir, daß jede nicht leere Menge natürlicher Zahlen ein Minimum besitzt und drücken dies durch “aus P5”5 . Ist 5 P wie Peanoaxiom 5 A.1. Grundlagen 237 A = ∅, so ist A abzählbar und es ist nichts zu zeigen. Ansonst definieren wir mittels P5 f (1) := min A und setzen A1 ; = A \ {f (1)}. Angenommen, Werte f (1), . . . , f (n) sind definiert und An = A \ {f (1), . . . , f (n)}. Ist An = ∅, so definieren wir f (k) := f (1) für alle k > n und sind fertig. Ist hingegen An 6= ∅, so setzt man f (n + 1) := min An . Wir vermerken, daß aus a ∈ f (IN ), a0 ∈ A und a0 < a stets a0 ∈ f (IN ) folgt. Ist A endlich, so bricht der Algorithmus ab, und f ist surjektiv. Ist A unendlich, und wäre f nicht surjektiv, so sei b := min(A\f (IN )). Laut Konstruktion ist f (b) ≥ b und da jedes a ∈ A mit a < f (b) konstruktionsgemäß zu f (IN ) gehört, hätte man b ∈ f (IN ), ein Widerspruch. Laut Konstruktion ist f bijektiv, im Falle daß A unendlich ist. Ist A Teilmenge einer beliebigen abzählbaren Menge M , so gibt es eine Surjektion f : IN → M . Dann ist f −1 (A) eine Teilmenge von IN , also abzählbar. Somit gibt es eine Surjektion g : IN → f −1 (A). Schließlich ist f g : IN → A surjektiv, also A abzählbar. Ist A unendlich, so auch f −1 (A). Nun sei xa := min f −1 (a) und B := {xa | a ∈ A}. Offenkundig ist die Einschränkung von f auf B eine Bijektion von B nach A. Nun nimmt man als g : IN → B die Bijektion wie im Falle, wo A ⊆ IN war. Danach erweist sich f g als bijektiv. Die letzte Behauptung des Satzes sieht man für IN ein, man nehme z.B. die geraden Zahlen G, dann bleiben die unendlich vielen ungeraden Zahlen U = IN \ G “übrig”. Es sei A eine beliebige unendliche Menge. Dann gibt es eine Injektion f : IN → A. Nun sei IN = G ∪ U die Zerlegung von IN in zwei disjunkte unendliche Teilmengen. Dann ist f (G) ∪ (A \ f (G)) Zerlegung von A in disjunkte unendliche Teilmengen. ··· 1> 2 TTTTT 3 4 5 6 Die Schritte n = 1 und n = 2 >> TTTT TTTT >> in der induktiven KonstruktiTTTT >> TTTT on, wobei A = {2, 5, . . .} ist. ) ··· 1 2 3 4 5 6 Beispiel 205 1. ZZ ist abzählbar unendlich. Unendlich, weil f : IN → ZZ, definiert durch f (n) := n injektiv ist, und abzählbar, weil n : n ≡ 0 (mod 2) 2 f (n) := n+1 : n ≡ 1 (mod 2) − 2 ein Beispiel für eine Surjektion von IN auf ZZ ist. 2. Ist M eine abzählbare Menge abzählbarer Mengen, so ist S M ∈M M abzählbar. BW: Ist M leer, so ist die Vereinigung leer, und es ist nichts zu zeigen. Weiter darf angenommen werden, daß kein M leer ist (kein Beitrag!). Da M abzählbar ist, gibt es wegen Satz 204 (S.236) eine Surjektion f : IN → M. Induktiv definieren wir Teilmengen An , Bn von IN mit An ∩ Bn = ∅, sowie An , Bn beide unendlich, sowie eine Bijektion fn : An → f (n) wie folgt. Für n := 0 wählen wir gemäß Satz 204 (S.236) eine Zerlegung z.B. A0 := G, B0 := U . Nun gibt es eine Bijektion h0 : A0 → IN und da f (0) abzählbar ist, gibt es eine Surjektion k0 : IN → f (0), sodaß f0 := k0 h0 : A0 → f (0) eine Surjektion ist. Nun kommt die Induktionsannahme: Es sei eine Surjektion fn : An → f (n) bereits konstruiert und An+1 ⊆ Bn . Ist g({0, . . . , n}) = M, so hat man alle Mengen ausgeschöpft. 238 ANHÄNGE S Man definiert eine Abbildung h : IN → M ∈M M , indem man für ein k ∈ Al mit l ≤ n den Wert mit h(k) := fl (k) setzt. Alle anderen natürlichen Zahlen S werden auf ein beliebiges Element in z.B. f (1) abgebildet. Danach ist h : IN → M ∈M M eine Surjektion. Andernfalls ist M noch nicht ausgeschöpft. Dann zerlegt man Bn := An+1 ∪ Bn+1 in disjunkte Teilmengen unter Rekurs auf Satz 204 (S.236). Danach konstruiert man fn+1 : An+1 → f (n + 1) analog, wie man es für f0 getan hat. NunSbricht das Verfahren zwar nicht ab, ergibt jedoch insgesamt eine Surjektion h : IN → M ∈M M . Zur Definition der Kardinalität unendlicher Mengen benützt man einen Satz von Schröder und Bernstein, der besagt, daß für 2 Mengen A und B die Existenz von Injektionen von f : A → B und g : B → A die Existenz einer Bijektion h : A → B nach sich zieht. Danach haben 2 Mengen gleiche Kardinalität, falls es eine Bijektion gibt. A.1.6 Relationsschemata Im Zusammenhang mit dem kartesischen Produkt (Definition 59 (S.74)) steht der Begriff des Relationsschemas, wie er als Datenbankkonzept gebräuchlich ist. Hier soll er lediglich als Beispiel dienen. R benützt Relationenschemata, um Tabellen zu verarbeiten. Beispiel 206 Ein Relationsschema besteht aus 1. Einer Menge A, genannt (Menge der) Attributbezeichnungen. 2. Einer Menge von Mengen D, genannt Datentypen oder Wertebereiche. 3. Einer Funktion S : A → D, die jedem Datentyp D ∈ D Attribute zukommen läßt (jene in S −1 (D)). Sie wird meist Schema genannt. 4. Eine Menge T von Funktionen t, die jedem a ∈ A ein Element t(a) ∈ S(a) zuordnet. Sie heißt Tupel. Als Beispiel dafür, wie konkret diese hoch wissenschaftliche Vorstellung gesehen werden kann, betrachten wir als Beispiel ein (rudimentäres) Addressverzeichnis: Nachname Rot Blau Grün Vorname Anton Emma Hans Tel.Nr 123456 654321 123654 PLZ 1100 4200 1001 Ort Wien Linz Wien 1. Die Menge der Attributbezeichnungen besteht aus der Kopfzeile: A = {Nachname, Vorname, Tel.Nr., PZL, Ort}. 2. Als D eignet sich z.B. A.2. Algebra D={ 239 Strings d Länge ≤ 30 in ASCII, Strings d Länge ≤ 15 in ASCII, Zahlen < 107 , Zahlen der Länge 4, Strings d Länge ≤ 50}, wobei jede dieser 5 Zeichenketten zugleich auch Mengen sind (deren beschreibende Eigenschaft an der jeweiligen Zeichenkette abgelesen werden kann). 3. S ordnet der Reihe nach den Elementen der Kopfzeile die (in unserem Fall) schon in geordneter Reihenfolge angeschriebenen Datentypen zu, die zugleich auch Teilmengen von entweder {A-Z, a-z}∗ , oder von {0, . . . , 9}∗ sind. Es ist z.B. S(PLZ) = Zahlen der Länge 4 = {0000, 0001, 0002, . . . , 9999}. 4. Schließlich hat T drei Tupel, welche die drei “Datensätze” beschreiben, und das sind die drei Nichtkopfzeilen der Tabelle. A.2 Algebra A.2.1 Chomsky Grammatik Definition 207 Eine (Chomsky-)Grammatik ist ein TES (Definition 67 (S.81)), bei dem das Alphabet A eine disjunkte Vereinigung A = N ∪ T ∪ {S} ist. Dabei sind N ∪ {S} die nichtterminalen oder (syntaktischen) Variablen, T die Terminalzeichen und S das Startsymbol. Ein Wort, gebildet aus Terminalzeichen ist ein Satz oder Terminalwort. Ein Wort, welches auch syntaktische Variable enthält, heißt echte Satzform. Die Regeln des TES werden mit P bezeichnet, heißen Produktionen und ihre linken Seiten dürfen keine Terminalzeichen enthalten. Die Bestandteile der Grammatik werden durch ein Quadrupel G := (N, T, P, S) notiert. Die Teilmenge L(G) ⊆ T ∗ der aus S vermittels der Regeln P ableitbaren Wörter ist die Sprache mit Grammatik G. Die Grammatik heißt kontextfrei, falls die linken Seiten der Regeln aus einer einzelnen syntaktischen Variablen bestehen und regulär oder rechtslinear, wenn jede Produktion die Form S → X oder X → |a|aZ mit a ∈ T und X, Z ∈ N hat. Beispiel 208 In Beispiel 70 (S.82) kommen vor allem 2. und 5. als Grammatiken in Frage: 1. Kann man 5. in geeigneter Weise zu einer Grammatik machen, sodaß der abgeleitete Satz in deren Sprache liegt? Ist diese Grammatik regulär? Antwort: Man wählt S :=<Satz>, T:={ist, grün, gelb, blau, rot, der, die, das, Kugel, Ball, Ziegel, t} und die restlichen Symbole, jene in spitzen Klammern, sind syntaktische Variable, bilden also N . Die Grammatik ist kontextfrei, aber nicht regulär. 2. (Additionskolonnen von Binärzahlen) In 2. wähle man als Terminalzeichen T := {0, 1, +, } und N := {Z, T } als Variable. Welche Sprachen kann man formulieren, wenn S → Z, bzw. welche, wenn S → T als “Startregel” herangezogen wird? Inwieweit entstehen kontextfreie, bzw. reguläre Grammatiken? 240 ANHÄNGE Antwort: Für S → Z ergibt sich {0, 1}∗ , also alle endlichen 01-Folgen. Ist S → T hinzugefügt worden, so erhält man alle möglichen Ausdrücke a1 + a2 + . . . + an wobei jedes ai eine 01-Folge ist. Die Grammatik, bei der S → Z als Start gewählt wird, und lediglich die Regel Z → 0|1|0Z|1Z zuläßt, ist regulär, die andere kontextfrei, aber nicht regulär. 3. (Additionskolonnen binärer Zahlen als reguläre Sprache) Es seien N := {Z, U, S}, S sei das Startsymbol, T := {0, 1, , ; } und S → Z, Z → 0U |1U, U → |0U |1U | + Z|; ω Regeln. Wie kann man L beschreiben? Ist die Grammatik regulär? Antwort. Es sind alle Ausdrücke der Form “a1 + a2 + · · · + an ;” mit ai 01-Folgen. Der Graph, dessen Knoten S, Z und U sind, und für den jede Regel X → aY eine mit a beschriftete Kante von X nach Y führt, veranschaulicht die Situation: S /Zi 0|1 + ) UX ; /ω 0|1 Man erkennt, daß jedes Wort der Sprache so entsteht, daß man von S ausgeht, den Kanten “nachfährt”, sich der Reihe nach die an den Kanten stehenden Zeichen notiert, und schließlich zu ω pilgert. Die Grammatik ist regulär. Der Automat ist ein Akzeptor. Lediglich korrekte Ausdrücke der oben angedeuteten Form bringen den Automaten vom Start S zum Endzustand ω. 4. Gibt es eine reguläre Grammatik, welche alle Wörter des freien Monoids {a, b, c} (siehe Beispiel 66 (S.80)) erzeugt? Antwort: Es sei N := {X}, T := {a, b, c}, S ein Startsymbol, und R := {S → X, X → aX|bX|cX|ω}, dann werden alle Wörter des freien Monoids erzeugt. Die Grammatik ist regulär, weil alle Regeln die in Definition 207 (S.239) geforderte Form haben. Auch hier kann man einen Akzeptor angeben: S / X / ω X a|b|c 5. Umgekehrte Polnische Notation oder auch POSTFIX-Notation: soll hier kurz an einem Beispiel erläutert und in das Thema “TES” eingeordnet werden. Unter POSTSCRIPT findet man z.B. Funktionssymbole cos, add und mul und kann mit ihrer Hilfe (2xy + 6 cos(3z)) als Befehlszeile eingeben. Dabei wird UPN verwendet: Zunächst die Argumente, danach, was man damit tut, nach dem Motto “Nescafe Frappé:=Nescafe Zucker Wasser wenig nehmen in ein Glas geben Quirlen Wasser Eiswürfel zugeben Milch bei Bedarf zugeben ”. Geprüft wird, ob Datentypen passen, bzw. Stelligkeiten der Funktionen stimmen. Es ist üblich, den komplizierten Ausdruck mit einem Ableitungsbaum zu analysieren, um ihn danach in UPN umzuschreiben: A.2. Algebra 241 + · y ·> >> >> >> > 2 ~~ ~~ ~ ~ ~~ ~ 2 x·y·6 3 z·cos · + alias 2xy + 6 cos(3z) · CC CC CC CC C! cos 6 x 3 · | | || || | }|| z Nun umfährt man den Baum von der Wurzel ’+’ ausgehend, notiert für jeden (Teil)baum die Blätter, danach die jeweilige Wurzel, bis man alles umrundet hat und ’+’ vorfindet, das man ebenfalls anschreibt. Man findet den Ausdruck (in UPN) rechts neben der Skizze des Ableitungsbaumes, der nach Transkription in die angegebene Notation für Addition, Multiplikation und Winkelfunktion die UPN der Funktion ergibt. Kann man eine Grammatik formulieren, welche die UPN erzeugt? Antwort: Man nehme etwa N := {X, Y, Z}, T := {2, 3, 6, x, y, z, cos, +, ·}, ein Startsymbol S und Regeln6 R := {S → X, X → X|Y |Z|XY + |XY · |X cos, Y |Z → X, X|Y |Z → 2|3|6|x|y|z}, so hat man, zeilenweise gelesen: S→ → → → → → X XY · Z+ 2Y · y · Z+ 2x · y · XY · + 2x · y · 6X cos ·+ 2x · y · 63z · cos ·+ → → → → → XY + Xy · Z+ 2x · y · Z+ 2x · y · 6Y · + 2x · y · 6XY · cos ·+ → → → → → XZ+ XY · y · Z+ 2x · y · X+ 2x · y · 6X · + 2x · y · 63Y · cos ·+ Die Regeln beschreiben eine Grammatik in kontextfreier Weise. Anmerkung 209 (reguläre Sprache und Mealyautomat als Akzeptor) Reguläre Sprache → Automat: Die Knoten des den Automaten beschreibenden Graphen sind die Variablen und für jede Regel X → aY wird eine Kante von X nach Y eingefügt. Die Wörter der Sprache sind dann durch die von S ausgehenden Pfade “kodiert”. Automat → reguläre Sprache: Die Knoten des Graphen werden als syntaktische Vaa / riable und die gerichteten Kanten X Y als Regel X → aY interpretiert. Weiter muß ein Knoten als Startknoten S beschriftet sein. 6 Die Unterstreichungen sollen lediglich der besseren Lesbarkeit dienen. 242 ANHÄNGE Die Rolle des Automaten ist es, ein Akzeptor zu sein, d.h. man gibt ein Wort vor, und arbeitet von links her kommend den Automaten ab. Wenn der Automat erst zum halten kommt, sobald das gesamte Wort abgearbeitet ist, gehört es zur durch den Automaten bestimmten regulären Sprache. Beispiel 208 (S.239) 3. und 4. sind einfache Beispiele. Sehr oft, wie in diesen Beispielen, wird zusätzlich gefordert, daß der Automat zum Endzustand ω geführt werden muß können, i.A, jedoch genügt es, als Sprache jene Ausdrücke anzuerkennen, welche keine syntaktischen Variablen mehr enthalten. Es lassen sich reguläre Sprachen wie eben beschrieben stets mittels (Mealy)automat, kontextfreie mittels Kellerautomat, und Chomskysprachen mittels Turingmaschine “erkennen”: es läßt sich zu jeder solchen Sprache eine entsprechende Maschine bauen, die nur Wörter dieser entsprechenden Sprache “akzeptiert”, also schrittweise zum Ende vorrückt, wenn der eingegebene Satz (das Programm), der Sprache angehört, m.a.W., syntaktisch korrekt ist. Ein wenig hierzu findet sich in Unterabschnitt A.2.3 (S.244). A.2.2 Reguläre Grammatik und Automat Soll hier nur anhand von Beispielen vorgeführt werden. Beispiel 210 1. Reguläre Ausdrücke: Ist A∗ das freie Monoid7 über dem Alphabet A, so werden für Teilmengen U, V von A∗ die Operationen U ∪ V (geschrieben als U |V ), U V := {uv | u ∈ U ∧ v ∈ V } und U ∗ , das von den Wörtern in U erzeugte Monoid (d.i. beliebige Wiederholung und Aneinanderreihung von Wörtern in U einschließlich ). Nun wird rekursiv festgelegt, wie man eine Menge regulärer Teilmengen herstellt. Dazu geht man zunächst von den einelementigen Mengen {a} mit a ∈ A, sowie {} und der leeren Menge ∅ aus. Danach, wenn U und V reguläre Mengen sind, sollen auch U ∪ V , U ∗ und U V reguläre Mengen sein. Es erweist sich jede Sprache L, die sich als reguläre Menge beschreiben läßt, als regulär im Sinn von Definition 207 (S.239). Reguläre Sprachen können mittels Automat, kontextfreie mittels Kellerautomat und Chomskysprachen mittels Turingmaschine beschrieben werden. Ein wenig darüber findet sich im Anhang A.2.3. Anmerkung 211 (Reguläre Sprache und Automat) Ist G = (N, T, P, S) eine reguläre Sprache, so konstruiert man einen Graphen, dessen Knoten die syntaktischen Variablen einschließlich S und sind und zieht eine Kante von X ∈ N nach Y ∈ N genau dann, wenn X → aY eine Produktion ist. Der so entstandene Graph heißt Automat, seine Knoten Zustände, die partielle Funktion (siehe Definition 56 (S.72)) (X, a) 7→ Y Überführungsfunktion8 7 Definition 65 (S.80) A.2. Algebra 243 Umgekehrt erlaubt jeder zusammenhängende Graph mit beschrifteten Kanten die Definition einer regulären Grammatik, indem die Knoten als N, die Beschriftungen der Kanten als T und schließlich ein Knoten als Start S gewählt wird. Jedes Wort der durch den Automaten definierten Sprache entsteht, indem man einen endlichen bei S beginnenden Pfad betrachtet und die dabei entstehende Folge an Beschriftungen notiert. Der Automat wird gerne auch als Akzeptor oder Parser bezeichnet, weil er nur durch “Buchstabe für Buchstabe Abarbeiten” eines Wortes der regulären Sprache zum Endzustand kommt. ONML HIJK X a HIJK / ONML Y X → aY Beispiel 212 Beispiele zu Automaten: 1. Man überzeuge sich, daß in Beispiel 208 (S.239) 3. ein Automat definiert wird. Wie lautet seine Überführungsfunktion? Antwort: Es ist üblich, diese Funktion für endliche Automaten in Form einer Tabelle anzugeben: 2. 0 1 + S Z Z U U U Z Z V V ende Z Ein Parkautomat, in den man nur 50c und 1 Euro Münzen einwerfen kann, stellt für 1 Euro ein Parkticket aus. Bei 1 Euro Einwurf (bzw. 2× 50c) kommt das Ticket (T) und der Vorgang ist abgeschlossen. Wirft man 50c ein, fragt er nach mehr (M), und wenn dann nochmals 1 Euro eingeworfen wird, gibt er die 1 Euro Münze zurück (R). Um 8 Uhr geht der Automat in Betrieb, intern werden die Vorgänge in Form von Folgen der Art RM M RRRT M M aufgezeichnet, und um 18 Uhr schaltet der Automat ab. Welche Sprache definiert der Automat? Welche Buchstabenfolgen sind möglich? Antwort: Man wählt als N:={S, Bereit , Warten , ende }. Nun braucht man ein Eingabealphabet I := {c, E, }, wobei c für Cent- und E für Euromünze steht, und ein Ausgabealphabet O := {T, M, R}. Die Produktionen sind S → Bereit , Bereit → M T T R c Warten |E Bereit , Warten → c Bereit |E Warten . Je nachdem, in welchem Zustand abgeschaltet wird, ergibt sich entweder Bereit → ende oder Warten → ende als weitere Regel. Die Produktionen ergeben genau solche Wörter, in denen T beliebig oft, und Teilwörter der Form MR· · ·RM beliebig oft vorkommen, falls im Zustand Bereit abgeschaltet wird. Andernfalls gibt es eine ungerade Anzahl Ms, wobei am Ende eventuell noch einige Rs und dann zwischen dem letzten M und diesem R kein T vorkommt. 8 In der Literatur meist δ 244 ANHÄNGE 50c — M 1 Euro — R 1 Euro — T # Warten Bereit c 50c — T A.2.3 Kellerautomat und Turingmaschine Anmerkung 213 (Kellerautomat und kontextfreie Sprache) Ist G = (N, T, P, S) eine kontextfreie Sprache, so läßt sich ein Graph, genannt Kellerautomat, induktiv wie folgt konstruieren: 1. Man markiert einen Knoten, der durch das Paar (S, ) beschriftet ist. 2. Ist nun (X, Aw) bereits ein Knoten, wird ein Knoten (X, w) hinzugefügt, und eine mit A beschriftete Kante. Gibt es außerdem eine Regel A → au, so definiert (X, wu) einen weiteren Knoten, der mit beschriftet wird. Für jedes A wird ein Knoten (X, w) hinzugefügt, und eine mit A beschriftete Kante. z0 S / z0 Xw X / z0 uw X→u Umgekehrt, sei ein Alphabet A gegeben, eine Menge Q und ein beschrifteter Graph mit den folgenden Eigenschaften: 1. Die Knoten sind mit Paaren (q, w) mit q ∈ Q und w ∈ A∗ beschriftet. Sie heißen Konfigurationen. 2. Es gibt einen Startknoten (q, S) mit S ∈ A. 3. Es gibt mit Elementen aus (N ∪ T )+ beschriftete Kanten von der Form (q, aw) →X (q 0 , uw) Dann kann durch a → u für alle a ∈ N eine Produktion definiert werden, alle solchen a werden zu syntaktischen Variablen erklärt und der Rest zu Terminalzeichen. Anmerkung 214 (Turingmaschine und Chomskysprache) Es liege ein Alphabet A, sowie Mengen K und {l, r, s} und ein beschrifteter Graph der folgenden Art vor. 1. Die Elemente in K sind von der Form u a v mit u, v ∈ A∗ und a ∈ A. Jedes A.2. Algebra 245 k ∈ K heißt Konfiguration. (Man interpretiert uav als auf ein Band geschriebene Zeichenkette und a als Position des Cursors). 2. Es gibt eine Startposition t w. 3. Jede Kante ist von der Form u a cv →l uab c v, u a cv →r u a bcv oder u a cv →s ua b cv, wobei a, b, c ∈ A sind. (Man interpretiert l,r,s als “nach links”, “nach rechts” bzw. “Verbleiben” des Cursors. Entsprechend bedeutet etwa die erste Kantenform “zwischen ’a’ und ’v’ das Element ’b’∈ A einzufügen, und den Kursor rechts vom Eingefügten zu positionieren”.) Jedem Pfad von einem Zustand zu einem anderen entspricht ein Wort, welches durch sukzessive Operationen (Einfügen, Cursorbewegung) entstanden ist. Wird ein Endzustand festgelegt, so wird die Menge der Wörter, die durch einen Pfad vom Anfang zum Endzustand entstehen, als von der Maschine akzeptierte Sprache bezeichnet. Ist umgekehrt G := (N, T, P, S) eine Chomsky-Grammatik, so läßt sich eine Turingmaschine wie folgt konstruieren. 1. Ein Knoten t wird definiert. 2. Ist XW → xw eine Produktion (man beachte W ∈ N + und w ∈ (N ∪ T )∗ ), so wird, falls u X W v bereits ein markierter Knoten ist, ein weiterer Knoten u x W v und Kante →x,r angefügt. Ist die linke Seite länger als die rechte, so geht man vor, als man von u X Y W vor sich hätte und XW → t eine Produktion wäre: Ein Zustand u Y W wird geschaffen und eine Kante u X Y W →t u Y W . Ist schließlich die rechte Seite der Regel länger als die linke, hat man eine Situation der Form u t v und man geht im weiteren vor, als ob x → xyw eine Produktion wäre: Man fügt einen Knoten ux y v und eine Kante ux t v →x,n an. Man kann zeigen, daß die Sprache dieses Automaten mit L(G) übereinstimmt. A.2.4 Halbgruppenwirkungen Definition 215 ((Halb)gruppen- und Monoidwirkung) Man sagt, das Paar (G, M ) ist eine Halbgruppenwirkung, bzw. G operiert auf M , falls G eine Halbgruppe, M eine Menge und w : G×M → M eine Funktion ist, derart daß w(gh, m) = w(g, w(h, m)) für alle g, h ∈ G, und alle m ∈ M gilt. Es ist üblich, statt w(g, m) einfach gm zu schreiben, sodaß sich das Gesetz wie ein Assoziativgesetz (gh)m = g(hm) liest. Ist G ein Monoid, so spricht man von einer Monoidwirkung, wenn zusätzlich w(1, m) = m für alle m ∈ M gilt, also, in Kurznotation, 1.m = m gilt. Ist (G, M ) eine Monoidwirkung und G eine Gruppe, so nennt man (G, M ) eine Gruppenwirkung. Beispiel 216 Wie unterschiedlich (Halb)gruppenwirkungen aussehen können, mögen die folgenden Beispiele belegen: 246 ANHÄNGE 1. Wie oben angedeutet, ist für G := M M das Paar (G, M ) eine Monoidwirkung auf M . Es ist w(f, m) = f (m). 2. Es sei M := [−1, 1] × [−1, 1] ein Quadrat mit der Seitenlänge 2 und Mittelpunkt (0, 0). Eine Ähnlichkeitsabbildung ist eine Funktion f : M → M , welche von der Form a b x p f (x, y) = λ + c d y q a b für eine orthogonale 2 mal 2 Matrix mit Determinante 1 und λ ∈ (0, 1) ist. c d Bilden diese Abbildungen bezüglich Hintereinanderausführung ein Monoid, bzw. eine Gruppe? Antwort: Wäre M = IR2 , so käme man auf eine Gruppe. Es gelten jedoch die Zusatzbedingung −1 ≤ ax + by + p ≤ 1 und −1 ≤ cx + dy + q ≤ 1 für alle x, y mit |x| ≤ 1 und |y| ≤ 1. Die Anschauung läßt vermuten, daß es sich um ein Monoid handelt. Der Nachweis möge als Übung für Interessierte verbleiben. 3. Es ist [0, ∞) ein Monoid, wenn man als Operation die Addition zuläßt. Weiter sei M = [−1, 1] × [−1, 1] wie vorhin und F : [0, ∞) × M → M durch F (t, x, y) := (e−t x, e−2t y) gegeben. Wegen der Exponentialfunktion gilt mit dieser Bezeichnung: F (t + t0 , (x, y)) = = = = 0 0 (e−t−t x, e−2t−2t y) 0 0 (e−t e−t x, e−2t e−2t y) 0 0 F (t, (e−t x, e−2t y)) F (t, F (t0 , (x, y))). Weiter ist F (0, (x, y)) = (x, y). Deshalb ist für G := [0, ∞) das Paar (G, M ) eine Monoidwirkung9 . 4. Ist die Menge IN ein zyklisches Monoid bezüglich der Addition? Antwort: Ja. In Definition 73 (S.86) spielt 1 die Rolle von x. Nun muß man noch auf die additive Schreibweise (Definition 71 (S.85)) achten. ———— Nun sei f (x) := x2 − 1. Ein Newtonschritt besteht darin, einer Zahl x0 ∈ IR den Wert x20 −1 x0 − 2x zuzuordnen. Es zeigt sich, daß hierdurch eine Funktion F : IR+ → IR+ definiert 0 2 1 wird, nämlich F (x) := x − x 2x−1 = x2 + 2x . Es sei M := [1, ∞). Wir definieren jetzt f : IN × M → M wie folgt: f (0, x) := x und wenn f (n, x) definiert ist, so soll f (n + 1, x) := F (f (n, x)) sein. Läßt sich hierdurch eine Halbgruppenwirkung auf M definieren? Antwort: Für x ≥ 1 sieht man F (x) ≥ 1 ein, weil F (x) = 9 Ein Beispiel eines dynamischen Systems, siehe 5. x 1 + ≥1 2 2x A.2. Algebra 247 für alle x ≥ 1 ist. Hieraus folgt durch Induktion nach n, daß aus f (n, x) ∈ M auch f (n + 1, x) = F (f (n, x)) ∈ M folgt. Der formale Beweis für f (k + l, x) = f (k, f (l, x)) stützt sich auf Induktion nach k: Ist k = 0, so ist f (l, x) = f (0, f (l, x)) = f (l, x), ist o.k.. Wenn nun f (k+l, x) = f (k, f (l, x)) als richtig angenommen wird, so ist f ((k+1)+l, x) = F (f (k + l, x)) = F (f (k, f (l, x))) = f (k + 1, f (l, x)). 5. (Dynamisches System) Jede Halbgruppenwirkung (IR+ , M ), bzw. (IR, M ) heißt kontinuierliches dynamisches System auf M . Jede Halbgruppenwirkung (IN, M ) bzw. (ZZ, M ) heißt diskretes dynamisches System auf M . 2 einfache Beispiele: (a) Gelegentlich wird die zeitliche Veränderung einer zu t0 := 0 vorgegebenen Temperaturverteilung auf einem (ab)strahlenden Körper K durch ein exponentielles Abkühlungsgesetz beschrieben: Ist z.B. K das Intervall 0 ≤ x ≤ 1, so wäre das eine Formel der Bauart T (t, x) := e−ct φ(x) die Temperatur, die am Punkt x zur Zeit t herrscht, wenn zur Zeit t = 0 dort die Temperatur T (0, x) = φ(x) geherrscht hat (Lösungen der Wärmeleitungsgleichung). Die als positiv gedachte (Material)konstante c entspricht einem Temperaturleitkoeffizienten. Es sei (der Einfachheit halber) φ(x) stetig differenzierbar und positiv für alle x ∈ K. Dann soll M die Fläche sein, welche von der Abszisse, dem Funktionsgraphen und den in den Endpunkten von K errichteten Ordinaten begrenzt wird. Ist nun (x, y) ∈ M , so offenbar auch (x, e−ct y), sodaß w(t, (x, y)) := (x, e−ct y) eine Monoidwirkung ([0, ∞), M ) festlegt. (b) Verzinsung geschieht üblicherweise nach der KiP-Regel, d.h., läßt man das Kapital K bei einer Verzinsung eine Zeiteinheit bei p% liegen, ergibt sich danach K 0 = p K(1 + 100 ) als verzinstes Kapital. Liegt das Kapital zu gleichen Bedingungen i p i Zeitabschnitte, so ergibt sich naturgemäß Ki = K(1 + 100 ) als verzinstes Kapital. Dies gibt Anlaß, das folgende diskrete dynamische System zu formulieren: G := IN mit der Addition (ein Monoid mit Null als Einselement), M := [0, ∞) und p i w(i, K) := K(1 + 100 ). 6. (Universelle Eigenschaft des freien Monoids) Das freie Monoid über einem Alphabet aus Definition 65 (S.80) ist ein Monoid. Ist G = (N, T, R, S) eine reguläre Grammatik (siehe Definition 207 (S.239)) und, als Sonderfall, zu jedem X ∈ N und jedem t ∈ T eine Regel der Form X → tY vorhanden, dann ist (T ∗ , N ) eine Monoidwirkung. Geometrisch bedeutet es für den Automaten (Anmerkung 211 (S.242)), daß für jedes Terminalsymbol festgelegt sein muß, in welchen Zustand der Automat übergeht. 7. Das freie Monoid A∗ erfüllt die folgende universelle Eigenschaft: Ist f : A → G eine beliebige Funktion mit Werten in einem Monoid G, so gibt es eine eindeutige Fortsetzung von f zu einem Monoidhomomorphismus von A∗ → G. (Analog, wie man eine lineare Abbildung von einer Basis eines Vektorraums in einen Vektorraum stets eindeutig zu einer linearen Abbildung fortsetzen kann), nämlich f (a1 a2 . . . ak ) := f (a1 )f (a2 ) . . . f (ak ). 248 ANHÄNGE Von der gleichen Art ist die universelle Eigenschaft von Polynomringen, siehe Anmerkung 101 (S.106). Beispiel 217 Es sei (G, M ) eine Gruppenwirkung (Definition 215 (S.245)) und m0 ∈ M . Die Menge der g ∈ G mit gm0 = m0 bilden eine Untergruppe10 , sie heiße H (ist nämlich gm0 = m0 und hm0 = m0 , so ist (gh)m0 = g(hm0 ) = gm0 = m0 und es ist g −1 m0 = g −1 (gm0 ) = (gg −1 )m0 = m0 ). Nun fragen wir, wann zwei Elemente x, y ∈ G unser m0 “an die gleiche Stelle befördern”, also wann xm0 = ym0 gilt. Das ist sichtlich eine Äquivalenzrelation R und kann auch so ausgedrückt werden: xRy ⇔ y −1 x ∈ H. Wie kann die Äquivalenzklasse von x ∈ G mittels H beschrieben werden? Es ist xRy gleichbedeutend zur Existenz von h ∈ H mit x = yh, also zu x ∈ yH, wobei yH := {yh | h ∈ H} bedeuten soll. Somit ist die Äquivalenzklasse von x die Menge xH. Man sieht ein, daß xRy ⇔ xH = yH gilt. Ist H nun irgendeine Untergruppe von G, so ist {xH | x ∈ G} eine Partition11 von G: Zunächst ist jedes Element g ∈ G z.B. in gH. Weiter, wenn xH ∩ yH 6= ∅, dann gibt es h, h0 ∈ H mit yh = xh0 , also y −1 x = hh0 −1 ∈ H, daher ist yH = xH. Es soll mit einem Beispiel begonnen werden, bei dem eine Gruppe als Beschreibung für Symmetrien benützt wird. Es sei ein Quadrat (links) • • • • I¯ D̄ K̄ L̄ I¯ I¯ D̄ K̄ L̄ D̄ D̄ I¯ L̄ K̄ K̄ K̄ L̄ I¯ D̄ L̄ L̄ K̄ D̄ I¯ mit eingezeichneter Diagonale gegeben. Durch Hinsehen erkennt man folgende Symmetrien: Wirkung Drehung um 180o Kippen um die eingezeichnete Diagonale Kippen um die nicht eingezeichnete Diagonale Nichtstun Bezeichnung D K L I Jede Buchstabenfolge im freien Monoid {I, D, K, L}∗ beschreibt eine Abfolge von Transformationen des Quadrats, allerdings ist z.B. die Wirkung von I, DD, DDDD jeweils die gleiche. 10 11 Häufig als Standgruppe oder Stabilisator bezeichnet Definition 39 (S.61) A.2. Algebra 249 Es verhilft zur Übersicht, welche Elemente in {I, D, K, L}∗ gleich wirken, wenn man {I, D, K, L} als Eingabealphabet eines Automaten (wie in Beispiel 208 (S.239), Genaueres siehe Unterabschnitt A.2.3 (S.244)) ansieht. dessen Zustände die 4 Positionierungen des Quadrats sind. Jede Positionierung des Quadrats werde in der Form b2 als Zustand “kodiert” und b2 1a . b1 2a ... D .. .. a1 ..K L 2b === .. == .. = . K L == . D a2 1b 1a die Überführungen sollen durch einfache Linien angedeutet werden, weil jede Symmetrie 2 mal angewendet, die Identität ist. Zwei Wörter w, w0 im freien Monoid {I, D, K, L}∗ sollen kongruent genannt werden, wenn sie beide das Gleiche mit dem Quadrat tun und das soll mit w ≡ w0 ausgedrückt werden. Man bemerkt, daß ≡ eine Äquivalenzrelation12 ist. Es leuchtet auch ein, daß die Kongruenzeigenschaft gilt: u ≡ u0 ∧ v ≡ v 0 ⇒ uv ≡ u0 v 0 . Die Äquivalenzklassen dieser Relation sollten als Symbole zur Beschreibung aller Symmetrien ausreichen, weil ja das Monoid vieldeutige Bezeichnungen zuläßt, jedoch inkongruente Wörter offenbar auch verschiedentlich wirken! Es soll jetzt für jedes Wort w mit w̄ die Äquivalenzklasse von w bezeichnet werden. Die obige Kongruenzeigenschaft erlaubt es, eine Multiplikation für die Äquivalenzklassen durch ūv̄ := uv festzulegen. Das geht, weil u0 ≡ u und v 0 ≡ v geradewegs u0 v 0 ≡ uv, also u0 v 0 ∈ uv nach sich zieht, und somit die Wohlbestimmtheit dieses Ausdrucks. Zu den Annehmlichkeiten zählt auch, daß {I, D, K, L}∗ / ≡ mit der Multiplikation von Klassen automatisch assoziativ wird, und ein 1-Element besitzt, also ein Monoid ist. ¯ D̄, K̄, L̄} die Äquivalenzklassen der Ausgangssymmetrien sein. Jetzt beEs sollen jetzt {I, sinnt man sich auf das obige Diagramm des Automaten und liest sehr schnell u.a. folgende Kongruenzen ab: I ≡ DD ≡ KK ≡ LL, L ≡ KD ≡ DK. Für die Äquivalenzklassen heißt das I¯ = D̄D̄ = K̄ K̄ = L̄L̄, L̄ = K̄ D̄ = D̄K̄. Dies führt zur Multiplikationstabelle neben der Skizze des Quadrats. Man erkennt daraus, daß jedes Element ein inverses (sich selbst) besitzt, also eine Gruppe vorliegt. Somit kodiert ¯ D̄, K̄, L̄} mit obiger Multiplikationstafel die Symmetrien des Quadrats in die Gruppe {I, eindeutiger Weise. 12 Definition 53 (S.68) 250 ANHÄNGE Jetzt ist man allerdings noch immer nicht zufrieden, wegen der vielen Querstricherln. “Weglassen” ist eine Möglichkeit, eine “algebraisch kompetentere” ist es, nachzusehen, ob die Kongruenzrelation aus einem konfluenten, antisymmetrischen und noetherschen TES13 herleitbar ist und es bietet sich DD|KK|LL|II → I, DK → L, KD → DK, ID|DI → D, IL|LI → L, IK|KI → K, DL → K an. Tatsächlich wird jedes Wort in {I, K, D, L}∗ zu genau einem Buchstaben in {I, K, D, L} in endlich vielen Schritten “reduziert”. Definition 218 (Kongruenz und Homomorphismus von Wirkungen) Ist (G, M ) eine Wirkung, so nennen wir ein Paar (≡G , ≡M ) eine Kongruenzrelation auf einer Wirkung, falls ≡G eine Kongruenzrelation auf G, weiter ≡M eine Äquivalenzrelation auf M ist, und g ≡G g 0 , sowie m ≡M m0 stets gm ≡M g 0 m0 nach sich zieht. Ein Homomorphismus f von Wirkungen (G, M ) und (G0 , M 0 ) ist ein Paar f := (fG , fM ) von Funktionen fG : G → G0 und fM : M → M 0 , sodaß fG ein Halbgruppenhomomorphismus ist und für alle g ∈ G und m ∈ M stets fM (gm) = fG (g)fM (m) gilt. Anmerkung 219 Es ist, soweit keine Gefahr von Verwechslung befürchtet wird (um dies zu vermeiden benützt man z.B. typisierte Variable im Sinne heterogener Algebren14 ), üblich, lediglich ≡, bzw. f als Symbol zu verwenden. Ähnlich wie in Anmerkung 80 (S.90) ergibt sich für jede Kongruenz von Wirkungen durch Übergang zu Quotientenhalbgruppe und Quotientenraum ein Homomorphismus von Wirkungen. Umgekehrt ergibt jeder Homomorphismus von Wirkungen eine Kongruenzrelation der Wirkung (G, M ). Beispiel 220 Beispiele hiezu: 1. Es sei (G, M ) := (IR, IR2 ), wobei IR mit der Addition als Gruppe aufgefaßt wird, und r(x, y) := (x + r, y) Verschiebung bedeutet. Auf IR gelte die Kongruenz aus Beispiel 81 (S.90) 3., nämlich r ≡ r0 , falls r0 = r + 2kπ für ein k ∈ ZZ. In der Ebene IR2 soll (x, y) ≡ (x0 , y 0 ) gelten, wenn x0 = x + 2lπ für ein l ∈ ZZ und gleichzeitig y = y 0 ist. Man zeige, daß ≡ eine Kongruenz von Wirkungen auf (G, M ) ist. Wie kann die Quotientenwirkung beschrieben werden? Antwort: Der Nachweis, daß ≡ auf IR2 eine Äquivalenzrelation ist, verläuft recht ähnlich wie im zitierten Beispiel. Nun soll noch gezeigt werden, daß aus r ≡ r0 und (x, y) ≡ (x0 , y 0 ) stets r(x, y) ≡ r0 (x0 , y 0 ) folgt. Lt. Voraussetzung ist dann y = y 0 und es gibt 13 14 Definition 67 (S.81) Definition 221 (S.251) A.2. Algebra 251 k, l ∈ ZZ mit r0 = r + 2kπ und x0 = x + 2lπ. Dann ist r0 (x0 , y 0 ) = (r0 + x0 , y) = (r + 2kπ + x + 2lπ, y) = (r + x + 2(k + l)π, y) ≡ (r + x, y) = r(x, y), w.z.b.w. Als Quotientenwirkung bekommt man (IR/2πZZ, IR/2πZZ × IR), geometrisch ist dies einfacher zu beschreiben: M̄ = IR/2πZZ × IR ist ein Zylinder (es wird entlang der xAchse mod 2π “aufgerollt”, und danach erweist sich die Verschiebung als Drehung um die Winkelvariable in IR/2πZZ. A.2.5 Heterogene Algebren Die Grundidee des im Titel genannten Begriffes liegt in der Beschreibung ganz allgemeiner Kompositionen von Größen. Beim inneren Produkt werden Vektoren “multipliziert” und es kommt eine Zahl heraus. Beim Ausdruck (~a × ~b) × ~c werden drei Vektoren des IR3 “verknüpft” und das Ergebnis ist ein Vektor im IR3 . In Programmen wiederum benützt man Datentypen und danach Variable des entsprechenden Datentyps und Funktionstypen, die als Namensträger von Funktionen dienen, welche unterschiedliche Datentypen miteinander “verknüpfen” können. Z.B. in proc potenz(x:real;n:nat):real; var y:real; m:nat; beginproc y:=x;m:=1; while (m<n) do y:=y*x; end do; return y; endproc erscheinen die Datentypen real , nat , und offenbar ist ‘potenz’ vom Funktionstyp real × nat → real . Im obigen Beispiel kann man ähnliches Verständnis formulieren: Man könnte einen Datentyp 3real vec schaffen und die Funktion als vom Typ 3real vec × 3real vec × 3real vec −→ 3real vec ansehen. Vielleicht will jemand noch andere Funktionen wie z.B. die 3×3-Determinante als Funktion der Spaltenvektoren, die er dann vom Typ: 3real vec × 3real vec × 3real vec −→ real auffassen wird. In diesem Sinne werden H.A. eher als Hilfsmittel zur formalen Spezifikation von Computersprachen angesehen, schaffen jedoch auch einheitliche Sicht vieler algebraischer Strukturen. Definition 221 (Heterogene Algebra) Eine Signatur besteht aus einer Mengen S, den Sorten oder (Daten)typen und einer Menge Ω von Operationsnamen. Zu jedem Operationsnamen ω ∈ Ω gibt es w = w1 . . . wn ∈ S ∗ und s ∈ S, den Operationstyp, und es heißt n die Stelligkeit von (w, s). Ist w = , so nennt man ω einen Konstantennamen. Es ist üblich, w → s zu schreiben. Eine (heterogene) Algebra der Signatur (S, Ω) wird gebildet, indem man zu jedem s ∈ S eine Menge As vorgibt, sowie für jeden Operationsnamen ω vom Operationstyp s1 · · · sn → s eine Funktion fω : As1 × · · · × Asn → As , genannt n-stellige Operation mit Werten in As , 252 ANHÄNGE falls n ≥ 1 ist, und Konstante in As falls w = . Es erweist sich als sinnvoll, A als disjunkte Vereinigung aller As mit s ∈ S anzusehen. Anmerkung 222 (Ableitungsbaum einer heterogene Algebra) Die folgende geometrische Sicht sollte von großem Nutzen sein: Jedes Funktionssymbol ω vom Operationstyp s1 . . . sn → s mag als Graph15 der folgenden Art gesehen werden: s1 ONML HIJK ω, s R GGRRR n{ n n GG RRR { n n { n GG RRRR { n nn {{{ GG RRR n n n G { RRR n { nn ... s s2 n−1 sn Beispiel 223 Hier einige (sehr unterschiedliche) Beispiele. 1. Wie kann man Mengen M mit einer Funktion f : M × M → M im Sinne einer H.A. auffassen? Antwort: S = X, Ω := {F }, F hat den Operationstyp (XX, X) (der in der Literatur, z.B. [8] häufig als X × X → X geschrieben wird). Nun ist M = A zusammen mit der Funktion f eine (X, {F })-Algebra. 2. Wie kann man das die Vektoren betreffende Beispiel der Einleitung im Sinne einer H.A. auffassen? Antwort: S := { 3real vec , real }, Ω := {L, Det}, Operationstyp von L ist 3real vec × 3real vec → 3real vec , Operationstyp von Det ist 3real vec × 3real vec → real . Nun ist IR3 als Menge vom Typ 3real vec , noch genauer A 3real vec = IR3 und L(~a, ~b, ~c) := (~a × ~b) × ~c die Operation mit Namen L vom angegebenen Operationstyp, und analoges gilt für Det(~a, ~b, ~c). Hier wäre A = IR3 . 3. Wie kann die Prozedur der Einleitung (A.2.5) im Sinne einer H.A. aufgefaßt werden? Antwort: Man wählt S := { Natvar, Realvar } und Ω := {pot, n, r}, wobei ‘pot’ vom Operationstyp Realvar Natvar→Realvar, n Konstantensymbol vom Typ Natvar und r Konstantensymbol vom Typ Realvar ist. Danach ergibt ANat := IN , AReal := IR und pot(r, n) :=“Programmzeilen” Somit ist A als disjunkte Vereinigung {0} × IN ∪ {1} × IR auffaßbar. 15 Beispiel 208 (S.239) 6. (Polnisch inverse Notation): Dort hat der Baum Operationstypen ‘+’ und ‘·’ der Stelligkeit n = 2, cos der Stelligkeit n = 1, sowie reelle Variable als Datentypen. A.2. Algebra 253 Definition 224 (Teilalgebra, Homomorphismus und Kongruenz in het. Alg.) Sind A und B heterogene Algebren der Signatur (S, Ω), so heißt A Teilalgebra von B, falls As Teilmenge von Bs für jedes s ∈ S ist und für alle Funktionssymbole ω vom Operationstyp s1 . . . sn → s aus (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets ω(as1 , . . . , asn ) ∈ As folgt. Ein Homomorphismus F : A → B besteht aus Abbildungen Fs : As → Bs , derart, daß für jedes ω vom Operationstyp s1 . . . sn → s für alle (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets ω(F (as1 ), . . . , F (asn )) = Fs (ω(as1 , . . . , asn )) gilt16 . Eine Kongruenz auf A ist eine Äquivalenzrelation R auf A, derart, daß aus asi Ra0si stets ω(as1 , . . . , asn ) R ω(a0s1 , . . . , a0sn )) für jede Operation ω vom Typ s1 . . . sn → s. Die Notation a ≡ b statt aRb ist gebräuchlich. Beispiel 225 Einfache Beispiele: 1. Es sei (S, Ω) durch S := {s} mit s := h integer mod pos nati und Ω := {+} mit dem Typ ss → s gegeben. Nun definieren wir As := ZZ, die ganzen Zahlen und ω die übliche Addition ganzer Zahlen. Dann ist ZZ = As eine (S, Ω)-Algebra. Nimmt man Bs := 2ZZ, die Menge der geraden Zahlen, so ist B eine (S, Ω)-Teilalgebra von A. Als nächstes sei B := Bs := {0, 1} mit + die “Binäraddition”, d.i. 0 + 0 = 1 + 1 = 0, 1 + 0 = 0 + 1 = 1. Wenn man jetzt F : A → B durch F (z) := 0 falls z gerade, und F (z) := 1, falls es ungerade ist, festlegt, so ist F ein Homomorphismus. Definiert man auf A = As eine Relation durch z ≡ z 0 falls z − z 0 gerade ist, so ist dies eine Kongruenzrelation im obigen Sinne. 2. In Definition 78 (S.89) wird die Definition für einen Homomorphismus f : (G, M ) → (G0 , M 0 ) zweier Halbgruppenwirkungen gegeben. Wie kann diese Definition als eine im Sinne heterogener Algebren verstanden werden? Antwort: Zunächst muß man Halbgruppenwirkungen als heterogene Algebra mit Gleichungen formulieren: Die Signatur hat die Typen halb gruppe und menge, sowie Operationsbezeichnungen · : halb gruppe halb gruppe → halb gruppe und w : halb gruppe menge → menge. Sind X, Y, Z syntaktische Variable vom Typ halb gruppe und P eine syntaktische Variable vom Typ menge, so gelten die Gesetze (XY )Z = X(Y Z), (XY )P = X(Y P ) 16 “Man kann F durch alle Operationssymbole durchziehen” 254 ANHÄNGE (wobei wir die Funktionssymbole weggelassen haben, die Typisierung der syntaktischen Variablen schließt Irrtümer aus). Nun sollen G, G0 vom Typ halb gruppe, M, M 0 vom Typ menge sein und entsprechende Operationen der beiden Typen vorliegen. Der Homomorphismus f : (G, M ) → (G0 , M 0 ) wird nun aufgefaßt als Halbgruppenwirkung im Sinne von Definition 215 (S.245). Wir kommen jetzt zur Definition, was Terme sind. Definition 226 (Termalgebra) Ist (S, Ω) eine Signatur, und X eine disjunkte Vereinigung von Mengen Xs mit s ∈ S. Als Termalgebra bezeichnet man die Sprache mit folgender Grammatik, bei der σ das Startsymbol ist: • σ → xs für alle xs ∈ Xs ergibt Terme vom Typ s. • xs → (ω(xs1 , . . . , xsn )), falls xsi ∈ Xsi und ω Operation vom Typ s1 . . . sn → s ist, ergibt ebenfalls einen Term vom Typ s. Anmerkung 227 (Ableitungbaum der Termalgebra) Die geometrische Beschreibung aus Anmerkung 222 (S.252) benützend, lassen sich die Regeln der Grammatik bildlich so beschreiben: Graphen der links stehenden Form werden σ gebildet. ONML HIJK ω, s SS Für jedes Funktionsm mmm z GG SSS G GG SSSSS mmm zz symbol gibt es Graphen GG SSS xs mmm zzzz m SSS GG m z mm der Form, wie ganz SSS m z m m ... Xsn−1 Xs1 Xs2 S sn rechts abgebildet. Nun “iteriert” man. Enthält ein Graph keine Variablen mehr, ist er ein Satz, andernfalls eine Satzform im Sinne von Definition 207 (S.239). Der jeweils entstandene Graph heißt Ableitungsbaum des entsprechenden Terms. Wir vermerken, daß der Ableitungsbaum in Beispiel 208 (S.239) 6. (Polnisch inverse Notation) ein Ableitungsbaum in genau diesem Sinne ist. Nun kann man im Sinne einer Grammatik (Definition 207 (S.239)) Rechengesetze formulieren, wie es im Abschnitt A.2.6 beschrieben wird. A.2.6 Gesetze in heterogenen Algebren Der Begriff des Terms erlaubt es jetzt, eine formaler Definition für Rechengesetze zu geben: A.2. Algebra 255 Definition 228 Ist A eine H.A. der Signatur (S, Ω), X eine Menge (syntaktischer) Variabler und t1 , t2 Terme in den Variablen X vom Typ s sind, so sagt man, in A gilt die Identität t1 (X) = t2 (X), wenn für alle typengerechten Belegungen der Variablen X → a mit Elementen in A t1 (a) = t2 (a), also Gleichheit herrscht. Weiter sagt man, die Gleichung t1 (X) = t2 (X) gilt in (S, Ω), falls für heterogene Algebra A der Signatur (S, Ω) jedes typengerechte Ersetzen der Variablen in X durch Elemente in A zum gleichen Ergebnis führt. Beispiel 229 • Es sei (S, Ω) = ({s}, {f }). f sei vom Typ ss → s. Seien x, y, z (syntaktische) Variable und t1 (x, y, z) = f (x, f (y, z)), t2 (x, y, z) := f (f (x, y), z). Die Identität t1 (x, y, z) = t2 (x, y, z) besagt die Gültigkeit des Assoziativgesetzes. In der Sprache der Ableitungsbäume hat man x f> >>> >> >> f< < << << << = z x y f< < << << << f= = y == == == z • Es sei (S, Ω) := {{s, s0 }, {f }} und f vom Typ ss → s0 . Wie kann die Identität f (x, y) = f (y, x) formuliert werden? Wie läßt sich das als Gleichung von Ableitungsbäumen erkennen? Gibt es Beispiele von Strukturen dieser Art, auch für s 6= s0 ? Antwort: Man braucht lediglich anzumerken, daß x, y syntaktische Variable vom Typ s sein müssen. x f= = == == = = y y f= = == == == x {s, s0 } s0 := h reali Z.B. sei S := mit s := hreeller koordinaten vektorraum der Dim=ni, P n und Ω := {f } mit f vom Typ ss → s0 und definiert durch f (u, v) := i=1 ui vi . Das übliche Kommutativgesetz ist eine Identität in dieser H.A., die Buchstaben u und v spielen die Rolle syntaktischer Variabler. Anmerkung 230 Bei gegebener Signatur (S, Ω) und System von Gleichungen erfüllen alle Algebren dieser Signatur diese Gleichungen (bei beliebigem Ersetzen der entsprechenden syntaktischen Variablen). Gibt man keine Gleichungen vor, so können im Sinne von Definition 226 (S.254) Terme “ineinander verschachtelt” werden, die dann eine H.A. der Signatur (S, Ω) bilden, eine Termalgebra. 256 ANHÄNGE A.2.7 Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper Wenn R etwa ZZ oder k[x], ein Polynomring in einer Variablen mit Koeffizienten in einem Körper k ist, so basiert die übliche Division mit Rest dividend = quotient × divisor + rest auf folgender Eigenschaft: Definition 231 (Euklidischer Ring, Division mit Rest) Ein Integritätsbereich R mit 1Element heißt euklidisch, falls es eine Funktion θ : R \{0} → IN gibt, derart, daß θ(ab) ≥ θ(a) für alle a, b mit ab 6= 0 gilt, und es zu jedem a ∈ R und 0 6= b ∈ R ein q und ein r in R gefunden werden können mit a = qb + r, r = 0 ∨ θ(r) < θ(b). Es ist q der Quotient und r ein kleinster Rest. Beispiel 232 Die beiden Eingangsbeispiele: 1. Ist R := ZZ, so sei θ(z) := |z| für z 6= 0. Es ist θ(ab) = |ab| = |a||b| ≥ |a| = θ(a). Die übliche Division mit Rest erfüllt die nötigen Eigenschaften. Von Interesse: q und r müssen nicht eindeutig bestimmt sein. So ist etwa für a := 7 und b := 5: 7 = 5 · 1 + 2 = 5 · 2 + (−3), und die Paare (q, r) ∈ {(1, 2), (2, −3)} sind beide o.k. Deshalb auch “ein kleinster Rest” und nicht “der kleinste Rest” in der obigen Formulierung. Eine geometrische Deutung aus der Antike: Es gab keine negativen Zahlen und es wurde die (im allgemeinen kleinere) Strecke b sooft “abgeschlagen”, bis ein Streckenrest r von kleinerer Länge als a verblieb. Die Zahl q gibt dann an, wie oft man abgeschlagen hat. In der antiken Auffassung war der kleinste Rest eindeutig bestimmt, weil nicht negativ. 2. Ist R := k[x], so wählt man d(p) den Grad des Polynoms p ∈ R, sofern p 6= 0 ist. Die aus Mittelschulzeiten bekannte Polynomdivision mit Rest gehört hierher. Will man lediglich den Rest wissen, so empfiehlt sich ein TES wie in Anmerkung 69 (S.81), nämlich, wenn a = 7x4 − 3x2 + 4x − 1 und b = x2 − x + 1, so “adoptiert” man die Regel x2 → x − 1 und findet: a → 7(x − 1)2 − 3(x − 1) + 4x − 1 = 7x2 − 13x + 9 → 7(x − 1) − 13x + 9 = −6x + 2. Was hat man davon? Antwort: Angenommen, man muß die Wurzel der quadratischen Gleichung, nämlich √ x = 21 (1 + i 3), in a = 7x4 − 3x2 + 4x − 1 einsetzen. Dann ist es sicher einfacher, das in r = −6x + 2 zu tun! Das Resultat ist dasselbe! A.2. Algebra 257 Anmerkung 233 Ist R ein euklidischer Ring, so können folgende Begriffe und Techniken erklärt werden, wobei a|b geschrieben wird, wenn a Teiler von b ist. Größter gemeinsamer Teiler von Zahlen, ggT: Sind a, b ∈ R, so heißt d ∈ R ein größter gemeinsamer Teiler von a und b, im Zeichen d = ggT (a, b), wenn d ein Teiler von a und b ist, und wenn jeder weitere Teiler von a und b ein Teiler von d ist. Man sagt a und b sind teilerfremd, im Zeichen ggT (a, b) = 1 (meist (a, b) = 1 geschrieben), falls jeder gemeinsame Teiler von a und b eine Einheit in R, d.i. ein Teiler des Einselements von R, ist. Induktiv definiert man ggT (a1 , . . . , an ) := ggT (a1 , ggT (a2 , . . . , an )). Existenz und Berechnung des ggT: Sind Elemente a1 , . . . , an gegeben, so findet man den ggT durch folgende Prozedur: 1. Wenn alle Elemente gleich Null sind, so ist der ggT gleich Null. 2. Streiche alle Elemente, die gleich Null sind. Ordne die ai nach wachsendem θ(ai ). 3. Ersetze alle ai durch den Rest bei Division durch a1 und streiche alle Elemente, die gleich Null sind. 4. Führe Schritt 2 und 3 solange aus, bis ein einzelnes Element verbleibt. Dieses ist dann der ggT. Beispiel: ggT(12,18,21,0)=ggT(12,18,21)=ggT(6,-3)=ggT(0,-3)=ggT(3)=3. Trickreicher: ggT(12,18,21,0) = 3ggT(4,6,7,0) = 3ggT(4,2,3) = 3ggT(2,3,4)=3ggT (2,1) = 3ggT(1,2) = 3ggT(1) = 3, d.h. man “hebt einen gemeinsamen Teiler heraus”. Erweiterter Kettenalgorithmus: gibt eine Methode an, um für a, b ∈ R \ {0} Elemente x, y ∈ R mit d := ggT (a, b) = ax + by und θ(x) < θ(b), sowie θ(y) < θ(a) bzw. x = 0 oder y = 0 zu finden. Ist a = bd, so gilt offenbar d = a × 0 + b × 1, also x = 0 und y = 1. Ist a = bq + r, und kann man den ggT von b und r in der Form d = bξ + rη schreiben, so ergibt sich sofort d = bξ + (a − bq)η = aη + b(ξ − qη). Man erkennt auch recht schnell, daß die Forderungen an x und y erfüllbar sind, wenn ξ und η (im Induktionsschritt) die entsprechenden Forderungen erfüllen. In Matrizenform gewinnt man eine übersichtliche Form: x y = 0 1 1 −q ξ η . Zunächst eine händische Methode17 , die hier lediglich an einem Beispiel demonstriert werde: Wir wollen den ggT von 127 und 24, d.i. 1 in der Form 1 = 127·x+24·y schreiben und schreiben zunächst die Schritte der Division mit Rest fortlaufend an: 258 ANHÄNGE a 127 24 7 2 = = = = = b 24 7 3 1 × × × × × q 5 3 2 2 + + + + + r 7 3 1 0 Man notiert von der vorletzten Zeile an von unten nach oben lesend die Werte für q als q = 2, q = 3 und q = 5 und schreibt von rechts nach links: x 0 1 0 1 0 1 0 = y 1 −5 1 −3 1 −2 1 und elementare Matrizenrechnung ergibt x y = 7 −37 , also d = 1 = ax + by = 127 × 7 + 24 × (−37). Hier eine rekursive Form der Implementation in einem “Pseudocode” für Elemente in R: function ext euclid(a : R, b : R) : (R, R, R) local: d, x, y, q : R begin if (b = 0) return (a, 1, 0) else begin (q, r) := a divrest b # a = b ∗ q + r, r = 0 oder θ(r) < θ(b) if r = 0 return (b, 0, 1) else begin (d, x, y) :=ext euclid(a, b) return (d, y, x − yq) end end end z Partialbruchzerlegung im Quotientenkörper : Ist f = ab und sind a und b teilerfremd, so ergibt sich aus dem erweiterten Kettenalgorithmus eine Darstellung 1 = ax + by, sodaß z zx zy = + ab b a folgt. A.2. Algebra 259 Beispiel 234 Beispiele hierzu: 1. Kann man 1 in der Form 1 = (x2 + 1)2 p + (x − 1)3 q derart anschreiben, daß der Grad von p kleiner als 3 und jener von q nicht größer als 5 ist, wobei die Koeffizienten der Polynome in Q liegen? Wenn ja, wie lauten p und q? Antwort: Die Frage wird über Polynome in Q(x) gestellt. Dieser Ring ist euklidisch, wenn man als θ den Grad nimmt. Die Polynome a := (x2 + 1)2 und b := (x − 1)3 sind relativ prim, d.h. es gibt kein Polynom d mit θ(d) ≥ 1 als gemeinsamen Teiler. Deshalb ist 1 ein ggT und es sollten sich geforderte Polynome p und q finden lassen. Wir wenden die obigen Prozedur an (Nebenrechnungen, etwa die langweilige Polynomdivision mit Rest werden hier nicht vorgeführt) und finden: a (x2 + 1)2 (x − 1)3 (8x2 − 8x + 4) ( x8 − 14 ) = = = = = b × q 3 (x − 1) × (x + 3) 2 (x − 8x + 4) × ( x8 − 14 ) x × 16(x − 1) 2 x 1 4 × 32 − 16 + + + + + r 8x2 − 8x + 4 x 2 4 0 Nun notiert man für q der Reihe nach (x + 3),( x8 − 14 ) und 16(x − 1), bildet die entsprechenden Matrizen und multipliziert aus: 0 1 0 1 0 1 2x2 − 6x + 5 0 . = 1 ( x8 − 14 ) 1 16(x − 1) 1 (x + 3) −2x3 − 3x + 1 1 Diese Polynome erfüllen 4 = a(2x2 − 6x + 5) + b(−2x3 − 3x + 1), sodaß die gesuchten Polynome wie folgt lauten: ! 1 2 − 6x + 5) (2x p 4 = . 1 3 q 4 (−2x − 3x + 1) 2. (Partialbruchzerlegung) Kann man den Bruch f := a (x2 +1)2 + b (x−1)3 2x−1 (x2 +1)2 (x−1)3 in der Form f = schreiben? Wenn ja, wie kann man a und b bestimmen? Antwort: In der Analysis lernt man die Methode der Partialbruchzerlegung, die genau diese Aufgabe löst. Der Beweis für die Möglichkeit der Partialbruchzerlegung beruht jedoch auf dem erweiterten euklidischen Algorithmus. In unserem Fall ist wegen 1. f= 17 (2x − 1)(p(x2 + 1)2 + q(x − 1)3 ) (2x − 1)p (2x − 1)q = + 2 . 2 2 3 (x + 1) (x − 1) ) (x − 1)3 (x + 1)2 Die Methode wird gelegentlich Bézout zugeschrieben. 260 ANHÄNGE 3. (Partialbruchzerlegung von Quotienten von Laurentpolynomen) 18 Im Körper der rationalen Funktionen C(z) bilden die Brüche der Gestalt zpk mit p ∈ C[z] und k ∈ ZZ einen Teilring R, den Ring der Laurentpolynome, oft auch als C[z, z −1 ] bezeichnet. Wenn 0 6= p ∈ C[z] nicht durch z teilbar ist, so soll θ(p) der Grad von p als Polynom sein. Es soll θ( zpk ) = θ(p) sein für alle k ∈ ZZ. Liegt ein euklidischer Ring vor? Wie kann Partialbruchzerlegung für 2z −1 − 1 f := (1 + z −2 )2 (1 − z −1 )3 gewonnen werden? Antwort: Sind p, q Polynome in C[z], so muß man θ( zpk zql ) ≥ θ( zpk ) überprüfen. Das darf dem interessierten Leser überlassen sein. Um die Partialbruchzerlegung zu gewinnen, ist es (nicht nur in diesem Beispiel) hilfreich, statt z −1 wieder x zu setzen und (in diesem Beispiel) das Beispiel 2. heranzuziehen. A.2.8 Eindeutige Faktorzerlegung Die für den Hauptidealring ZZ gewohnte eindeutige Primfaktorzerlegung wird für beliebige kommutative Ringe wie folgt formuliert: Definition 235 (Faktorieller Ring) Ein kommutativer Ring R mit Einselement heißt faktoriell, falls jedes Element sich als Produkt von irreduziblen Elementen anschreiben läßt, und, falls r 6= 0 zwei Zerlegungen r = a1 . . . ak = b1 . . . bl in irreduzible Elemente gestattet, es eine Einheit s des Ringes gibt, derart daß a1 s mit einem der bj übereinstimmt. Anmerkung 236 (Eindeutigkeit der Faktorzerlegung) 1. Die Anzahl irreduzibler Faktoren, die keine Einheiten sind, ist in jeder Zerlegung die gleiche. Die Faktoren zweier Zerlegungen entsprechen einander bis auf Reihenfolge und Multiplikation mit Einheiten. (z.B. 2 × 3 = (−3) × (−2)). 2. Jeder Hauptidealring ist faktoriell. 3. Jedes irreduzible Element (Definition 97 (S.101)) ist prim. Beweis zu 2.: Sei r ∈ R keine Einheit. Wir wollen zeigen, daß r in endlich viele irreduzible Faktoren zerlegt werden kann. Angenommen, das geht nicht. Dann kann man, ausgehend von r0 := r für alle j ≥ 1 induktiv Elemente fj , rj mit fj irreduzibel und keine Einheit sodaß rj−1 = fj rj ist, definieren. Da hrj−1 i ⊆ hrj i ist, entsteht hierdurch eine aufsteigende Kette hr0 i ⊆ hr1 i ⊆ hr2 i ⊆ · · · A.2. Algebra 261 von Hauptidealen, deren Vereinigung, als Hauptideal, von der Form hai für ein Element a ist. Dieses Element a liegt in der Vereinigung, also gibt es ein j0 mit a ∈ hrj0 i. Somit ist hai = hrj0 i = hrj0 +1 i. Deshalb gibt es ein b ∈ R, sodaßsowohl rj0 +1 = brj0 als auch (konstruktionsgemäß) rj0 = fj0 +1 rj0 +1 gilt. Hieraus entnimmt man rj0 +1 = bfj0 +1 rj0 +1 , also 1 = bfj0 +1 , sodaß insbesondere, entgegen der Annahme, fj0 +1 eine Einheit ist. Die Eindeutigkeit folgt durch Induktion aus 3. Beweis zu 3.: Es sei f irreduzibel und keine Einheit und ein Teiler von ab. Das Ideal ha, f i ist ein Hauptideal, also gibt es p, q, d mit a = pd und f = qd. Da f irreduzibel ist, muß entweder q oder d eine Einheit sein. Wäre q eine Einheit, so wäre a bis auf eine Einheit mit f identisch und der Beweis fertig. Somit können wir annehmen, daß d Einheit ist. Dann ist ha, f i = R und daher gibt es dann x, y mit ax + f y = 1. Multiplikation mit b zeigt abx + f by = b und somit ist f ein Teiler von b. Beispiel 237 Als Konsequenz des Vorangegangenen erweisen sich alle euklidischen Ringe, insbesondere ZZ, k[x] und der Ring der Laurentpolynome als faktoriell. Wir vermerken noch die folgende Beobachtung über mehrfache Faktoren. Anmerkung 238 (Mehrfache Faktoren, Vielfachheit, Test durch Differenzieren im Polynomring) Ist R faktoriell und p = f k q eine Zerlegung von p ∈ R derart, daß f irreduzibel und keine Einheit ist, und ggT(f,q)=1 ist, so nennt man k die Vielfachheit des Faktors f . Ist insbesondere R = k[x], so gelten folgende Aussagen: P i 1. Ist c ∈ k und h c : k[x] → k die Abbildung, die jedem Polynom f := i fi x den P i Wert hc (f ) := i fi c zuordnet (“Einsetzen von c statt der Polynomvariablen x”), ein Ringhomomorphismus. Es ist hc (f ) = 0 g.d.w. f den Linearfaktor (x−c) besitzt. P P 2. Für jedes f = i fi xi kann eine formale Ableitung f 0 := i ifi+1 xi definiert werden. Sie ist linear und erfüllt die Produktregel. 3. f hat genau dann keine mehrfachen irreduziblen Faktoren, wenn ggT (f, f 0 ) = 1 gilt. (Insbesondere kann f keine mehrfachen Nullstellen haben). 4. Ist die Charakteristik des Körpers Null, so sind die Nullstellen von f genau jene von ggTf(f,f 0 ) . Beweis: 1. Wir müssen noch hc (f g) = hc (f )hc (g) nachweisen, m.a.W., daß hc Ringhomomorphismus ist: X X hc (f g) = hc ( ( fi gj )xm ) m i+j=m 262 ANHÄNGE = X X ( fi gj )cm m = ( i+j=m X X fi ci )( gj cj ) i j = hc (f )hc (g). P ci P xi P xi − P ci P (xi −ci ) P P i j i−j j=0 x c Ist i fi = 0, so ist i fi = i fi = (x−c) i≥1 i fi = i≥1 fi also f durch x−c teilbar. Andrerseits, falls f = (x−c)g, so ist hc (f ) = hc (c−x)hc (g) = 0. 2. Die Linearität sieht man leicht ein. Deswegen genügt es, die Produktregel für f = xi , g := xj nachzuweisen: (xi xj )0 = (xi+j )0 = (i + j)xi+j−1 = ixi−1 xj + xi jxj−1 = (xi )0 xj + xi (xj )0 . 3. Es sei p = f k g, dann ist p0 = kf k−1 g +f k g 0 = f k−1 ((k −1)g +f g 0 ), somit, falls k ≥ 2 ist, f ein gemeinsamer Faktor von p und p0 . Ist umgekehrt f ein gemeinsamer irreduzibler Faktor von p und p0 , so gilt p = f g und somit p0 = f 0 g + f g 0 , sodaß f ein Teiler von f 0 bzw. g sein muß. Da f irreduzibel ist, und f 0 kleineren Grad hat, kann f kein Teiler von f 0 sein. Somit ist f Teiler von g und hat zumindest Vielfachheit 2. 4. Folgt direkt aus dem vorigen. Beispiel 239 Vorbereitung auf das Rechnen im endlichen Körper IF8 in Beispiel 112 (S.115): Wie lautet die Zerlegung in irreduzible Faktoren für das Polynom x8 − x aufgefaßt mit Koeffizienten in IF2 (dem Körper mit 2 Elementen)? Antwortfindung: Sichtlich ist x ein Faktor. Danach steht da x7 − 1 = (x − 1)(x6 + x5 + x4 + x3 + x2 + x + 1). Wir behaupten, daß es keine mehrfachen Faktoren geben kann. Dazu benützen wir das Ausgangspolynom x8 − x, das differenziert 8x − 1 = 1 ergibt (Körper mit 2 Elementen!). Somit sind alle irreduziblen Faktoren einfach. Nun ist es gerechtfertigt, einen Ansatz x6 + x5 + x4 + x3 + x2 + x + 1 = pq mit p vom Grad 2 oder 3 zu machen. Ein wenig voraus wissend, soll 3 genommen werden. Dann kann man p = x3 + ax2 + bx + 1, q := x3 + cx2 + dx + 1 annehmen (weil das Produkt der höchsten bzw. niedrigsten Koeffizienten 1 ist). Nun erkennt man, daß nach Multiplikation der Term 5.Ordnung die Gleichung a + c = 1 ergibt. O.B.d.A. nehmen wir a = 1 und c = 0 an (sonst vertauschen p und q ihre Rollen). Das lineare Glied ergibt b + d = 1 und nun versucht man einfach p = x3 + x2 + 1 und q = x3 + x + 1. Ausmultiplizieren ergibt die Korrektheit der Zerlegung. Schließlich erweisen sich p und q als unzerlegbar, weil ein Linearfaktor auftauchen müßte, der zu einer Nullstelle in IF2 führt – letztere existiert nicht! Antwort: x8 − 1 = x(x − 1)(x3 + x2 + 1)(x3 + x + 1) ist eine Zerlegung in über IF2 irreduzible Faktoren. Schließlich noch Algebrabeispiel, welches mit Beispiel 248 (S.279) (Frage 2) in der Wahrscheinlichkeitstheorie zusammenhängt: , A.3. Topologie 263 Beispiel 240 (Faktorzerlegung und Prozentzahlen) Es sei die Zahlenfolge {hi | i = 1, 2, 3, 4, 5, 6} = {16.8, 17.3, 16.4, 16.7, 16.2, 16.6} gegeben. Es soll sich dabei um “relative Häufigkeiten” in i Prozenten handeln, also hi := 100H N . Dabei ist jede absolute Häufigkeit Hi ∈ IN und H1 + · · · + H6 = N . Es ist gefragt, wie groß das kleinste N ist, sodaß die angegebene Zahlenfolge entsprechende Prozentzahlen ausdrückt. Antwortfindung: Multipliziert man jede der Zahlen mit 10, so ergibt sich offenkundig 1000 = 168 + . . . + 166, sodaß das gesuchte N bestenfalls ≤ 1000 sein kann. Die kleinste natürliche Zahl k, derart, daß alle zi := hi ∗ k ∈ IN liegen, ist offenkundig auch k = 10. Danach ergibt für i = 1, . . . , 6 die Beziehung zi N = 1000Hi . Nun muß jeder Primteiler von zi ein Teiler von entweder 1000 oder von Hi sein. Sieht man sich jetzt die Zahlenfolge der zi , nämlich {168, 173, 164, 167, 162, 166} an, so bemerkt man die Primzahl 173, die kein Teiler von 1000 ist. Somit ist H2 ein Vielfaches von 173. Wegen der Minimalität von N ist deshalb H2 = 173 und N = 1000. A.3 Topologie A.3.1 Konstruktion der Vervollständigung für einen metrischen Raum (X, d) Das Konstruktionsprinzip erinnert ein wenig an Numerik: • Man geht vom Raum aller Folgen X IN aus und betrachtet hierin die Teilmenge aller Cauchyfolgen, die mit CF (X) bezeichnet werde. Jede solche Folge darf man sich als “numerisches Verfahren” vorstellen, von dem man eigentlich annehmen will, daß es konvergiert, weil es ja Cauchysch ist, aber der Grenzwert in X nicht zu existieren braucht. ∞ • Zwei Cauchyfolgen {xn }∞ n=1 und {yn }n=1 will man nun als gleichwertig erachten, wenn sie “zum gleichen Grenzwert konvergieren”. Der muß aber X nicht existieren. Falls doch, würde auch ∞ D({xn }∞ n=1 , {yn }n=1 ) := lim d(xn , yn ) = 0 n→∞ (A.1) zu gelten haben. Nun kommt der Trick: die linke Seite, das D, läßt sich für je zwei ∞ Cauchyfolgen {xn }∞ n=1 , {yn }n=1 definieren, sogar dann, wenn ihr Grenzwert in X nicht existiert. • Die Funktion D : CF (X)×CF (X) → IR+ ∪{0} erfüllt gewisse der Axiome einer Metrik. Sie ist symmetrisch, nicht negativ, und die Dreiecksungleichung kann nachgewiesen ∞ werden. Allerdings folgt aus D({xn }∞ n=1 , {yn }n=1 ) = 0 nicht notwendig die Gleichheit ∞ der Folgen. Die angekündigte Gleichwertigkeit der Cauchyfolgen {xn }∞ n=1 und {yn }n=1 wird formal als Äquivalenzrelation definiert, indem man sie als äquivalent ansieht, wenn Glg.(A.1) gilt. 264 ANHÄNGE ˜ ty) zu • (Definition von X̃) Nun wird X̃ als Menge der Äquivalenzklassen erklärt. Um d(x̃, ∞ definieren, wählt man Cauchyfolgen (d.i. Repräsentanten) {xn }∞ n=1 ∈ x̃ und {yn }n=1 ∈ ỹ ∞ ∞ ˜ und definiert d(x̃, ỹ) := D({xn }n=1 , {yn }n=1 ). Diese Definition erweist sich als von den gewählten Folgen in x̃, ỹ unabhängig. 0 ∞ ∞ 0 ∞ Wir wollen das kurz vorführen: Es seien {xn }∞ n=1 , {xn }n=1 ∈ x̃ und {yn }n=1 , {yn }n=1 ∈ ∞ ∞ 0 ∞ 0 ∞ ỹ. Man muß dann D({xn }n=1 , {yn }n=1 ) = D({xn }n=1 , {yn }n=1 ) zeigen. Zunächst liefert die Dreiecksungleichung für alle n ∈ IN d(x0n , yn0 ) ≤ d(x0n , xn ) + d(xn , yn ) + d(yn , yn0 ), und geht man mit n → ∞, so ergibt sich wegen der Definition von D und der Äquivalenzklassen x̃, ỹ sofort 0 ∞ ∞ ∞ D({x0n }∞ n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ). Die gleiche Prozedur mit vertauschten Rollen der gestrichenen und ungestrichenen Folgen ergibt ∞ 0 ∞ 0 ∞ D({xn }∞ n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ), woraus die Behauptung unmittelbar folgt. • (isometrische Einbettung von X) Jedem Element x ∈ X wird die konstante Folge {xn }∞ n=1 mit xn = x zugeordnet. Dann ist d(xm , xn ) = d(x, x) = 0, also diese Folge ∞ ∞ {xn }∞ n=1 eine Cauchyfolge. Einsichtig ist auch, daß konstante Folgen {xn }n=1 , {yn }n=1 ∞ ∞ mit xn = x, yn = y zunächst D({xn }n=1 , {yn }n=1 ) = d(x, y) ergeben. Hieraus ergibt ˜ ỹ) = d(x, y), sobald x̃ und ỹ konstante Folgen mit Werten x, y enthalten. sich d(x̃, • (Nachweis, daß X in X̃ dicht liegt) Daß jedes x̃ ∈ X̃ Grenzwert von Elementen in X ist, ergibt sich wie folgt: Zunächst wählt man einen Repräsentanten {xn }∞ n=1 ∈ x̃. Nun betrachtet man zu jedem k ∈ IN die konstante Folge xk := {xkn }∞ definiert durch n=1 xkn := xk . Wir wollen zeigen, daß bei k → ∞ diese Folge limk→∞ D(xk , {xn }∞ n=1 ) ∞ ∞ erfüllt. Es ist D(xk , {xn }n=1 ) = limn→∞ d(xk , xn ). Weil jedoch {xn }n=1 konvergent, und somit CF ist, gibt es zu vorgegebenem > 0 ein N sodaß für alle n, k der Ausdruck d(xk , xn ) < und somit D(xk , {xn }∞ n=1 ) ≤ wird. Also gilt die Konvergenzbehauptung. ˜ • (Nachweis der Vollständigkeitkeit von X̃). Es sei {x̃k }∞ k=1 eine Cauchyfolge in (X̃, d). ˜ k , x̃) = 0 gibt. Weil X Dann ist zu zeigen, daß es eine Element x̃ ∈ X̃ mit limk→∞ d(x̃ dicht liegt, gibt es zu jedem Folgenglied x̃k ein Element xk ∈ X, welches, als konstante Folge aufgefaßt (d.h. als Folge xk ∈ CF (X) definiert als xkn := xk ), die Abschätzung ˜ k , xk ) < 1k erfüllt. Hieraus ergibt geeignetes Anwenden der Dreiecksungleichung d(x̃ 2 ˜ k , xl ) ≤ d(x ˜ k , x̃k ) + d(x̃ ˜ k , x̃l ) + d(x̃ ˜ l , xl ) ≤ d(xk , xl ) = d(x 1 ˜ k , x̃l ) + 1 . + d(x̃ 2k 2l Weil nun {x̃k }∞ k=1 die Cauchyeigenschaft hat, gibt es zu jedem > 0 ein N ∈ IN mit ˜ l , xl ) < für alle k, l ≥ N , und für alle k, l, die zusätzlich 1k + 1l < erfüllen, ist d(x̃ 2 2 dann auch ˜ k , xl ) ≤ 2. d(x A.3. Topologie 265 Deshalb ist {xk }∞ k=1 eine Cauchyfolge von Elementen in X, welche definitionsgemäß ein Element x̃ ∈ X repräsentiert. Die Konvergenz der Folge {x̃k }∞ k=1 gegen x̃ ergibt sich nun wie folgt. Zunächst benützt man die Dreiecksungleichung und erhält: ˜ k }∞ , x̃) ≤ d({x̃ ˜ k }∞ , xk ) + d(x ˜ k , x̃) ≤ 1 + d(x ˜ k , x̃). d({x̃ k=1 k=1 2k Ist nun > 0 beliebig vorgegeben, so gibt es ein N ∈ IN , sodaß sowohl 21k < 2 als auch ˜ k , x̃) < für alle k ≥ N (wegen der Konvergenz von xk gegen x̃) die Ungleichung d(x 2 gelten. Demnach gilt die behauptete Konvergenz. A.3.2 Beweis des Banachschen Fixpunktsatzes Anmerkung 122 (S.126) Beispiel 241 Hier ist der Beweis der einzelnen Punkte. 1. Es sei {xn }∞ n=1 konvergent gegen x. Dann gibt es zu jedem > 0 ein N mit d(xn , x) < für alle n ≥ N . Wegen der Kontraktionseigenschaft hat man für die gleichen n auch d(f (xn ), f (x)) ≤ λd(xn , x) < d(xn , x) < , also die Stetigkeit von f . 2. Zunächst soll die Eindeutigkeit von p gezeigt werden. Angenommen, es ist p 6= q, sowie p = f (p) und q = f (q). Dann ist d(p, q) = d(f (p), f (q)) ≤ λd(p, q) < d(p, q), ein Widerspruch. Nützlich ist zunächst die folgende Abschätzung: d(xn−1 , xn ) ≤ λn−1 d(x0 , x1 ), (A.2) die sich sehr leicht mittels vollständiger Induktion für alle n ∈ IN zeigen läßt. Hieraus bekommt man d(x0 , xn ) ≤ d(x0 , x1 ) + d(x1 , x2 ) + · · · + d(xn−1 , xn ) ≤ (1 + λ + . . . + λn−1 )d(x0 , x1 ) 0 ,x1 ) ≤ d(x1−λ Die Existenz von p ist gezeigt, wenn {xn }∞ n=1 sich als Cauchyfolge erweist. Es sei n > m, dann ist unter Verwendung der vorigen Abschätzung (in der n durch n − m zu ersetzen ist) und Glg.(A.2): d(xm , xn ) ≤ λd(xm−1 , xn−1 ) ≤ · · · ≤ λm d(x0 , xn−m ) ≤ λm d(x0 , x1 ) . 1−λ Nun sei > 0 vorgegeben. Danach wählt man N so groß, daß λN d(x0 , x1 ) < 1−λ ist. Sind dann m, n ≥ N und etwa m > n, so gilt d(xm , xn ) ≤ λm d(x0 , x1 ) λN d(x0 , x1 ) ≤ < , 1−λ 1−λ 266 ANHÄNGE sodaß {xn }∞ n=1 sich als Cauchyfolge, und somit, wegen der Vollständigkeit, als konvergent erweist. Es verbleibt zu zeigen, daß die Folge {xn }∞ n=1 , die zwar gegen ein x ∈ X konvergiert, gegen den Fixpunkt p konvergiert, m.a.W., daß x = p sein muß. Die Folge {yn }∞ n=1 , ∞ definiert durch yn := xn+1 konvergiert gegen x. Da f stetig ist, konvergiert {yn }n=1 = {f (xn )}∞ n=1 gegen f (x). Also gilt x = f (x) und es ist x ein Fixpunkt von f . Wegen der eingangs gezeigten Eindeutigkeit hat man x = p. 3. Wurde bereits unter 2. mit bewiesen. 4. Ausgehend von der unter 2. gewonnen Abschätzung d(xm , xn ) ≤ λm d(x0 , x1 ) , 1−λ die für alle m, n ∈ IN gilt, findet man d(x, xm ) ≤ d(x, xn ) + d(xm , xn ) ≤ d(x, xn ) + λm d(x0 , x1 ) , 1−λ und weil für n → ∞ der Term d(x, xn ) gegen Null geht, ergibt sich die Behauptung. A.3.3 Beweise der Aussagen über offene, abgeschlossene, kompakte, etc. Mengen in Anmerkung 127 (S.134) Beispiel 242 Es sollen Beweise angedeutet werden: 1. Es sei K(x0 , r) offene Kugel und y ∈ K(x0 , r). Setzt man ρ := r − d(y, x0 ), ist ρ > 0 (weil ja d(x0 , y) < r gilt) und so ergibt sich für beliebiges z ∈ K(y, ρ) zunächst d(z, y) < r − d(y, x0 ), also wegen der Dreiecksungleichung d(x0 , z) ≤ d(x0 , y) + d(y, z) < d(x0 , y) + (r − d(y, x0 )) = d(x0 , y). Deshalb ist z ∈ K(xo , y), also K(y, ρ) ⊆ K(x0 , r) und somit K(x0 , r) offen. 2. Zu jedem Punkt x einer offenen Menge O gibt es eine offene Kugel K(x, rx ), die ganz in O liegt. Deshalb ist O Vereinigung von offenen Kugeln. 3. Ist x aus der Vereinigung beliebig vieler offener Mengen, so gibt es eine offene Menge, zu der er gehört, und eine offene Kugel, die in dieser offenen Menge und somit in der Vereinigung liegt. Also ist die Vereinigung offen. Sind O1 und O2 offen und x ∈ O1 ∩ O2 , so gibt es Kugeln K(x, ri ) die ganz zu Oi gehören. Deshalb ist für r := min{r1 , r2 } die Kugel K(x, r) ganz in O1 ∩ O2 und somit O1 ∩ O2 offen. 4. Läßt sich aus 5. und 3. mittels der De Morganschen Gesetze folgern. 5. Es sei {xn }∞ n=1 eine gegen x konvergente Folge von Punkten xn im Komplement der offenen Menge O. Zu zeigen ist, daß dann x auch nicht in O liegt. Angenommen x ∈ O. Dann gibt es r > 0 mit K(x, r) ⊆ O. Da jedoch die Folge {xn }∞ n=1 gegen x konvergiert, A.4. Banachräume 267 gibt es ein N > 0 mit d(x, xn ) < r für alle n ≥ N . Solches xn gehört dann sowohl zu O als auch (aufgrund unserer Wahl) zum Komplement, ein Widerspruch. Ähnlich argumentiert man, um zu zeigen, daß das Komplement einer abgeschlossenen Menge offen ist. 6. Es genügt, die Beschränktheit zu zeigen. Angenommen, C ist kompakt und unbeschränkt. Dann gibt es eine Folge {cn }∞ n=1 und ein c ∈ C mit d(c, cn ) ≥ n. Weil C (folgen)kompakt ist, kann durch Übergang zu einer Teilfolge die Konvergenz von {cn }∞ n=1 gegen ein x ∈ C angenommen werden. Deshalb existiert ein N sodaß d(x, xn ) < 1 für alle n ≥ N gilt. Dann ergibt sich für alle n ≥ N aus der Dreiecksungleichung n ≤ d(c, xn ) ≤ d(c, x) + d(x, xn ) ≤ d(c, x) + 1, ein Widerspruch, weil ja n beliebig groß werden kann. Für den Nachweis des Satzes von Heine Borel sei auf [13], Seite 33 verwiesen. A.4 A.4.1 Banachräume Beweis für Anmerkung 171 (S.185) – Vollständigkeit des Dualraums Beweis: Es sei {x0n }∞ n=1 eine Cauchyfolge von Funktionalen. Dann ist wegen |(x0n − x0m )(x)| ≤ kx0n − x0m kkxk die Folge {x0n (x)} eine Cauchyfolge in IR (bzw. C) und man kann ein Funktional x0 durch seine Werte x0 (x) := limn→∞ x0n (x) definieren. Um zu wissen, daß x0 zu V 0 gehört, beachten wir zunächst für beliebiges n |x0 (x)| ≤ |x0 (x) − x0n (x)| + |x0n (x)|. Nun wählen wir > 0 beliebig und N so groß, daß kx0n − x0m k < für alle m, n ≥ N gilt. Für solche m, n ergeben die Ungleichungen zuächst |x0n (x)| − |x0m (x)| ≤ |(x0n − x0m )(x)| ≤ kx0n − x0m kkxk ≤ kxk, also |x0n (x)| ≤ kxk + |x0m (x)| ≤ ( + kx0m k)kxk. Nun konvergiert die linke Seite gegen |x0 (x)| sodaß die Beschränktheit von x0 folgt, also x0 im Dualraum liegt. Aus der ersten der Ungleichungen ergibt sich für alle x mit Norm 1 x0n (x) − x0m (x) < . Läßt man entweder n oder m nach Unendlich gehen, ergeben sich die Ungleichungen x0 (x) − x0m (x) ≤ , x0n (x) − x0 (x) ≤ . 268 ANHÄNGE Aus ihnen ergibt sich für n ≥ N |(x0 − x0n )(x)| = |x0 (x) − x0n (x)| ≤ , und weil die rechte Seite nicht von x abhängt kann man links zum Supremum übergehen, bekommt somit kx0 − x0n k ≤ , somit die Konvergenz. Nachweis für die Eigenschaften von A0 . Zunächst ist A0 auf dem gesamten Dualraum V ∗ wohldefiniert, wie in Definition 151 (S.160) vermerkt worden ist. Ist v 0 ∈ V 0 und u ∈ U , so hat man |A0 (v 0 )(u)| = |v 0 (A(u))| ≤ kv 0 kV 0 kAukV ≤ kv 0 kV 0 kAkkukU . Hieraus ergibt sich sofort kA0 (v 0 )kU 0 ≤ kv 0 kV 0 kAk, also ist A0 beschränkt und obendrein ist kA0 k ≤ kAk. Um kA0 k ≥ kAk zu zeigen, wählen wir zunächst > 0. Nun wird u ∈ U mit kukU = 1 und kAukV ≥ kAk − gewählt. Als nächstes verwenden wir den Satz von Hahn-Banach (Anmerkung 243 (S.269)) um auf dem zunächst auf dem 1-dimensionalen Teilraum (Au) von V das lineare Funktional v00 (Au) := Au zu definieren, zu beachten, daß es Norm 1 hat, und zu einem Funktional v 0 auf ganz V mit Norm 1 fortzusetzen. Interessant ist die Tatsache |v 0 (Au)| = kAukV , diese benützend ergibt sich die Abschätzung kAk − ≤ kAukV = |v 0 Au| = |(A0 v 0 )(u)| ≤ kA0 v 0 kU 0 ≤ kA0 k, aus der die gefragte Ungleichung folgt. A.4.2 W.z.z.w. Satz von Hahn-Banach* Ein im Aufbau der Operatortheorie unverzichtbares Werkzeug ist der Satz von Hahn-Banach. Z.B. kann mit seiner Hilfe gezeigt werden, daß für einen beschränkten Operator A der duale Operator A0 ebenfalls beschränkt ist (Anmerkung 171 (S.185)). Eine andere simple Anwendung ist der Nachweis der Existenz eines abgeschlossenen Teilraumes im Banachraum V , der zu einem gegebenen endlichdimensionalen Teilraum einen Komplementärraum bildet. Im IRn besagt er in stark vereinfachter Form, daß ein lineares Funktional von einem linearen Teilraum U so auf den ganzen Raum fortsetzbar ist, daß die Norm sich nicht vergrößert. Ist das Funktional das Nullfunktional, so setzt man nämlich durch Null fort. Andernfalls ist der Teilraum direkte Summe eines 1-dimensionalen Teilraumes und des Kerns des Funktionals, einer Hyperebene. Man wählt eine Basis des IRn mit einem Basisvektor im 1-dimensionalen Teilraum mit kv 0 kU = v 0 (b), sowie den Rest der Basis im Kern und eventuell noch genügend viele Basiselemente, um den gesamten IRn aufspannen zu können. Danach setzt man das Funktional auf allen Basisvektoren ungleich b zu Null an. Man kann sich leicht vorstellen, daß die Werte des neuen Funktional letztlich nur die Werte sind, die auf U angenommen werden. Insbesondere steigt die Norm nicht an. Diese geometrische Idee für unendlichdimensionale Räume zum Beweis werden zu lassen, wird transfinite Induktion oder auch das Zornsche Lemma verwendet. Ein Beweis findet sich z.B. in [2] und hier ist eine einfache Version des Satzes von Hahn-Banach: A.4. Banachräume 269 Anmerkung 243 (Satz von Hahn-Banach) Es sei ein Banachraum (V, k · kV ), eine Halbnorm p, d.h. eine Funktion p : V → [0, ∞) mit p(rv) = rpv für r ≥ 0, p(v1 + v2 ) ≤ p(v1 ) + p(v2 ), ein linearer Teilraum U und schließlich ein stetiges lineares Funktional u0 : U → IR mit u0 (u) ≤ p(u) für alle u ∈ U gegeben. Dann kann u0 zu einem stetigen linearen Funktional v 0 mit v 0 (v) ≤ p(v) für alle v ∈ V fortgesetzt werden. Speziell ist p(v) := kvkV als solch eine Funktion wählbar, sodaß der Satz in diesem Fall die Ausdehnung eines auf einem Teilraum gegebenen stetigen linearen Funktionals auf ganz V mit der gleichen Norm garantiert. Anmerkung 244 Die folgenden Fakten sind unmittelbare Konsequenzen aus dem Satz: Stützebene für Einheitskugel: Zu jedem x auf der Einheitskugel gibt es ein stetiges Funktional v 0 mit Norm 1 sodaß v 0 (x) = 1 und kv 0 kV 0 = 1 ist. v’(x)=−1 v’(x)=1 x (Im IR2 besagt dies lediglich, daß man eine Linearform v 0 (x1 , x2 ) findet, deren Niveaulinien für x dem Wert 1 entsprechen, und daß bei x die Linearform ihr Maximum auf der Vollkugel annimmt.) 270 ANHÄNGE Weiter haben die Elemente des Kerns von v 0 zu x mindestens den Abstand 1. Distanz Kugeloberfläche zu echtem Teilraum: Ist H echter abgeschlossener Teilraum des Banachraumes (V, k · kV ), so gibt es zu jedem positiven einen Punkt s auf der Oberfläche der Einheitskugel S := {v ∈ V | kvkV = 1} mit d(x, h) ≥ 1 − x 1−ε H Abschluß eines linearen Teilraumes: Ist H linearer Teilraum des Banachraumes V , so ist \ H= ker(v 0 ). {v 0 ∈V 0 |H≤ker(v 0 )} Hier die Beweise dazu: Stützebene an eine Kugeloberfläche Zum Beweis für die Existenz der Stützebene definiert man ein Funktional v00 durch v00 (rx) = r, für r ∈ IR. Dieses Funktional hat Norm 1 und man benützt den Satz von Hahn-Banach, um es zu einem normgleichen Funktional v 0 auf ganz V auszudehnen. Dann ist die erste Aussage erfüllt. Distanz Kugeloberfläche – linearer Teilraum: Weil H echter Teilraum ist, gibt es z ∈ V mit z 6∈ H. Nun definiert man ein Funktional v00 auf L(H, z) = H ⊕ ‡ durch v00 (h + λz) := λ, also mit H komplett im Kern. Dieses Funktional besitzt nach dem Satz von Hahn-Banach eine Erweiterung v 0 auf ganz V mit gleicher Norm. Deshalb gibt es ein x ∈ S mit kvk0 V 0 ≥ v 0 (x)(1 − ) (das folgt aus der Supremumseigenschaft der Norm). Sei nun h ∈ H beliebig. Dann gilt (1 − )kv 0 kV 0 ≤ v 0 (x) = v 0 (x − h) ≤ kx − hkV kv 0 kV 0 , sodaß die Enden der Ungleichungskette nach Kürzen der Norm von v 0 auf kx − hkV ≥ (1 − ) führt, was zu zeigen war. Abgeschlossener Teilraum als Schnitt der Kerne: Da die rechte Seite als Durchschnitt abgeschlossener Mengen (jeder ker(v 0 ) ist abgeschlossen) selbst abgeschlossen ist und H enthält, ist die linke Seite in der rechten enthalten. A.4. Banachräume 271 Nun sei v in der rechten Seite enthalten, jedoch nicht in H̄. Dann definiert man ein Funktional v00 auf L(H̄, v) durch v00 (h̄ + ry) = r und sieht v00 (y) = 1 sofort ein. Dieses Funktional erlaubt eine normgleiche Erweiterung v 0 auf ganz V , für die v 0 (y) = 1 ist. Andrerseits ist H̄ im Kern des Funktionals, also sollte auch v 0 (y) = 0 sein, ein Widerspruch. A.4.3 Nachweise der Aussagen in Anmerkung 176 (S.189) über kompakte Operatoren Beispiel 245 Hier nun die Beweise zu Anmerkung 176 (S.189). Stetigkeit: Es genügt, die Beschränktheit von K auf der Einheitskugel {u | kuk ≤ 1} zu zeigen. Wäre diese nicht gegeben, so fände sich eine Folge {un }∞ n=1 mit kKun k ↑ ∞ bei n ↑ ∞. Da jedoch diese Folge durch den Wert 1 beschränkt ist, müßte es eine konvergente ∞ Teilfolge {Kunk }∞ k=1 geben, ein Widerspruch zur Divergenz der Folge {kKunk k}k=1 nach ∞. Hat V keine endliche Dimension, so kann die Identität I : V → V , die zwar stetig ist, nicht kompakt sein. Sonst könnte man im Gegensatz zu Anmerkung 162 (S.175) in {x ∈ V | kxkV = 1} eine konvergente Teilfolge konstruieren können. Endliche Dimension etc.: Da mit K auch σK kompakt ist, genügt es, den Nachweis für σ = 1, also für I − K zu führen. Angenommen, der Kern hat unendliche Dimension. 1 Dann produziert man im Kern eine Folge {un }∞ n=1 mit kun kV = 1 und kui − uj kV ≥ 2 für alle i 6= j wie im Beweis der endlichen Dimension eines für beschränkte Teilmengen folgenkompakten linearen Teilraumes (siehe Beispiel 163 (S.175)). Diese Eigenschaft gilt auch für jede Teilfolge, auch für eine solche, für die {K(un )}∞ n=1 schon konvergent, also auch Cauchyfolge ist. Weil I(ui − uj ) = K(ui − uj ) ist, ergibt die Cauchyeigenschaft ein N mit kK(ui − uj )kV < 21 falls i, j ≥ N ist, während die linke Seite die Ungleichung kui − uj kV ≥ 21 ergibt, ein Widerspruch. Der besagte Kern ist endlichdimensional. Konvergenz kompakter Operatoren in der Norm: Es sei {un }∞ n=1 eine o.B.d.A. durch 1 beschränkte Folge in V . Angenommen K ist nicht kompakt. Dann existiert ein a > 0 und man kann die Folge so anlegen, daß kK(ui − uj )kV ≥ a für alle Indizes i 6= j gilt. Es gibt ein n mit a , 2 wegen der Konvergenz der Folge {Kn }∞ n=1 gegen K im Sinne der Norm. Der Ausdruck k(K − Kn )(ui − uj )kV kann nach unten durch kK(ui − uj )kV −kKn ui − Kn uj kV und | {z } kK − Kn k < ≥a nach oben durch a2 kui − uj kU abgeschätzt werden, woraus sich die Ungleichung a ≤ kui − uj kU + kKn ui − Kn uj kV 272 ANHÄNGE ergibt. Da Kn kompakter Operator ist, kann durch Übergang zu einer Teilfolge kKn ui − Kn uj kV < a2 erreicht werden, ein Widerspruch. Deshalb ist K kompakt. Dualer Operator K 0 kompakt: Angenommen nein. Dann gibt es eine Folge {vn0 }∞ n=1 von Elementen mit Norm 1, sodaß die Folge der Werte Kvn0 keine Cauchyfolge enthält, somit ein a > 0 mit 0 kK 0 vn0 − K 0 vm k≥a gilt. Dann gibt es insbesondere Elemente umn ∈ U mit Norm 1 und sodaß 0 0 (vn0 − vm )Kumn = (K 0 vn0 − K 0 vm )umn ≥ a 2 ist. Zunächst betrachtet man die doppelt indizierte Folge Kumn und kann durch Übergang zu einer Teilfolge erreichen, daß sie gegen ein Ku konvergiert. Dadurch erreicht man für unendlich viele Indizes etwa a 0 (vm − vn0 )Ku ≥ 3 Geschick ist nötig (ein Diagonalverfahren – in z.B. [2] wird der Satz von Arzela-Ascoli verwendet), um die Indizes m und n durch die gleiche Indexmenge laufen zu lassen 0 Ku eine beschränkte Zah– darauf gehe ich hier nicht ein. Nun ist die Folge der vm lenfolge und enthält eine konvergente Teilfolge. Dann wäre sie auch Cauchyfolge, ein Widerspruch. Fredholmeigenschaft etc: Zunächst ist der Kern von I − K endlichdimensional. Daß er ein abgeschlossenes Komplement M in U besitzt kann wie folgt eingesehen werden: Man wählt im Kern eine Basis und dazu eine Kobasis in ker(I − K)∗ . Diese Kobasis besteht somit aus linearen Funktionalen mit Norm 1 und können mittels des Satzes von HahnBanach (Anmerkung 243 (S.269)) zu normgleichen Funktionalen auf ganz U erweitert werden. Ist nun B = {bi } die Basis und B 0 = {bj } die erweiterte Kobasis, Pbereits 0 0 so definieren wir P : U → ker(I − K) durch P (x) := b b (x)b, wobei bi (bj ) = δij laut Konstruktion gilt. Nun ist Q := I − P ein stetiger Operator, dessen Kern M das gewünschte abgeschlossene Komplement zu ker(I − K) ist. Um die Abgeschlossenheit von R(I − K) und Existenz von N nachzuweisen, genügt es nun, I − K auf M einzuschränken, m.a.W., “von Haus aus” I − K als injektiv anzunehmen. Die Abgeschlossenheit von R(I − K) ist gezeigt, wenn für eine Folge {un }∞ n=1 mit (I − K)un → v sich ein u mit v = (I − K)u finden läßt. Wegen der Kompaktheit von K kann man zu einer Teilfolge übergehen, derart daß die Folge 1 K(un ) → v0 kun k konvergiert. Wir behaupten daß die Folge {un }∞ n=1 beschränkt sein muß. Andernfalls würde nämlich einerseits un un un (I − K) = −K kun k kun k kun k A.4. Banachräume 273 nach Null konvergieren (linke Seite, weil die Zähler gegen v, die Nenner gegen ∞ konvergieren), andrerseits deshalb der Term auf der rechten Seite konvergieren, also un → v0 kun k gelten. Es ergibt sich sofort v0 = Kv0 , also (I − K)v0 = 0, d.h. v0 = 0. Das kann nicht sein, weil alle kuunnk Norm 1 hatten. Also ist die Folge {un }∞ n=1 beschränkt. Nun darf (notfalls nach Übergang zu einer Teilfolge) die Konvergenz von Kun gegen ein w ∈ V angenommen werden. Das ergibt (I − K)un = un − Kun und durch Grenzwertbetrachtung die Konvergenz der Folge {un }∞ n=1 selbst – gegen einen GW u. Es erweist sich (I − K)u = v, was zu zeigen war. Somit ist R(I − K) abgeschlossen. Der noch fehlende Nachweis, daß der Anihilator von R(I − K) genau mit dem Kern von I −K 0 übereinstimmt verläuft analog zum algebraischen Gegenstück in Anmerkung 154 (S.165). A.4.4 Distributionen Definition 246 Es sei I = [0, 1] oder IR. (Schwartz)-Testfunktionen: Jede unendlich oft differenzierbare Funktion mit kompaktem Träger heißt Testfunktion. Ist I = IR, so ist eine Schwartztestfunktion eine unendlich oft differenzierbare Funktion φ, für welche |xm φ(n) | für beliebe Potenz xm und Ableitung der Ordnung n von φ beschränkt ist. Die Testfunktionen bilden einen Vektorraum D, die Schwartzfunktionen einen Vektorraum S. Konvergenz in D und S: Auf D wird ein Konvergenzbegriff durch φk → φ falls alle φk außerhalb einer kompakten Menge K verschwinden und auf K gleichmäßige (n) (n) Konvergenz der φk gegen φk für alle Ableitungsordnungen n = 0, 1, 2, . . . gilt. Auf S wird ein Konvergenzbegriff φk → φ durch gleichmäßige Konvergenz aller Ableitungen eingeführt. 274 ANHÄNGE (Temperierte) Distributionen: Jedes folgenstetige Element des Dualraumes von D (von S) heißt Distribution oder verallgemeinerte Funktion (temperierte D. bzw. temperierte v.F.). Die Notation hd, φi statt d(φ) für d (temperierte) Distribution und φ (Schwartz)testfunktion ist geläufig. Distributionenraum: Die Menge der (temperierten) Distributionen unter der punktweisen Addition (d.i. hd1 + d2 , φi := hd1 , φi + hd2 , φi) und Multiplikation mit Skalaren (d.i. hrd, φi := rhd, φi) bilden einen Vektorraum, den topologischen Dualraum D0 (bzw. S 0 ) des topologischen Vektorraumes der (Schwartz)testfunktionen. Konvergenz im Distributionenraum: Man sagt dn → d im Distributionenraum, falls hdn , φi → hd, φi für alle (temperierten) Testfunktionen gilt. Anmerkung 247 Die wichtigsten Fakten sind: Gewöhnliche Funktionen als D.: Ist f Riemann integrierbar (bzw., allgemeiner LeR besgue integrierbar), so wird durch φ → I f (x)φ(x) dx eine (temperierte) Distribution definiert, die üblicherweise als hf, φi geschrieben wird. Ist d eine (temperierte) Distribution, so gibt es höchstens ein stetiges f mit hd, φi = hf, φi für alle φ (Dubois-Reymond). Träger einer Distribution: Für jede stetige Funktion ist ihr Träger der Abschluß der Menge {x | f (x) 6= 0}. Für eine Distribution d gehört ein Punkt x genau dann nicht zum Träger, wenn er eine offene Umgebung besitzt, sodaß hd, φi = 0 für jede Testfunktion mit Träger in dieser offenen Umgebung gilt. Dirac δ-Funktion und Folgen vom Typ δ: Die Abbildung δx mit hδx , φi := φ(x) heißt Dirac δ Funktion (und ist keine Funktion im klassischen Sinn). Eine Folge vom Typ δ ist eine Folge {fn }∞ n=1 von (stetigen) Funktionen, die im Sinne der Distributionenkonvergenz gegen δx konvergiert. So etwa ist fn (x) = n2 auf [− n1 , n1 ] und Null sonst eine gegen δ = δ0 konvergente Folge. Die Folge 1 √ σn 2π 1 2 e− 2 (x/σn ) ist eine Folge vom Typ δ im Raum S 0 , falls nur σn → 0 konvergiert. Der Träger der Diracfunktion δx ist der Punkt x. A.4. Banachräume 275 Faltung und Glättungsoperatoren: Unter Z ∞ f (t)g(x − t) dx f ∗ g(x) := −∞ wird für stetiges f und g eine Testfunktion die Faltung definiert. Unter Benützung von Ta (f )(x) := f (x − a) und fˇ(x) := f (−x) läßt sich das sehr kurz als f ∗ g(x) = hf, Tx (fˇ)i hinschreiben. Mittels dieser Schreibweise läßt sich allgemeiner für eine Distribution (d ∗ φ)(x) := hd, Tx (φ̌)i definieren. Dies erweist sich stets als unendlich oft differenzierbare Funktion. Wählt man für φ insbesondere eine Testfunktion, die außerhalb des Einheitsintervalls verschwindet, positiv ist und Fläche 1 besitzt, so zeigt sich, daßfür φ (x) := 1 φ(x) man d ∗ φ → T erreicht. Es ist d ∗ φ eine Glättung von d. Als wesentliche Konsequenz hat man, daß die unendlich oft differenzierbaren Funktionen eine dichte Teilmenge von D0 (bzw. S 0 ) bilden und somit folgenstetige Operatoren auf C ∞ (I) eine eindeutige stetige Fortsetzung in den Distributionenraum besitzen. Verallgemeinerte Ableitung(en): Zunächst hat man Z ∞ Z ∞ ∞ 0 0 hf, φ i = f (x)φ (x) dx = φ(x)f (x)|−∞ − f 0 (x)φ(x) dx = −hf 0 , φi | {z } −∞ ∞ =0 für beliebiges im klassischen Sinn differenzierbares f . Differenzieren erweist sich als folgenstetig. Somit ist hd0 , φi := −hd, φ0 i eine stetige Fortsetzung des Differenzierens auf den Distributionenraum. Insbesondere ist für eine monotone beschränkte Funktion F die verallgemeinerte Ableitung durch X F0 = f + (F (s+ ) − F (s− ))δs s gegeben, wobei s alle Sprungstellen durchläuft und f die klassische Ableitung von F auf allen offenen Intervallen zwischen den Sprungstellen. 0 0 Konvergenz und folgt PDifferenzieren:P Ist0 dn →0 d, so gilt dn → d . Insbesondere π für Reihen n dn → S stets n dn → S . Klassisches Beispiel ist f (t) = 4 |t| auf [−π, π]. Diese Funktion besitzt eine punktweise konvergente Fourierentwicklung ∞ f (t) = π 2 X cos(2n + 1)t − . 8 (2n + 1)2 n=0 276 ANHÄNGE Diese Reihe ist auch konvergent als Summe von Distributionen und erlaubt daher distributionelles gliedweises differenzieren, d.h. f0 = ∞ X sin(2n + 1)t 2n + 1 n=0 und sogar noch klassische Ableitung in allen nicht ganzzahligen Vielfachen von π. Nochmaliges distributionelles Differenzieren führt auf f 00 = ∞ X cos(2n + 1)t. n=0 Aus einer Skizze entnimmt man die Sprungstellen der Höhe mit k ∈ ZZ, somit ergibt sich π 2 in allen Punkten kπ ∞ X πX (−1)k δ(t − kπ) = cos(2n + 1)t, 2 n=0 k∈Z Z eine Reihenentwicklung von Distributionen. Multiplizieren einer C ∞ Funktion mit Distribution: Es läßt sich durch hf d, φi := hd, aφi das Produkt einer C ∞ -Funktion f mit einer Distribution d erklären. Rieszscher Darstellungssatz: Eine Distribution d ist positiv, falls jede nicht negative Testfunktion φ einen nicht negativen Wert hd, φi erhält. Jede solche Distribution läßt sich als Radonmaß beschreiben, d.h. es gibt ein f , welches absolut R ∞ integrierbar bezüglich des Lebesgueintegralbegriffes ist, und sodaß hd, φi = −∞ f (x)φ(x) dx gilt. Als Konsequenz zeigt man, daß eine Distribution d in D0 im beschränkten Intervall J als Ableitung d = f (n) endlicher Ordnung einer in J stetigen Funktion aufgefaßt werden kann. (Es war dies auch der Ausgangspunkt der russischen Schule – Distributionen als verallgemeinerte Ableitungen stetiger Funktionen zu definieren). Schwache Formulierungen (Variationsproblem, Galerkinmethode): Ist ein Variationsproblem δJ(u) = 0 R1 mit J(u) := 0 L(x, u, u0 ) dx vorgegeben, so ergibt sich zunächst Z 0 = δJ(u)(h) = 0 1 (Lu h + Lu0 h0 ) dx, A.4. Banachräume 277 wobei noch Randbedingungen zu berücksichtigen sind. Für gewisse Klassen von Problemen ergibt sich eine distributionelle Auffassung von δJ(u), etwa im Beispiel Z 1 1 0 2 1 2 J(u) := (u ) − u − f u du, 2 2 0 wo sich Z 0 = δJ(u)(h) = 1 (u0 h0 − uh − f h) dx 0 ergibt. Sind die Randbedingungen gleich Null, so folgert man 0 = hu0 , φ0 i − hu, φi − hf, φi also eine Differentialgleichung −u00 − u − f = 0 für die Distribution u und die Distribution f . Hier hat man insofern Glück, als man die Eulergleichung distributionell auffassen kann. Diese distributionelle Differentialgleichung heißt schwache Formulierung, falls f selbst noch lokal integrierbare Funktion ist. Auch für DGL, die nicht als Eulergleichungen eines Variationsproblems auffaßbar sind, lassen sich schwache Formulierungen aufstellen. Diese Idee liegt bei Galerkinverfahren zugrunde. DGL in einer Variablen - lineare Systeme: Der Wert der D-Theorie liegt in der Aussage, daß jedes lineare System ~x˙ = A(t)~x(t) + f~(t) mit A unendlich oft differenzierbar, für f~ lediglich die klassischen Lösungen hat (aufgefaßt als Distributionen). Für beliebige Distribution f~ gibt es eine Distributionenlösung ~x. DGL mit konstanten Koeffizienten - Grundlösung -Greenfunktion: Zu jeder DGL mit konstanten Koeffizienten, etwa −u00 − u = f gibt es stets eine Grundlösung g (Satz von Malgrange-Ehrenpreis), d.i. eine Lösung von −u00 − u = δ Aus ihr kann durch u = g ∗ f eine partikuläre Lösung der DGL gewonnen werden. Es ist g die Greenfunktion des Problems. Erweist sich u als stetige Funktion, so kann die Lösbarkeit von Randwertaufgaben entschieden werden. Die DGL wird im 278 ANHÄNGE distributionellen Sinn gelöst, die Randwerte durch Interpretation der Distribution als stetige Funktion. Es erweist sich Kf (x) := g ∗ f (x) als kompakter Operator, sofern man f ∈ L2 (I) annimmt. Anhang B Wahrscheinlichkeitstheorie B.1 B.1.1 Empirische und mathematische Wahrscheinlichkeit – WMaße Relative Häufigkeit und Wahrscheinlichkeit Zunächst beschreiben wir in Definition 249 (S.280) relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 248 (S.279) werden jene Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 251 (S.281)) und LaplaceWahrscheinlichkeitsraum (Definition 252 (S.281)) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes Wahrscheinlichkeitsraum in Definition 256 (S.283). Beispiel 248 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen: Augenzahl Prozentsatz 1 16.8% 2 17.3% 3 16.4% 4 16.7% 5 16.2% 6 16.6% Fragen: 1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen gerundet oder abgeschnitten wurde? (die Antwort hierauf findet man im Anhang in Beispiel 240 (S.263)) 2. Kann die Tabelle stimmen? 3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen? 4. . . . eine ungerade Augenzahl geworfen? 5. . . . eine ungerade Augenzahl oder 4 geworfen? 6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen? 279 280 Wahrscheinlichkeitstheorie 7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞ geht, machen. Darf man erwarten, daß sie alle gegen 100 6 % streben? Auch wenn im Beispiel ziemlich klar ist, was “Häufigkeit in Prozenten” bedeutet, bedarf es einer formalen Definition. Definition 249 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und (ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient hn (A) := Anzahl der i mit ωi in A n als relative Häufigkeit bezeichnet. indexHäufigkeit!relative Die relativen Häufigkeiten in Beispiel 248 (S.279) sind demnach A hn (A) {1} 0.168 {2} 0.173 {3} 0.164 {4} 0.167 {5} 0.162 {6} 0.166 weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als einelementige Menge angeschrieben ist und daß wir n nicht kennen1 ! Geht man davon aus, daß weder Würfel noch Unterlage “manipuliert” sind, so kann man beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfs machen. Ein weitere Sichtweise der Fragen 3. 4. und 5. von Beispiel 248 (S.279) besteht darin, zu fragen, ob nach dem Wurf die Augenzahl ω in einer bestimmten Teilmenge A von Ω liegt (z.B. bei 3. in A := {2, 4, 6}). Anmerkung 250 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des Experiments nicht grundsätzlich vorherbestimmen zu können. Jede Teilmenge A von Ω nennt man zufälliges Ereignis, jede einelementige Menge {ω} als Elementarereigniss. In Beispiel 248 (S.279) ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment und das Ereignis “die Augenzahl ist gerade” drückt sich durch “das zufällige Experiment ω ergibt nach dem Wurf ein Element in A = {2, 4, 6}”. Die relative Häufigkeit dafür, daß ω sich in A befindet, ist dann die Summe der relativen Häufigkeiten der einelementigen Teilmengen, weil man ja einfach “Prozente addiert”. Auf diese Art ist Frage 3 beantwortbar, d.h. hn ({2, 4, 6}) = 17.3+16.7+16.6 = 0.173 + 0.167 + 0.166 = 0.506. Auf diese Art ist Frage 100 3 beantwortet und man kann es mit Fragen 4,5 und 6 genauso machen – werden jedoch in Beispiel 254 (S.282) mittels Mengenalgebra etwas mehr Geschick walten lassen. 1 Siehe jedoch Beispiel 240 (S.263) und dort die Antwort auf Frage 1 B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 281 Definition 251 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die die Gesamtsumme fürPalle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A von Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben. In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A. Definition 252 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) = Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum. Wir vermerken, daß dann stets P (A) = |A| |Ω| . 1 |Ω| für jedes Beispiel 253 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 248 (S.279). Danach legt man für jedes Elementarereignis “Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i” mit P ({i}) := 61 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A| |6| gegeben. Die Antwort auf Frage 7 wird durch den Satz von Gliwenko-Cantelli gegeben werden, siehe Anmerkung 2 (S.18). Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung dafür, in welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende Bernoulliexperiment (Beispiel 293 (S.327)) und der zentrale Grenzwertsatz (Anmerkung 295 (S.330)) bilden die Grundlage hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten Satz statistische Testverfahren, die bestenfalls einen “Sicherheitsfaktor” für das tatsächliche Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur Einführung eines neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in Wtheoretischem Sinn untermauert bzw. abgelehnt werden. Mehr hierzu in Unterabschnitt 1.2.1 (S.16). Wenn es wissenschaftliche Methoden ermöglichen, sollten statistische Ergebnisse (“eine signifikant große Zahl Patienten, die das Mittel A eingenommen haben, melden gewisse Nebenwirkungen”) entsprechende fachspezifische (analytische) Untersuchungen (Medizin, Chemie, etc) nach ziehen. In diesem Sinne sind die Ausführungen in Beispiel 253 (S.281) eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 248 (S.279). Würde z.B. die relative Häufigkeit für das “Werfen einer 3” stark von 61 abweichen, so könnte man das als Hinweis auf “manipulierte Würfel oder Unterlage” auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich mittels statistischer Testverfahren (Unterabschnitt 1.2.1 (S.16)) entschieden wird. Bei der Beantwortung der Fragen 3–6 aus Beispiel 248 (S.279) zeigt es sich, daß man vorteilhaft mittels Mengenoperationen, wie Durchschnitt, Vereinigung und Komplement “Rechnen” kann: 282 Wahrscheinlichkeitstheorie Beispiel 254 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben. 4. Es sind die ungeraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 251 (S.281) hn ({1, 3, 5}) = 0.506 gefunden, also ergibt sich hn ({2, 4, 6} = 1 − 0.506 = 0.494. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition 251 (S.281)) gültige Formel P (A0 ) = 1 − P (A) benützt. 5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) + 16.7 66.1 P ({4}) = 49.4 100 + 100 = 100 . Hierbei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅. 6. Man kann das de Morgansche Mengengesetz A0 ∩B 0 = (A∪B)0 für die Mengen A := {3} und B := {4} und {5} ∩ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∩ ({3}0 ∩ {4}0 ) = {5} ∩ {3, 4}0 = {5}, sodaß sich P ({5} ∩ ({3}0 ∩ {4}0 )) = 0.162 ergibt. Zugegeben, kaum ein Rechenvorteil! Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch unendliche W-Räume zu formulieren. Beispiel 255 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip und bleibt danach “zufällig” darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns als vernachlässigbar angesehen werden, es somit als “Punkt” angesehen werden. Wir stellen folgende Fragen, deren Präzisierung und Antwort in Beispiel 259 (S.285) erfolgen soll. 1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des Chips liegt? 2. . . . in einer der vier Ecken liegt? 3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt? 4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor 1 4 ) errichtet, usw. Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt X(x, y) aus Ω gewählt wird. Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger Ausführung des Experiments das Korn in A zu liegen kommt. Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 249 (S.280) sich zu A(n) hn ({X(x, y) ∈ A}) = n 2 genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 283 ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 253 (S.281) die empirische W. approximativ gleich der mathematischen erhofft). Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses “X(x, y) kommt zufällig in A zu liegen”. Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt man 41 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der Bezeichnung Q(a) für ein Quadrat der Seitenlänge a X ∞ ∞ X 1 1 1 = = . P (A) = P Q i i 2 4 3 i=1 i=1 Um die “Zufälligkeit” von Ereignissen mathematisch zu behandeln, konstruiert man (ein mengentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei oftmaliger Wiederholung ein und des selben Experiments erwartet man eine Annäherung der relativen Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei der Diskussion des Bernoulliexperiments in Beispiel 293 (S.327) deutlich zu machen beabsichtigen. Hier die Forderungen an so ein Tripel (Ω, Σ, P ): Definition 256 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden Daten: 1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein “zufälliger Versuch” besteht in der Auswahl eines Elementes x ∈ Ω. 2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse.3 ede Menge A ∈ Σ steht für das Ereignis “in zufälliger Weise wird ein x ∈ Ω bestimmt, und dieses x liegt dann in A”. Die Menge Σ sei eine Σ-Algebra, d.h.: (a) Ω gehört zu Σ. (b) Wenn die Teilmenge A zu Σ gehört, so auch das komplementäre Ereignis A0 := Ω \ A. (c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung ∞ [ Ak = {x | ∃k mit x ∈ Ak }. k=1 3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt: (a) Es ist P (Ω) = 1. 284 Wahrscheinlichkeitstheorie (b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A). (c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiter je zwei Mengen Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt: P( ∞ [ k=1 Ak ) = ∞ X P (Ak ). k=1 Man sagt, P ist sigma-additiv. Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität, d.h. P (A ∪ B) = P (A) + P (B). Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie “Probability” bzw. “Probabilität”) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintreten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne von Definition 41 (S.62)) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt das Maß diskret. S Die Mengenoperationen ∪, ∞ k=1 , ∩ und Komplementbildung werden im Sinne von logischen Operationen mit den Ereignissen beschreibenden Klausen interpretiert: Anmerkung 257 1. das Ereignis A als “x wird zufällig in Ω gezogen und befindet sich in A”. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A zu interpretieren. 2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis “A tritt nicht ein”. 3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt sowohl A als auch B ein” (wobei sehr wohl A und B auch gleichzeitig auftreten dürfen). Ist A ∩ B = ∅, so sagt man “Die Ereignisse A und B schließen einander aus.” oder auch daß sie “unvereinbar” sind. 4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt wenigstens A oder B ein”. S 5. ∞ k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als “Wenigstens eines der Ereignisse Ak tritt ein”. Es kann folgendes gezeigt werden: 3 Auch als Ereignisalgebra zu finden. B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 285 Anmerkung 258 In einem diskreten W-Raum mit der abzählbaren Teilmenge A, welS che P (A) = 1 erfüllt, muß offenbar P (A0 ) = 0Psein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen, daß jeder Punkt a ∈ A positives Maß hat. Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 251 (S.281), und Σ die Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von Definition 256 (S.283). Beispiel 259 Es sollen Antworten zu den in Beispiel 255 (S.282) gestellten Fragen gegeben werden. Als Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ IR × IR | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus “berechenbaren Flächen” bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun wird im Rahmen der Maßtheorie (siehe z.B. [22]) gezeigt, daß diese Rechtecke durch iteriertes Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der Aufgabe wiederzufinden. Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat: 1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null. 2. Geradenstücke haben Maß Null. 3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb Q, so bleibt der Flächeninhalt erhalten. 4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) = 1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine solche Menge heißt Jordanmeßbar), so gehört A zu Σ. Deshalb ist P ({( 21 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte, z.B. P ({(0, 0)}) = 0. Nun zur Vereinigung der aufeinander gestellten Quadrate. Zunächst sollte man prüfen, ob die gesamte Figur in Q Platz hat. Dazu darf die Summe aller Seitenlängen 21 + 41 + . . . = 12 1−1 1 = 1 nicht größer als 1 2 sein, was offenkundig der Fall ist. Spitzfindigkeit: Die Quadrate scheiden einander in einem Geradenstück (also nicht leerer Schnitt). Dieses hat Maß Null. Entfernen wir alle solchen Schnitte (bestehend aus abzählbar vielen Geradenstücken, also insgesamt einer Menge vom Maß Null), so bekommen wir eine 286 Wahrscheinlichkeitstheorie Vereinigung “randloser” Quadrate, deren paarweise Schnitte leer sind, und deren Inhalte eine 1 1 geometrische Folge { 41 , 16 , 64 , . . .} bilden, sodaß die Sigmaadditivität und die geometrische Summenformel auf P (A) = 14 1−1 1 = 31 führen. 4 Laplaceraum Kodieren Ω1 := {A, B}, Ω2 := {0, 1}, 1 für OKAY Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann man Paare (A± , B ± ) versuchen, wobei ‘−’ kaputte Sicherung bedeute. Zunächst hat man für Urne U1 den W-Raum Ω1 := {A ⊂ {w1 , w2 , s1 , s2 , s3 } | |A| = 2} und für U2 hat man Ω2 := {A ⊂ {w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}. Danach bildet man die disjunkte Vereinigung Ω := Ω1 ∪ Ω2 , wobei die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen, 1 × “15” bzw. für U2 12 × “16” sein 2 Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal Zahl erscheint. Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den Rest. Wahrscheinlichkeit für Ausschuß der Gesamtproduktion? Sicherungen A und B fallen mit 3 bzw. 1 Prozent aus. Wahrscheinlichkeit für Stromausfall? Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln. Wahrscheinlichkeit dafür, bei zufälliger Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in Händen zu haben. 2 — Würfeln mit 2 Würfeln. Augensumme=9 2 Laplaceraum Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl muß. Anmerkung Text P(Ω) {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} {K, Z}×{K, Z}× {K, Z} {(A+ , B − ), (A− , B + ), (A− , B − )} {{wi , sj } | i = 1, 2 ∧ j = 1, 2, 3} ∪ {{w, bj } | j = 1, 2, 3, 4, 5} P(Ω) P(Ω) P(Ω) {(A+ , B + ), (A+ , B − ), (A− , B + ), (A− , B − )} siehe links {(3, 6),(4, 5), (5, 4), (6, 3)} {Z} × {K, Z} × {K, Z} ∪ {K} × {Z} × {K, Z} ∪ {K} × {K} × {Z} {(A, 0), (B, 0)} A {2, 3, 5} Ω1 × Ω2 P(Ω) Σ P(Ω) Ω {1, 2, 3, 4, 5, 6} + 2 8 = + 1 9 1 8 = 7 8 1 6 1 5 2 × (5) + 2 × (6) = 2 2 · · · = 19 ≈ 0.317 60 97 P (A) = 1 − 100 × 99 = · · · = 100 0.0397, d.h. 3.97% 0.7 × 0.03 + 0.3 × 0.01 = 0.024 4 8 4 36 1 2 P (A) B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 287 288 B.1.2 Wahrscheinlichkeitstheorie Bedingte Wahrscheinlichkeit und Ereignisgraphen Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum (Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten ist. Z.B. kann A das Ereignis “ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße Ohren” und B das Ereignis “ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat rote Augen”. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an, unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen: B rote Augen ¬B keine r. A. A weiße Ohren 10 30 40 ¬A keine w.O. 5 55 60 15 85 100 Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit 10 P (B|A) = 40 , weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen 10 40 Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100 , P (A) = 100 40 1 10 und es wäre mit der gleichen Überlegung P (B|A) = 100 / 100 = 4 , also der gleiche Wert 14 entstanden. So kommt man zur üblichen Definition der bedingten Wahrscheinlichkeit: Definition 260 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 256 (S.283)) und A, B meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl P (B|A) := P (A ∩ B) P (A) heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme, daß A tatsächlich eingetreten ist. Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt: Anmerkung 261 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B) ein Wahrscheinlichkeitsmaß (A) definiert. Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil, dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen. Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit des B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 289 Medikaments plausibel erscheinen läßt und danach beüht man statistische Testverfahren (Unterabschnitt 1.3.3 (S.31)). Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete graphische Darstellung wird gelegentlich als “Ereignisgraph” bezeichnet und verdeutlicht die Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten Wahrscheinlichkeit. Beispiel 262 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze), 2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist? Naiv betrachtet, könnte jemand sagen, “Alles in allem, das Verhältnis von s zu allen wähl3 baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10 = 0.3 sein.” Das ist nicht einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel zu erwischen lediglich 16 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 21 16 + 12 12 = 13 ≈ 0.33 zu nehmen. Um das besser zu verstehen, verwenden wir die Zeichnung Fig. B.1. Dort sieht man zunächst die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte enthält, richtig gelesen, eine Kodierung von Ω, nämlich Ω = ({A, B} × {s, w, r}) \ {(B, r)}. Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und “abzuzählen”. Insbesondere ist die in Definition 260 (S.288) gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen, wenn man die Wahrscheinlichkeiten jeweils hintereinander liegender Pfeile multipliziert. B.1.3 Totale Wahrscheinlichkeit, Formel von Bayes Anmerkung 263 Voraussetzungen Es sollen {Ai | i ∈ I} und B Ereignisse in einem W-Raum sein, 4 , d.h. daß derart daß die Ereignisse Ai ∩ B einander ausschließen S Ai ∩ Aj ∩ B = ∅ für i 6= j gilt, und B = i∈I Ai ∩ B ist, also {Ai ∩ B | i ∈ I} eine Partition von B im Sinn von Definition 39 (S.61). Weiter soll P (Ai ) > 0 für alle i ∈ I sein. In der Skizze ist B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ (A3 ∩ B) disjunkte Vereinigung.) Dann gelten die folgenden Aussagen: 290 Wahrscheinlichkeitstheorie P (s|A)= 16 P (A)= 12hhh4A hh hhhh h h A 123 h ¿ VV 1 B 220 VVVPVV(B)= VVVV2 V* 0 1 12 P (w, A) = 16 P (r, A) = 41 s 023 P (s, A) = P (w|A)= 62 ```````````0 w 113 123 ````````` P (r|A)= 63 0 r 122 1 1 P (s|B)= 2 0 s 120 P (s, B) = 4 aaaaaaaaaaaaaaaa a a a a B 220 P (r|B)= 21 1 / r 210 P (r, B) = 4 Abbildung B.1: Ereignisgraph zu Beispiel 262 (S.289) Satz von der totalen Wahrscheinlichkeit: X X P (B) = P (Ai ∩ B) = P (B|Ai )P (Ai ), i∈I i∈I wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition 256 (S.283)) und Benützen von Definition 260 (S.288) dient. Reziprozität: Ist P (B) > 0, so ist wegen Definition 260 (S.288) stets P (Ai |B)P (B) = P (B|Ai )P (Ai ). Formel von Bayes: Es ist P (Ai |B) = P (Ai )P (B|Ai ) P (Ai )P (B|Ai ) =P , P (B) i∈I P (B|Ai )P (Ai ) wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient. Beispiel 264 • Wer mag, kann die Formeln anhand von Beispiel 262 (S.289) nachvollziehen. Sind z.B. A :=“Es wird eine Kugel in A gezogen”, B :=“Es wird eine Kugel in B gezogen” und s :=“Es wird eine schwarze Kugel gezogen”, so findet man 1 P (A) = 21 = P (B) und P (s) = 12 + 14 = 13 . Nun findet man, den Ereignisgraphen verwendend, 1 11 11 = P (s) = P (s|A)P (A) + P (s|B)P (B) = + . 3 62 22 4 In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j. B.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 291 Wie groß ist P (A|s) lt. Definition 260 (S.288), danach gemäß Bayesscher Formel, und wie interpretiert man das? 1/12 1 Antwort: Es ergibt sich P (A|s) = P P(A∩s) (s) = 1/12+1/4 = 4 . Interpretation: “Man geht davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür, daß sie aus Urne A stammt.” Die Bayessche Formel ergibt im Einklang: P (A|s) = P (s|A)P (A) = P (s|A)P (A) + P (s|B)P (B) 11 62 11 62 + 11 22 1 = . 4 • Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion. Wie groß ist die Wahrscheinlichkeit für das Eintreten des jeweils aufgelisteten Ereignisses: X Y Z 1. Ein Teil wird zufällig entnommen % Anteil Gesamt- 30 50 20 und wurde von X produziert? produktion 2. Ein Teil wird zufällig entnommen % Ausschuß 2 4 1 und das Teil ist fehlerhaft? der jeweiligen 3. Ein Teil aus den fehlerhaften wird Produktion zufällig entnommen und wurde von X produziert? Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen produziert worden ist. F soll heißen “fehlerhaft”. 1. Aus der Tabelle entnimmt man P (X) = 30 100 = 0.3. 2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partition von F , also ist P (F ) = P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar, 2 z.B. P(“Teil ist F und stammt von X”)= 100 = 0.02. Etwas formaler: P (F |X) = 0.02. Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt man der Tabelle die anderen Werte und es ergibt sich P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028, also “nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.” 3. Hier wird nach P (X|F ) gefragt, weil man “von Haus aus” annimmt, ein fehlerhaftes Bauteil heraus zugreifen und Schuldige sucht. Beim Anwenden von Definition 260 ) (S.288) hätte man P (X|F ) = P (X∩F P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort P (X|F ) = P (F |X)P (X) 0.3 × 0.02 3 = = ≈ 0.214. P (F ) 0.28 14 292 Wahrscheinlichkeitstheorie Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die Bayessche Formel: P (X|F ) = = B.1.4 P (F |X)P (X) P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z) 0.3 × 0.02 0.006 = ≈ 0.214. 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 0.028 Unabhängigkeit von Ereignissen Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleich wahrscheinlich ist, wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 261 (S.288) herausstellt, daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0 sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 260 (S.288) sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch einen Sinn. Deshalb ist folgende Definition üblich: Definition 265 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt. T Eine endliche Folge (A | i ∈ I) von Ereignissen heißt unabhängig, falls P ( i i∈J Ai ) = Q i∈J P (Ai ) für jede Teilmenge J von I gilt. Anmerkung 266 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind folgende Aussagen gleichwertig: • A und B sind unabhängig, • P (A|B) = P (A). • P (B|A) = P (B) • P (A ∩ B) = P (A)P (B). • A0 und B sind unabhängig. • A0 und B 0 sind unabhängig. Insbesondere ist die Relation “A und B sind unabhängig” symmetrisch. Anmerkung 267 • Im Beispiel mit den Hasen war A “weißohrig” und B “rotäugig”. Die Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden, B.2. Zufallsvariable und Verteilungen 293 40 15 40×15 3 war P (B|A) = 14 , P (A) = 100 , P (B) = 100 . Somit ist P (A)×P (B) = 100×100 = 20 < 41 . A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß “weißohrige Hasen eher zu Rotäugigkeit neigen”. Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen, medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen. • Es werde mit Würfeln W1, W2 geworfen und es seien A =“W1 zeigt eine 6” bzw. B = “W2 zeigt 1,3 oder 5” Ereignisse. Sind A und B unabhängig= Antwort: Intuition würde “JA” sagen, weil wir annehmen, daß die Würfel einander nicht beeinflussen. Wir wollen nachrechnen: Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6}, B = {1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis (i, j) ist gleich wahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 252 (S.281) vor. Hieraus ergibt sich durch Abzählen von A, B und A∩B und anschließender Division durch |Ω| = 36, daß P (A) = 16 , P (B) = 36 = 12 und P (A ∩ B) = 1 3 36 = 12 . Die in Definition 260 (S.288) geforderte Gleichung P (A ∩ B) = P (A)P (B) besteht. Die “Intuition” wird bestätigt. • Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} × {1, 2, 3, 4, 5, 6}. Weiter ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten 9 5 1 11 3 3 1 ergibt sich sofort P (A) = 63 + 36 = 27 36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6 11 11 1 Die famose Gleichung besteht nicht, weil P (A)P (B) = 27 36 36 = 48 > 6 = P (A ∩ B) ist, also sind die Ereignisse A und B nicht unabhängig. B.2 B.2.1 Zufallsvariable und Verteilungen Zufallsvariable Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel: Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition: Definition 268 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → IRn eine zufällige Variable oder auch stochastische Variable mit Werten im IRn (auch Zufallsvektor). Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann. 294 Wahrscheinlichkeitstheorie Ist f : IRn → IRm , so ist die Zusammensetzung5 on Funktionen f X eine stochastische Funktion der Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt meßbar, wenn jede Menge der Form X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X meßbar.) / IRn CC CC f f X CC! Ω CC X IRm Beispiel 269 Einige konkrete Beispiele mögen der Anschauung dienen: 1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S ein Euro an B geht, und 5 Euro von B an S bei einem Wurf von 6 gehen. Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment des Würfelns festgelegt. Die Zufallsvariable ist diskret. 2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ IR2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb von Ω und P der übliche “Flächeninhalt”. Man denke an das Werfen mit Darts (ohne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart werden, daß Gewinn nach der Formel p 10 falls x2 + y 2 < 10 X(x, y) := −1.5 sonst ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50 Cent kostet. Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret. 3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an, es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen wird die tatsächliche Kantenlänge, sodaß man Ω = IR und P das übliche Längenmaß wählt. Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt, sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die Zufallsvariable ist nicht diskret. Sie kann als stochastische Funktion der Zufallsvariablen X(ω) = ω ∈ Ω := IR angesehen werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 . 5 Zusammensetzung von Funktionen im Sinne von Anmerkung 60 (S.75) B.2. Zufallsvariable und Verteilungen 295 4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10] × IR. Nun interessiert ihn die Zufallsvariable X : [0, 10] × IR → IR, nämlich 2s , t2 weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf man von zufälligen Ergebnissen ausgehen. X ist nicht diskret. X(t, s) := Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × IR = Ω angesehen werden, wobei f (s, t) = 2s ist. t2 5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gerade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an, Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein Intervall [a, b] (auch wenn die physikalische Deutung “Zeit” ist) zu verwenden. Danach könnte man U : [0, T ] → IR als Zufallsvariable ansehen, wenn man kleine Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret. Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U R als U (t) stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht x man die Zusammensetzung der Funktion f (x) := R mit einer Zufallsvariablen U (t). 6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ IRn ist, denn dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen werden. Diese Art Zufallsvariablen findet man in Fülle: • Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → IR ist die geworfene Augenzahl. • Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ IR, wobei m und M ein vorgegebener Minimal- bzw. Maximalwert sind. X : Ω → IR ist die gemessene Wandstärke. • Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → IR2 . Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 256 (S.283) ist. 7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die Funktion 1 falls ω ∈ A X(ω) := 0 sonst betrachtet werden. Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in IR annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist diskret. 296 Wahrscheinlichkeitstheorie B.2.2 Balkendiagramm und Verteilung einer Zufallsvariablen Balkendiagramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe Ω von 100 Personen ergibt sich folgende Tabelle: Schuhgröße Zahl d Personen 36 2 37 3 38 5 39 10 40 25 41 30 42 20 43 4 44 1 Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Balkendiagramm 36 37 38 39 40 41 42 43 44 Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen eine diskrete reelle Zufallsvariable X : Ω → IR zu definieren, die lediglich der Werte der gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, “wie häufig” die Variable X einen vorgegebenen Wert annimmt. Genauer gesprochen werden auf der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser Wert angenommen wird. Hier ist die entsprechende Definition: Anmerkung 270 Für eine im Sinne von Definition 268 (S.293) diskrete Zufallsvariable X : Ω → IRn ist das Balkendiagramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}. Beispiel 271 Es sollen weitere Beispiele folgen: 1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen eines Würfels beschreibt, und X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 252 (S.281) vor. Das 1 · · · · · · 6 Balkendiagramm von X ist typisch für einen Laplaceraum. 1 2 3 4 5 6 B.2. Zufallsvariable und Verteilungen 2. In 1. von Beispiel 269 (S.294) wurde für 1 Euro gewürfelt und im Falle einer 6 fünf Euro ausbezahlt. Somit nimmt X genau die Werte −1 und 5 mit den Wahrscheinlichkeiten 56 und 1 6 an. De facto kann man das Balkendiagramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 65 und P 0 (5) = 61 auffassen. 297 5 6 1 6 · · X = −1 X=5 / 3. Im 2.ten Beispiel mit den Darts in Beispiel 269 (S.294) ist es ähnlich. Es ist Ω0 = 2 2 und P 0 ({10}) = 10 {−1.5, 10} und P 0 ({−1.5}) = 1 − 10 50 50 , das Balkendiagramm sieht dem vorigen sehr ähnlich. 4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → IR, definiert durch X(ω1 , ω2 ) := ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns das 10fache dieser Summe in Euro ist. Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt? Statt eines Balkendiagramms mit 36 Werten für die Häufigkeiten der Elementarereignisse reicht jetzt das nachstehende Balkendiagramm, in welchem die Wahrscheinlichkeiten (in Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden: • 6/36 • • 5/36 • • 4/36 • • 3/36 • • 2/36 • 1/36 • 2 3 4 5 6 7 8 9 10 11 12 · · · · · · · · · · · Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 := {1, 2, . . . , 12} mit dem W-Maß P 0 laut Balkendiagramm ausreichend aufschlußreich (es ist z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = 6 = 1 ). Damit kann man die obige Frage durch AdP ({1, 6}) + · · · + P ({(6, 1)} = 36 P12 6 0 1 7 dition der Wahrscheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1 = 6×7 36 2 36 = 12 ≈ 0.583 beantworten. 5. In 4. von Beispiel 269 (S.294) will jemand die Gravitationskonstante unter der An√ nahme von s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit, nämlich 1, hat. Deshalb reicht es, das Balkendiagramm als Punktmuster in 298 Wahrscheinlichkeitstheorie √ der ( s, t)-Ebene zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Balkendiagramm ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 26 (S.40)). 6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das “Treffermuster”, etwa wie in der Skizze zu Beginn von Abschnitt 1.4 über Kovarianz. Wiederum darf dieses Muster als Balkendiagramm gedeutet werden. Ähnlich wie im vorigen Beispiel gibt das Balkendiagramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr “zieht”, bzw., wenn das Gewehr eingeschossen ist, über die gezeigte Treffsicherheit des Schützen. Statt eines Balkendiagramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert man folgende Tabelle aus der bereits gehabten Schuhgröße Zahl d Personen <35 0 <36 2 <37 5 <38 10 <39 20 <40 45 <41 75 <42 95 < 43 99 < 44 100 Diese Tabelle enthält genau die selbe Information wie das Balkendiagramm, weil man ja alle (relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X < 43}) = 0.99 − 0.75 = .40. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von X ablesbar ist, deren Graph hier skizziert ist: B.2. Zufallsvariable und Verteilungen 299 ◦ •◦ ◦ • ◦ • ◦ • ◦ • ◦ • ◦ • ◦ • ◦ • • 36 37 38 39 40 41 42 43 44 45 Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Balkendiagramm rekonstruieren kann. Balkendiagramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen (wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, links abgeschlossene, rechts offene Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hierbei ist die Verteilungsfunktion hilfreich: 300 Wahrscheinlichkeitstheorie Definition 272 1-dimensionale Verteilung(sfunktion) Ist X : Ω → IR eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → IR meßbar in dem Sinne daß für alle Zahlen a, b ∈ IR mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b} zu Σ gehört, so ist Ihre Verteilung FX : IR → [0, 1] durch FX (x) := P ({ω | X(ω) < x}) festgelegt. Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt, wenn Ω eine Teilmenge des IRn und X stetig ist. Die im “Schuhgrößenbeispiel” vorgestellte Verteilung(sfunktion) entspricht genau dieser Definition. Anmerkung 273 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX “einzusehen”. 1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0. 2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y). 3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h). 4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (IR, B, Q), durch Q((a, b)) := F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B konstruiert werden, daß F : IR → [0, 1] als Zufallsvariable aufgefaßt werden kann und F zudem die Verteilung dieser Zufallsvariablen ist. Es ist P ({a}) = P (X = a) = F + (a) − F (a). Das entspricht der Sprunghöhe in der Skizze. Rb Ist überdies F stetig differenzierbar mit F 0 = f , so ist6 P (a ≤ X < b) = a f (x) dx = F (b) − F (a). Insbesondere ergibt sich Z x F (x) = f (t) dt −∞ Es heißt f Verteilungsdichte der gemäß F verteilten Zufallsvariablen X. 1 ◦ • (a, F + (a)) ◦ •(a, F (a)) • a 0 B.2. Zufallsvariable und Verteilungen 301 Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim bißchen Augen zukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln, von der man erhofft, daß sie “Grenzwert” bei ständigem Verfeinern ist (etwa so ähnlich wie beim Riemannintegral). Eine Präzisierung dieser Idee beinhaltet der Hauptsatz der Statistik von Gliwenko-Cantelli (Anmerkung 2 (S.18)). Anmerkung 274 (γ-Quantil) Ist F stetig und streng monoton, so hat die Gleichung γ = F (z) für jedes γ ∈ (0, 1) genau eine Lösung zγ , die als γ-Quantil bezeichnet wird. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., “die Wahrscheinlichkeit, daß X einen Wert < zγ annimmt, ist dann γ”. Ist γ = 21 = 0.5, so wird z0.5 als Median, ist γ = 14 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe Unterabschnitt 1.3.2 (S.24)) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1 liegende Quantile zγ eine Rolle. 1 Skizze des Graphen von F , von γ, und seinem γQuantil zγ . γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ · zγ ·= γ − Quantil 0 Skizze des Graphen von f = F 0 , von γ gleich der schraffierten Fläche und dem γ-Quantil zγ . Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen. Beispiel 275 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 291 (S.323)s folgen später: 6 als unmittelbare Folgerung des Hauptsatzes der Differential- u. Integralrechnung 302 Wahrscheinlichkeitstheorie 1. In 1. von Beispiel 271 (S.296), wo X : {1, 2, 3, 4, 5, 6} → IR durch X(i) := i definiert war, ergibt sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 61 , für die ω < x ist, somit: / ◦ 1 ◦ • 5/6 ◦ • 4/6 ◦ • 3/6 ◦ • 2/6 0 falls x ≤ 0 j ◦ • 1/6 j ∈ {1, 2, 3, 4, 5, 6} 6 falls F (x) = o· •· · · · · · ∧ 0≤j−1<x≤j ≤6 1 2 3 4 5 6 1 sonst. Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige “Sprunghöhe” ist 61 . Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Balkendiagramm abgelesen werden. 2. Auch in 2. von Beispiel 271 (S.296), wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest man die Verteilungsfunktion direkt aus dem Balkendiagramm ab: ◦ 1 5 ◦ • 6 F (x) = 0 5 6 1 x ≤ −1 −1 < x ≤ 5 5<x • −1 · 5 3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen 0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω zu wählen. Danach ist P ([α, β]) = β−α b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies vor Augen, erkennt man 1 • x<a 0 x−a a ≤ x < b F (x) = P ({ω | ω < x}) = b−a 1 b≤x • · a b 1 Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) = b−a zu “erraten”, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist. · B.2. Zufallsvariable und Verteilungen Die vorliegende Verteilung heißt Gleichverteilung auf [a, b], bzw. Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein Rechteck beschreibt: 303 1 b−a ◦ • • a · b · 4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines ebenen Bereichs K in IR2 (d.h. einer Teilmenge K des IR2 ) mit Gesamtmasse M = R K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar an Verfärbung der Oberfläche, sodaß ρ proportional zum “Grad” der Verfärbung sein kann). Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) := R ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der B Sigmaalgebra aller in K enthaltenen Borelmengen. Interpretation im W-theoretischen Sinn? Antwort: Das Ereignis “in der Borelmenge B befindet sich ein Punkt des Trägers von ρ” hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → IR2 , definiert durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ. Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht der “zufällige” Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen will, wie sich z.B. die Kultur ausbreitet. 5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 291 (S.323)), aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende “akademischen Übungsbeispiel”: Eine Zufallsvariable X : Ω → IR habe die Verteilungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|, falls |x| < 1 ist. Man berechne die Verteilungsfunktion FX (x), sowie den Median z0.5 und das 0.99-Quantil z0.99 . ? 1) ·?(0, ??? ?? ? · · (−1, 0) · (1, 0) Rx Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist Rx Rx FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 − Rx |t|) dt = −1 (1 + t) dt = 21 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1 Rx R0 Rx ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt = Rx 1 1 2 2 + 0 (1 − t) dt = 2 (1 + 2x − x ). Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische 304 Wahrscheinlichkeitstheorie Dichte, z.B. auch für N (0, σ 2 ), Beispiel 291 (S.323)). Um z0.99 zu bestimmen, muß man die quadratische Gleichung 0.99 = 12 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung ergibt z0.99 ≈ 0.8. Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ 2 ) interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 1.3.2 (S.24)) bei gegebener “Irrtumswahrscheinlichkeit” α für ein symmetrisches Intervall (−, ) mit P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches . Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 21 (1−)2 ) = 2−2 . √ Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese √ Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt. Welche W-theoretische Aussage läßt sich nun machen? Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable (definiert auf welchem Ω auch immer, jedoch Werten in IR) einen Wert im Intervall (−0.68, 0.68) annimmt, ist zumindest 0.9. Im Falle nicht diskreter Zufallsvariabler X : Ω → IRn (etwa, wenn, wie in Beispiel 269 (S.294) 3., wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel 255 (S.282), n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In }) ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader: Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form [a, b) = (−∞, b) \ (−∞, a) geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende) [a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)). (Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum). d _ _ _ _ _ _ _ _ _ _ _· Es ist [a, b) × [c, d) das mit aus gezogenen Linien umrandete Recht c · eck. Das strichlierte Rechteck ist (−∞, a) × (−∞, d), das punktierte (−∞, b) × (−∞, d), und der Durch schnitt der beiden Rechtecke ist (−∞, a) × (−∞, c). ·a · · ·b B.2. Zufallsvariable und Verteilungen 305 Definition 276 (Zufallsvektoren im IRn und ihre Verteilung). Ist X : Ω → IRn eine IRn -wertige Zufallsvariable (auch Zufallsvektor), und für jedes n-Tupel a = (a1 , . . . , an ) ∈ IRn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt X ist Σ − B-meßbar), so nennt man F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an }) = P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an }) = P (X −1 ((−∞, a1 ) × · · · × (−∞, an ))) die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist). Es ist durchaus üblich, “in salopper Manier” P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben und als “(Aufenthalts)wahrscheinlichkeit von X in B” zu interpretieren. Ist (Ω, Σ, P ) ein W-Raum und X : Ω → IRn eine Zufallsvariable, und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das nebenstehende kommutative Diagramm. B X −1 /Σ PX ! P [0, 1] Es erweist sich (IRn , B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 256 (S.283) nachzuvollziehen hat.SZ.B. ist S −1 −1 PXS (IR) = P (X IR) = P (Ω) = 1, bzw. sind Bi ∩Bj = ∅ so ist PX ( i Bi ) = P (X ( i Bi )) = P ( i X −1 (Bi )), und da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich Weiter X X = P (X −1 (Bi )) = PX (Bi ), i i also ist PX sigmaadditiv. Die in Anmerkung 273 (S.300) für n = 1 genannen Eigenschaften von F haben Analoga, die jetzt zusammengestellt werden: Anmerkung 277 Es gelten folgende Fakten für F = FX : 1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten festgehalten werden. 2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden. 3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw. +∞ geht. 4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) × · · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz 306 Wahrscheinlichkeitstheorie B ein W-Raum (IRn , B, Q) konstruiert werden, derart, daß F die Verteilung der Zufallsvariablen F wird. Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := IRn , Σ0 := B, die Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf IRn induziertes Maß zu bezeichnen (in Beispiel 271 (S.296) ist PX = P 0 jedes mal!). B.2.3 Erwartungswert µ, Varianz V und Schiefe Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden. Im 1. von Beispiel 271 (S.296) wurde X : {1, 2, 3, 4, 5, 6} → IR mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5} und X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend oft spielt, so wird er “im mit Wahrscheinlichkeiten gewichteten Mittel” X ω X(ω)P ({ω}) = (−1) × 5 1 +5× =0 6 6 Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die “Luft ausgehen”). Diese Größe ist ein erstes Beispiel eines Erwartungswertes. Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als “im Mittel gefundene” Ladung. In Beispiel 269 (S.294) 5., dem Beispiel mit der Spannung würde der über den Zeitraum RT [0, T ] gemittelte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung zu halten, vor allem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist. Die Zufallsvariabel in Beispiel 275 (S.301) 3. war im Intervall [a, b] gleichverteilt, d.h., sie nimmt mit gleicher Wahrscheinlichkeit jeden Werte in [a, b] an (konkret bedeutet dies Länge von [c, d] d−c P (X ∈ [c, d]) = ) . Es stellt = b−a Länge von [a, b] Z b 1 a+b x dx = · · · = b−a a 2 einen Mittelwert aller möglichen X(ω)-Werte dar. Noch deutlicher ist in Beispiel 275 (S.301) 4., für die Schale mit den Mikroben Z ω1 ρ(ω1 , ω2 ) d(ω1 , ω2 ) ω2 S als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden. Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der B.2. Zufallsvariable und Verteilungen 307 klassischen Mechanik. Dieses Bild von “Massenverteilung” ist auch hilfreich für die mechanische Deutung der Kovarianz, vgl. 1.4. Beispiel 278 (Vektorwertiger Erwartungswert µ ~ = Schwerpunkt) Es sei M eine Teil3 menge im IR . Zunächst soll diese Menge abzählbar sein und aus Vektoren bestehen, d.h., M = {~xi | i ∈ IN }. Angenommen, jedes ~xi ist die Position eines Massenpunkts mit der Masse mi , derart daß X mi = 1 i ist (Gesamtmasse = 1). Dann lernt man, daß X ~ := S mi ~xi i der Massenmittelpunkt des Systems ist. In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein Teilchen (=Massenpunkt) ω ∈ Ω := IR3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß X P = mi δ~xi i vor, und dann ist ~ = E(X), ~ S ~ wobei X(ω) = ω die Identität auf IR3 ist. Nun sei M nicht notwendig abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender R Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale Z ~ = E(X) ~ = S ~xρ(x, y, z) d(x, y, z). M Beispiel 279 (Verteilungsfunktion für Münzwurf) Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1}, wobei P ({i}) := 12 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2), bzw. F (1) − F (0) gedeutet werden? Antwort: Man definiert eine Zufallsvariable X : Ω → IR durch X({i}) := i. Nun ist F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}| = |{i∈Ω|i<a}| . Dann ergibt sich folgende Skizze 2 2 und Rechnung: 308 Wahrscheinlichkeitstheorie O −∞ o / ◦ 1 1 2 ◦ 0 • • / +∞ 0 1 F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist “man ein bißchen rechts von 1, also sind alle Werte von i im Intervall”), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤ i < 1) = P ({0}) = 21 . Im Eingangsbeispiel wurde schon angedeutet, daß für eine Zufallsvariable X im endlichen P Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem Wiederholen des Zufallsexperiments zu “erwarten” ist. E(X) läßt sich durch F ausdrücken, nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) − F (s) X E(X) = s(F (s+ ) − F (s)) s∈S und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß! Definition 280 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω → IR eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren Menge S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiter sei Z ∞ X |x|f (x) dx + |s|P ({s}) < ∞, −∞ s∈S so heißt Z ∞ µX = E(X) := xf (x) dx + −∞ X sP ({s}) s∈S Erwartungswert von X. Es heißt f Verteilungsdichte. Es heißt V (X) := E((X − µX )2 )) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 Varianz von X und σX := p p V (X) = E((X − E(X)2 )) B.2. Zufallsvariable und Verteilungen 309 die Streuung oder Standardabweichung. Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung. Anschaulich ist der Erwartungswert ein “Mittelwert”, die Varianz besagt etwas, wie weit die Werte der Zufallsvariablen vom Mittelwert weg “variieren”, und die Schiefe ist ein grobes Maß, inwieweit die Verteilung nicht “symmetrisch” um µ gelegen ist. Anmerkung 281 (Rechenregeln für Erwartungswerte) 1. Im P diskreten Fall ergibt sich die zu Beginn schon benützte Formel E(X) = x xP (X = x); R∞ 2. Wenn F stetig differenzierbar und f := F 0 die Dichte, so ist E(X) = −∞ xf (x) dx. 3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ IR, und existieren E(X) und E(Y ), so auch E(aX + bY ) und es ist E(aX +bY ) = aE(X)+bE(Y ). (“E ist ein linearer Operator, bzw., falls reellwertig, lineares Funktional”) 4. E(X) ist charakterisiert als Lösung µ der Gleichung E(X − µ) = 0. 5. (diskrete Zufallsvariable) X Ist A ⊆ IR, X : Ω → A diskrete ZufallsvariaΩ ble (Definition 268 (S.293)) und g : A → IR so ergibt sich als Erwartungswert für die Zufallsvariable gX : Ω → IR X E(gX) = g(x)P (X = x) = EX (g). " g " 2 IR A gX x∈X 6. (Transformation für 1-dimensionales g) Es sollen Zufallsvariable X, Y : Ω → IR mit stückweise stetigen Dichten fX , fY und g : IR → IR stetig differenzierbar und streng monoton sein, welche die Rolle einer Transformation spielt, d.h. Y = gX. Weiter soll w : IR → IR eine integrierbare Funktion bezüglich der Dichte fX sein. Die Situation ist jene im Diagramm. Als Konsequenz der Substitutionsregel für Integrale ergeben sich folgende Beziehungen: Für die Dichten gilt: ΩA AA }} AAY } } AA } } A } }~ g / IR IR A AA } } AA }} }} −1 w AAA ~}} wg fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y)) X IR 1 g 0 (g −1 (y)) . 310 Wahrscheinlichkeitstheorie Für die Verteilungsfunktionen gilt: FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y)) Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt: EY (wg −1 ) = EX (w). 7. Ist X : Ω → IRk eine Zufallsvariable mit Dichte fX und ist g : IRk → IR stetig differenzierbar, so ist die Verteilung von gX durch Z fX (x) d(x) FgX (z) = {x|g(x)<z} gegeben.7 Beispiel 282 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7. “Skalierungen” von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl. Beispiel 291 (S.323)). Der Gebrauch von 7. wird dort für die Berechnung der Verteilung von g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 11 (S.28) und Beispiel 12 (S.28)) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem Skriptum nicht vorgeführt werden soll. 1. Die Zufallsvariable X : Ω → IR sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ). Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit ist FX (x) = 0, 21 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist R∞ R1 3 1 EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 21 dx = 12 x3 = 13 . −1 Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die Verteilungsfunktion ergibt die Transformationsformel für y = ax + b fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a, und weil y = g(x) = ax + b sofort g −1 (y) = y−b a ergibt, bekommt man fY (y) = y−b 1 1 a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a ist. Ansonsten ist fY (y) = 0. Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) = FX (g −1 (y)) = FX ( y−b a ) zu bekommen. Die Fallunterscheidung in der Definition von FX Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie (−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x). 7 g −1 B.2. Zufallsvariable und Verteilungen 311 überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte −a + b und a + b übergehen. Deshalb ist FY (y) = 0, 21 ( y−b a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b, bzw. a + b ≤ y ist. Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden. Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen Intervall [−1, 1] liefert keinen Beitrag): R1 R1 EY (Y ) = EY (gg −1 Y ) = EX (gX) = −1 (ax + b) 21 dx = 12 −1 b dx = b. Wer es nicht glaubt oder gerne “rechnet”, berechnet EY (y) auf direktem Weg: R a+b 1 1 1 2 a+b 1 dy = 2a y = 4a ((a + b)2 − (a − b)2 ) = b. EY (Y ) = −a+b y 2a 2 −a+b 2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 275 (S.301) 3. Welche Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist? Antwort(findung): Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x. Der Rest von IR darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt √ sich für die Dichten wegen g −1 (y) = y: √ fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y, also fY (y) = 1 √ 2 y, sofern y ∈ (0, 1] und Null sonst. Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) = √ FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche y Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy = R y du √ √ y.) 0 2 u = Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge √ √ {x ∈ IR | x2 < z} = (− z, z). Nun ist fX = 31 genau auf [−1, 2] und man muß nur mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall √ leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!): Z FgX (z) = √ √ (− z, z) Z fX (x) dx = √ min{2, z} √ max{−1,− z} √ √ 1 1 dx = (min{2, z} − max{−1, − z}), 3 3 was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 11 (S.28)) führt. 312 Wahrscheinlichkeitstheorie 3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei X : Ω → IR definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A wie in Beispiel 269 (S.294) 7.). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 . Antwortfindung: In Anmerkung 281 (S.309) 4., sei g(x) := x. Dann ist E(X) = P x∈IR xP (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p. P 2 Analog, wenn g(x) = (x − p)2 , findet man E(gX) = x∈IR (x − p) P (X = x) = (0 − p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist. Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 287 (S.318) nützlich sein. B.2.4 Unabhängigkeit von Zufallsvariablen Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte “voneinander unbeeinflußt” in zufälliger Weise annehmen. So etwa wird beim 5 maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, “hinterhältige” Situation in Anmerkung 267 (S.292). Um zu präzisen Begriffen zu gelangen, erinnern wir an die Unabhängigkeit von Ereignissen A und B (Definition 265 (S.292)), nämlich P (A ∩ B) = P (A)P (B). Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈ A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis “X < x” und B das Ereignis “Y < y”, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten – die Skizze vor Definition 276 (S.305) deutet die Idee an. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben: Definition 283 Die zufälligen Variablen X, Y : Ω → IR heißen (stochastisch) unabhängig, falls die Zufallsvariable (X, Y ) : Ω → IR × IR die Verteilungsfunktion F(X,Y ) (a, b) = FX (a)FY (b) besitzt. Die Folge Xi : Ω → IR mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈ I) von der Form Y F(Xi |i∈I) (ai | i ∈ I) = FXi (ai ) i∈I sein. B.2. Zufallsvariable und Verteilungen 313 Anmerkung 284 Die A,B Ereignisse sind genau dann unabhängig, wenn ihre Indikatorfunktionen stochastisch unabhängig sind. Haben insbesondere FX und FY Dichten fX und fY , so sind X und Y genau dann unabhängig, wenn (X, Y ) die Dichte f(X,Y ) (x, y) = fX (x)fY (y) hat. Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → IRI eine Dichte hat, und diese die Gleichung Y f(Xi |i∈I) ((xi | i ∈ I)) = fXi (xi ) i∈I erfüllt. Im Falle der Unabhängigkeit von X und Y ergibt sich µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY und hieraus nach ein wenig Rechnung V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X). Beispiel 285 Einige Beispiele hierzu 1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und X, Y : Ω → IR die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw. Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 61 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 275 (S.301) 1. (jene für die Augenzahl mit einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man, 1 indem man zunächst P ({(i, j) | (i, j) = (i ergibt sich P0 , j0 )}) P = 36 ermittelt. Danach P P 1 = F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36 P P P P 1 1 i<i0 6 j<j0 6 = i<i0 P ({i} j<j0 P ({j}) = FX (i0 )FY (j0 ). 2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) = (5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 61 , sowie 1 1 P ({(i, j) | i+j = 2}) = 36 , also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216 6= 0 zu vermerken. 3. Beim Fehlergesetz (im Anschluß an Anmerkung 295 (S.330)) werden Annahmen über die Unabhängigkeit von Fehlern gemacht. B.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → IR2 Es sei (X, Y ) : Ω → IR2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend 314 Wahrscheinlichkeitstheorie Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die Verteilung FX von X zu X FX (x) = P(X,Y ) ({(x, y)}) y∈Y im diskreten Fall und falls f(X,Y ) eine Dichte ist, so hat X eine Verteilungsdichte fX und sie ergibt sich zu Z ∞ fX (x) = f (x, y) dy. −∞ Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ). Man bezeichnet im diskreten Fall den Bruch P(X,Y ) (x, y) PX (Y | x) := P x P(X,Y ) (x, y) als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den Wert x angenommen hat. Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten fY |x (x, y) := f(X,Y ) (x, y) fX (x) bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt. Die Größen E(g(X, Y ) | x) := X x Z g(x, y)PX (Y | x), ∞ E(g(X, Y ) | x) := g(x, y)fY |x (x, y) dy −∞ für (X, Y ) diskret bzw. bei Vorhandensein der Dichte f(X,Y ) werden als bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat, bezeichnet. Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen. Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → IR3 aus der gemeinsamen Verteilung von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet werden und entsprechend bedingte Erwartungswerte und -dichten. Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an stochastische Prozesse, etwa in der Signalverarbeitung. B.2. Zufallsvariable und Verteilungen B.2.6 315 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen Die nachstehenden Tabellen geben eine grobe Übersicht. Nachfolgende Aufgaben gehen auf die Begriffe ein. a) = 1 Punkt- oder Dirac-V. δa an a Hypergeometrische-, M , N , n aus IN = k) = = k) = N −M n−k N n ( )( ) ( ) M k λk −λ k! e xk) = n k n−k q p k BernoulliBinomialBn (p), sei 0 < p < 1 und q := 1 − p Poisson-, sei λ>0 xi ) = Gleichmäßige 1 n P (X = Name d. V. λk k! x≤0 0<x x ≤ x1 xk−1 < x ≤ xk , 2≤k≤n xn ≤ x 0 P e−λ k<x 1 k.A. k−1 n 0 FX (x) = 0 x≤a 1 x>a nM N 1− nM N npq M N N −1 N −n E(X 2 ) − E(X)2 λ xi 0 V (X λ i=1 Pn np 1 n a E(X) Poissonprozess, Beispiel 288 (S.320) Ziehen von Stichproben ohne Zurücklegen, Beispiel 289 (S.321) n-maliges Durchführen eines Experiments, Beispiel 287 (S.318) Laplace W-Raum X = a ist ein sicheres Ereignis Anwendungsbereich 316 Wahrscheinlichkeitstheorie Student-, tn ∈ IN , n > 0 χ2 - n ∈ IN , n>0 Gauß, N (µ, σ 2 ), µ, σ > 0 Exponentialλ>0 Rechteck, Intervall a<b Name d. V. 1 0 Rx Γ( n+1 2 √1 ) nπ Γ( n 2 n 2 2 Γ( n ) 2 Rx n u−µ 2 σ du ” n+1 −∞ “ 2 2 1+ un R∞ e− 2 u− 2 −1 du u h exp − 12 −∞ i du h exp − 12 Γ( n+1 1 2 √1 ” n+1 ) “ nπ Γ( n 2 2 2 1+ xn i x≤0 x>0 x−µ 2 σ x n 1 e− 2 x− 2 −1 n 2 2 Γ( n ) 2 0 √1 σ 2π 0 x≤0 λe−λx x ≤ 0 < x 0 x≤0 1 − e−λx 0 < x √1 σ 2π FX0 (x) = f (x) 0 x<a 1 b−a a < x ≤ b, 0 b≤x FX (x) 0 x<a x−a b−a a < x ≤ b, 1 b≤x 0 (f n ≥ 2) n µ 1 λ 3) n n−2 2n σ2 1 λ2 (f n ≥ − a)2 1 12 (b 1 2 (a + b) V (X) E(X) 275 291 standardisierte normalverteilte Daten nicht normalverteilt bei unbekannter Varianz Beispiel 11 (S.28) Beispiel 11 (S.28) Beispiel (S.323) Lebensdauer, Zerfallsdauer, Beispiel 290 (S.322) Beispiel (S.301) 3. Anwendungsbereich B.2. Zufallsvariable und Verteilungen 317 318 Wahrscheinlichkeitstheorie Beispiel 286 (Dirac- oder Punktverteilung) Es sei Ω ⊆ IRn und ~x0 ∈ Ω, sowie Σ := P(Ω), sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von X(~ ω ) := ω ~ ist gegeben durch 0 ∃i xi < x0i F (x1 , . . . , xn ) = 1 ∀i xi ≥ x0i Ist gX mit g : A ⊆ IRn → IR und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben. Allgemeiner kann jedes diskrete Punktmaß im IRn in der Form X P = ai δ~xi i P beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß. Ist n = 1, so sind X µ= xi ai i und σ2 = X ai x2i − µ2 . i Beispiel 287 (Bernoulliverteilung8 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈ Σ ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit q bezeichnet werde. Wie in Beispiel 282 (S.310) 3. ausgeführt, ist die Verteilungsfunktion FX der Zufallsvariablen X : Ω → IR mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf IR, d.h. 0 für x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei q := 1 − p ist. Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ IR mit FXi = FX (gleiche Verteilung wie X). Hierdurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → IRn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede Wahl der xi ∈ {0, 1} P( n \ {ω | Xi (ω) = xi }) = i=1 n Y P ({ω | Xi (ω) = xi }) = pk q n−k i=1 wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft, die Anzahl jener Indizes i, für die das Ereignis A Pim i.ten Versuch eintritt. Nun sei S : Ω → IR die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ IN genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist. Dementsprechend ist n k n−k P ({ω | S(ω) = k}) = p q , k 8 Auch Binomialverteilung B.2. Zufallsvariable und Verteilungen 319 weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der Indizes {1, . . . , n} zu wählen. In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf IR, nämlich n X n k n−k PS = p q δk . k k=0 Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes X X n pk q n−k = (p + q)n = (p + 1 − p)n = 1. PS ({k}) = k k k Für den Erwartungswert von S findet man gemäß Anmerkung 281 (S.309) P E (S) = Px∈IR S(x)P ({ω | S(ω) = x}) = k}) = Pnk=0 kP ({ω | S(ω) n k n−k = k p (1 − p) k k p k P n n k = q k≥1 k q und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden), daß µ = E (S) = np. Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich P V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2 = nE(X 2 ) + n(n − 1)p2 − n2 p2 = np − np2 = npq. Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n, p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und Varianz pq n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 293 (S.327)) und schließlich beim zentralen Grenzwertsatz (Anmerkung 295 (S.330)) eingegangen werden (Grundlagen der Statistik)!. Am Ende dieses Beispiels möge eine konkrete Situation stehen: • Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5% fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5 Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon kaputt ist? 320 Wahrscheinlichkeitstheorie Man kennt die Wahrscheinlichkeit des Ereignisses A, “Sicherung kaputt”, sie ist p = 5 100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5 Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar. 5 Somit ist die Verteilung B(5, 100 ) und somit ergibt sich als Wahrscheinlichkeit 5 0 5 1 − PS (0) = 1 − p q = 1 − (1 − 0.05)5 ≈ 0.226, 0 was gar nicht so klein ist! Beispiel 288 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein und n groß ist, so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von λ := np folgende Approximationen einer B(n, p)-verteilten Zufallsvariablen X gebräuchlich: n k n−k λk −λ p q ≈ E(X) = λ, V (X) = λq, PX ({k}) = e . k k! Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene für PX ({k}) etwas Erklärung. Es ist PX ({k}) = ≈ ≈ ≈ Es erweist sich PX ({k}) := λk −λ k! e PX (IR) = als W-Maß auf IR, weil jeder dieser Werte positiv und X k n−j+1 k λ n−k j=1 jn λ 1 − n −k Qk 1 k λ n 1 − nλ j=1 j λ 1 − n λk λ n k! 1 − n λk −λ . k! e Qk PX ({k}) = X λk k k! ke−λ = eλ e−λ = 1 ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. “seltene Ereignisse”). Inwieweit die Näherungen für B(n, p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [33] wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung durch die Poissonverteilung brauchbar zu approximieren. Hier ein Beispiel aus [33]: Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2 unbrauchbare vorzufinden? B.2. Zufallsvariable und Verteilungen 321 1 Antwort: Wie in Beispiel 287 (S.318) kennt man die Fehlerwahrscheinlichkeit p = 1000 dafür, ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften Werkstücke zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt X die Anzahl der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden. 1 Dieses X ist B(500, 1000 ) verteilt und somit ist 500 500 P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 − 0.999499 ≈ 0.090128. 1 Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204. Beispiel 289 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → IR heißt hypergeometrisch mit den Parametern m, N, n ∈ IN mit m ≤ N und s ≤ N verteilt, im Zeichen, H(m, N, s) wenn sie auf IR das diskrete W-Maß 1 m N −m PX ({k}) = N s−k k s besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit, aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩ M | = k zu finden. Weiter sind Erwartungswert und Streuung: X s s s N −m E(X) = kPX ({k}) = M , V (X) = m 1− . N N N N −1 k Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht. Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M gehören, also auch das besagte Merkmal haben. Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition 252 (S.281) zu machen (jedes Elementarereignis ist gleich wahrscheinlich), somit ist Σ die Menge aller Teilmengen von Ω und 1 P ({S}) := |N | . s Wie lautet die Verteilung von X? 322 Wahrscheinlichkeitstheorie Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von M 0 eindeutig festlegen, nämlich S = T ∪ U . N |M | Für ein festes k-elementiges T gibt es k , danach für 0 | |M | = m M M0 die Wahl des Komplementanteils U |M s−k Möglichkeiten ein k-elementiges S “zusammenzustellen”: 1 |M | |N | − |M | PX ({k}) = |N | . k s−k s |T | = k |U | = s − k S T =S∩M U = S ∩ M0 Konkretes Anwendungsbeispiel: Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält? Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der 500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren: 1 10 490 490 · 489 · · · · 441 PX ({0}) = 500 = ··· = ≈ 0.34516. 0 50 500 · 499 · · · 451 50 Anderes Beispiel: Wie groß ist die Wahrscheinlichkeit, bei “6 aus 45” wenigstens eine Zahl richtig zu erraten? Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen (nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl der “Richtigen” an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man 1 6 39 39 · · · 33 11951 PX ({0}) = 45 = = . 0 6 45 · · · 39 35260 6 Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit. Beispiel 290 (Exponentialverteilung) Es sei λ > 0. Eine Variable X : Ω → IR ist λexponentialverteilt, wenn ihre Dichte durch λe−λx x>0 fX (x) = 0 x≤0 Rx Rx gegeben ist. Man findet wegen FX (x) = −∞ fX (t) dt = 0 fX (t) dt sehr leicht FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x. Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 . B.2. Zufallsvariable und Verteilungen 323 Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung (“exponentieller Zerfall”). Beispiel 291 (Gaußverteilung) Eine Variable X : Ω → IR ist Gaußverteilt oder normalverteilt, falls es µ ∈ IR und ein positives σ gibt, sodaß PX eine W-dichte der Form 2 1 (x−µ) 1 fµ,σ (x) = √ e− 2 σ2 σ 2π Rx hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man sagt auch, X ist N (µ, σ 2 )-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt, C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 295 (S.330)) klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 287 (S.318)). Es gelten folgende Aussagen: 1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) := R x − t2 √1 e 2 dt, die sowohl tabelliert vorliegt (z.B. in [3]), als auch numerisch in Stan2π −∞ dardpaketen zugänglich ist (etwa in den Statistikpaketen R9 oder S10 ). Der Nachweis für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π)) Z ∞ 2 e − t2 2 Z dt = −∞ e IR2 − 21 (x2 +y 2 ) Z ∞ Z 2π d(x, y) = e 0 2 − r2 0 r dφ 2 dr = −2π e − r2 ∞ = 2π, 0 woraus Φ(∞) = 1 folgt. 2. Für eine N (µ, σ 2 )-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 . 3. Ist X gemäß N (µ, σ 2 )-verteilt, so ist die standardnormierte Zufallsvariable Z := gemäß N (0, 1)-verteilt, genauer, x−µ Φµ,σ (x) = Φ . σ X−µ σ All dies folgt unmittelbar aus Anmerkung 281 (S.309) 6. 4. Ist X eine N (µ, σ 2 )-verteilte Zufallsvariable, so ist aX gemäß N (aµ, a2 σ 2 )-verteilt. 9 10 Free Software Komerzielles Produkt 324 Wahrscheinlichkeitstheorie 5. Sind X und Y unabhängige jeweils N (µ, σ 2 ) und N (ν, τ 2 )-verteilte Zufallsvariable, so ist X + Y gemäß N (µ + ν, σ 2 + τ 2 ) verteilt11 . Allgemeiner ergibt sich hieraus (durch Induktion) das Additionstheorem unabhängiger N (µi , σi2 )-verteilter Zufallsvariabler Pn Xi : Pn 2 )-verteilt mit µ = X gemäß N (µ, σ Ω → IR, demzufolge die Dichte von i=1 µi i=1 i Pn 2 2 und σ = i=1 σi ist. Weiters ist die Zufallsvariable (X, Y ) : Ω → IR2 gemäß einer Dichte f(X,Y ) (x, y) := 2 2 1 − 12 Q(x,y) mit Q(x, y) = x−µ + y−ν verteilt. Diese Dichte hat die bekannte 2π e σ τ Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µ, ν) und Halbachsen mit Längen im Verhältnis σ : τ . Dreht man das Koordinatensystem, so erscheinen in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten herrührt, siehe hiezu 1.4. 6. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1. (Diese Tatsache wird bei Parameterschätzungen gebraucht, z.B. in Beispiel 9 (S.27) 2.). Nachweis für den letzten Punkt unter Benützung der Symmetrie der Dichte f am Nullpunkt und der Substitution u = −t, dt = −du: Es ist P (|X| < a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < a} \ {ω | −a < X}) = P ({ω | X < a})R− P ({ω | −a < X}) = F R(a) − F (−a) = ∞ a F (a) − −∞ f (t) dt = F (a) − a f (u) du = F (a) − (1 − F (a)) = 2F (a) − 1. Die Skizze verdeutlicht diesen Beweis. Der mittlere Flächenteil ist P (|X| < a) und die beiden schmalen Anteile sind aus Symmetriegründen gleich groß wobei der rechte definitionsgemäß gleich 1 − F (a) ist. Im nachfolgenden Schaubild sind drei Gaussdichten zu sehen. Die “mittlere” Kurve ist N (0, 1). 11 Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation bekannt R ist. Um die Faltung zu sehen, benützen wir Anmerkung 281 (S.309) 7. Demgemäß hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden der Substitution y = t−x, dy = dt, “neue z”, Vertauschen R ∞Grenzen=−∞, Rz R z der R ∞IntegrationsreihenfolR∞ R z−x ge zu FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. R∞ Diese Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten der Dichten. B.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 325 0,8 0,6 0,4 0,2 0 -3 -2 -1 0 1 2 3 Normalverteilung N(0,1) B.3 B.3.1 Approximation mathematischer durch empirische Wahrscheinlichkeit Ungleichung von Tschebyscheff und das Bernoulliexperiment Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine W-theoretisch formulierte Antwort auf die in Beispiel 248 (S.279) aufgeworfene Frage, inwieweit man denn erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist eine solche Frage, wenn p durch statistische Erhebung “geschätzt” werden soll, also von vornherein unbekannt ist. Mehr darüber in den Beispielen 4 und 9. Wir werden die Ungleichung von Tschebyscheff dabei benützen: 326 Wahrscheinlichkeitstheorie 1 0,8 0,6 0,4 0,2 0 -3 -2 -1 0 1 2 3 Verteilungsfunktion N(0,0.5) Anmerkung 292 (Ungleichung von Tschebyscheff) Es sei X : Ω → IR eine Zufallsvariable und > 0, so gelten folgende Aussagen: • P (|X| ≥ ) ≤ E(|X|) . • P (|X − E(X)| ≥ ) ≤ V (X) . 2 Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ), B.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 327 q ◦ ◦ • 0 • 0 1 1=p+q Abbildung B.2: “Theoretische” Verteilungsfunktion beim Bernoulliexperiment und hieraus durch Umformen die erste Behauptung. Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := |Y − E(Y )|2 , so ergibt sich P (|Y − E(Y )|2 ≥ 2 ) ≤ V (Y ) , 2 und weil links definitionsgemäß das Maß der Menge {ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ } ermittelt wird, ist alles gezeigt. w.z.b.w. Beispiel 293 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand geht, “theoriegestützt” von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω → {1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das sei z.B. durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische) Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. B.2 angegebenen Form. Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde man sich gerne auf (H), d.h. q = 1 − p = 21 aufgrund mathematischer Betrachtungen stützen können. Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art: a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt, b) oder n mal (unabhängig voneinander) hintereinander ausgeführt. Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest für i = 1, . . . , n. In dieser Weise, wie in Beispiel 287 (S.318) (Bernoulliverteilung) genauer ausgeführt worden ist, ergibt sich für die Zufallsvariable Sn : Ω → IR, definiert durch Sn (ω) := n X Xi (ω) = |{i | Xi (ω) = 1}|, (B.1) i=1 welche abzählt, in wie vielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung mit E(Sn ) = np und V (Sn ) = npq. 328 Wahrscheinlichkeitstheorie Schließlich kommt die Ungleichung von Tschebyscheff (Anmerkung 292 (S.326)) zum Zug, 1 1 1 indem wir dort X := n Sn einsetzen und V n Sn = n2 V (Sn ) beachten: 1 pq P Sn − p ≥ ≤ 2 . (B.2) n n Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils), welchen Näherungswert würde man nach n Versuchen für p benützen? Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend, k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte) Wahrscheinlichkeit p ist. Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die “Irrtumswahrscheinlichkeit”. Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist? Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 14 annimmt, ist pq 1 ≤ , 2 n 4n2 1 1 sodaß es hinreichend ist, 4n 2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also 10% Genauigkeit bei der Approximation), so ist n = 250. Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als 250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k := 300 300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000 ≈ p als Approximation der Fehlerwahrscheinlichkeit ist. Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage: “Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.” Antwortfindung: Zunächst läßt sich Glg.(B.2) in äquivalenter Form als 1 pq P (| Sn − p| ≤ ) ≥ 1 − 2 n n schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck 1 | Sn − p| ≤ n pq ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n 2 ≥ 1 − α pq 1 ergeben – in äquivalenter Form – aus α ≥ n 2 . Da letzteres aus α ≥ 4n2 folgt, kann man 1 := √4αn setzen und so ergibt sich (für dieses ): 1 1 P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α. n n B.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 329 Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) := 1 n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie zu n events annehmen. Diese Schranken passen sich also dem n an! 300 Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000 = 3 × 10−3 als Näherung 1 = √4×101−1 ×105 = für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn 5 × 10−3 und bekommt k k P (p ∈ [ − , + ]) ≥ 1 − α, n n und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ]. (Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa 1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p können Ausgangspunkt für die Berechnung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.) Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen? Antwort: wird am Ende von Beispiel 9 (S.27) 1. gegeben werden. B.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz (ZGWS) Beim Bernoulliexperiment (Beispiel 293 (S.327)) kommt man zur Aussage, daß sich bei wachsenden Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben, zumindest in folgendem Sinn: Aus der Ungleichung Glg.(B.2) ergibt sich 1 lim P (| Sn − p| ≥ ) = 0 n→∞ n für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk “gut” sein sollte im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also “nahezu sicher” sein darf, daß hn (A) = nk ≈ p. Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 2 (S.18), der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von Kolmogorov Anmerkung 294 (S.329). Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind12 , vorgestellt werden. Anmerkung 294 (Kolmogorov) Ist Xn : Ω → IRk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und ∞ X V (Xn ) <∞ n2 n=1 12 etwa [22] 330 erfüllen, so ist Wahrscheinlichkeitstheorie n 1 X ( Xj (ω) − E(Xn )) = 0}) = 1. n→∞ n P ({ω | lim j=1 Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und es ergibt sich aus dem vorigen n 1X Xj (ω) = E(X)}) = 1. n→∞ n P ({ω | lim j=1 Die Konvergenzaussage wird auch als “Xn gehorcht dem starken Gesetz der großen Zahlen” ausgedrückt, während die schwächere, aus ihr folgende: n 1 X Xj (ω) − E(Xn ) > }) = 0 lim P ({ω | n→∞ n j=1 für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn := n1 Sn wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall, nämlich, daß die Folge ( n1 Sn | n ∈ IN ) dem schwachen Gesetz der großen Zahlen genügt. Der zentrale Grenzwertsatz (ZGWS) wird auch in allgemeinerer Form und unter technischen Bedingungen (von Lindeberg, siehe S. 111 in [22] ff.) formuliert. Eine vereinfachte, oft benützte Version ist die folgende: Anmerkung 295 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable) Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und V (X) = σ, so ist die standardisierte Zufallsvariable Pn X̄(ω) − µ √ j=1 (Xj (ω) − µ) √ Z(ω) := = n, σ σ n P mit X̄ := n1 ni=1 Xi approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b) − Fn (a) Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 291 (S.323), R x gegen 2 1 −x √ Φ(x) := 2π −∞ e dx ist. In diesem Sinne ist das Fehlermittel n X̄(ω) − µ = 1X (Xj (ω) − µ) n j=1 2 auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, σn )-verteilt13 . B.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 331 Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 12 und Laplace 1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel 293 (S.327)) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung B(n, p), welcher die Zufallsvariable Sn : Ω → IR, definiert durch Sn (ω) = nk , wenn in k von n unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz k − np < b → Φ(b) − Φ(a) P a≤ √ npq für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis gelegentlich benützten Faustregeln np > 4 und nq > 4 ([18], Seite 160), bzw. in [33] wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen. Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar herleiten, weil jedes Xi (wie in Beispiel 293 (S.327)) Erwartungswert µ und Streuung √ √ σ = pq (vgl. Beispiel 282 (S.310) 3.) hat. Danach wird Z = S√n −µ n, was nach wenig pq Rechnung zur Behauptung führt. Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach einer Serie von Messungen und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W., die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste signifikante Stelle 1 ist. Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := IR überzugehen. Die Erfahrung lehrte: 1. kleine Fehler sind häufiger als große, 2. positive und negative Fehler heben einander nahezu auf, 3. Fehler, nahe bei Null, sind am häufigsten. Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach sich gezogen (siehe die ausführliche Diskussion in [15]). Gauß schließlich postulierte das nach ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ normalverteilt angenommen werden darf. Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS wie folgt: Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h. n X F = Xi j=1 13 Vgl.Beispiel 291 (S.323) 4. 332 Wahrscheinlichkeitstheorie und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat, so ist F nach dem zentralen GWS approximativ N (0, nσ 2 )-verteilt. Da n zwar groß, aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler F approximativ N (0, σF2 )-verteilt, wobei σF2 ≈ V (F ) gelten muß. Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die Länge l genommen. Das n-fache Messen soll nun approximativ die Verteilung p F von X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X) interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In Beispiel 4 (S.21) 3. wird gezeigt, wie man auf den Physikpraktikumsüblichen Näherungswert σ̂ von σ kommt. Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler. Das in Anmerkung 295 (S.330) genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, 2 approximativ N (0, σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In Unterabschnitt 1.3.1 (S.19) wird µ, bzw. σ die Rolle eines “Parameters” spielen, der anhand gemessenen Datenmaterials geschätzt werden soll. Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die “mathematische” betrachtet. Das kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. B.2 angesehen werden. Beim Satz von Gliwenko-Cantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 2 (S.18). Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache Folgerung aus dem zentralen GWS ist (z.B. in [14]). Literaturverzeichnis [1] M. Artin, Algebra (aus dem Englischen übersetzt von A. A’Campo), Birkhäuser 1993. [2] B. Bollobás, Linear Analysis, an introductory course, Cambridge Mathematical Textbooks 1990 [3] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen Ausgaben und Buchbesprechung. [4] P.M. Cohn, Further Algebra and Applications, Springer, 2003. [5] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001. [6] H.J. Dirschmid, Skriptum aus Mathematik 3 f. ET, Wien, 2002. [7] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien 2004. [8] H. Ehrig und B. Mahr, Fundamentals of Algebraic Specification 1, Springer 1985. [9] G. Eigenthaler Begleitmaterial zu einer Vorlesung ALGEBRA, Institut für Algebra und Computermathematik, WS 2003/2004 [10] L.E. Elsgolc, Variationsrechnung, BI 431 1970 [11] G. Fairweather, finite element galerkin methods for differential equations, lecture notes in pure and applied mathematics 34, Marcel Dekker 1978 [12] W.D. Geyer, Vorlesungsskriptum Analysis 1, Erlangen 1999. [13] W. D. Geyer, Analysis II, Internetskriptum, SS 2000, (Kopie unter http://www.math.tuwien.ac.at/∼herfort/MLITZ UE/QUELLEN/analysis2.ps) [14] K. Grill, Skriptum zur Vorlesung “Mathematical http://www.ci.tuwien.ac.at/~grill Statistics”, TU-Wien [15] E. Hardtwig, Fehler und Ausgleichsrechnung, BI-Taschenbuch 262/262a*, 1968. [16] E. Hewitt and K. Stromberg, Real and abstract analysis, Springer 1965 333 2000, 334 Literaturverzeichnis [17] Institut für Theoretische Informatik d. Univ. Heidelberg, Ambos-Spies, Skriptensammlung http://www.math.uni-heidelberg.de/logic/skripten.html [18] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964. [19] D. Hofbauer, Grundlagen der Ersetzungssysteme, Fachbereich Mathematik/Informatik Gesamthochschule Kassel, 2000. [20] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975. [21] R. Kress, Numerical Analysis, Graduate Texts in Mathematics, Springer 1998 [22] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963. [23] J.D. Lipson, Elements of Algebra and Algebraic Computing, Benjamin/Cummings Publishing Company, 1981. [24] L. Ljusternik und V. Sobolev, Elements of functional analysis (ins Englische übersetzt von A.E. Labarre,Jr, H. Izbicki und H.W. Crowley), Frederick Ungar Publishing Company 1964 [25] R. Mlitz, Algebraische Methoden in den Compterwissenschaften, Skriptum zur Vorlesung, TU Wien, 2003. [26] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000. [27] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechnung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999. [28] R. Plato, Numerische Mathematik kompakt, Vieweg 2000 [29] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005. [30] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005. [31] B.L. van der Waerden, Algebra I,II, Springer 1966,1967. [32] W. Walter, Einführung in die Theorie der Distributionen, 3.Auflage, B.I. Wissenschaftsverlag 1994 [33] H. Weber, Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure, Teubner Studienskripten, Stuttgart 1983. [34] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite [35] J. Wloka, Partielle Differentialgleichungen, Teubner, 1982 [36] E. Zeidler, Nonlinear Functional Analysis and its Applications I Fixed-Point Theorems, Springer 1992 Index IF2 H01 (I) Körper mit 2 Elementen, 104 Soboleffraum, 180 Kodierungstheorie, 169 l2 als verallgemeinerter Koordinatenraum, 203 ⇐ folgt aus, 44 l2 quadratisch konvergente Folgen, 203 L1 (I, IR) absolut (Lebesgue)integrierbare Funk- IN natürliche Zahlen, 54 Q Körper der rationalen Zahlen, 102 tionen, 175 Q rationalen Zahlen, 54 Γ-Funktion, 28 IR reelle Zahlen, 54 Ω IR3 als heterogene Algebra (Anhang), 252 Bezeichnung für W-Raum, 283 2 ⇒ Implikation, 44 χ Test, 34 2 ZZ als euklidischer Ring (Anhang), 256 χn Verteilung, 28 Z Z ganze Zahlen, 54 k-stellige Relation, 64 T S allgemeiner Durchschnitt, 61 < meist für strikte Ordnung, 69 allgemeine Vereinigung, 61 A0 (topologischer) Dualraum zu normiertem ∩ Durchschnitt, 55 linearen Raum A, 185 ◦ Zusammensetzen von Funktionen (oft wegA0 Komplement der Menge A, 56 gelassen), 76 A∗ (algebraischer) Dualraum zu Vektorraum ∪ Vereinigung, 56 A, 161 leeres Wort, 80 A∗ freies Monoid über Alphabet A, 80 ≡ Kongruenz, 89 A+ freies Monoid ohne leeres Wort, 80 ∈ Element enthalten in, 53 B A Funktionen von A nach B, 73 ¬ Q Negation, 44 C(I) = C([0, 1], IR), 173 Qnallgemeines Produktzeichen, 88 C[0, 2π] i=1 Ai kartesisches Produkt von Mengen, 74 auf [0, 2π] stetige Funktionen, 148 ⊆ P Teilmenge, 53 CA (B) Mengenkomplement, 56 P allgemeines Summenzeichen, 88 G \ H Linksnebenklassenzerlegung, 93 m∈X ∗ fm m formale Potenzreihe in nicht komH01 (I)Soboleffraum stetiger Funktionen, 180 mutierenden Variablen X, 105 IFq endlicher Körper mit q Elementen, 113 ⊇ Obermenge, 53 L2 (S) quadratische konvergente Funktionen →,→∗ herleitbar in TES, 81 auf S, 209 ∨ Disjunktion, 44 L2 (IR, C) quadratisch integrierbare Funktio- ∧ Konjunktion, 44 nen, 205 k[x] Polynomring der Polynome in x mit KoLp -Raum, lp -Raum, 177 effizienten in k, 108 C komplexe Zahlen, 54 P(M ) Potenzmenge, 62 D(IR) Testfunktionen, 143 (Ti )i∈I Mengenfamilie, 74 335 336 ⇔ Logische Äquivalenz, 44 B(X, IR) beschränkte Funktionen, 173 C(I, IR) auf I stetige Funktionen, 173 C ∞ (IR) unendlich oft auf IR differenzierbare Funktionen, 144 H k (I) Soboleffraum, 180 Abbildung=Funktion, 72 additive, 156 duale, 161 homogene vom Grad 1, 156 kontrahierende, 126 abelsch=kommutativ, 86 abelsche (Halb)gruppe, 86 abgeschlossen, 133 Teilraum in normiertem Raum, 175 Ableitungs -baum einer heterogenen Algebra, 252 in heterogener Algebra (Anhang), 254 Termalgebra einer heterogenen Algebra, 254 UPN, 240 -graph für TES, 81 Abstandsfunktion=Metrik, 119 abzählbare Menge, 236 Additionstheorem Gaussverteilter Zufallsvariabler, 324 additive Abbildung, 156 Gruppe in einem Ring, 101 Halbgruppe, 85 Additivität einer reellwertigen Mengenfunktion, 284 algebraische Körpererweiterung, 110 Alphabet, 80 Annullator, 165 Antisymmetrie, 66 antisymmetrisches TES, 81 Approximation gleichmäßig durch (trigonometrische) Polynome, 138 gleichmäßig durch Hutfunktionen, 139 Index im Fixpunktsatz, 126 und dichte Teilmenge, 134 Äquipotentiallinien, 70 Äquivalenz -klasse, 67, 73 -relation, 67 algorithmisches Hilfsmittel TES, 82 logische, 44 von Cauchyfolgen, 123 von Kongruenz und Homomorphismus bei (Halb)gruppen, 90 Ringen, 109 von Normen im IRn , 175 Assoziativität ∩,∪, 59 ∨,∧, 46 (Halb)gruppe und Monoid, 85 TES, 83 Zusammensetzung von Funktionen, 76 Relationen, 65 Aussagenlogik, 43 Auswahlfunktion, 74 Automat Akzeptor, 240 Sprache, 241 AWP=Anfangswertproblem, 133 Babylonische Methode, 123 und Fixpunktsatz, 128 Banach -raum, 171 B(I, IR) die auf I beschränkten F. und Sup.Norm, 174 C(I) der auf I stetigen Funktionen mit Sup.-Norm, 173 IR bzw. C als B., 171 IRn als B., 173 Fixpunktsatz, 126 Basis Erweiterung, 153 Vektorraum, 149, 153 von K n , 153 bedingte Wahrscheinlichkeit, 288 Index 337 dicht -e Teilmenge, 133 Charakterisierung von vollst. ONS, 208 Einbettung, 123 und Approximation, 134 Dichte einer Verteilung, 300 Differentialoperator und Matrizendarstellung, 159 Differenz (von Mengen), 56 Differenzieren im Polynomring und Identitäten, 112 Diffie-Hellman Verfahren, 87 Dimension, 153 Dirac -maß, 307 -verteilung, 318 Deltafunktion (Anhang), 274 als stetiges Funktional, 186 als unstetiges Funktional, 185 Dirac-Deltafunktion Cauchy-Bunjakowskiĭ-Schwarzsche Ungl., 176, als stetiges Funktional, 223 198 disjunkt, 56 quadratisch konvergente Folgen l2 , 203 Zerlegung, 61 Cauchyfolge, 120 Disjunktion, 44 Charakteristik eines Körpers, 113 diskret Chauchymultiplikation Zufallsvariable, 293 im nicht kommutativen Potenzreihenring, diskreter Logarithmus, 87 105 Distribution (Anhang), 274 Choleskyzerlegung, 194 distributionelle Lösung (Saite), 217 Chomskygrammatik, 239 Distributivität Code ∩,∪, 59 linearer, 169 in Ring und Körper, 101 zyklischer, 116 logische Verknüpfung, 46 concatenation, 80 Division mit Rest (Anhang), 256 Doppelnegation, 46 Defekt (lineare Abbildung), 158 Drehung Matrizendarstellung, 159 Definitheit Dreiecksungleichung einer Metrik, 119 einer Metrik, 119 inneres Produkt, 192 Norm, 171 Norm, 171 duale Abbildung, 161 Definitionsbereich, 72 Dualer Operator Determinantenfunktion eines kompakten Operators, 190 Monoidhomomorphismus, 93 Dualität Bernoulli -experiment, 327 -verteilung, 316 beschränkt -e Menge, 133 -er Operator, 181 Bestapproximation im Hilbertraum, 209 und klassische Fourierreihe, 211 und kompakte Menge, 136 Beulenfunktion, 144 Bierdeckel, 62 Bijektion, 73 Bild einer kompakten Menge, 135 range, 156 unter einer Funktion, 72 Binomialverteilung, 318 binomischer Lehrsatz, 104 Buchstaben, 80 338 Index messbar, 283 unvereinbar, 284 zufälliges, 280 Ereignisse unabhängig, 292 Erwartungswert Rechenregeln, 309 vektorwertig - Schwerpunkt, 307 erwartunstreu, 20 Erweitern Differenzen bzw. Brüche in Halbgruppe mit Kürzungseigenschaft, 99 Integritätsbereich zu Körper=Quotientenkörper, 108 Körper algebraisch, 110 Erweiterung=Fortsetzung bei Funktionen, 76 Erzeugendensystem linearer Teilraum, 149 Eigenvektoren erzeugte(r) verallgemeinerte, 196 Unterhalbgruppe, Monoid, Untergruppe, Eigenwertproblem 94 Sturm-Liouville, 226 Eulergleichung und Norm einer Matrix, 183 Saite, 217 Einheit, 101 Variationsrechnung, 165 Einheitskugel, 172 Exponential Element -verteilung, 322 irreduzibles, 102 Exponentialfunktion Elementarereignis, 280 diskrete, 87 Elementaroperationen mit ErzeugendensysteHomomorphismus, 92 men, 149 Faktor, 101 empirische Verteilungsfunktion, 17, 36 Faktorgruppe=Quotientengruppe, 97 endliche Körper, 113 faktorieller Ring (Anhang), 260 der Ordnung p, 104 Faktorzerlegung Konstruktion von IF8 , 115 Kodierungstheorie, 116 zyklischer Code, 116 Faktorzerlegung in IF2 [x] (Anhang), 262 Energiemethode Faltung (Anhang), 275 im Cn , 195 Fehlergesetz Saite, 223 nach Gauss, 331 Ereignis Feldlinien, 70 -graph, 289 FEM (Saite), 219 elementares, 280, 283 Fixpunkt, 126 Indikatorfunktion, 295 Fixpunktsatz von Banach, 126 komplementäres, 283 De’Morgan, 59 Deutung im IR3 , 166 logischer Verknüpfungen, 46 und lineares Gleichungssystem, 168 von Teilräumen, 165 Dualraum algebraischer, 161 topologischer, 184 Durchschnitt von Mengen, 56 allgemeiner, 61 von Teilräumen, 147 dynamisches System Abkühlungsgesetz, 247 Automat, 247 diskretes, 247 kontinuierliches, 247 Verzinsung, 247 Index Existenz- und Eindeutigkeit von AWP, 133 Formulierung im IRn , 129 Gauß-Seidelverfahren, 132 Hauptsatz der impliziten Funktionen, 131 Nachiteration, 132 Neumannreihe, 131 Newtonalgorithmus, 129 Nullstellenverfahren, 129 und lineare Funktion, 126 Folge Cauchysche, 120 konvergente, 120 vom Typ δ (Anhang), 274 folgenkompakt, 134 Fortsetzung stetige, 135 Fortsetzung=Erweiterung (bei Funktionen), 76 Fourierkoeffizient, 208 Fourierreihe klassische, 210 verallgemeinerte, 208 Fredholmeigenschaft von kompaktem Operator, 189 freies Monoid, 80 kommutatives, 91 Frobeniusautomorphismus, 114 fundiert=noethersch, 69 Funktion, 72 Γ-, 28 bijektive, 73 Einschränkung, 76 Erweiterung, 76 injektive, 73 partielle, 73, 156 stetige im metrischen Raum, 135 surjektive, 73 verträglich mit Relationen, 76 Funktional erste Variation, 163 lineares, 160, 161 stetiges, 185 Funktionenbeispiele, 75 Funktionenraum, 142, 153 Funktionsgraph, 72 339 Gödelscher Unvollständigkeitssatz (Anhang), 230 Gauß -Seidelverfahren, 132 -verteilung, 323 in Tabelle, 317 geordnetes Paar, 63 Gesetz der großen Zahlen, 330 Gleichheitsrelation, 69 Gleichverteilung, 317 größtes Element, 68 Gram-Schmidt Orthogonalisierung, 206 Orthogonalpolynome und Rekursion, 207 Grammatik TES, 239 umgekehrte polnische Notation, 241 Graph, 66 Akzeptor, 241 freies Monoid, 80 Greenfunktion (Anhang), 277 Grenzwert im metrischen Raum, 120 Grenzwertsatz zentraler, 330 Grundmenge, 56 Gruppe, 85 abelsche=kommutative, 86 zyklische, 86 Gruppenhomomorphismus DN, 89 Gruppenwirkung, 245 Höldersche Ungleichung, 176 Hahn-Banach Satz von (Anhang), 268 Halbgruppe, 85 abelsche=kommutative, 86 kommutative, 86 zyklische, 86 Halbgruppenhomomorphismus Aussagenlogik, 93 DN, 89 und Aussagenlogik, 77 340 Index Injektion, 73 Halbgruppenwirkung, 245 inneres Produkt, 192 als heterogene Algebra (Anhang), 253 Charakterisierung im Cn , 195 und Newtonalgorithmus, 246 durch Integral gegeben, 193 Halbordnung, 67 im l2 , 203 linear=totale, 69 in IRn und Cn , 194 noethersch, 69 in l2 (S), 209 und Teilbarkeit natürlicher Zahlen, 71 Integral Hammingdistanz, 120 -kern, 190 und Konvergenz, 122 -norm, 174 Hassediagramm, 71, 72 stetige Funktionen, 174 und TES, 81 -operator, 190 Hauptideal, 109 Integraloperator Hauptidealring, 110 Rieszabbildung, 214 Hauptsatz der impliziten Funktionen Integritätsbereich, 101 Beweis mittels Fixpunktsatz, 131 Intervallschätzer Heine-Borel allgemeines Schema, 24 kompakt, 135 für µ, 25 Hermitische Matrix, 194 für σ, 30 heterogene Algebra (Anhang), 251 für p, 25 Hilbertraum, 203 inverse Relation, 65 Hilberts Hotel, 236 Hintereinanderausführen=Zusammensetzen, 76 Isobaren, 70 Isometrie homogen im normierten linearen Raum, 184 Abbildung, 156 von Hilbertraum zu L2 (S), 209 Homogeneität Isomorphismus der Norm, 171 bei (Halb)gruppen, 89 Homomorphismus bei Ringen und Körpern, 109 Exponential- u Logarithmusfunktion, 92 Hutfunktionen, 154 Jacobi-Polynome, 211 und gleichmäßige Approximation, 139 Juxtaposition, 80 und schwache Lösung, 188 hypergeometrische Verteilung, 321 hypergeometrische Verteilung, 113, 316 Ideal, 108 Implikation, 44 Indexmenge, 74 Indikatorfunktion eines Ereignisses, 295 induzierte Metrik, 171 Norm, 198 Infimum, 68 Körper, 101 -erweiterung, 110 -isomorphismus, 109 der rationalen Funktion, 108 elementare Beispiele, 102 endliche, 113 Kürzungseigenschaft Halbgruppe, 99 in endlicher Halbgruppe, 100 Kardinalität, 233 kartesisches Produkt, 74 abzählende Kombinatorik, 234 Index 341 in Gruppen und Normalteiler, 97 Relationsschema, 238 in Ringen, 108 zweier Mengen, 63 modulo m in ZZ, 108 Kellerautomat (Anhang), 244 Restklassenaddition in ZZ m , 91 Kern Wirkungen, 250 bei linearer Abbildung, 156 Konjunktion (Logik), 44 eines Gruppenhomomorphismus, 97 kurz für Integralkern bei Integraloperato- kontextfreie Sprache, 239 Kontradiktion, 45 ren, 190 kontrahierende Abbildung, 126 Kettenalgorithmus Konvergenz (Anhang), 257 bezüglich Hammingdistanz, 122 Berechnung ggT (Anhang), 257 im metrischen Raum, 120 Partialbruchzerlegung (Anhang), 258 im quadratischen Mittel, 177, 205 kleinstes Element, 68 Koordinatenraum, 141 Koeffizient l2 als Ersatz im Hilbertraum, 209 Linearkombination, 149 korrekt gestelltes Problem, 215 Kombinationen, 234 kritischer Bereich, 31 kommensurable Strecken, 100 kommutativer Ring Länge eines Wortes, 80 binomischer Lehrsatz, 104 Löwenheim-Skolem (Anhang), 230 Kommutativgesetz Lagrange ∩,∪, 59 -multiplikatoren ∧,∨, 46 Norm von Funktional auf lp , 183 (Halb)gruppe und Monoid, 85 Multiplikatormethode, 136, 183 Kommutativität Satz über Ordnung von Untergruppe, 95 Ring, 101 Laplace-Wahrscheinlichkeitsraum, 281 kompakt Legendre-Polynome, 211 -e Menge, 133 Linear -er -form, 161 Operator, 190 -kombination, 149 -er Operator, 188, 189 linear kompakter (un)abhängig, 149 Operator Code, 169 Rieszabbildung (Saite), 225 Differentialoperator, 159 Komplement, 145 gelegentlich Kurzform für Komplementärraum, Funktional, 161 Operator=Abbildung, 156 145 lineare mengtheoretisches, 56 Abbildung, 156 Komplementärraum, 145 Matrixdarstellung, 158 Komplexprodukt, 94 stetige, 181 Komposition=Zusammensetzung, 76 Hülle, 149 Kongruenz lineares -relation Funktional, 160 Halbgruppe, 89 und erste Variation, 163 heterogene Algebra (Anhang), 253 342 Linkseinheit, 101 Lipschitzstetigkeit bei linearem Operator, 181 Logarithmus Homomorphismus, 92 mathematische Theorie (Anhang), 229 Matrix Hermitische, 194 Matrixdarstellung, 158 maximales Element, 68 Maximum, 68 Maximum Likelihood, 22 Maximumnorm, 171 Median, 301 Menge, 50 abgeschlossene im metrischen Raum, 134 abzählbare, 236 beschränkte, 133 beschränkte im metrischen Raum, 134 dichte, 133 dichte im metrischen Raum, 134 kompakte, 133, 134 leere, 53 offene, 133 offene im metrischen Raum, 134 Mengen -familie, 74 -operationen, 56 Rechengesetze, 59 Mengenalgebra, 280 messbar, 283 Zufallsvariable, 294 Metrik, 119 diskrete, 120 durch Norm induzierte, 171 euklidische, 119 Hammingdistanz, 120 minimales Element, 68 und TES, 82 Minimum, 68 Minkowskische Ungleichung, 177 Mobilfunk, 64, 73 Moivre-Laplace Index Satz von, 331 Monoid, 85 freies, 80 Monoidhomomorphismus Determinantenfunktion, 93 DN, 89 Monoidwirkung, 245 und Exponentialfunktion, 246 multiplikative Halbgruppe, 85 Nachiteration, 132 Nebenklassen, 93 -repräsentantensystem, 93 Negation, 44 des Stetigkeitskriteriums, 50 Neumannreihe, 131 Lösung rotierende Saite, 226 Newtonalgorithmus Fixpunktsatz, 129 nichtterminale Variable=syntaktische V., 239 noethersche Halbordnung, 69 Norm, 171 Äquivalenz aller im IRn , 175 einer 2 × 2-Matrix, 183 für Funktional auf lp , 183 induzierte, 198 Integralnorm, 174 Maximimumnorm, 171 Soboleffsche, 178 Supremumsnorm auf C(I) = C([0, 1], IR), 173 auf beschränkten Funktionen, 173 von stetigem linearen Funktional, 185 Normal -verteilung, 323 Normalform TES, 82 Normalteiler, 97 in abelscher Gruppe, 97 Symmetrien des gleichseitigen Dreiecks, 98 und Kongruenz, 97 normierter linearer Raum, 171 Index nicht vollständiger, 175 Nullstellenverfahren Fixpunktsatz, 129 Nullteiler, 101 im Restklassenring ZZ m , 103 nullteilerfrei, 101 Obermenge, 53 offen, 133 offene Kugel, 134 ONB=Orthonormalbasis, 205 ONS=Orthonormalsystem, 205 Operator -norm (DN), 181 -norm und Fixpunktsatz, 129 beschränkter, 181 kompakter, 188, 189 Fredholmeigenschaft, 189 stetiger, 181 Operator=Abbildung, 156 Ordnung einer (Halb)gruppe, 85 eines Gruppenelements, 86 Element, 86 lineare=Totalordnung, 69 partielle, 69 Orthogonal -polynome auf [−1, 1] Rekursion, 207 Tabelle, 211 -projektion in abgeschlossenen Teilraum, 209 -system DN, 205 Orthogonalität von Vektoren, 198 Orthonormalsystem DN, 205 Parallelogrammregel elementargeometrische Deutung, 201 und induzierte Norm, 199 Parallelprojektion, 73 Parkautomat (Anhang), 243 343 Parsevalsche Gleichung, 208 und klassische Fourierreihe, 211 partielle Funktion, 73 Ordnung, 69 Partition, 61 Äquivalenzrelation, 68 abzählende Kombinatorik, 234 Abzählung, 88 durch Funktion, 73 Hohlzylinder, 62 Stromlinien, 70 Permutation, 234 PGP, 87 Picard-Lindelöf, 133 Poincarésche Ungleichung, 179 Poisson -verteilung, 316, 320 Polarform und Kosinussatz, 198 Polynom -ring, 106 -ring k[x] als euklidischer Ring (Anhang), 256 abstrakte Termdefinition, 105 positiv definit, 194 Potenzen in additiver und multiplikativer Notation, 85 Potenzmenge, 62 Potenzreihen formale und Differenzieren, 107 formale und Reihenmanipulation, 107 ring in nicht kommutierenden Variablen, 105 Prähilbertraum, 192 Prädikatenlogik, 48 Primelement, 102 Produktion (Grammatik), 239 Produktzeichen, 88 Programmausschnitt und logische Verknüpfung, 47 punktetrennend, 138 Quantil, 301 Quantoren, 49 344 Quotienten -(halb)gruppe, 90 -(vektor)raum, 144 -gruppe DN, 97 Rechnen mod 2π, 92 -körper, 108 Q als Q., 108 -menge, 68, 73 -raum und Riemannintegral, 158 -raum DN, 144 Randwertproblem, 164 Rang (lineare Abbildung), 158 Raum linearer, 141 metrischer, 119 mit innerem Produkt, 192 von Funktionen, 142 Rechengesetze in heterogener Algebra (Anhang), 255 in Ringen, 101 in zyklischer Gruppe, 91 logischer Verknüpfungen, 46 Mengenoperationen, 59 Rechnen modulo m, 86 Rechtseinheit, 101 Reflexivität, 66 reguläre Ausdrücke (Anhang), 242 Sprache, 239 Additionskolonnen, 240 Akzeptor, 241 Relation k-stellige, 64 binäre, 64 inverse, 65 Relationsschema, 67 Repräsentant, 68 Repräsentantensystem, 68 Restklassen -addition in ZZ m , 91 Index mod 2π Winkel, 92 -ring ZZ p = IFp Körper mit p Elementen, 104 -ring mod Primzahl Diffie-Hellmanverfahren, 87 Riemannintegral als duale Abbildung, 162 und Quotientenraum, 158 Rieszabbildung DN, 209 kompakter Integraloperator, 214 Konstruktion (Saite), 223 Ring -axiome, 101 -homomorphismus, 108 -isomorphismus, 109 -kongruenz, 109 im kommutativen Polynomring, 110 in ZZ, 109 der Laurentpolynome (Anhang), 261 elementare Beispiele, 102 euklidischer (Anhang), 256 faktoriell (Anhang), 260 Integritätsbereich, 101 kommutativ, 101 nullteilerfrei, 101 reeller Funktionen, 103 Restklassenring ZZ m , 102 von Matrizen, 103 Saite Modellbildung, 215 Satz in Chomsky Grammatik, 239 Satzform, 239 Schätzer erwartungstreu, 20 konsistent, 20 Schiefkörper, 101 Quaternionen, 103 Schnitt, 68 Schranke, 68 schwache Lösung, 188 Semi-Thuesystem=TES, 81 Index 345 Sturm-Liouville Eigenwertproblem, 226 Sender Summenzeichen, 88 Einzugsbereich, 62 Supremum, 68 Kodierungstheorie, 116, 169 und Kompaktheit, 136 Sesquilinearität, 198 Supremumsnorm, 173 sigmaadditiv, 283 stetige Funktionen, 173 Sigmaalgebra, 283 Surjektion, 73 Signifikanz, 31 Singulärwertzerlegung einer n×n Matrix, 196 Symmetrie bei Metrik, 119 Skalar bis auf Konjugiertheit, 192 -körper, 141 eines Quadrats mit Diagonale, 248 Skalarprodukt, 192 Relation, 66 Soboleff und TES, 249 -norm, 186 beim Problem der ruhenden gespann- syntaktische Variable, 239 ten Saite, 218 für k-fach stetig differenzierbare F., 178 t-Test, 34 Tautologie, 45 Sprache Teiler, 101 abstrakte, 80 Teilmenge, 53 aussagenlogische, 71 Chomskysprache und Turingmaschine (An- Teilmonoid, 93 Teilraum hang), 245 aufgespannter bzw. erzeugter, 149 der formalen Logik (Anhang), 230 linearer, 144 kontextfrei, 239 Term kontextfrei und Kellerautomat (Anhang), in heterogener Algebra (Anhang), 254 244 Terminal mit Grammatik G, 239 -wort, 239 prädikatenlogische, 48 -zeichen, 239 reguläre, 239 TES Startsymbol, 239 =Termersetzungssystem, 81 stetige Funktionen und Quotientenring von k[x] modulo Ideund Integralnorm, 174 al, 110 und Supremumsnorm, 173 und algebraische Konstruktion von C, 111 stetiges lineares Funktional, 185 und Einsetzen von Wurzelausdrücken in Stetigkeit, 135 Polynome, 256 Stichproben und endliche Erweiterung von IF7 , 112 -mittel, 20 und Konstruktion von IF8 , 115 -varianz, 20 und Polynomdivision mit Rest, 111 stochastisch TES=Termersetzungssystem Funktion, 293 Addition in ZZ mod m, 91 Variable, 293 Additionskolonnen von Binärzahlen, 83 Stone-Weierstraß, 138 Assoziativität, 83 und kompakte Integraloperatoren, 190 inx Ausschnitt deutscher Grammatik, 84 Vollständigkeit von e im L2 , 210 freies kommutatives Monoid, 91 strikte Ordnung, 69 346 Grammatik, 239 konfluentes, 81 Rechnen modulo 7, 83 Restklassenaddition in ZZ m , 91 Symmetrie von Quadrat mit Diagonale, 249 umgekehrte polnische Notation, 240 und HTML, 82 Test χ2 , 34 Grundidee, 31 Kolmogorv-Smirnov, 35 parametrisch bei Normalverteilungen, 32 Grundidee, 32 t-, 34 Testfunktion, 143, 164 (Anhang), 273 totale Wahrscheinlichkeit, 290 Totalordnung=lineare Ordnung, 69 Träger einer Funktion, 88 einer Distribution (Anhang), 274 einer Funktion, 153 DN, 146 Transitivität, 66 Treppenfunktionen, 154 trivial Homomorphismus, 91 Monoid, 91 Tschebyscheff -polynome, 211 -sche Ungleichung, 326 n-Tupel, 74 Turingmaschine (Anhang), 245 umgekehrte polnische Notation = UPN, 240 unabhängig Ereignisse, 292 Unabhängikeit Zufallsvariable, 312 unendlich, 236 unendliche Mengen, 236 Ungleichung Index Cauchy-Bunjakowskiĭ-Schwarz, 198 Cauchy-Bunjakowskiǐ-Schwarz, 176 Hölder, 176 Minkowski, 177 Poincaré, 179 Tschebyscheff, 326 Young, 176 universelle Eigenschaft des freien Monoids, 247 Potenzreihenring, 106 Unter(halb)gruppe, 93 unvergleichbar, 68 Unvollständigkeitssatz von Gödel (Anhang), 230 UPN=Umgekehrte Polnische Notation, 240 Urbild, 72 Variationsproblem und isometrische Einbettung, 187 lineares Funktional, 163 Saite, 217 Vektorprodukt, 157 Vektorraum, 141 euklidischer=Prähilbertraum, 192 normierter, 171 verallgemeinerte Ableitung (Anhang), 275 Saite, 217 Vereinigung, 55 allgemeine, 61 vergleichbar, 68 Verknüpfung in heterogener Algebra, 236 logische, 44 Verschmelzungsgesetz, 46 Verteilung χ2n -, 28 binomiale=Bernoullische, 318 eines Zufallvektors, 305 Exponential-, 322 Gauß, 323 hypergeometrische, 321 Poissonsche, 320 Verteilungen Index 347 leeres, 80 Tabelle der, 316 Verteilungs Youngsche Ungleichung, 176 -dichte, 300, 308 -funktion zentraler Grenzwertsatz=ZGWS, 329 eindimensionale, 300 Zerlegung eines Vektors in orthogonale Komempirische, 17 ponenten, 197 mehrdimensionale, 305 Zermelo-Fraenkel Axiome der Mengenlehre (AnVervollständigung hang), 231 durch isometrische Einbettung im top. DualZGWS, 329, 330 raum, 186 Zufalls metrischer Raum, 123 -variable, 293 vollständig messbare, 294 -er linearter normierter Raum=Banachraum, unabhängige, 312 171 -vektor, 293 metrischer Raum, 122 Zusammensetzung ONB Existenz, 208 Funktionen, 75 Orthonormalsystem (Charakterisierungen), Relationen, 65 208 zyklische Prähilbertraum, 203 (Halb)gruppe, 86 Charakterisierung z. Gruppen, 91 Wahrscheinlichkeitsraum Codes, 116 diskreter, 285 endlicher, 281 Laplacescher, 281 W-Raum, 283 Wahrheitstabelle, 44 Wahrscheinlichkeit bedingte, 288, 314 totale, 290 Wahrscheinlichkeitsmaß, 283 endliches, 281 Wahrscheinlichkeitsraum Laplacescher, 281 Weierstraß Approximationssatz, 138 Wertebereich, 72, 156 Widerspruch, 45 Wirkung Gruppe, 245 Halbgruppe, 245 Kongruenz, 250 Monoid, 245 Wohlordnung, 69 Wort, 80 348 Index Anhang C Logfile Die Korrekturen beziehen sich auf das Gesamtskriptum (M3 WS09+SS10). Etwaige Fragezeichen in Referenzen deuten darauf hin, daß die Korrektur für die vorliegende Version (lediglich Teilskriptum) nicht von Bedeutung ist. 21.11.09 Auf Seite 33 ergaben sich in allen Ablehnungsbedingungen “H0 wird abgelehnt . . .” Korrekturen. Im Beispiel zu µ > µ0 und µ < µ0 wurden Zahlen korrigiert. Im wesentlichen ist −0.287 durch −4.62 zu ersetzen gewesen. Auf Seite 35 in der Antwort zum χ2 -Test sollte es das 1 − α Quantil sein, und nicht das α-Quantil. Seite 94 im Unterpunkt 3. (vor Anm 85) ist es “xH jene der Bauart . . .”. Etliche Tippfehler wurden bereinigt. Für eine sehr umfassende Korrekturliste möchte ich mich bei Herrn B. Maširevic̀ herzlich bedanken. 9.11.09 Seite 19: Je kleiner α ist desto höher . . . Seite 33: H0 : µ < µ0 . Man lehnt ab, falls T (x) > z1−α ist. 6.11.09 Seite 21 wurde das Beispiel 4 überarbeitet. Für die Hinweise bedanke ich mich. Auf Seite 17 sollte X den Wert 1 für “6 geworfen” und Null sonst annehmen. 30.10.09 Seite 26, wo σ eingegrenzt werden soll, ist b = z1− α2 21.10.09 Seite 14 die Formel für den Erwartungswert eines Zufallsvektors. Seite 15 die Antwort der Poissonaufgabe. 15.10.09 Änderungen gegenüber der WS08/09-Fassung: Die Wahrscheinlichkeitstheorie ist im Appendix. Korrektur: N (µ, σ 2 ) statt N (µ, σ). Was im WS08 noch als Histogramm bezeichnet worden war, ist jetzt (korrekterweise) ein Balkendiagramm. 349 350 Logfile Überarbeitung des Statistikabschnitts, vorallem die Testtheorie. Neu ist eine kurze Zusammenfassung über Verteilungen, etc zu Beginn des Statistikabschnitts, die beim 1.ten Test benötigt wird. Das Stichwortverzeichnis deckt auch den Anhang ab, letzterer zählt nicht zum Stoff, sondern ist lediglich als Vertiefung bei gegebenem Interesse gedacht. 6.3.10 Herrn Haderer verdanke ich Hinweise auf die folgende Liste von Druckfehlern, die in der Internetversion berücksichtigt worden ist: Seite Seite Seite Seite Seite Seite 76 76 77 88 90 90 Seite Seite Seite Seite Seite Seite Seite Seite Seite Seite 94 96 98 106 121 127 135 151 151 151 Seite Seite Seite Seite 174 175 197 198 Seite 256 sollte bRc wohl bSc sein AK → Ak 1. vorletzter Absatz 5. Zeile f (α(x)) = ∅ Anmerkung 77 f ; I → G sollte wohl f : I → G sein Beispiel 79 1. implizier → impliziert Lineares Gleichungssystem: statt ’Nebenklassen’ sind ’Äquivalenzklassen’ gemeint Beispiel 84 beide Matrizenmultiplikation sind falsch Beispiel 89 xxH Klammer ) fehlt G = {. . . , β, . . .} sollte das “β” ein “s” sein Anmerkung 101 vorletzte zeile “;” → “:” 2. zweite Zeile } zuviel f (x) = 1/4 − 15/4 sollte f (x) = 1/4 ∗ x − 15/2 sein Anmerkung 129 “ist” nach X × Y wegstreichen nach λ((1, 4, 3)T fehlt “)” Es sollte x0 = (0, 3, 0)T durch x0 = (0, 3, 2)T ersetzt werden sowie S.152: insgesamt 3 mal (0, 0.1) ist zu ersetzen durch (0, 0, 1) am Ende von 3. bei Ungleichung sind zu viele |-Stricherl Beispiel 163 in C := N ∗ max... sollte N eigentlich n sein vor der Antwort “... jene von vect ist ...” sollte ~t ein ~n sein Cauchy-Bunjakowskii-Schwarzsche Ungleichung ...π − γ ist durch γ in der Skizze zu ersetzen A.2.7 Zeilenumbrüche wurden korrigiert 19.4. Die Äquivalenzrelation in Anmerkung 69 (S.81) wurde korrigiert. Herrn Plainer sei gedankt. Die Angabe in Beispiel 98 (S.102)9. wurde korriert. Herrn Unger sei Dank für den Hinweis. 20.4. In Anmerkung 105 (S.109)1. wurde die Definition J = mZZ klar gelegt. 23.7. In Definition 56 (S.72) wurde f (A0 ) korrigiert. Herrn Winter sei für den Hinweis gedankt. Die nachstehenden Korrekturen verdanke ich Herrn B. Fuchs: In Beispiel 81 (S.90) 4. wurde die Antwort korrigiert. 351 Auf Seite 114 in 3. wurde die Referenz korrigiert. In Beispiel 174 (S.186) 1. wurde die Herleitung in der Antwortfindung korrigiert. In 2. der gleichen Aufgabe wurde die Randbedingung auf y(0) = y(1) = 0 korrigiert. Auch das l im Integral ganz unten ist nun ein f , wie es sein soll. In Beispiel 166 (S.178) 3. (Eingespannte Saite) ist die Herleitung jetzt etwas durchsichtiger. Beispiel 121 (S.123) 3.: Die Herleitung wurde korrigiert. Beispiel 189 (S.206) Schritt 3: ~c durch d~ ersetzt. 29.9.10 Herrn Mader verdanke ich nebst Druckfehlerhinweisen die folgenden Korrekturen: Beispiel zum Newtonverfahren (124). Anmerkung 129 (S.135)4. sind die Betragsstriche zu entfernen. Beispiel 150 (S.159)1: Korrektur der Ergebnismatrix A. Beispiel 165 (S.177): BW der Hölderschen Ungl. Beispiel 184 (S.200)3. Es lag kein Gegenbeispiel vor.