Materialien zur Vorlesung Stochastik Einführung in die Wahrscheinlichkeitsrechnung und Statistik Alexander Stoffel Institut für Nachrichtentechnik Fakultät für Informations-, Medien- und Elektrotechnik Fachhochschule Köln 4. Februar 2012 1 2 Einleitung Dieses Skript ist nur für die Teilnehmer meiner Lehrveranstaltung konzipiert. Hierfür gilt analog, was in der Einleitung zum Analysis-Skript gesagt wurde, das braucht also nicht wiederholt zu werden. Für Hinweise auf Tippfehler und andere Unstimmigkeiten sowie für Verbesserungsvorschläge bin ich sehr dankbar. Noch eine Anmerkung zum Namen: Stochastik kommt vom griechischen Wort στ óχoς, Vermutung, Kunst des Mutmaßens. Es bezeichnet das Gebiet der Wahrscheinlichkeitstheorie und der mathematischen Statistik. Diese Bezeichnungsweise ist aber eine Besonderheit des deutschen Sprachraums. Ein entsprechendes englisches Substantiv scheint zumindest außerordentlich wenig gebräuchlich zu sein, das Adjektiv stochastic wird vor allem im Zusammenhang mit den speziellen Fachausdrücken stochastic process, stochastischer Prozess und stochastic differential equation, stochastische Differentialgleichung, benutzt. Beide dieser Fachausdrücke bezeichnen aber sehr spezielle Teilgebiete der (deutschen) Stochastik. Das Thema dieses Skriptes und der zugehörigen Lehrveranstaltung wäre im englischen probability and statistics“, was dem oben angegebenen Untertitel entspricht. ” 3 Hier die Literaturempfehlungen: Literatur [1] Dimitri P. Bertsekas and John N. Tsitsiklis. Introduction to Probability. Athena Scientific, Belmont, Massachusetts, second edition edition, 2008. [2] Karl Bosch. Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg, Braunschweig, 5. Auflage, 1986. [3] Karl Bosch. Elementare Einführung in die angewandte Statistik. Vieweg, Braunschweig, 4. Auflage, 1987. [4] Norbert Henze. Stochastik für Einsteiger. Vieweg, Braunschweig/Wiesbaden, 1997. [5] Alberto Leon-Garcia. Probability and Random Processes for Electrical Engineering. Addison-Wesley, Reading, Massachusetts, second edition, 1994. [6] Lothar Papula. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung. Vieweg, Braunschweig/Wiesbaden, 1994. [7] Sheldon M. Ross. Introduction to Probality and Statistics for Engineers and Scientists. Elsevier Academic Press, Amsterdam, third edition, 2004. [8] Volker Schmidt. Wahrscheinlichkeitsrechnung. Skript, Universität Ulm, Institut für Stochastik, http://www.mathematik.uniulm.de/stochastik/lehre/ws06 07/wr/skript.pdf, 2006. [9] Hubert Weber. Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure. Teubner, Stuttgart, 1992. 4 Inhaltsverzeichnis 1 Grundbegriffe 1.1 Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum 1.2 Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum . . . 1.3 Laplace-Modelle, Kombinatorik . . . . . . . . . . . . . 1.4 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 11 15 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit 16 2.1 Definitionen und wichtige Folgerungen . . . . . . . . . . . . . . . . . . . . 16 2.2 Produktwahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Anwendungen von bedingten Wahrscheinlichkeiten . . . . . . . . . . . . . . 20 3 Zufallsvariable 3.1 Beispiele, Verteilungsfunktion, Dichtefunktion . . . . . . . . . . . . . . . . 3.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Quantil und Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 24 36 42 4 Spezielle Verteilungen 4.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 44 46 47 5 Mehrere Zufallsvariable mit demselben Grundraum 51 5.1 Zwei Zufallsvariable mit demselben Grundraum . . . . . . . . . . . . . . . 51 5.2 Mehr als zwei Zufallsvariable auf demselben Grundraum . . . . . . . . . . 66 5.3 Summen von Zufallsvariablen, Grenzwertsatz . . . . . . . . . . . . . . . . . 70 6 Grundbegriffe der Statistik 6.1 Histogramm, Mittelwert, Stichprobenvarianz . . . . . . 6.2 Parameterschätzungen . . . . . . . . . . . . . . . . . . 6.3 Allgemeine Prinzipien zur Gewinnung von Schätzungen 6.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . 6.5 Intervallschätzungen, Konfidenzintervalle . . . . . . . . 6.6 Tests von Hypothesen . . . . . . . . . . . . . . . . . . 7 Zufallszahlen, Simulation von Zufallsexperimenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 75 77 81 84 91 94 100 A Anhang: Mehrfachintegrale 103 A.1 Funktionen von 2 Variablen: Zweifachintegrale . . . . . . . . . . . . . . . . 103 A.2 Funktionen von 3 und mehr Variablen . . . . . . . . . . . . . . . . . . . . 112 5 1 Grundbegriffe 1.1 Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum Beispiele für Zufallsexperimente: • Werfen einer Münze • Würfeln • Ziehen der Lottozahlen • Lebensdauer einer Glühbirne messen • Übertragen eines Bits über eine unzuverlässige Übertragungsstrecke Ein Zufallsexperiment ist durch folgende Eigenschaften gekennzeichnet: • Die Bedingungen sind genau festgelegt (Ziehen der Lottozahlen!). • Das Experiment ist vom Prinzip her beliebig oft wiederholbar. • Es gibt mehrere unterscheidbare Elemente der Menge der Ergebnisse des Zufallsexperiments • Die Ergebnisse sind nicht vorhersagbar. Beachten Sie, dass hier gedanklich Annahmen gemacht und Näherungen vorgenommen werden, die in der Praxis in voller Strenge nicht realisiert sind! Definition 1.1.1 Die Menge der Ergebnisse eines Zufallsexperiments heißt Ergebnismenge, Ergebnisraum, Ereignisraum oder Grundraum und wird hier mit Ω bezeichnet. Beispiele: Für den Würfel ist Ω = {1, 2, 3, 4, 5, 6}, für das Werfen einer Münze ist Ω = {W, Z} (oder Ω = {0, 1}). Für die Lebensdauer einer Glühbirne ist Ω = R+ . Als Ereignis möchte man zulassen, dass beispielsweise eine Zahl größer als 3 gewürfelt wurde. Man definiert also Definition 1.1.2 Ereignisse sind Teilmengen von Ω. Sie werden hier meist mit A, B, C oder D bezeichnet. A = Ω ist das sichere Ereignis, ∅ ist das unmögliche Ereignis. Elementarereignisse sind Ereignisse mit nur einem Element A = {ω} mit ω ∈ Ω. Das Ereignis, eine Zahl größer als 3 zu würfeln, ist also A = {4, 5, 6}. Zur Erinnerung: A ∪ B := {ω ∈ Ω | ω ∈ A oder ω ∈ B} A ∩ B := {ω ∈ Ω | ω ∈ A und ω ∈ B} A \ B := {ω ∈ Ω | ω ∈ A und ω 6∈ B} Beachten Sie, dass das oder“ bei der Bildung der Vereinigung im nicht ausschließlichen ” Sinn gemeint ist. Also, wenn ω ∈ A und ω ∈ B, dann ist auch ω ∈ A ∪ B. 6 Definition 1.1.3 Zwei Ereignisse A und B heißen disjunkt, wenn A∩B = ∅. In diesem Fall wird A+B := A∪B geschrieben. Die Ereignisse A1 , A2 , A3 , . . . An heißen paarweise disjunkt, wenn Ai ∩ Ak = ∅ für alle i 6= k mit 1 ≤ i, k ≤ n gilt. In diesem Fall schreibt man n X k=1 Ak = A1 + A2 + A3 + · · · + An := A1 ∪ A2 ∪ A3 ∪ · · · ∪ An = n [ Ak k=1 A := Ω \ A heißt Komplementärereignis, Gegenereignis oder Komplement von A. Es wird auch Ac := A geschrieben. Weitere Beispiele: (a) Werfen von zwei Würfeln. Ω = {1, 2, 3, . . . 6} × {1, 2, 3, . . . 6}. Beachten Sie, dass beim kartesischen Produkt die Elemente (i, k) und (k, i) zu unterscheiden sind, wenn i 6= k. Das Ereignis, dass eine Eins und eine Fünf gewürfelt wurde (ohne zu unterscheiden, welcher Würfel ein Auge zeigt), ist also die Teilmenge A = {(1, 5), (5, 1)}. Abbildung 1: Zum Nadelexperiment von Buffon (b) Nadelexperiment von Buffon. Eine Nadel der Länge l = 1 wird auf eine Ebene geworfen, die ein Gitter von Parallelen im Abstand d = 1 enthält. Die Lage der Nadel soll durch den Abstand a des Mittelpunkts zur nächsten unteren Parallelen und den Winkel ϕ mit der Senkrechten zur Parallelen gekennzeichnet sein. Wir haben also 0 ≤ a < 1 und − π2 < ϕ ≤ π2 (siehe auch die Abb. 1). Der Ereignisraum ist also π π Ω = [0, 1[ × ] − , + ] 2 2 Das Ereignis Die Nadel trifft keine Parallele“ ist also die Teilmenge ” A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)} 1.2 Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum Betrachten wir als Beispiel das Ereignis A, bei einem Würfel eine Sechs zu würfeln. Wir wiederholen das Experiment sehr häufig und als nA bezeichnen wir die Zahl der Würfe mit ω ∈ A und die Gesamtzahl der Würfe nennen wir N . Dann erwarten wir im Limes 7 N → ∞, dass nNA → 16 . Wir werden als Bewertung des nicht exakt vorhersagbaren Ereignisses A sagen, dass die Wahrscheinlichkeit P (A) = 61 . Wir wollen allgemeiner mit der Wahrscheinlichkeit nicht exakt vorhersagbare Ereignisse bewerten. Es hat sich als nicht sinnvoll herausgestellt, für die Definition des Begriffes der Wahrscheinlichkeit den Grenzwert für N → ∞ zu benutzen, wobei N die Gesamtzahl der Wiederholungen des Zufallsexperiments ist. Man faßt daher den Begriff allgemeiner und sieht als die Wahrscheinlichkeit eine zahlenmäßige Bewertung der nicht exakt vorhersehbaren Ereignisse an, die bestimmten Grundregeln (Axiomen) genügt. Vorher ist eine kleine technische Schwierigkeit zu klären. Bei Grundräumen, die unendlich viele Elemente enthalten und die deren Elemente auch nicht durchnumeriert werden können (beispielsweise bei Ω = R+ ), kann nicht jede Teilmenge als Ereignis zugelassen werden, das wir mit einer bestimmten Wahrscheinlichkeit bewerten. In solchen Fällen können wir nur vernünftige“ Teilmengen als Ereignis zulassen. Wir müssen daher die ” ursprüngliche Definition 1.1.2 des Begriffs Ereignis“ geauer formulieren. ” Definition 1.2.1 Ereignisse sind Teilmengen des Grundraums Ω. In den Fällen, in denen nicht jede Teilmenge von Ω als Ereignis zugelassen ist, werden folgende Regeln vorausgesetzt: (a) Ω ist ein Ereignis (b) A ist ein Ereignis =⇒ A = Ω \ A ist ein Ereignis (c) Für jede Folge A1 , A2 , A3 , A4 . . . von Ereignissen ist A1 ∪ A2 ∪ A3 ∪ A4 ∪ . . . = ∞ [ Ak k=1 ebenfalls ein Ereignis. Hinweise: (a) Für endlich viele Ereignisse A1 , A2 , A3 . . . An ist A1 ∪ A2 ∪ A3 · · · An = n [ Ak k=1 für alle n ∈ N ein Ereignis. Dies folgt aus (c), wenn man Ak = ∅ für k > n setzt. (b) Weil für alle Ereignisse A, B ⊂ Ω gilt A ∩ B = (Ac ∪ B c )c ist auch A ∩ B ein Ereignis. Entsprechendes gilt für endlich viele Ereignisse und auch für Folgen Ak von Ereignissen: Der Durchschnitt !c ∞ ∞ \ [ A1 ∩ A2 ∩ A3 ∩ A4 ∩ . . . = Ak = Ack k=1 ebenfalls ein Ereignis. 8 k=1 Damit können wir die Grundregeln (Axiome) für die Wahrscheinlichkeit formulieren. Definition 1.2.2 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Zuordnungsvorschrift, die jedem Ereignis A die reelle Zahl P (A) zuordnet, Wahrscheinlichkeitsmaß auf Ω und P (A) heißt Wahrscheinlichkeit von A, wenn folgende Grundregeln (Axiome) erfüllt sind: (a) P (A) ∈ [0, 1] ( Positivität“) ” (b) P (Ω) = 1 ( Normierung“) ” (c) Für alle Folgen A1 , A2 , A3 , A4 , . . . von paarweise disjunkten Ereignissen gilt ! ∞ ∞ [ X P Ak = P (Ak ) ( Additivität“) ” k=1 k=1 Dann wird Ω mit den zugelassenen Ereignissen und dem Wahrscheinlichkeitsmaß ein Wahrscheinlichkeitsraum genannt. Hinweis: Aus der Grundregel (c) folgt, dass für paarweise disjunkte Ereignisse A1 , A2 , A3 , . . . An (also endlich viele Ereignisse) gilt ! n n [ X P Ak = P (Ak ) k=1 k=1 (Um dies einzusehen, braucht man nur in (c) Ak = ∅ für k > n zu setzen.) Beispiele: (a) Würfel, Ω = {1, 2, 3, . . . 6}, P ({k}) = 61 für alle k = 1, 2, . . . 6, es werden alle Teilmengen von Ω als Ereignisse zugelassen und wir haben P (A) = Zahl der Elemente in A 6 (b) Triviales Beispiel: Ω = {1, 2, 3, . . . 6}, alle Teilmengen sind als Ereignisse zugelassen. 1 falls 6 ∈ A P (A) := 0 falls 6 6∈ A ist ein Wahrscheinlichkeitsmaß auf Ω. (c) Ω = {g, e} Bei der Übertragung eines Bits steht g“ dafür, dass es richtig übertragen ” wird, e“ dafür, dass es umgekehrt wird (aus 1 wird 0 und aus 0 wird 1). Alle ” Teilmengen, also ∅, {g}, {e}, Ω sind als Ereignis zugelassen. Für jede Zahl p mit 0 < p < 1 ist 0 falls A = ∅ p falls A = {g} P (A) := 1 − p falls A = {e} 1 falls A = Ω ein Wahrscheinlichkeitsmaß. Man hofft, dass p nahe an 1 (z.B. p = 0, 999) ein gutes Modell für die Übertragung ist. 9 (d) Glücksrad. Hier ist eine Möglichkeit für den Grundraum Ω = ] − π, +π] (die Winkelpositionen, die das Glücksrad nach Stillstand einnehmen kann). Es stellt sich hier heraus, dass es nicht möglich ist, alle Teilmengen dieses Intervalls als Ereignisse zuzulassen. Eine Möglichkeit ist, als Ereignisse links offene und rechts abgeschlossene Intervalle der Form ]a, b] mit −π ≤ a < b ≤ +π sowie die leere Menge, Vereinigungen von Folgen derartiger Mengen sowie die Komplementmengen derartiger Mengen zuzulassen. Beachten Sie, dass man damit auch offene und abgeschlossene Intervalle als Ereignisse bekommt mit ∞ \ 1 [a, b] = ]a − ε, b], k k=1 ]a, b[= ∞ [ 1 ]a, b − ε] k k=1 und einem geeignet gewählten ε > 0. Es ist ein plausibles Modell, dass die Wahrscheinlichkeit dafür, dass das Glücksrad in der Winkelposition ϕ mit ϕ ∈ ]a, b] stehen bleibt, proportional zur Länge des Intervalls, also zu b − a ist. Aus der Normierungsbedingung ergibt sich sofort b−a P (]a, b]) = 2π Beachten Sie, dass die Wahrscheinlichkeit, dass das Glücksrad in einer genau festgelegten Winkelposition stehen bleibt, verschwindet, also beispielsweise P ({ π6 }) = 0. (e) Nadelexperiment von Buffon. Hier war schon früher als Grundraum Ω = [0, 1[×] − π π ,+ ] 2 2 angegeben worden (siehe auch Abb. 1). Auch hier hat man die technische Schwierigkeit, dass man nicht alle Teilmengen als Ereignisse zulassen kann. Man kann jedoch Rechtecken analog zu den Intervallen beim Glücksrad und Vereinigungen von Folgen derartiger Mengen als Ereignisse zulassen und so alle vernünftigen“ Teilmengen von ” Ω erhalten. Eine sinnvolle Wahrscheinlichkeit einer Teilmenge von Ω sollte proportional zur Fläche dieser Teilmenge sein. Wir bezeichnen mit F (A) die Fläche einer Teilmenge von Ω. Aus der Normierungsbedingung und der Gesamtfläche F (Ω) = π ergibt sich die Wahrscheinlichkeit P (A) = F (A) π Wir hatten schon früher das Ereignis Die Nadel trifft keine Parallele“ als die Teil” menge A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)} charakterisiert. Eine kleine Aufgabe zum Knobeln: Wie groß ist die Wahrscheinlichkeit P (A) dieses Ereignisses? Hierzu empiehlt es sich, eine Zeichnung anzufertigen und die Randkurven der Fläche, die sich aus den beiden Bedingungen in der Definition von A ergeben, einzuzeichnen. Mit Hilfe von Symmetrieüberlegungen sieht man, dass sich die Menge A aus vier kleineren Teilmengen derselben Fläche zusammensetzen lässt. Die Fläche dieser kleineren Teilmenge ergibt sich durch eine einfache Integration, und als Ergebnis erhält man P (A) = 1 − 10 2 π (f) Zufallszahlen aus dem Computer. In vielen Programmen ist es möglich, Zufallszahlen x zu berechnen mit x ∈ ]0, 1[. In Scilab erhält man nach Initialisierung durch den Aufruf rand(’u’) bei jedem Aufruf der Form x=rand() eine Zahl in ]0, 1[. Dies ist strenggenommen kein Zufallsexperiment. Wenn man den Algorithmus kennt, so lässt sich jede so erzeugte Zufallszahl exakt vorhersagen (es genügt, das Quellprogramm zu kennen!). Aber für viele Zwecke kann man mit diesen Zufallszahlen Zufallsexperimente simulieren, bei denen die Wahrscheinlichkeit für das Ereignis x ∈ ]a, b[ durch P (]a, b[) = b − a für 0 ≤ a < b ≤ 1 ist. Beachten Sie, dass auch hier die Wahrscheinlichkeit, dass die Zufallszahl einen genau festgelegten Wert annimmt, verschwindet, also beispielsweise P ({ 21 }) = 0. 1.3 Laplace-Modelle, Kombinatorik Für viele Ergebnisräume Ω mit endlich vielen Elementen ist das folgende Wahrscheinlichkeitsmaß ein sinnvolles Modell P (A) = |A| Zahl der Elemente in A = Zahl der Elemente in Ω |Ω| P heißt dann diskrete Gleichverteilung oder Laplace-Verteilung, das zugehörige Experiment Laplace-Experiment, das zugehörige Modell Laplace-Modell. Man hat jedoch sorgfältig zu überprüfen, ob die darin ausgedrückte völlige Gleichberechtigung aller Elemente des Grundraums wirklich berechtigt ist, wie das erste Beispiel zeigt. Beispiele: (a) Werfen von zwei Münzen (oder zweimaliges Werfen einer Münze). Wir bezeichnen die Ergebnismenge für eine Münze mit Ω = {W, Z} (für Wappen oder Zahl). Wir haben zwei verschiedene Varianten, das Zufallsexperiment durchzuführen, also streng genommen zwei verschiedene Zufallsexperimente mit zwei Münzen: (a) ohne Unterscheidung der beiden Münzen oder der Reihenfolge: ΩA = {(W, W )A , (W, Z)A , (Z, Z)A } (nach dem Mathematiker d’Alembert) (b) mit Unterscheidung der Münzen oder der Reihenfolge ΩL = {(W, W ), (W, Z), (Z, W ), (Z, Z)} (nach dem Mathematiker Laplace) Wenn man ohne Überlegung auf ΩA ein Laplace-Modell anwendet, dann erhält man für die Wahrscheinlichkeit, dass Wappen und Zahl geworfen wird, die falsche Wahrscheinlichkeit 31 . Die Ereignisse A = {(W, Z)A } und B = {(W, W )A } sind jedoch nicht gleichberechtigt, denn man erhält beim Vergleich der beiden Beschreibungen A = {(W, Z)A } = {(W, Z), (Z, W )}, 11 B = {(W, W )}A = {(W, W )} Also das eine Ereignis ist ein Elementarereignis bei der Beschreibung nach Laplace, das andere hat nach Laplace zwei Elemente! Die richtige Wahrscheinlichkeit, dass Wappen und Zahl geworfen wird, ist also P (A) = 1 2 Dies ist sinnvoll, weil es zwei Möglichkeiten für Wappen und Zahl gibt (erste Münze Wappen, zweite Münze Zahl und umgekehrt) dagegen nur eine Möglichkeit dafür, dass zweimal Wappen auftritt. Wenn man immer noch zweifelt, dann kann man in Gedanken das Experiment von zwei verschiedenen Beobachtern durchführen lassen, von denen der eine die beiden Münzen unterscheiden kann, (beispielsweise durch eine Spezialbrille) und der andere sie nicht unterscheiden kann. Der Ausgang des Zufallsexperiments sollte nicht von der Anwesenheit des Beobachters mit der Spezialbrille abhängen. Auf dem Grundraum ΩL ist also die Beschreibung durch ein LaplaceModell sinnvoll, auf dem Grundraum ΩA ist das sinnvolle Wahrscheinlichkeitsmaß durch 1 1 1 P {(W, W )A }) = , P {(W, Z)A }) = , P {(Z, Z)A }) = 4 2 4 gegeben. Die Beschreibung nach Laplace mit ΩL ist jedoch einfacher! (b) Würfeln mit drei Würfeln (oder dreimaliges Würfeln). Für einen Würfel haben wir den Grundraum Ω0 = {1, 2, 3, 4, 5, 6} und damit für drei Würfel Ω = Ω0 × Ω0 × Ω0 = {(i, k, l) | i, k, l ∈ Ω0 } Beachten Sie, dass wir das kartesische Produkt von Mengen so definiert haben, dass Tripel mit denselben Elementen und unterschiedlicher Reihenfolge als unterschiedliche Elemente anzusehen sind. Also ist hier (3, 2, 1) 6= (2, 3, 1) und unser Grundraum hat insgesamt 63 = 216 Elemente. Nach Laplace erhält jedes Elementarereignis die Wahrscheinlichkeit 1 P ({(i, k, l)}) = 216 1 Die Wahrscheinlichkeit, dreimal eine Sechs zu würfeln, ist also 216 . Das Ereignis, dass die Augenzahl 1, 2, 3 ohne Berücksichtigung der Reihenfolge gewürfelt wird, ist also die Teilmenge A = {(1, 2, 3), (1, 3, 2), (3, 1, 2), (2, 1, 3)(2, 3, 1)(3, 2, 1)} mit 6 Elementen und der Wahrscheinlichkeit P (A) = 6 216 = (1) 1 . 36 Das letzte Beispiel gibt Anlass zur Definition Definition 1.3.1 Eine Umordnung der Zahlen (1, 2, 3, 4, . . . n) (alle Zahlen verschieden!) in eine andere Reihenfolge heißt Permutation, genauer n-Permutation ohne Wiederholung. Mathematisch ist eine Umordnung“eine bijektive Abbildung von ” {1, 2, 3, 4, . . . n} → {1, 2, 3, 4, . . . n} Auch eine Umordnung von n verschiedenen Elementen einer Menge (z.B. n verschiedenen Buchstaben eines Alphabets) heißt Permutation. 12 Das letzte Beispiel legt die Frage nahe, wieviel Permutationen es gibt (in Abhängigkeit von n). In (1) sind alle 6 = 3 · 2 Permutationen für n = 3 aufgeführt. Aus einer beliebigen Permutation (i, k, l) für n = 3 erhält man für n = 4 die Permutationen (4, i, k, l), (i, 4, k, l), (i, k, 4, l), (i, k, l, 4) und man kann sich überzeugen, dass man aus allen Permutationen für n = 3 auf diese Weise alle 4 · 6 = 24 Permutationen für n = 4 erhält. Entsprechend erhält man aus einer beliebigen Permutation (i, k, l, m) für n = 4 die Permutationen für n = 5 (5, i, k, l, m), (i, 5, k, l, m), (i, k, 5, l, m), (i, k, l, 5, m), (i, k, l, m, 5) und man erhält auf diese Weise alle 5 · 4 · 3 · 2 = 5! = 120 Permutationen für n = 5. Wir erhalten so das Ergebnis (genauer Beweis durch vollständige Induktion): Satz 1.3.1 Für beliebiges n ∈ N existieren genau n! verschiedene Permutationen der Zahlen (1, 2, 3, 4. . . . n). weiteres Beispiel: (c) Lotto 6 aus 49. Die Lottozahlen werden nach dem Ziehen sortiert, die Reihenfolge beim Ziehen wird also nicht berücksichtigt. Der Grundraum ist hier Ω = {(k1 , k2 , k3 , k4 , k5 , k6 ) | 1 ≤ kl ≤ 49} und dem Ereignis A, dass die Lottozahlen (i1 < i2 < i3 < i4 < i5 < i6 ) betragen, entspricht also die Menge A = {(k1 , k2 , . . . k6 ) | (k1 , k2 , . . . k6 ) ist Permutation von (i1 < i2 < · · · < i6 )} mit 6! = 720 verschiedenen Elementen. 720 verschiedene Ziehungen führen also zu denselben Lottozahlen. Für die Ziehung der ersten Zahl k1 gibt es 49 Möglichkeiten, für die Ziehung von k2 gibt es 48 Möglichkeiten, für k3 47 Möglichkeiten. Für die Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge gibt es also insgesamt NR = 49 · (49 − 1) · (49 − 2) · (49 − 3) · (49 − 4) · (49 − 5) Möglichkeiten. Legt man ein Laplace-Modell zugrunde, so ist die Wahrscheinlichkeit für die Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge N1R . Das Ereignis A besteht aber aus 6! derartigen Elementen. Für das Ereignis Lottozahlen ” (i1 < i2 < i3 < i4 < i5 < i6 )“ erhalten wir also die Wahrscheinlichkeit P (A) = 6! 1 = 49 · (49 − 1) · (49 − 2) · (49 − 3) · · · (49 − 5) 13 983 816 Dies ist die Wahrscheinlichkeit, 6 Richtige im Lotto zu haben! 13 Zur Erinnerung: Die Binomialkoeffizienten n k sind durch ( 1 falls k = 0 n := n! falls 1 ≤ k ≤ n k k!(n − k)! definiert. Sie haben die Eigenschaften n n n n n = 1, = = n, = , n 1 n−1 k n−k n n n+1 + = k−1 k k Sie stehen in der n. Zeile des Pascal-Dreiecks an der k. Position von links, wenn man jeweils mit 0 anfängt zu zählen. Kürzen in der Definition liefert für k ≥ 1 n 1 · 2 · 3 · · · (n − k) · (n − k + 1) · · · n (n − k + 1) · (n − k + 2) · · · (n − 1) · n = = k k! · 1 · 2 · 3 · · · (n − k) k! n · (n − 1) · (n − 2) · · · (n − k + 1) = k! Wir erhalten also für die Wahrscheinlichkeit 6 Richtige beim Lotto“ ” 1 P (A) = 49 6 und allgemeiner für die Wahrscheinlichkeit, bei der zufälligen Auswahl von k Zahlen aus den Zahlen {1, 2, 3, . . . n} eine vorgegebene Menge A von k Zahlen zu erhalten P (A) = 1 n k allgemeinere Permutationen: Definition 1.3.2 M sei eine Menge mit n Elementen, beispielsweise M = {1, 2, 3, . . . n} und k ∈ N. Eine k-Permutation aus M mit Wiederholung ist ein k-Tupel (a1 , a2 , a3 , . . . ak ) mit ak ∈ M . Die Menge Ω der k-Permutationen aus M mit Wiederholung ist also Ω = Mk = M {z × · · · × M} | ×M ×M k mal d.h. das k-fache kartesische Produkt von M . Wenn k ≤ n, dann ist eine k-Permutation aus M ohne Wiederholung ein k-Tupel (a1 , a2 , a3 , . . . ak ) mit ak ∈ M und ai 6= ak für i 6= k Hinweise: (a) Beachten Sie, dass es bei k-Tupeln grundsätzlich auf die Reihenfolge der Elemente ankommt. (b) Es gibt nk k-Permutationen mit Wiederholung (das k-fache kartesische Produkt einer Menge mit n Elementen hat nk Elemente). 14 (c) Die Zahl der möglichen k-Permutationen ohne Wiederholung ist n · (n − 1) · (n − 2) · · · (n − k + 1) Für k = n spricht man von einer n-Permutation in Übereinstimmung mit Definition 1.3.1 und Satz 1.3.1. (d) Beim Ausmultiplizieren von (a + b)n = (a + b) · (a + b) · (a + b) · · · (a + b) {z } | n Faktoren entspricht die Zahl der Summanden an−k bk der Zahl der Möglichkeiten der Zie” hung“ von k Faktoren b aus den Klammern der gedachten Nummern 1, 2, . . . n ohne Berücksichtigung der Reihenfolge der Ziehung“. Dies erklärt das Auftauchen der ” Binomialkoeffizienten bei Problemen der Art der Ziehung von Lottozahlen. 1.4 Rechenregeln für Wahrscheinlichkeiten Aus den Grundregeln für die Wahrscheinlichkeit ergeben sich folgende enfache Rechenregeln: Satz 1.4.1 P sei ein Wahrscheinlichkeitsmaß über dem Grundraum Ω und A, B seien ein Ereignisse. Dann gilt (a) P (∅) = 0 (b) P (A) = 1 − P (A) (c) B ⊂ A =⇒ P (A \ B) = P (A) − P (B) und P (B) ≤ P (A) (d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B) Beweis: (a) ergibt sich aus Ω = Ω ∪ ∅. Anwendung der Grundregeln ergibt 1 = P (Ω) = P (Ω) + P (∅) = 1 + P (∅) und daraus folgt P (∅) = 0. (b) ergibt sich aus Ω = A ∪ A = A ∪ (Ω \ A). Anwendung der Grundregeln ergibt 1 = P (A) + P (Ω \ A) und damit P (Ω \ A) = P (A) = 1 − P (A) (c): Wenn B ⊂ A dann ist A = (A \ B) ∪ B. Die Mengen A \ B und B sind disjunkt, also hat man nach Grundregel (c) P (A) = P (A \ B) + P (B) und daraus ergibt sich P (A \ B) = P (A) − P (B) und P (A) ≥ P (B). (d): Hierfür benutzen wir die Identität A ∪ B = (A \ (A ∩ B)) ∪ (B \ (A ∩ B)) ∪ (A ∩ B) die man sich leicht an einem Venn-Diagramm klarmachen kann. Die drei Mengen auf der rechten Seite sind disjunkt (sie sind gerade so konstruiert). Aus (A ∩ B) ⊂ A folgt nach (c) P (A \ (A ∩ B)) = P (A) − P ((A ∩ B), analog folgt aus (A ∩ B) ⊂ B, dass P (B \ (A ∩ B)) = P (B) − P ((A ∩ B). Damit erhalten wir aus der obigen Mengenidentität P (A ∪ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B) = P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B) = P (A) + P (B) − P (A ∩ B) 15 Satz 1.4.2 (a) Wenn Ω aus endlich vielen Elementen besteht, also Ω = {ω1 , ω2 , ω3 , . . . ωn }, dann ist das Wahrscheinlichkeitsmaß durch die Wahrscheinlichkeiten der Elementarereignisse gegeben mit pk = P ({ωk }), 0 ≤ pk ≤ 1 und n X pk = 1 (2) k=1 erfüllen. Umgekehrt definieren beliebige Zahlen p1 , p2 , p3 , . . . pn , die (2) erfüllen, ein Wahrscheinlichkeitsmaß auf Ω. Die Wahrscheinlichkeit beliebiger Ereignisse ist durch k X P ({ωi1 , ωi2 , ωi3 . . . ωik }) = p il mit 1 ≤ k ≤ n l=1 gegeben. (b) Wenn Ω = {ω1 , ω2 , ω3 , . . .} aus einer Folge unendlich vieler Elemente besteht (also die Elemente von Ω durchnummeriert werden können), dann ist das Wahrscheinlichkeitsmaß analog durch pk = P ({ωk }) gegeben mit 0 ≤ pk ≤ 1 und ∞ X pk = 1 k=1 und umgekehrt definiert jede Folge pk , die diesen Bedingungen genügt, ein Wahrscheinlichkeitsmaß auf Ω. Hinweise: (a) Der Beweis ist leicht mit Hilfe der Grundregeln zu führen. (b) Man kann nachweisen, dass die reellen Zahlen und nichtleere Intervalle nicht die Eigenschaft haben, dass man ihre Elemente durchnummerieren kann! Definition 1.4.1 Wenn Ω die Voraussetzungen einer der beiden Teilaussagen des Satzes 1.4.2 erfüllt, dann heißt P diskretes Wahrscheinlichkeitsmaß und Ω heißt diskreter Wahrscheinlichkeitsraum. Wenn eine Menge unendlich viele Elemente hat und man die Elemente einer Menge durchnummerieren kann, dann sagt man, sie habe abzählbar (unendlich) viele Elemente. 2 2.1 Bedingte Wahrscheinlichkeit und Unabhängigkeit Definitionen und wichtige Folgerungen Beispiel: In einem Nachbarraum wird mit 2 Würfeln gewürfelt und es soll erraten werden, ob das Ereignis A eingetreten ist, dass mindestens eine 6 gewürfelt wurde. Um dieses etwas zu erleichtern, wird mitgeteilt, ob das Ereignis B eingetreten ist, dass die Augensumme mindestens 8 ist, oder ob dieses nicht der Fall ist. Wir haben also eine Wahrscheinlichkeit 16 Abbildung 2: Zwei Würfel, Ereignis A: Mindestens eine 6“ grau unterlegt, Ereignis B: ” Augensumme mindestens 8“ eingerahmt ” für das Ereignis A anzugeben, unter der Zusatzinformation, dass das Ereignis B eingetreten ist. Dabei ist der ursprüngliche Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3 . . . 6} und A = {(i, k) ∈ Ω | i = 6 oder k = 6}, B = {(i, k) ∈ Ω | i + k ≥ 8} Die Idee ist, dass wir aufgrund der Zusatzinformation, das Ereignis B ist eingetreten, den Grundraum verkleinern und als neuen Grundraum B wählen können. Dieser ist in Abb. 2 eingerahmt. Das Ereignis A ist in der Abb. 2 grau unterlegt. Um die Wahrscheinlichkeit des Ereignisses A unter der Bedingung B zu bestimmen, brauchen wir jetzt nur alle Elemente aus B abzuzählen, die zu A gehören (in der Abb. alle eingerahmten und grau unterlegten Elemente, also 9) und diese durch die Gesamtzahl aller Elemente von B (aller eingerahmten, also 15) zu dividieren. Einfaches Abzählen ergibt also als die gesuchte 9 = 35 . bedingte Wahrscheinlichkeit 15 Allgemein möchten wir, dass die bedingte Wahrscheinlichkeit von A unter der Bedingung B proportional zur ursprünglichen Wahrscheinlichkeit sein soll, wenn man sie auf B als neuem Grundraum einschränkt. Also haben wir als Ansatz für diese bedingte Wahrscheinlichkeit c · P (A ∩ B). Sie soll auf B ein Wahrscheinlichkeitsmaß sein. Die 1 . Dies motiviert die Normierungsbedingung ergibt dann sofort c · P (B) = 1, also c = P (B) folgende Definition: Definition 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und B ⊂ Ω ein Ereignis mit P (B) 6= 0. Dann ist die bedingte Wahrscheinlichkeit von A unter der Bedingung B durch P (A ∩ B) P (A|B) := P (B) definiert. Hinweise: (a) Für Elementarereignisse A = {ω} erhalten wir aus der Definition ( 0 falls ω 6∈ B P ({ω}|B) = P ({ω}) falls ω ∈ B P (B) 17 Die bedingte Wahrscheinlichkeit ist in diesem Fall dann größer als die ursprüngliche, wenn P (B) < 1 und P ({ω}) > 0. (b) Trivialerweise erhalten wir P (Ω|B) = 1. Aus der Definition ergibt sich sofort der Multiplikationssatz: Satz 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und seien A ⊂ Ω und B ⊂ Ω Ereignisse mit P (A) 6= 0 und P (B) = 6 0. Dann gilt P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A) Definition 2.1.2 Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn P (A ∩ B) = P (A) · P (B) Drei Ereignisse A, B, C heißen (stochastisch) unabhängig, wenn P (A ∩ B) = P (A) · P (B), P (A ∩ C) = P (A) · P (C), P (A ∩ B ∩ C) = P (A) · P (B) · P (C) P (B ∩ C) = P (B) · P (C) Die Ereignisse A1 , A2 , A3 . . . An heißen (stochastisch) unabhängig, wenn für alle Nummern i1 < i2 < i3 < · · · < ik mit k ≤ n gilt P (Ai1 ∩ Ai2 ∩ Ai3 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · P (Ai3 ) · · · P (Aik ) Hinweis: Wenn A und B unabhängig sind, dann ist P (A|B) = P (A), falls P (B) 6= 0, und P (B|A) = P (B) falls P (A) 6= 0, die bedingten Wahrscheinlichkeiten stimmen dann mit den ursprünglichen überein. Beispiel: Würfeln mit zwei Würfeln. A sei das Ereignis, dass die Augensumme ungerade ist und B sei das Ereignis, dass die Augenzahl beim 1. Würfel gerade ist. Eine einfache Überlegung oder Abzählen der Elemente in Abb. 2 ergibt 1 P (A) = , 2 1 P (B) = , 2 P (A ∩ B) = 1 4 Die beiden Ereignisse sind also unabhängig, obwohl anschaulich ein Zusammenhang“ des ” einen Ereignisses mit dem andern besteht. 2.2 Produktwahrscheinlichkeitsmaß Führt man zwei einzelne Zufallsexperimente mit den Grundräumen Ω1 und Ω2 und den Wahrscheinlichkeitsmaßen P1 und P2 , die sich nicht gegenseitig beeinflussen, gleichzeitig oder zeitlich nacheinander durch, so kann man dies auch als ein einziges Experiment beschreiben mit dem Grundraum Ω = Ω1 × Ω2 Beispielsweise wählen wir für das gleichzeitige Werfen einer Münze und eines Würfels den Grundraum Ω = {W, Z} × {1, 2, . . . 6} Als Ereignisse lässt man Teilmengen der Form A = A1 × A2 18 sowie Vereinigungen von Folgen derartiger Ereignisse sowie Komplementmengen derartiger Ereignisse zu, wobei mit A1 zugelassene Ereignisse in Ω1 und mit A2 zugelassene Ereignisse in Ω2 bezeichnet sind. Durch P (A) = P1 (A1 ) · P2 (A2 ) erhält man aus den Wahrscheinlichkeitsmaßen in Ω1 und Ω2 ein Wahrscheinlichkeitsmaß auf Ω, das man Produktwahrscheinlichkeitsmaß nennt. Im angegebenen Beispiel ist die Wahrscheinlichkeit, Wappen“ und 6 Augen“ zu erhalten ” ” 1 1 1 P ({W } × {6}) = P1 ({W }) · P2 ({6}) = · = 2 6 12 Bei dieser Beschreibung entspricht dem Ereignis: In Experiment 1 tritt A1 auf“ ohne ” Berücksichtigung von Experiment 2 die Teilmente A = A1 × Ω2 und entsprechend gehört zum Ereignis In Experiment 2 tritt Ereignis A2 auf“ ohne ” Berücksichtigung von Experiment 1 die Teilmenge B = Ω1 × A2 Derartige Ereignisse sind in der Tat unabhängig in Bezug auf das Produktwahrscheinlichkeitsmaß, denn P (A1 × A2 ) = P (A1 × Ω2 ) ∩ (Ω1 × A2 ) = P1 (A1 ) · P2 (A2 ) = P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 ) Für n nacheinander oder gleichzeitig durchgeführte unabhängige Zufallsexperimente wird analog vorgegangen. Beispiel: Bereits früher wurde das Zufallsexperiment Übertragen eines Bits über einen ” unzuverlässigen Kanal“ erwähnt (siehe Beispiel (c) in Abschnitt 1.2) mit Ω = {g, e}und g“ für korrekte Übertragung, e“ für Übertragungsfehler und 21 < P0 ({g}) < 1 für eine ” ” akzeptable Übertragung. In der Praxis überträgt man nicht 1 Bit sondern n Bits. Man wiederholt dieses Experiment also n mal. Ein entsprechendes Einzelexperiment (mit 2 möglichen Ausgängen) heißt Bernoulli-Experiment. Die n-fache Wiederholung eines Bernoulli-Experiments wird also durch das Produktwahrscheinlichkeitsmaß beschrieben mit Ω = {g, e}n und P (A1 × A2 × A3 × · · · × An ) = P0 (A1 ) · P0 (A2 ) · P0 (A3 ) · · · P0 (An ) Beispielsweise wird das Ereignis, dass nur beim 3. und 5. Bit ein Übertragungsfehler auftritt, durch A = (g, g, e, g, e, g, g, g . . . g) beschrieben, seine Wahrscheinlichkeit ist P (A) = p · p · (1 − p) · p · (1 − p) · p · p · p · · · p = pn−2 · (1 − p)2 Wenn bei einem derartigen Elementarereignis k Bits korrekt übertragen werden und bei (n − k) Bits ein Fehler auftritt, dann ist seine Wahrscheinlichkeit pk · (1 − p)n−k . In der 19 Praxis interessiert man sich meist nicht, bei welchen Bits die Fehler auftreten. Die Frage, wieviele derartige Elementarereignisse es gibt, also wieviele Möglichkeiten es gibt, k Bits aus insgesamt n Bits auszusuchen ohne Berücksichtigung der Reihenfolge des Aussuchens entspricht demselben Problem beim Lotto: Es sind nk Möglichkeiten. Wir haben also das für die Praxis wichtige Ergebnis: Die Wahrscheinlichkeit, k von n Bits fehlerfrei zu übertragen, ist n k n n−k PB (n, k) = p (1 − p) = pk (1 − p)n−k k n−k Als Zahlenwerte erhält man für p = 0, 99 und n = 1024 die Wahrscheinlichkeit für 5 Fehler 0,0331, für 10 Fehler 0,125, für 15 Fehler 0,0388. Wir werden uns später genauer mit diesem Ergebnis befassen. 2.3 Anwendungen von bedingten Wahrscheinlichkeiten Bei der Einführung der bedingten Wahrscheinlichkeit P (A|B) war diese in einem Beispiel berechnet worden, in dem die Wahrscheinlichkeiten P (Ak ) bekannt waren. In der Praxis ist es häufig umgekehr: Man kennt bedingte Wahrscheinlichkeiten und möchte daraus die Wahrscheinlichkeiten berechnen. Hierzu benutzt man eine Zerlegung des Grundraums in disjunkte Ereignisse und den folgenden Satz: Satz 2.3.1 Seien A1 , A2 , A3 . . . An Ereignisse mit Ω= n [ Ak k=1 mit P (Ak ) 6= 0 und Dann gilt für alle Ereignisse B n P P (Ak ) · P (B|Ak ) (a) P (B) = k=1 Ai ∩ Ak = ∅ für alle 1 ≤ i, k ≤ n mit i 6= k ( Formel von der totalen Wahrscheinlichkeit“) ” (b) Wenn P (B) 6= 0, dann gilt für alle k = 1, 2, 3, . . . n die Formel von Bayes“ ” P (Ak ) · P (B|Ak ) P (Ak |B) = P n P (Al ) · P (B|Al ) l=1 Beweis: (a) Die Regel (C ∪ D) ∩ E = (C ∩ E) ∪ (D ∩ E) kann man sich leicht an einem Venn-Diagramm klarmachen und durch eine Wahrheitstafel beweisen (siehe das 1. und 2. Übungsblatt zur Mathematik 1, Analysis). Man kann sie (Beweis durch vollständige Induktion) auf den Fall der Vereinigung von n Mengen verallgemeinern. Wir wenden sie hier an: n n X n S S P (B) = P (Ω ∩ B) = P Ak ∩ B = P (Ak ∩ B) = P (Ak ∩ B) k=1 = n X k=1 k=1 P (Ak ) · P (B|Ak ) Dabei wurde am Schluß Satz 2.1.1 benutzt. 20 k=1 (b) Nach Satz 2.1.1 gilt P (B) · P (Ak |B) = P (B|Ak ) · P (Ak ) und damit P (Ak |B) = P (B|Ak ) · P (Ak ) P (B) Ersetzt man den Nenner nach der Formel von der totalen Wahrscheinlichkeit durch die rechte Seite dieser Formel, dann erhält man die behauptete Formel von Bayes. Anwendungsbeispiele: Abbildung 3: Baumdiagramm zum Beispiel zur Formel von Bayes aus der Medizin (a) Bei vielen Krankheiten, die im Frühstadium ohne Symptome verlaufen, gibt es einen Früherkennungstest, meist durch eine Blutuntersuchung. Das hier angeführte Beispiel stammt von http://de.wikipedia.org/wiki/Bayes-Theorem Gehen wir davon aus, dass die Wahrscheinlichkeit, dass eine zufällig ausgesuchte Testperson an der Krankheit leidet, P (A) = 0, 0002 ist. B bezeichne das Ereignis, dass der Test für diese Person positiv verläuft. Der Hersteller des Tests versichert, dass die Wahrscheinlichkeit, dass der Test falsch positiv ist P (B|A) = 0, 01 beträgt und die Wahrscheinlichkeit, dass die Krankheit erkannt wird P (B|A) = 0, 99 Wie groß ist die Wahrscheinlichkeit P (B), dass der Test positiv verläuft? Wie groß ist die Wahrscheinlichkeit, dass die Testperson erkrankt ist, wenn der Test positiv verläuft? P (B) erhält man aus der Formel von der totalen Wahrscheinlichkeit, wenn man die Zerlegung Ω = A ∪ A = A ∪ (Ω \ A) 21 benutzt: P (B) = P (A) · P (B|A) + P (A) · P (B|A) ≈ 0, 0102 Aus der Formel von Bayes erhält man P (A|B) = P (A) · P (B|A) ≈ 0, 0194193 P (A) · P (B|A) + P (A) · P (B|A) Die Wahrscheinlichkeit, bei positivem Test tatsächlich erkrankt zu sein, ist recht klein. Man kann sich den entsprechenden Sachverhalt auch graphisch klarmachen mit Hilfe eines Baumdiagramms oder Ereignisbaumes wie in Abb. 3. Wir erhalten zunächst P (B) = P (positiv getestet) = P (krank) · P (positiv getestet | krank) +P (gesund) · P (positiv getestet | gesund) was mit der Anwendung der Formel von der totalen Wahrscheinlichkeit identisch ist. Aus der Definition bedingter Wahrscheinlichkeiten erhält man dann P (krank ∩ positiv getestet) P (positiv getestet) 0, 0002 · 0, 99 = ≈ 0, 0194193 0, 0002 · 0, 99 + 0, 9998 · 0, 01 P (krank|positiv getestet) = In der medizinischen Praxis sollte ein entsprechender Test viel besser sein! So liefert P (B|A) = 0, 0001 und P (B|A) = 0, 9999 bei gleichem P (A) den eher akzeptablen Wert P (A|B) ≈ 0, 667. Abbildung 4: Baumdiagramm für die Übertragung über einen unsicheren Kanal (b) Übertragung über einen unsicheren Kanal, genaueres Modell (siehe auch Abb. 4). Wir haben für das Senden ΩS = {0, 1} und für das Empfangen ΩE = {0, 1}, für beides also Ω = Ωs × ΩE . Das Ereignis, dass Null gesendet wird, ist also A0 = {0} × ΩE mit P (A0 ) = r0 und das Ereignis, dass Eins gesendet wird, ist A1 = {1} × ΩE mit 22 P (A1 ) = r1 = 1 − r0 denn A0 ∩ A1 = ∅ und Ω = A0 ∪ A1 . Als bekannt werden vorausgesetzt p0 = P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE ) p1 = P (0 empfangen|1 gesendet) = P (ΩS × {0}|{1} × ΩE ) Weil (ΩS × {0}) ∩ (ΩS × {1}) = ∅ und Ω = (ΩS × {0}) ∪ (ΩS × {1}) haben wir 1 − p0 = P (0 empfangen|0 gesendet) = P (ΩS × {0}|{0} × ΩE ) und analog 1 − p1 = P (1 empfangen|1 gesendet) = P (ΩS × {1}|{1} × ΩE ) Das Ereignis, dass ein Übermittlungsfehler auftritt, sei B = (0, 1), (1, 0) = ({0} × {1}) ∪ ({1} × {0}) Wir erwarten anschaulich P (B|A0 ) = P (Fehler|0 gesendet) = P (1 empfangen|0 gesendet) = p0 Dies ist in der Tat richtig, denn P (Fehler|0 gesendet) = P ({(0, 1), (1, 0)}|{0} × ΩE ) P {(0, 1), (1, 0)} ∩ ({0} × ΩE ) P ({(0, 1)} = = P ({0} × ΩE ) P ({0} × ΩE ) und P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE ) P (ΩS × {1}) ∩ ({0} × ΩE ) P ({(0, 1)} = = P ({0} × ΩE ) P ({0} × ΩE ) Analog erhält man P (B|A1 ) = P (Fehler|1 gesendet) = P (0 empfangen|1 gesendet) = p1 Nach der Formel für die totale Wahrscheinlichkeit erhalten wir somit P (B) = P (A0 ) · P (B|A0 ) + P (A1 )P (B|A1 ) = r0 · p0 + r1 · p1 Wir bezeichnen nun mit C0 das Ereignis, dass wir 0 empfangen, also C0 = Ωs × {0} Nach der Formel von Bayes erhält man für P (1 gesendet|0 empfangen) P (A1 ) · P (C0 |A1 ) P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 ) r1 p1 = r0 (1 − p0 ) + r1 p1 P (A1 |C0 ) = 23 und für P (0 gesendet|0 empfangen) P (A0 ) · P (C0 |A0 ) P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 ) r0 (1 − p0 ) = r0 (1 − p0 ) + r1 p1 P (A0 |C0 ) = Man kann die Formel von der totalen Wahrscheinlichkeit auch durch die folgende Regel über die Baumdiagramme ausdrücken, die man sich leicht anhand der Beispiele plausibel machen kann: Die totale Wahrscheinlichkeit eines Ereignisses erhält man aus dem Baumdiagramm, indem man über die Wahrscheinlichkeiten aller zu dem Ereignis führenden Pfade summiert. Die entlang der Pfade auftretenden Wahrscheinlichkeiten sind dabei zu multiplizieren. Die Formel von Bayes kann man entsprechend durch die Regel ausdrücken: Die bedingte Wahrscheinlichkeit P (Ak |B) erhält man aus dem Baumdiagramm, indem man die Wahrscheinlichkeit längs des Pfades über Ak nach B bestimmt (durch Multiplikation der entsprechenden Wahrscheinlichkeiten) und diese dann durch die Wahrscheinlichkeit dividiert, die sich nach der Formel für die totale Wahrscheinlichkeit für P (B) nach der entsprechenden Diagrammregel ergibt. 3 3.1 Zufallsvariable Beispiele, Verteilungsfunktion, Dichtefunktion Häufig interessiert man sich nicht für das ursprüngliche Zufallsexperiment, sondern für eine Funktion, die aus dem Ergebnis des Experiments berechnet wird. Beim Würfeln mit zwei Würfeln könnte dies die Augensumme beider Würfel sein. Man hat in diesem Fall den Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3, . . . 6} und die Funktion X : Ω → R, (ω1 , ω2 ) 7→ ω1 + ω2 Man kann dann nach der Wahrscheinlichkeit fragen, dass die Augensumme kleiner oder gleich 6 ist, also das Ereignis A = {ω ∈ Ω | X(ω) ≤ 6} betrachten (dieses Beispiel wird in den Übungen näher untersucht). Dies motiviert die folgende Definition: Definition 3.1.1 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Funktion X : Ω → R, ω 7→ X(ω) Zufallsvariable oder Zufallsgröße, wenn für alle Intervalle I die Menge {ω ∈ Ω | X(ω) ∈ I} 24 ein zugelassenes Ereignis ist. Man benutzt dann die folgenden Kurzschreibweisen {X = a} := {ω ∈ Ω | X(ω) = a} {X < a} := {ω ∈ Ω | X(ω) < a} und analoge Kurzschreibweisen für ≤, > und ≥. Hinweise: (a) Zuweilen werden allgemeinere Abbildungen mit der Definitionsmenge Ω und einer von R verschiedenen Menge als Zielmenge Zufallsvariable genannt und der Name Zufallsgröße bleibt den Abbildungen mit der Zielmenge R vorbehalten. Wir werden uns zunächst nicht mit solchen allgemeineren Abbildungen beschäftigen. (b) Um zu überprüfen, ob eine auf Ω definierte Funktion eine Zufallsvariable ist, genügt es festzustellen, dass {X ≤ b} für alle b ∈ R ein zugelassenes Ereignis ist. Denn wir können beispielsweise {a < X ≤ b} = {X ≤ a}c ∩ {X ≤ b} schreiben und durch die Vereinigung von Folgen von Intervallen mit einem Randpunkt erhält man Intervalle ohne den Randpunkt und umgekehrt erhält man durch den Durchschnitt von Intervallen ohne den Randpunkt Intervalle mit dem Randpunkt, wie das am Beispiel der Ereignisse für das Glücksrad erklärt wurde. Definition 3.1.2 Wenn wir R als Ereignisraum für ein Wahrscheinlichkeitsmaß ansehen, dann vereinbaren wir, dass zunächst alle Intervalle und dann alle Teilmengen, die aus bereits zugelassenen Ereignissen mit den in Definition 1.2.1 aufgeführten Operationen konstruiert werden können, als Ereignisse zugelassen sind. Also alle Teilmengen, die sich — wie in Definition 1.2.1 angegeben — mit Vereinigungen von Folgen von Teilmengen und Bildung des Komplements aus Intervallen konstruieren lassen, sind in R als Ereignisse zugelassen. Für in Ω definierte Zufallsvariable X und als Ereignisse zugelassene Teilmengen A ⊂ R vereinbaren wir die allgemeine Schreibabkürzung {X ∈ A} := {ω ∈ Ω | X(ω) ∈ A} Hinweis: Weil {a} = [a − 1, a] ∩ [a, a + 1], sind damit auch Teilmengen mit nur einem Element zugelassen; solche Ereignisse sind die Elementarereignisse in R. Die Definitionen 3.1.1 und 3.1.2 erlauben es nun, mit jeder Zufallsvariable ein Wahrscheinlichkeitsmaß in R einzuführen: Satz 3.1.1 Sei Ω ein Grundraum mit einem Wahrscheinlichkeitsmaß P und einer in Ω definierten Zufallsvariable X. Dann wird durch PX (A) := P {ω ∈ Ω | X(ω) ∈ A} = P {X ∈ A} für beliebige als Ereignisse zugelassenen Teilmengen A von R ein Wahrscheinlichkeitsmaß in R definiert. Dieses Wahrscheinlichkeitsmaß wird auch Verteilung oder Wahrscheinlichkeitsverteilung von X genannt. 25 Hinweise: (a) Beachten Sie, dass speziell für Intervalle A =]a, b] gilt PX ]a, b]) = P ({a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b} (b) Der Beweis ist leicht aufgrund der Definitionen zu führen, wenn man beachtet, dass für beliebige Ereignisse A, B ⊂ R gilt {X ∈ Ac } = {X ∈ A}c {X ∈ A ∪ B} = {X ∈ A} ∪ {X ∈ B} und Beispiele (a) Für einen Würfel mit dem Grundraum Ω = {1, 2, 3 . . . 6} haben wir die triviale Zufallsvariable Ω → R, ω 7→ ω. Wir erhalten das Wahrscheinlichkeitsmaß in R, das PX (A) = 1 · |A ∩ Ω| 6 für alle als Ereignis zugelassene Mengen A ⊂ R erfüllt. Dabei bezeichnet |A ∩ Ω| die Zahl der in A ∩ Ω enthaltenen Elemente. (b) Für das Würfeln mit zwei Würfeln und die Augensumme“ als Zufallsvariable X ” erhalten wir das Wahrscheinlichkeitsmaß 1 PX (A) = |{(ω1 , ω2 ) | ω1 + ω2 ∈ A}| 36 wobei auch hier |M | die Zahl der Elemente der Menge M bezeichnet. Weitere Einzelheiten dieses Beispiels werden in einer Übungsaufgabe behandelt. (c) Für das Glücksrad haben wir die triviale Zufallsvariable X : Ω = ] − π, +π] → R, ω 7→ ω und das Wahrscheinlichkeitsmaß PX (I) = 1 · l I∩ ] − π, +π] 2π für alle Intervalle I ⊂ R, wobei l(K) die Länge des Intervalls K bezeichnet. Ein Wahrscheinlichkeitsmaß auf R ist bereits dadurch gegeben, dass wir den Wert für Intervalle kennen, denn für Ereignisse, die aus Intervallen konstruiert sind, können wir die Wahrscheinlichkeit nach den Rechenregeln aus Definition 1.2.2 und Satz 1.4.1 berechnen. (d) Übertragung von n Bits über einen unzuverlässigen Kanal. Hier ist Ω = {g, e}n und wir betrachten bei festgehaltenem n die Gesamtzahl der Einzelereignisse g der fehlerfreien Übertragung in ω als Zufallsvariable X(Ω), also X(ω) = |{1 ≤ k ≤ n | ωk = g}| Wir haben bereits früher die Wahrscheinlichkeit (bei festgehaltenem n) n k n n−k p (1 − p) = pk (1 − p)n−k P {X = k} = k n−k berechnet. Wir werden uns später genauer mit diesem Beispiel beschäftigen. 26 (3) Für die Behandlung von Zufallsvariablen ist die folgende Definition von entscheidender Bedeutung: Definition 3.1.3 Sei X eine auf dem Grundraum Ω definierte Zufallsvariable. Dann heißt die Funktion FX : R → R, die durch FX (t) := P {X ≤ t} = P {ω ∈ Ω | X(ω) ≤ t} definiert ist, Verteilungsfunktion von X. Beispiele: Abbildung 5: Verteilungsfunktion für einen Würfel (a) Für die triviale Zufallsvariable bei einem Würfel erhalten wir die Verteilungsfunktion 0 falls t < 1 1 falls 1 ≤ t < 2 6 2 falls 2 ≤ t < 3 FX (t) = 6 .. .. . . 5 falls 5 ≤ t < 6 16 falls 6 ≤ t Diese Verteilungsfunktion ist in Abb. 5 grafisch dargestellt. (b) Für das Glücksrad erhalten wir die Verteilungsfunktion 0 falls t < −π 1 (t + π) falls −π ≤ t < π FX (t) = 2π 1 falls t ≥ π Diese ist in Abb. 6 gezeigt. 27 Abbildung 6: Verteilungsfunktion für das Glücksrad Folgende allgemeine Eigenschaften von Verteilungsfunktionen sind wichtig: Satz 3.1.2 Sei X eine Zufallsvariable und FX ihre Verteilungsfunktion. Dann gilt (a) FX ist monoton wachsend. (b) lim FX (t) = 0, lim FX (t) = 1. t→−∞ t→+∞ (c) lim FX (t) = FX (a) für alle a ∈ R (also FX ist rechtsseitig stetig). t→a+ (d) Für alle a < b gilt P {a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b} = FX (b) − FX (a) (e) Für alle a ∈ R gilt P {X = a} = P {ω ∈ Ω | X(ω) = a} = FX (a) − lim FX (t) t→a− Hinweise zum Beweis: • (a) und (b) folgen unmittelbar aus der Definition, für den Beweis von (c) und (e) muß man die Grundregel der Additivität für Folgen von disjunkten Ereignissen ausnutzen. • (d) ergibt sich aus {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b} und {X ≤ a} ∩ {a < X ≤ b} = ∅ 28 also P {X ≤ b} = P {X ≤ a} + P {a < X ≤ b} wegen der Grundregel der Additivität. Damit hat man FX (b) = FX (a) + P {a < X ≤ b} Das durch die Zufallsvariable X definierte Wahrscheinlichkeitsmaß ist durch die Verteilungsfunktion FX eindeutig bestimmt. Dies folgt unmittelbar aus Teilaussage (d). Wir haben sogar den Satz: Satz 3.1.3 Sei F : R → R eine Funktion, die die folgenden Bedingungen erfüllt: (a) F ist monoton wachsend (b) lim F (t) = 0, lim F (t) = 1 t→−∞ t→+∞ (c) lim F (t) = F (a) für alle a ∈ R t→a+ Dann gilt: Durch P (]a, b]) := F (b) − F (a) wird ein Wahrscheinlichkeitsmaß auf Ω = R definiert, das P {a} = FX (a) − lim FX (t) t→a− für alle a ∈ R erfüllt. Der Beweis ist elementar, man hat für kompliziertere Ereignisse A ⊂ R die Wahrscheinlichkeit P (A) gemäß den Rechenregeln aus Definition 1.2.2 und Satz 1.4.1 zu definieren. Abbildung 7: Verteilungsfunktion für die Lebensdauer eines elektronischen Bauelements Beispiel: Für die Lebensdauer eines elektronischen Bauteils erhalten wir mit einer vom Bauteil abhängigen Zeitkonstante τ > 0 ein sinnvolles Wahrscheinlichkeitsmaß durch die Verteilungsfunktion 0 falls t < 0 FT (t) = − τt 1−e falls t ≥ 0 Diese ist in Abb. 7 gezeigt. Die Wahrscheinlichkeit, dass die Lebensdauer T (die wir als Zufallsvariable auffassen können) im Intervall [a, b] liegt, ist also a b P {T ∈ [a, b]} = F (b) − F (a) = e− τ − e− τ 29 Da F stetig ist, haben wir hier P {T ∈ [a, b]} = P {T ∈]a, b]} = P {T ∈]a, b[} für alle a < b und P {T = a} = 0 für alle a ∈ R. Für Zufallsvariable, die auf diskreten Wahrscheinlichkeitsräumen definiert sind, die den Voraussetzungen einer der beiden Teilaussagen von Satz 1.4.2 genügen, haben wir das Ergebnis: Satz 3.1.4 (a) Sei Ω = {ω1 , ω2 , ω3 , . . . ωn }, und das Wahrscheinlichkeitsmaß sei durch pk = P ({ωk }), mit 0 ≤ pk ≤ 1 und n X pk = 1 k=1 gegeben und X sei eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion X FX (t) = pk k = 1, . . . n X(ωk ) ≤ t Sie besitzt an den Funktionswerten von X, also für t = X(ωk ) Sprungstellen und ist dort rechtsseitig stetig; die Differenz zwischen dem rechts- und dem linksseitigen Grenzwert ist pk . Zwischen diesen Sprungstellen ist FX (t) konstant. (b) Sei Ω = {ω1 , ω2 , ω3 , . . .} (also eine Folge unendlich vieler Elemente) und sei das Wahrscheinlichkeitsmaß durch pk = P ({ωk }) gegeben mit 0 ≤ pk ≤ 1 und ∞ X pk = 1 k=1 und sei X eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion X FX (t) = pk k∈N X(ωk ) ≤ t und sie hat dieselben Eigenschaften wie in Teilaussage (a) mit dem Unterschied, dass hier eine Folge unendlich vieler Sprungstellen in t = X(ωk ) vorliegt. Definition 3.1.4 Wir nennen eine Zufallsvariable X eine diskrete Zufallsvariable, wenn die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen Elementen besteht oder durchnummeriert werden kann (aus einer Folge von Elementen besteht, also abzählbar unendlich viele Elemente hat). Hinweise: (a) Beachten Sie, dass die Elemente eines reellen Intervalls [a, b] mit a < b nicht durchnummeriert werden können! (b) Wenn X eine diskrete Zufallsvariable ist, dann wissen wir nicht, ob der Grundraum Ω endlich viele oder abzählbar unendlich viele Elemente besitzt. Wir haben dennoch eine Situation, die analog zu der des Satzes 1.4.2 ist. Wir können die Menge der 30 möglichen Funktionswerte durchnummerieren und bezeichnen diese mit xk (k läuft von 1 bis n oder durchläuft ganz N). Wir definieren dann die Zahlen pk := P {X = xk } = P {ω ∈ Ω | X(ω) = xk } = PX (xk ) Weil Ω = ∞ S {ω ∈ Ω | X(ω) = xk }, haben wir k=1 1 = P (Ω) = P ∞ [ {ω ∈ Ω | X(ω) = xk } = k=1 ∞ X k=1 P {ω ∈ Ω | X(ω) = xk } = ∞ X pk k=1 Weiterhin gilt für alle Ereignisse A ⊂ R P (X ∈ A) = 0 wenn xk 6∈ A für alle k und insbesondere P {x} = 0 für alle x 6= xk und allgemeiner P (X ∈ A) = X pk k∈N xk ∈ A Die Verteilungsfunktion ist dann gegeben durch FX (t) = P {X ≤ t} = X pk k∈N xk ≤ t Wenn die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen Elementen besteht, dann hat die Verteilungsfunktion die Gestalt einer Treppen” funktion“ ähnlich wie beim Würfel (siehe Abb. 5); zwischen den Werten xk ist sie konstant, bei jedem xk macht sie einen Sprung um pk (sie ist dabei rechtsseitig stetig). Statt FX (t) kann man auch die Zahlen pk grafisch darstellen, dies erfolgt häufig als Balken- oder Stabdiagramm. Ein Beispiel für eine diskrete Zufallsvariable wurde als Beispiel (d) nach Satz 3.1.1 (Übertragung von n Bits über einen unzuverlässigen Kanal) angegeben. Diese Zufallsvariable X kann die Werte 0, 1, 2, . . . n annehmen, ist also eine diskrete Zufallsvariable (wir haben hier n + 1 mögliche Werte und müssen berücksichtigen, dass die Numerierung bei 0 anfängt). Die Zahlen pk = P {X = k} sind in Gleichung (3) angegeben. Aus dem binomischen Lehrsatz n P ergibt sich sofort, dass tatsächlich pk = 1. k=0 (c) Wenn die Verteilungsfunktion FX (t) in Gestalt einer Treppenfunktion“ vorliegt, ” dann sind die möglichen Werte {X(ω) | ω ∈ Ω} die Sprungstellen xk von FX (t) und die zugehörigen Wahrscheinlichkeiten ergeben sich aus der Höhe des Sprungs in xk : pk = P {X = xk } = FX (xk ) − lim FX (t) t→xk − 31 FX(t) p3 = 1 − p2 = p1 = p0 = 3 5 − 1 2 = 3 5 = 2 5 1 10 1 4 1 4 t Abbildung 8: Zur Bestimmung der Wahrscheinlichkeiten pk aus der Höhe der Sprünge“ ” der Verteilungsfunktion Beispiel: FX (t) = 0 1 4 1 2 3 5 1 falls falls falls falls falls führt auf x0 = 0, p0 = 14 , x1 = 1, p1 = p3 = 1 − 53 = 25 (siehe auch die Abb. 8). 1 , 4 t<0 0≤t<1 1≤t<2 2≤t<3 3≤t x2 = 2, p2 = 3 5 − 1 2 = 1 , 10 x3 = 3, (d) Wenn eine diskrete Zufallsvariable X die Werte x1 , x2 , x3 . . . xn annimmt und pk = P {X = xk } , dann heißt das n-tupel p1 , p2 , p3 . . . pn Verteilung von X. Die meisten Zufallsvariablen, die in der Praxis vorkommen, sind diskret oder erfüllen die in der folgenden Definition genannte Bedingung: Definition 3.1.5 Wenn eine Verteilungsfunktion einer Zufallsvariablen X die Eigenschaft hat, dass Zt FX (t) = f (u)du für alle t ∈ R (4) −∞ wobei die Funktion f stückweise stetig ist sowie f (t) ≥ 0 für alle t ∈ R und Z+∞ f (t)dt = 1 (5) −∞ erfüllt, dann heißt f (t) Wahrscheinlichkeitsdichte, Dichtefunktion oder Dichte. Wir werden dann sagen, die Zufallsvariable X besitzt eine Dichtefunktion. 32 Hinweise: (a) Wenn FX durch (4) gegeben ist und f (t) in einem Intervall ]a, b[ stetig ist, dann gilt zusätzlich nach dem Hauptsatz der Differential- und Integralrechnung FX0 (t) = f (t) für alle t ∈]a, b[ (b) Eine Verteilungsfunktion, die mit einer Dichte gemäß (4) gegeben ist, ist stetig. Das zugehörige Wahrscheinlichkeitsmaß erfüllt damit P {X = a} = 0 für alle a ∈ R (c) Wenn FX durch (4) gegeben ist, dann gilt P (a ≤ X ≤ b} = Zb f (x)dx a Dies folgt aus Satz 3.1.2 sowie Hinweis b). (d) Betrachten wir ein Intervall ]a, b[, in dem die Dichtefunktion stetig ist (wir haben vorausgesetzt, dass sie stückweise stetig ist). Nach Hinweis c) haben wir für die Wahrscheinlichkeit, dass X(ω) zwischen x0 und x0 + ∆x liegt P (x0 ≤ X ≤ x0 + ∆x} = x0Z+∆x f (x)dx x0 und falls a < x0 < x0 + ∆x < b haben wir für kleine Werte von ∆x die Näherung P (x0 ≤ X ≤ x0 + ∆x} ≈ f (x0 )∆x Diese Wahrscheinlichkeit ist also für genügend kleine ∆x näherungsweise proportional zur Länge des Intervalls ∆x mit einem Proportionalitätsfaktor f (x0 ). Dies begründet den Namen Dichte“. ” (e) Jede stückweise stetige und in ganz R definierte Funktion f (t), die die beiden Bedingungen Z+∞ f (t) ≥ 0 für alle t ∈ R und f (t)dt = 1 −∞ erfüllt, definiert durch Zt FX (t) := f (u)du für alle t ∈ R −∞ die Verteilungsfunktion einer Zufallsvariablen X. Wenn nur die Verteilungsfunktion FX (t) gegeben ist, dann kann man stets als Grundraum Ω = R wählen und durch P ]a, b] := FX (b) − FX (a) ein Wahrscheinlichkeitsmaß auf R definieren (siehe Satz 3.1.3). 33 (f) Zahlreiche Wahrscheinlichkeitsmaße der Praxis werden durch ihre Wahrscheinlichkeitsdichte charakterisiert. (g) Wenn umgekehrt eine Zufallsvariable X die Eigenschaft P {X = a} = 0 für alle a ∈ R hat, dann ist ihre Verteilungsfunktion FX (t) stetig (wegen Teilaussage (e) von Satz 3.1.2). Dies bedeutet jedoch nicht, dass notwendigerweise eine stückweise stetige (oder etwas allgemeinere vernünftige“) Dichtefunktion existiert, die die Vertei” lungsfunktion nach Gleichung (4) liefert. Allerdings scheinen derartige exotische Zufallsvariable, die zwar eine stetige Verteilungsfunktion FX (t) haben, aber keine Wahrscheinlichkeitsdichte besitzen, in praktischen Anwendungen recht selten vorzukommen. FX (t) !"ω# t ω Abbildung 9: Beispiel mit {X(ω) | ω ∈ Ω} = [0, 23 ] (links), zugehörige Verteilungsfunktion FX (t) (rechts) (h) Man könnte meinen, dass eine Zufallsvariable, bei der die Menge der möglichen Werte ein nichtleeres Intervall enthält, also bei der [a, b] ⊂ {X(ω) | ω ∈ Ω} mit a < b eine stetige Verteilungsfunktion oder gar eine Dichtefunktion besitzt. Dies ist nicht der Fall, wie das folgende Gegenbeispiel zeigt: Wir nehmen als Grundraum Ω = [0, 1] mit dem durch P (]a, b]) = b − a gegebenen Wahrscheinlichkeitsmaß. Als Zufallsvariable nehmen wir falls ω ∈ [0, 13 [ ω 1 falls ω ∈ [ 13 , 23 [ X(ω) = 3 ω − 31 falls ω ∈ [ 32 , 1] Diese Zufallsvariable ist in Abb. 9 (links) grafisch dargestellt. Offensichtlich ist 2 {X(ω) | ω ∈ Ω} = [0, ] 3 1 1 2 1 aber P {X = 3 } = P ([ 3 , 3 ]) = 3 und die Verteilungsfunktion FX (t) hat einen Sprung in t = 31 . Man kann sie explizit angeben (siehe auch Abb. 9 rechts): 0 falls t < 0 t falls t ∈ [0, 13 [ FX (t) = t + 13 falls t ∈ [ 13 , 32 [ 1 falls t ≥ 23 34 Beispiele: (a) Beim Glücksrad haben wir die Wahrscheinlichkeitsdichte 0 falls t ≤ −π oder t > π f (t) = 1 falls −π < t ≤ +π 2π Die konstante Dichte drückt aus, dass die Wahrscheinlichkeit über den Winkelbereich ] − π, π] gleichverteilt ist. Verteilungsfunktion FX (t) und Dichtefunktion f (t) sind in Abb. 10 gezeigt. Beachten Sie, dass f (t) nur unter dem Integral von Bedeutung ist. Damit kann der Funktionswert f (t) ohne irgendwelche Änderungen bei der Verteilungsfunktion FX (t) an einzelnen Punkten abgeändert werden. Man kann die Dichte beim Glücksrad also beispielsweise in t = −π abändern, indem man 1 setzt. An den Sprungstellen von f (t) in t = ±π ist FX (t) nicht f (−π) = 2π differenzierbar, außerhalb der Sprungstellen, d.h. für t 6= ±π gilt FX0 (t) = f (t). Abbildung 10: Verteilungsfunktion FX (t) und zugehörige Wahrscheinlichkeitsdichte f (t) für das Glücksrad (b) Bei der Lebensdauer von elektronischen Bauelementen haben wir die Dichte 0 falls t ≤ 0 f (t) = 1 − τt ·e falls t > 0 τ (6) Diese Dichte drückt aus, dass die Wahrscheinlichkeit für große Lebensdauern exponentiell abnimmt. Auch hier können wir ohne Auswirkung auf die Verteilungsfunktion FT (t) die Dichtefunktion abändern durch f (0) = τ1 . An der Sprungstelle t = 0 von f (t) ist FT (t) nicht differenzierbar, für t 6= 0 gilt FT0 (t) = f (t) (siehe auch Abb. 11). 35 T t Abbildung 11: Verteilungsfunktion FT (t) und zugehörige Wahrscheinlichkeitsdichte f (t) für die Lebensdauer von elektronischen Bauelementen (Zahlenwert τ = 5) 3.2 Erwartungswert und Varianz Definition 3.2.1 (a) Wenn X eine diskrete Zufallsvariable mit endlich vielen Werten xk ist, dann ist ihr Erwartungswert durch n n X X E(X) := P {X = xk } · xk = p k · xk (7) k=1 k=1 definiert. (b) Wenn X eine diskrete Zufallsvariable mit abzählbar unendlich vielen Werten xk ist, dann ist ihr Erwartungswert durch ∞ ∞ X X p k · xk (8) E(X) := P {X = xk } · xk = k=1 k=1 definiert, wenn diese Reihe absolut konvergent ist, d.h. ! n X lim pk · |xk | n→∞ k=1 existiert. (c) Wenn X eine Zufallsvariable mit stückweise stetiger Wahrscheinlichkeitsdichte f (x) ist, dann ist ihr Erwartungswert durch Z+∞ E(X) := f (x) · x dx (9) −∞ definiert, wenn dieses uneigentliche Integral absolut konvergent ist, d.h. Z+∞ f (x) · |x| dx < ∞ −∞ 36 Hinweise: (a) Der Erwartungswert wird hier nur für die in den Anwendungen fast ausschließlich vorkommenden Sonderfälle definiert. Eine allgemeinere Definition für beliebige Zufallsvariablen ist möglich, aber ihre Formulierung würde erheblichen Platz und erhebliche Zeit beanspruchen (b) Aus der absoluten Konvergenz einer Reihe folgt die Konvergenz der Reihe, aber umgekehrt gibt es konvergente Reihen, die konvergieren, aber nicht absolut konvergent ∞ P sind, z.B. die alternierende harmonische Reihe (−1)k+1 · k1 . Entsprechend folgt k=1 aus der absoluten Konvergenz eines uneigentlichen Integrals, dass das uneigentliche Integral selbst existiert (auch dabei ist die Umkehrung falsch). Es ist üblich und hat technische Vorteile, hier etwas mehr zu fordern, als für die bloße Existenz der in der Definition auftretenden unendlichen Reihe bzw. des uneigentlichen Integrals notwendig wäre. (c) Es gibt Zufallsvariable, für die der Erwartungswert nicht existiert (Beispiele in den Übungen und am Schluss dieses Unterabschnitts). Sie kommen in der Praxis jedoch recht selten vor. (d) Hier werden nicht immer die Gleichungen für den Fall endlich vieler Werte xk und abzählbar unendlich vieler xk getrennt aufgeschrieben, sondern es wird in vielen Fällen nur die allgemeinere Form (8) angeben. Wenn notwendig, erhält man daraus die Form (7), indem man pk = 0 für k > n setzt. Beispiele: (a) Bei einem Würfel ist Ω = {1, 2, . . . 6}, X(ω) = ω und P {X = k} = pk = alle k = 1, 2, . . . 6. Wir erhalten E(X) = 6 X k=1 pk · k = 6 X 1 k=1 6 ·k = 1 6 für 6 1 X 21 7 · k= = = 3, 5 6 k=1 6 2 Der Erwartungswert ist hier also einfach der Mittelwert. Man kann (7) auch als gewichteten Mittelwert ansehen. Eine andere Zufallsvariable führt hier zum selben Erwartungswert: X2 (1) = X2 (2) = X2 (3) = 3, X2(4) = X2 (5) = X2 (6) = 4 nimmt die Werte x1 = 3 und x2 = 4 mit p1 = P {X2 = 3} = 12 und p2 = P {X2 = 4} = 12 an und wir erhalten denselben Erwartungswert 1 1 7 E(X2 ) = P {X2 = 3} · 3 + P {X2 = 4} · 4 = · 3 + · 4 = 2 2 2 (b) Für das Glücksrad mit der auf ] − π, +π] konstanten Dichte haben wir Z+∞ Z+π 1 E(X) = f (x) · x dx = · x dx = 0 2π −π −∞ und wir haben tatsächlich den Mittelwert der möglichen Winkel erhalten. 37 (c) Bei der Lebensdauer eines elektronischen Bauelements haben wir die Dichtefunktion in (6) angegeben. Für den Erwartungswert erhalten wir hier Z∞ E(T ) = x ∞ 1 −x e τ x dx = −e− τ 0 − τ 0 Z∞ x ∞ x (−e− τ )dx = −τ e− τ 0 = τ 0 Die Zeitkonstante τ hat hier also die Rolle des Erwartungswertes der Lebensdauer. Bei zwei reellwertigen Funktionen können wir deren Summe dadurch definieren, dass wir die Funktionswerte addieren, entsprechendes gilt für das Vielfache einer Funktion. Dies ist für Zufallsvariable genauso möglich: Definition 3.2.2 Sei X eine Zufallsvariable, die im Ereignisraum Ω definiert ist und sei c ∈ R und sei g : R → R eine stückweise stetige Funktion. Dann wird definiert: c · X : Ω → R, |X| : Ω → R, g(X) : Ω → R, ω→ 7 c · X(ω) ω→ 7 |X(ω)| ω→ 7 g X(ω) Insbesondere für jede in ganz R definierte stetige Funktion g wird mit dieser Definition für jede Zufallsvariable X eine neue Zufallsvariable g(X) erklärt. Für deren Erwartungswert gilt der folgende Satz 3.2.1 Sei g : R → R stetig, X : Ω → R, ω 7→ X(ω) eine diskrete Zufallsvariable oder eine Zufallsvariable mit stückweise stetiger Dichtefunktion fX (t). Die Zufallsvariable Y sei durch Y = g(X) definiert und es sei ∞ X k=0 |g(xk )| · pX k <∞ Z+∞ |g(u)|fX (u)du < ∞ bzw. −∞ Dann gilt für den Erwartungswert ∞ X g(xk ) · pX E(Y ) = E g(X) = k k=1 wenn X eine diskrete Zufallsvariable mit pX k = P {X = xk } ist bzw. Z+∞ E(Y ) = E g(X) = g(u)fX (u)du −∞ wenn fX (u) die Dichtefunktion von X ist. Beweisskizze: (nur für den Fall einer diskreten Zufallsvariablen X) Wenn X diskret ist, dann ist auch Y = g(X) diskret. Wir bezeichnen die möglichen Werte von Y mit yl und definieren die Mengen Il := {k ∈ N | g(Xk ) = yl } 38 Falls g injektiv ist, enthält jede solche Menge genau ein Element, ansonsten kann sie mehrere, auch unendlich viele Elemente enthalten. Wir haben für alle vorkommenden l X X X P {Y = yl } = P {g(X) = yl } = P {X = xk } = pk k∈Il k∈Il Für den Erwartungswert gilt damit ∞ X E(Y ) = E g(X) = yl P {Y = yl } l=1 = ∞ X l=1 yl X k∈Il pX k = ∞ X X l=1 k∈Il g(xk )pX k = ∞ X g(xk )pX k k=1 Satz 3.2.2 Sei X eine diskrete Zufallsvariable oder eine Zufallsvariable mit stückweise stetiger Dichtefunktion, deren Erwartungswert E(X) existiert. Dann existiert der Erwartungswert der Zufallsvariablen aX + b und |X| und es gilt und E(aX + b) = aE(X) + b E(|X|) ≥ E(X) Der Beweis ist elementar und mit Hilfe der Rechenregeln für Summen, Reihen und Integrale leicht zu führen. E(|X|) existiert, weil bei der Definition des Erwartungswertes die absolute Konvergenz der Reihe bzw. des Integrals vorausgesetzt wurde. Der Erwartungswert gibt nur eine sehr eingeschränkte Information über X. So besagt E(X) = 0 nur, dass die Ereignisse X = x oder X ∈ [x, x+∆x] mit ihrer Wahrscheinlichkeit gewichtet, symmetrisch zum Ursprung liegen. Es ist aber auch von Interesse, wie sehr sie streuen: Definition 3.2.3 Sei X eine Zufallsvariable und sei µ := E(X), µ ∈ R (die Existenz des Erwartungswertes wird also vorausgesetzt). Dann wird die Varianz von X definiert als Var(X) := E (X − µ)2 wenn dieser Erwartungswert existiert. In diesem Fall wird die Streuung oder Standardabweichung von X als p σ(X) := Var(X) definiert. Hinweise: (a) Aufgrund der Definition ist klar, dass für alle Zufallsvariable, für die die Varianz existiert, Var(X) ≥ 0 gilt. (b) Für jede Zufallsvariable mit einer stückweise stetigen Wahrscheinlichkeitsdichte f (x) ist Z+∞ Var(X) = f (x)(x − µ)2 > 0 −∞ 39 wenn die Varianz existiert. Für eine diskrete Zufallsvariable ist ∞ X Var(X) = pk (xk − µ)2 k=1 und der Fall Var(X) = 0 kann nur auftreten, wenn für ein k die Wahrscheinlichkeit pk = P {X = µ} = 1 ist, das Wahrscheinlichkeitsmaß PX also trivial ist. (c) In den Anwendungen wird meist die Standardabweichung angegeben, da die Maßeinheit von X (Länge, Spannung, Stromstärke) und von σ(X) übereinstimmen. Satz 3.2.3 Sei X eine Zufallsvariable, für die Var(X) existiert, und seien a, b ∈ R. Dann existiert auch der Erwartungswert E(X 2 ) und es gilt: 2 Var(aX + b) = a2 Var(X) und Var(X) = E(X 2 ) − E(X) Beweisskizze: Sei µ := E(X). Wir haben (X − µ)2 = X 2 − 2µX + µ2 und damit muss 2 2 aufgrund von Satz 3.2.1 und Satz 3.2.2 auch E(X ) existieren, wenn E (X −µ) existiert. Aufgrund von Satz 3.2.2 gilt E(aX + b) = aE(X) + b = aµ + b 2 Var(aX + b) = E aX + b − E(aX + b) = E (aX + b − aµ − b)2 = E a2 (X − µ)2 = a2 E (X − µ)2 ) = a2 Var(X) Var(X) = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 2 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 = E(X 2 ) − E(X) Beispiele: (a) Bei einem Würfel war µ = Varianz erhält man Var(X) = 7 2 = E(X) = E(X2 ) (siehe das frühere Beispiel). Für die 6 X k=1 6 pk (k − µ)2 = 1 7 (3 − )2 + 2 2 Die beiden Zufallsvariablen haben also unterschiedliche Varianz. Var(X2 ) = 1X 7 35 (k − )2 = 6 k=1 2 12 1 7 1 1 1 1 1 (4 − ) = · + · = 2 2 2 4 2 4 4 denselben Erwartungswert, aber eine sehr (b) Beim Glücksrad haben wir 1 Var(X) = 2π Z+π 1 1 3 +π π 2 x2 dx = x = 2π 3 −π 3 −π (c) Bei der Lebensdauer eines elektronischen Bauelements haben wir Z∞ t 1 Var(T ) = (t − τ )2 e− τ dt = τ 2 τ 0 Also erhält man hier σ(T ) = τ (der Erwartungswert war ebenfalls E(T ) = τ ). 40 Anmerkungen: (a) Es gibt Zufallsvariable, für die kein Erwartungswert existiert. Wir betrachten als Beispiel die durch die Dichtefunktion ( 0 falls x < 1 f (x) = 1 falls x ≥ 1 x2 gegebene Verteilung. Der zugehörige Erwartungswert existiert nicht, weil das uneiR∞ nicht existiert. gentliche Integral dx x 1 (b) Wenn wir das gerade angegebene Beispiel etwas abändern, erhalten wir eine Verteilung, für die zwar E(X) existiert, aber E(X 2 ) nicht existiert. Wir betrachten die Dichtefunktion ( 0 falls x < 1 f (x) = 2 falls x ≥ 1 x3 Für die dadurch gegebene Verteilung existiert der Erwartungswert Z∞ 2 µ = E(X) = dx = 2 x2 1 aber die Varianz sowie E(X 2 ) existieren nicht, weil das uneigentliche Integral R∞ dx 1 nicht existiert. x (c) Wie die beiden vorangegangenen Beispiele zeigen, existiert der Erwartungswert nicht, wenn die Wahrscheinlichkeiten für große Werte von X nicht stark genug abfallen. Wir haben allgemein E(X 2 ) existiert =⇒ E(X) existiert Man erhält diese Aussage für diskrete Zufallsvariable durch eine Aufspaltung der Summe und mit Hilfe einer einfachen Abschätzung ∞ ∞ ∞ X X X X X pk x2k = 1 + E(X 2 ) pk |xk | = pk |xk | + pk |xk | ≤ pk + k=1 k=1 k=1 k∈N |xk | > 1 k∈N |xk | ≤ 1 und für Zufallsvariable mit Dichtefunktion, indem man analog das Integral aufspaltet: Z+∞ Z−1 Z+1 Z+∞ f (x) · |x| dx = f (x) · |x| dx + f (x) · |x| dx + f (x) · |x| dx −∞ −∞ ≤ Z−1 −1 f (x) · x2 dx + −∞ ≤ Z+∞ f (x) dx + −∞ −∞ 41 Z+∞ f (x) · x2 dx f (x) dx + −1 Z+∞ +1 Z+1 +1 f (x) · x2 dx = 1 + E(X 2 ) 3.3 Quantil und Median In vielen praktischen Beispielen gibt man eine Wahrscheinlichkeit vor, beispielsweise q = 0, 99 und fragt, für welches t ∈ R die Wahrscheinlichkeit P {X ≤ t} = FX (t) = q erfüllt. Die Frage lautet also, wie groß muss ich t wählen, damit mit Wahrscheinlichkeit q die Zufallsvariable X ≤ t erfüllt. Beispiel: Lebensdauermodell mit X = T und 0 falls t < 0 FT : R → [0, 1], t 7→ FT (t) = − τt falls t ≥ 0 1−e Es wird die Zeit t gesucht mit P {T ≤ t} = FT (t) = q = 0, 99. Wir erhalten die Lösung durch Auflösen der Gleichung t 1 − e− τ = q t nach t, also e− τ = 1 − q und damit − τt = ln(1 − q). Wir erhalten als Ergebnis: t = −τ · ln(1 − q) falls q ∈ ]0, 1[ Wenn FX (t) injektiv ist, dann wird die Aufgabe, zu gegebenem q ein t ∈ R mit FX (t) = q zu finden, durch die Umkehrfunktion gelöst. In der Wahrscheinlichkeitsrechnung ist eine besondere Sprechweise üblich: Definition 3.3.1 Sei X eine Zufallsvariable mit der Verteilungsfunktion FX (t) und einer stückweise stetigen Wahrscheinlichkeitsdichte und sei 0 < q < 1. Dann heißt eine Zahl xq ∈ R, die FX (xq ) = q erfüllt, Quantil der Ordnung q oder q-Quantil. Ein Quantil der Ordnung 1 2 heißt Median. Hinweise: (a) Aufgrund der Voraussetzung ist FX (t) stetig. Wenn FX injektiv ist (wie im obigen Beispiel), dann gilt xq = FX−1 (q) Wenn FX nicht injektiv ist, kann die Lösungsmenge von FX (xq ) = q bei vorgegebenem q ∈ ]0, 1[ ein Intervall sein (FX (t) ist monoton wachsend). Dann wird häufig der linke Randpunkt als Quantil ausgewählt, also der kleinstmögliche Wert. (b) Die obige Definition kann für nicht stetige Verteilungsfunktionen FX (t) verallgemeinert werden. Wenn FX (t) = q gar keine Lösung t ∈ R hat (bei einer Sprungstelle kann FX (t) über den Wert q hinwegspringen“), dann wird meist der Wert als Quan” til xq genommen, an dem FX von einem Funktionswert unterhalb von q auf einen Funktionswert oberhalb von q springt. In diesem Sonderfall haben wir lim FX (t) < q t→xq − und lim FX (t) = FX (xq ) > q t→xq + In allen Fällen kann man durch die Vorschrift xq = min{t ∈ R | FX (t) ≥ q} 42 (10) ein Quantil eindeutig auswählen (min bedeutet das Minimum). Das so gewählte Quantil xq erfüllt stets FX (xq ) ≥ q Wir vereinbaren hier, dass wir diesen Wert in all den Fällen, in denen FX (t) = q keine oder mehrere Lösungen hat, als das Quantil der Ordnung q ansehen. (c) Beim Würfel (siehe Abb. 5) ist xq = 5 das Quantil der Ordnung q = 0, 7. Denn FX (5) = 56 > 0, 7 und FX (t) ≤ 64 = 32 < 0, 7 für alle t < 5. (d) Die praktische Berechnung erfolgt meist durch ein entsprechendes Computerprogramm. In Scilab gibt es Funktionen zur Berechnung der Quantile für viele häufig vorkommenden Verteilungen. Ansonsten kann man die Gleichung FX (t) = q bzw. FX (t) − q = 0 mit fsolve lösen. (e) Wenn die Wahrscheinlichkeitsdichte fX (t) symmetrisch bezüglich dem Erwartungswert µ = E(X) ist, wenn also fX (µ + t) = fX (µ − t) für alle t ∈ R dann stimmt der Median m mit dem Erwartungswert µ überein (Übungsaufgabe!), i.a. ist er aber verschieden! (f) In vielen praktischen Fällen ist der Median m weniger empfindlich gegenüber Aus” reißern“ als der Erwartungswert µ. Dies wird durch das folgende Beispiel verdeutlicht. X1 sei gegeben durch 1 (1) pk = , 5 (1) xk = k für k = 1, 2, . . . 5 X2 sei gegeben durch (2) pk = 1 1 − , 5 10 000 (2) xk = k für k = 1, 2, . . . 5 mit einem unwahrscheinlichen Ausreißer“ ” 5 (2) (2) p6 = , x6 = 20 000 10 000 Wir haben für X1 1 µ1 = (1 + 2 + 3 + 4 + 5) = 3, 5 weil FX1 (2) = 2 1 < 5 2 und m1 = 3 FX1 (3) = 3 1 > 5 2 dagegen für X2 5 1 1 25997 µ2 = − (1 + 2 + 3 + 4 + 5) + · 20 000 = = 12, 9985 5 10 000 10 000 2000 bei unverändertem Median m2 = 3, weil FX2 (2) = 2 2 3998 1 − = < 5 10 000 10 000 2 und FX2 (3) = 43 3 3 5997 1 − = > 5 10 000 10 000 2 4 Spezielle Verteilungen Zur Erinnerung: Jede Zufallsvariable X : Ω → R definiert durch PX ]a, b] = P {a < X ≤ b} ein Wahrscheinlichkeitsmaß auf R, das Wahrscheinlichkeitsverteilung von X genannt wird. Wenn X eine diskrete Zufallsvariable ist, dann nennt man die zugehörige Verteilung auch eine diskrete Wahrscheinlichkeitsverteilung. In den Anwendungen kümmert man sich meist nicht so sehr um den Grundraum Ω, sondern um die Verteilung von Zufallsvariablen. Die Verteilung PX ist durch die Verteilungsfunktion FX (t) eindeutig gegeben, diskrete Verteilungen sind durch die Wahrscheinlichkeiten pk = P {X = xk } eindeutig bestimmt. Entsprechend sind Verteilungen mit Dichtefunktion durch ihre Wahrscheinlichkeitsdichte f (x) eindeutig festgelegt. Wir behandeln hier spezielle Verteilungen, die in der Praxis häufig vorkommen. 4.1 Binomialverteilung Mehrfach wurde auf das Beispiel der Übertragung von n Bits über einen unzuverlässigen Kanal hingewiesen. Betrachten wir etwas allgemeiner ein Zufallsexperiment mit 2 möglichen Ausgängen, das durch Ω = {0, 1} beschrieben werden kann. Häufig wird {1} als Erfolg“ (z.B. fehlerfreie Übertragung) und {0} als Mißerfolg“ (z.B. Übertragungsfehler) ” ” interpretiert. Jedes Wahrscheinlichkeitsmaß ist durch p := P {1} gegeben mit 0 ≤ 0 p ≤ 1. Dann ist aufgrund der Rechenregeln P0 {0} = 1 − p. Die n-fache Wiederholung (oder parallele Ausführung) von n unabhängigen derartigen Zufallsexperimenten heißt Bernoulli-Experiment, es wird durch Ω = Ω0 × Ω0 × Ω0 · · · Ω0 n-faches kartesisches Produkt von Ω0 mit dem Produktwahrscheinlichkeitsmaß P {ω} = P0 {ω1 } · P0 {ω2 } · P0 {ω3 } · · · P0 {ωn } beschrieben. Von Interesse ist die Zufallsvariable X, die die Zahl der Erfolge bei einem solchen n-fachen Experiment zählt, also in der hier angegebenen Schreibweise X(ω) = n X ωk k=1 Durch Analogie zum Lotto hatten wir bereits früher die zugehörige Wahrscheinlichkeitsverteilung herausgefunden, sie hat einen speziellen Namen: Definition 4.1.1 Sei n ∈ N. Dann heißt die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable X, die durch n k pk = P {X = k} = p (1 − p)n−k für k = 0, 1, 2, . . . n k gegeben ist, Binomialverteilung mit Parametern n und p. 44 Satz 4.1.1 Sei X eine diskrete Zufallsvariable und ihre Wahrscheinlichkeitsverteilung sei eine Binomialverteilung mit Parametern n und p. Dann gilt E(X) = n · p und Var(X) = n · p · (1 − p) Beweis der linken Identität: n n n X X X n k n! n−k pk (1 − p)n−k E(X) = k · pk = k· p (1 − p) = k· k!(n − k)! k k=0 k=0 k=0 = n X k=1 n·p· (n − 1)! pk−1 (1 − p)n−k (k − 1)!(n − k)! n−1 X n−1 X (n − 1)! n−1 i i n−i−1 = n·p p (1 − p) =n·p p (1 − p)n−1−i i !(n − i − 1)! i i=0 i=0 n−1 = n · p · p + (1 − p) =n·p Dabei wurde der Index gemäß i = k − 1 bzw. k = i + 1 umbenannt. Var(X) = E(X 2 ) − E(X)2 = n · p · (1 − p) kann man durch eine ähnliche Rechnung beweisen. Hinweis: Dass der Erwartungswert p = E(X) erfüllt, rechtfertigt die anschauliche Intern pretation der Wahrscheinlichkeit bei Bernoulli-Experimenten als relative Häufigkeit: Bei einer großen Zahl von Experimenten sollte die Zahl der Ereignisse dividiert durch die Gesamtzahl der Einzelexperimente annähernd mit der Wahrscheinlichkeit für das Einzelereignis übereinstimmen. Abbildung 12: Binomialverteilung mit den Parametern n = 1024 und p = 0, 01, links Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t) Beispiel: Kehren wir zurück zu unserem früheren Beispiel der Übertragung von n Bits über einen unzuverlässigen Kanal. Für eine grafische Darstellung ist es sinnvoll, die Notation zu wechseln und das Auftreten eines Übertragungsfehlers mit {1} zu bezeichnen, dessen Wahrscheinlichkeit p sehr klein ist (äquivalent zum früheren Zahlenbeispiel ist p = 0, 01). Wir hatten früher n = 1024 gewählt. Für diese Wahl erhalten wir als Erwartungswert für die Zahl der Fehler und als Standardabweichung p p E(X) = n · p = 10, 24; σ(X) = Var(X) = n · p · (1 − p) ≈ 3, 184 In Abb. 12 sind links die zugehörigen Wahrscheinlichkeiten pk in einem Stabdiagramm dargestellt, rechts ist die Verteilungsfunktion FX (t) gezeigt. 45 4.2 Poissonverteilung Die Poissonverteilung entsteht als Grenzwert einer Folge von Binomialverteilungen mit konstantem Erwartungswert. Betrachten wir hierfür eine Folge von Bernoulli-Experimenten, bei der die Gesamtzahl der Einzelexperimente n ist und die Wahrscheinlichkeit für das Einzelereignis pn = nµ immer kleiner wird, aber so, dass der Erwartungswert für die Anzahl des Auftretens des Erfolgs“ {1} gleich bleibt mit E(Xn ) = n · pn = µ. Wir ” erhalten mit Hilfe einiger Rechentricks n(n − 1)(n − 2) · · · (n − k + 1) k n k · pn (1 − pn )n−k P {Xn = k} = pn (1 − pn )n−k = k! k n(n − 1)(n − 2) · · · (n − k + 1) µ k µ −k µ n = · · 1− · 1− k! n n n k −k µ n µ n(n − 1)(n − 2) · · · (n − k + 1) µ · · 1 − = · 1 − k! nk n n Für die Grenzwerte der auftretenden Folgen für n → ∞ haben wir n(n − 1)(n − 2) · · · (n − k + 1) 2 k−1 1 · 1− ··· 1 − →1 =1· 1− nk n n n n µ −k (−µ) 1− → e−µ → 1, 1+ n n Damit erhalten wir das Ergebnis für die Folge von Binomialverteilungen pn = µ µk =⇒ lim P {Xn = k} = e−µ · n→∞ n k! Definition 4.2.1 Sei µ > 0. Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X, die für alle k ∈ N0 durch µk P {X = k} = pk = e−µ · k! gegeben ist, heißt Poisson-Verteilung mit Parameter µ. Satz 4.2.1 Sei X eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung die PoissonVerteilung mit Parameter µ > 0 ist. Dann gilt für Erwartungswert und Varianz E(X) = Var(X) = µ Beweis: E(X) = ∞ X k=0 = e −µ −µ µ k·e µ k! ∞ X µk k=0 k k! =e −µ ∞ ∞ ∞ X X X k k µk µk−1 −µ −µ µ =e =e µ k! (k − 1)! (k − 1)! k=1 k=1 k=1 = e−µ µeµ = µ 46 E(X 2 ) = ∞ X k=0 −µ = e k 2 · e−µ µ ∞ X k=1 −µ = e ∞ X µk−1 µk = e−µ µ k k! (k − 1)! k=1 (k − 1 + 1) ∞ X µk−1 µk−1 −µ µ +e µ (k − 1) (k − 1)! (k − 1)! k=1 k=1 = e−µ µ ∞ X µk−1 (k − 1)! ∞ ∞ X X µk µk = µ2 + µ k + e−µ µ k! k! k=0 k=0 Aufgrund von Satz 3.2.3 haben wir Var(X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ. Abbildung 13: Poissonverteilung mit dem Parameter µ = 10.24, links Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t). Der Parameter ist so gewählt, dass der Erwartungswert mit dem der Binomialverteilung in Abb. 12 übereinstimmt. Hinweis: Aufgrund des Ergebnisses, dass eine Folge von Binomialverteilungen mit pn = nµ gegen eine Poisson-Verteilung konvergiert, kann die Poisson-Verteilung auch als Näherung für eine Binomialverteilung mit großem n und kleinem p benutzt werden, wenn man den Parameter µ = n · p wählt. Dies ist in Abb. 13 verdeutlicht. Dort sind die Wahrscheinlichkeiten pk und die Verteilungsfunktion FX (t) einer Poissonverteilung gezeigt, wobei der Parameter µ = 10, 24 so gewählt wurde, dass der Erwartungswert mit dem der Binomialverteilung n · p in Abb. 12 übereinstimmt. Die Standardabweichung ist hier jedoch √ √ σ(X) = µ = n · p = 3, 2, also etwas größer (der Faktor (1 − p) fehlt hier). 4.3 Normalverteilung Definition 4.3.1 Sei µ ∈ R und σ > 0 und sei X eine Zufallsvariable, die die Wahrscheinlichkeitsdichte (x−µ)2 1 f (x) = √ · e− 2σ2 (11) σ 2π hat. Dann heißt die Wahrscheinlichkeitsverteilung von X Normalverteilung; man sagt, die Zufallsvariable X ist normalverteilt, und man schreibt symbolisch X ∼ N (µ, σ 2 ). Im 47 Sonderfall µ = 0 und σ = 1, also für die Dichtefunktion 1 2 1 ϕ(x) = √ · e− 2 x 2π (12) heißt die zugehörige Wahrscheinlichkeitsverteilung Standardnormalverteilung und man schreibt symbolisch X ∼ N (0, 1). Die zugehörige Verteilungsfunktion wird mit Zt Φ(t) = −∞ 1 ϕ(x)dx = √ 2π Zt 1 2 e− 2 x dx (13) −∞ bezeichnet. Hinweise: (a) Es ist bekannt, dass die Stammfunktion F (x) = Rx 2 2 e−t dt von f (x) = e−x nicht ex- 0 plizit durch bekannte elementare Funktionen ausgedrückt werden kann. Man kann sie aber numerisch problemlos ausrechnen (z.B. durch eine Potenzreihenentwicklung). Man kann allerdings, ohne numerische Approximationen zu Hilfe zu nehmen, überprüfen, dass die durch (13) definierte Dichtefunktion tatsächlich der Normierungsbedingung von Definition 3.1.5 genügt. Hierzu berechnet man +∞ 2 +∞ +∞ Z Z+∞ Z+∞ Z Z 2 2 2 2 2 −y −x −x e dy = e−(x +y ) dx dy = π e dx · e dx = −∞ −∞ −∞ −∞ −∞ nach den Rechenregeln für Mehrfachintegrale (Übergang zu Polarkoordinaten). Die ausführliche Rechnung steht im Anhang A.1, siehe insbesondere (51) bis (53). Damit erhält man Z+∞ √ 2 e−x dx = π (14) −∞ √ Mit der Substitution x = 2v kann man sich dann überzeugen, dass die durch (13) definierte Dichte tatsächlich der Normierungsbedingung genügt. Das Integral für den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man durch die Substitution u = x−µ auf σ den Sonderfall X ∼ N (0, 1) zurückführen. (b) Die Verteilungsfunktion (13) kann ebenfalls nicht durch bekannte elementare Funktionen ausgedrückt werden. In einigen Büchern ist sie direkt tabelliert. Häufig ist sie mit einer andern Funktion zu berechnen. Aus Symmetriegründen haben wir 1 √ 2π Z0 1 2 e− 2 x dx = Φ(0) = 1 2 −∞ und damit 1 1 Φ(t) = + √ 2 2π 48 Zt 0 1 2 e− 2 x dx Diese Gleichung ist auch √ für t < 0 gültig (Rechenregeln für die Integration). Durch die Substitution x = 2v erhalten wir √t Φ(t) = 1 1 +√ 2 π Z2 2 e−x dx 0 Die Fehlerfunktion (error function) ist durch 2 erf(t) := √ π Zt 2 e−x dx 0 definiert und steht in Scilab und MATLAB zur Verfügung. In Mathematica ist diese Funktion durch Erf[t] aufzurufen. Damit kann die Verteilungsfunktion mit t 1 1 Φ(t) = + · erf √ 2 2 2 berechnet werden. Es muß jedoch davor gewarnt werden, dass die Konventionen hinsichtlich der Definition der Fehlerfunktion unterschiedlich sind. (c) Aus erf(−t) = − erf(t) folgen die nützlichen für alle t ∈ R gültigen Rechenregeln Φ(t) − Φ(−t) = 2Φ(t) − 1 Φ(−t) = −Φ(t) + 1 (15) (16) (d) Den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man erneut durch die Substitution u = x−µ σ auf den Sonderfall X ∼ N (0, 1) zurückführen. Damit erhält man für die Verteilungsfunktion Zt t−µ Zσ 1 2 1 e dx = √ e− 2 u du = Φ 2π −∞ −∞ t−µ 1 1 √ + · erf = 2 2 σ 2 1 √ FX (t) = σ 2π (x−µ)2 − 2σ 2 t−µ σ (e) Die Normalverteilung ist eine der wichtigsten Verteilungen in der Praxis. Dies liegt darin begründet, dass sie in sehr allgemeinen Situationen als Grenzwert auftritt (zentraler Grenzwertsatz, wird später behandelt). Sie stellt daher in vielen praktischen Anwendungen eine gute Näherung an die vorliegende unbekannte Verteilung dar. (f) Für einige Parameter ist die Dichtefunktion und die Verteilungsfunktion der Normalverteilung in Abb. 14 grafisch dargestellt. Die Abbildungen stammen von http://en.wikipedia.org/wiki/Normal_distribution Satz 4.3.1 Sei X eine normalverteilte Zufallsvariable, also X ∼ N (µ, σ 2 ). Dann gilt: (a) E(X) = µ, Var(X) = σ 2 . 49 Abbildung 14: Normalverteilung, links Dichtefunktionen f (x), rechts die zugehörigen Verteilungsfunktionen für verschiedene Parameter µ und σ (b) Die Wahrscheinlichkeitsverteilung der Zufallsvariable U := X −µ σ ist die Standardnormalverteilung, also U ∼ N (0, 1). (c) Es gilt P {a ≤ X ≤ b} = Φ b−µ σ −Φ a−µ σ Hinweise zum Beweis: (a) beweist man durch Integration mit geeigneten Substitutionen und partieller Integration unter Beachtung von (14). (b) Wegen { X−µ ≤ t} = {X ≤ tσ + µ} gilt für die Verteilungsfunktion (Substitution σ u = x−µ ) σ tσ+µ Z (x−µ)2 1 FU (t) = √ e− 2σ2 dx = Φ(t) σ 2π −∞ Da die Wahrscheinlichkeitsverteilung durch die Verteilungsfunktion eindeutig gegeben ist, folgt U ∼ N (0, 1). (c) folgt aus Satz 3.1.3. Hinweis zur Standardabweichung: Wegen Var(X) = σ 2 gilt für die Standardabweichung σ(X) = σ. Aufgrund von Teilaussage (c) gilt P {µ − σ ≤ X ≤ µ + σ} = Φ(1) − Φ(−1) ≈ 0, 6826895 P {µ − 2σ ≤ X ≤ µ + 2σ} = Φ(2) − Φ(−2) ≈ 0, 9544997 P {µ − 3σ ≤ X ≤ µ + 3σ} = Φ(3) − Φ(−3) ≈ 0, 9973002 50 Eine normalverteilte Messgröße wird in den technischen Anwendungen daher oft in der Form µ ± σ angegeben, wobei σ als der Messfehler angesehen wird. In der Praxis hat man oft auch die umgekehrte Fragestellung. Man sucht v ∈ R mit P {µ − v · σ ≤ X ≤ µ + v · σ} = Φ(v) − Φ(−v) = 2Φ(v) − 1 = p mit vorgegebenem p ∈ ]0, 1[, beispielsweise p = 0, 8. Man sucht also das Intervall [µ − v · σ, µ + v · σ], in dem die Zufallsvariable X mit vorgegebener Wahrscheinlichkeit p liegt. Hierzu ist 1 Φ(v) = (p + 1) 2 aufzulösen nach v. Da Φ(t) injektiv ist, kommt hier die Umkehrfunktion ins Spiel. In der Wahrscheinlichkeitsrechnung ist eine besondere Sprechweise üblich, die bereits in Abschnitt 3.3 eingeführt wurde. Das gesuchte v ist das Quantil der Ordnung q = 12 (p + 1) der Standardnormalverteilung. Dieses ist beispielsweise durch cdfnor("X",0,1,q,1-q) in Scilab erhältlich. Für das Beispiel p = 0, 8 erhält man v ≈ 1, 282, also P {µ − 1, 3 · σ ≤ X ≤ µ + 1, 3 · σ} ≈ 0, 8 5 Mehrere Zufallsvariable mit demselben Grundraum Hier werden Mehrfachintegrale benötigt. Da diese in der Mathematik-Lehrveranstaltung nicht behandelt werden, werden diese im Anhang A behandelt. Dieser ist zum Verständnis dieses Abschnitts notwendig. 5.1 Zwei Zufallsvariable mit demselben Grundraum Wir betrachten hier Paare von Zufallsvariablen X1 , X2 , die auf demselben Grundraum definiert sind. Definition 5.1.1 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind. Dann wird definiert X + Y : Ω → R, X≥Y ⇐⇒ ω 7→ X(ω) + Y (ω) X(ω) ≥ Y (ω) für alle ω∈Ω Durch die Zuordnungsvorschrift ω 7→ X1 (ω), X2 (ω) wird jedem Element des Grundraums Ω ein Punkt der Ebene zugeordnet, wir haben also eine Abbildung von unserem Grundraum Ω in R2 . Mit diesem Paar von Zufallsvariablen können wir dann Wahrscheinlichkeiten in R2 definieren. Beispielsweise können wir dem Rechteck [a, b] × [c, d] die Wahrscheinlichkeit P(X1 ,X2 ) ([a, b] × [c, d]) := P {X1 ∈ [a, b]} ∩ {X2 ∈ [c, d]} (17) zuordnen. 51 Wir vereinbaren analog zur Kurzschreibweise, die wir in Definition 3.1.2 eingeführt haben, für Teilmengen A ⊂ R2 die Schreibweise o n (18) (X1 , X2 ) ∈ A := (ω1 , ω2 ) ∈ Ω × Ω X1 (ω1 ), X2 (ω2 ) ∈ A Mit dieser Abkürzung können wir mit A = [a, b] × [c, d] für (17) auch schreiben P(X1 ,X2 ) (A) := P {(X1 , X2 ) ∈ A} (19) Wir müssen noch klären, welche Teilmengen von R2 wir als Ereignisse zulassen. Wie bei R selbst ist es leider nicht möglich, alle Teilmengen von R2 als Ereignisse zuzulassen. Wir gehen hier pragmatisch vor und lassen — analog zu Definition 3.1.2 alle Rechtecke (mit oder ohne Rand, auch unendlich ausgedehnte Rechtecke) zu. Weiterhin lassen wir alle Teilmengen zu, die wir durch die in Definition 3.1.2 genannten Operationen (Bildung des Komplements, Vereinigung von Folgen) aus zugelassenen Teilmengen bilden können. Damit ist tatsächlich durch (17) ein Wahrscheinlichkeitsmaß in R2 definiert. Man kann zeigen, dass damit alle vernünftigen“ Teilmengen von R2 zugelassene Ereignisse sind. Als Beispiele sind einzelne Punkte (x1 , x2 ) sowie Kurven, Dreiecke und Kreise zu nennen. Bei Kreisen hat man beispielsweise Vereinigungen von Folgen immer kleiner werdender Rechtecke zu bilden. Mit Hilfe jedes Paares von Zufallsvariablen können wir die durch (17) definierte Wahrscheinlichkeit auf beliebige zugelassene Ereignisse in R2 ausdehnen, indem wir vereinbaren, dass für aus Intervallen konstruierte Ereignisse die Rechenregeln für Wahrscheinlichkeiten anzuwenden sind. Wir hatten für Paare von Ereignissen den wichtigen Begriff der stochastischen Unabhängigkeit behandelt. Hier wird dieser auf Paare von Zufallsvariablen verallgemeinert: Definition 5.1.2 Seien X1 und X2 : Ω → R Zufallsvariable (die auf demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 und X2 , stochastisch unabhängig, wenn für alle in R als Ereignis zugelassenen Teilmengen A1 ⊂ R und A2 ⊂ R gilt P {X1 ∈ A1 } ∩ {X2 ∈ A2 } = P {X1 ∈ A1 } · P {X2 ∈ A2 } Hinweise: (a) Die Zufallsvariablen X1 , X2 sind genau dann stochastisch unabhängig, wenn beliebige Ereignisse der Art {X1 ∈ A1 }, {X2 ∈ A2 } stochastisch unabhängig nach Definition 2.1.2 sind. (b) Wenn I1 und I2 Intervalle sind, dann ist P {X1 ∈ I } ∩ {X ∈ I } die Wahr1 2 2 scheinlichkeit, dass der durch ω 7→ X1 (ω), X2 (ω) gegebene Punkt im Rechteck I1 × I2 liegt. Wenn X1 und X2 unabhängig sind, dann ist diese Wahrscheinlichkeit das Produkt der Einzelwahrscheinlichkeiten: P {X1 ∈ I1 } ∩ {X2 ∈ I2 } = P {X1 ∈ I1 } · P {X2 ∈ I2 } Dies kann aber beispielsweise nicht der Fall sein, wenn dieser Punkt mit ganz hoher Wahrscheinlichkeit nahe der Hauptdiagonalen x1 = x2 liegt. 52 Beispiel: Zwei Würfel mit Ω0 = {1, 2, . . . 6}, Ω = Ω0 × Ω0 . Sei X1 die Augenzahl des ersten, X2 die des zweiten Würfels. Dann sind X1 und X2 stochastisch unabhängig. Weiterhin betrachten wir die Summe Xs = X1 + X2 und die Differenz Xd = X1 − X2 der Augenzahlen. Nun ist P {Xs = 12} ∩ {Xd = 5} = 0, 1 1 und P {Xd = 5} = aber P {Xs = 12} = 36 36 wie man sich leicht an Abb. 2 klarmachen kann. Also sind Xs und Xd nicht unabhängig. Bei der Untersuchung von Zufallsvariablen haben wir in R nicht direkt die Wahrscheinlichkeiten von Intervallen und daraus konstruierten Teilmengen studiert, sondern die Verteilungsfunktion benutzt. Hier wird analog vorgegangen: Definition 5.1.3 Seien X1 und X2 auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch F (x1 , x2 ) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 } definiert. Hinweise: (a) Weil P (X1 , X2 ) ∈ R2 = 1, haben wir für gemeinsame Verteilungsfunktionen das asymptotische Verhalten lim lim F (x1 , x2 ) = lim lim F (x1 , x2 ) = 1 x1 →∞ x2 →∞ x2 →∞ x1 →∞ und aus P (∅ = 0) folgt lim F (x1 , x2 ) = lim F (x1 , x2 ) = 0 x1 →−∞ x2 →−∞ (b) Bezeichnen wir die Verteilungsfunktionen der beiden Zufallsvariablen mit FX1 (t) und FX2 (t), so erhalten wir FX1 (t) = lim F (t, x2 ) x2 →∞ und FX2 (t) = lim F (x1 , t) x1 →∞ In diesem Zusammenhang werden die beiden Verteilungsfunktionen FX1 (t) und FX2 (t) Randverteilungsfunktionen“ genannt. Diese Sprechweise kommt von der No” tation der Wahrscheinlichkeiten bei Paaren von diskreten Zufallsvariablen in Tabellen, die in einem später behandelten Beispiel verwandt wird (siehe Tabelle 1). (c) Mit der in (19) definierten Schreibweise gilt für die gemeinsame Verteilungsfunktion F (x1 , x2 ) = P(X1 ,X2 ) ] − ∞, x1 ]×] − ∞, x2 ] und damit ist sie monoton wachsend in beiden Variablen, d.h. für alle h > 0 und x1 , x2 ∈ R gilt F (x1 + h, x2 ) ≥ F (x1 , x2 ) und 53 F (x1 , x2 + h) ≥ F (x1 , x2 ) (d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in beiden Variablen, d.h. für alle x1 , x2 ∈ R gilt lim F (x1 + h, x2 ) = F (x1 , x2 ) h→0+ und lim F (x1 , x2 + h) = F (x1 , x2 ) h→0+ Beispiel: Gleichverteilung auf dem Einheitsquadrat“, siehe Abb. 15) ” 0 falls x1 < 0 oder x2 < 0 x1 · x2 falls 0 ≤ x1 ≤ 1 und 0 ≤ x2 ≤ 1 F (x1 , x2 ) = x1 falls 0 ≤ x1 ≤ 1 und x2 > 1 x2 falls x1 > 1 und 0 ≤ x2 ≤ 1 1 falls x1 > 1 und x2 > 1 Abbildung 15: gemeinsame Verteilungsfunktion F (x1 , x2 ) für die Gleichverteilung auf ” dem Einheitsquadrat“ Satz 5.1.1 Seien FX1 (t) und FX2 (t) die Verteilungsfunktionen der auf demselben Grundraum Ω definierten Zufallsvariablen X1 und X2 und sei F (x1 , x2 ) die gemeinsame Verteilungsfunktion dieser Zufallsvariablen. Dann gilt: X1 und X2 sind genau dann stochastisch unabhängig, wenn F (x1 , x2 ) = FX1 (x1 ) · FX2 (x2 ) für alle (x1 , x2 ) ∈ R2 gilt. Der Beweis ist elementar. Beispiel: Für die Gleichverteilung auf dem Einheitsquadrat“ gilt ” F (x1 , x2 ) = FX1 (x1 ) · FX1 (x2 ) mit 0 FX1 (t) = FX2 (t) = t 1 54 falls t < 0 falls 0 ≤ t ≤ 1 falls t > 1 Satz 5.1.2 Seien X und Y auf demselben Grundraum Ω definierte diskrete Zufallsvariable mit den Werten xi und yk . Dann sind X und Y genau dann stochastisch unabhängig, wenn P {X = xi } ∩ {Y = yk } = P {X = xi } · P {Y = yk } für alle als Werte auftretenden xi und yk gilt. Der Beweis ist ebenfalls elementar. Wenn die diskreten und auf demselben Grundraum definierten Zufallsvariablen X und Y die Werte x1 , x2 , x3 , . . . xm und y1 , y2 , y3 , . . . yn haben, dann kann man die Wahrscheinlichkeiten qik := P {X = xi } ∩ {Y = yk } zu einer Matrix Q oder in Form einer Tabelle zusammenfassen. Diese Matrix von Wahrscheinlichkeiten wird dann gemeinsame Verteilung der Zufallsvariablen X und Y genannt. Weil Ω = {X = x1 } ∪ {X = x2 } ∪ {X = x3 } ∪ · · · {X = xm } erhalten wir P {Y = yk } = P Ω ∩ {Y = yk } = q1k + q2k + q3k + · · · qmk Wir erhalten also durch Addition der in der k. Spalte der Matrix stehenden Zahlen die Wahrscheinlichkeit pYk = P {Y = yk } . Analog erhalten wir P {X = xi } = P {X = xi } ∩ Ω = qi1 + qi2 + qi3 + · · · qin demnach ergibt die Summe der in der i. Zeile stehenden Zahlen die Wahrscheinlichkeit X pi = P {X = xi } . Da die Summen der Zeilen und Spalten in Tabellen häufig am Rand Y notiert werden, heißen die Verteilungen pX i und pk Randverteilungen. Nach Satz 5.1.2 sind also X und Y genau dann stochastisch unabhängig, wenn für die Y Matrixelemente von Q gilt qik = pX i · pk . Für den k. Spaltenvektor von Q gilt dann q1k pX 1 q2k pX 2 .. = pYk · .. . . qmk pX m Wir haben also hier den Satz 5.1.3 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind. Wir nehmen an, dass X die Werte x1 , x2 , x3 , . . . xm und Y die Werte y1 , y2 , y3 , . . . yn annimmt. Die (m × n)-Matrix Q sei durch qik := P {X = xi } ∩ {Y = yk } definiert. Dann sind X und Y genau dann stochastisch unabhängig, wenn die Matrix Q den Rang 1 hat. 55 Für das schon mehrfach behandelte Beispiel von zwei Würfeln mit den Zufallsvariablen X1 (Augenzahl des 1. Würfels), X2 (Augenzahl des 2. Würfels) sowie Xs = X1 + X2 und Xd = X1 − X2 sind die gemeinsame Verteilung von Xs und Xd und die beiden Randverteilungen in Tabelle 1 dargestellt. Die dort angegebenen Wahrscheinlichkeiten erhält man leicht, indem man beachtet, dass die Elemente des Grundraums für 2 Würfel wie in Abb. 2 als Matrix dargestellt werden können. Die Diagonalen parallel zur Hauptdiagonale liefern die Ereignisse {Xd = k}, die Diagonalen in der anderen Richtung liefern die Ereignisse {Xs = i}. Xs Xd P 2 3 4 5 6 7 8 9 10 11 12 −5 0 0 0 0 0 1 36 0 0 0 0 0 1 36 −4 0 0 0 0 1 36 0 1 36 0 0 0 0 2 36 −3 0 0 0 1 36 0 1 36 0 1 36 0 0 0 3 36 −2 0 0 1 36 0 1 36 0 1 36 0 1 36 0 0 4 36 −1 0 1 36 0 1 36 0 1 36 0 1 36 0 1 36 0 5 36 0 1 36 0 1 36 0 1 36 0 1 36 0 1 36 0 1 36 6 36 1 0 1 36 0 1 36 0 1 36 0 1 36 0 1 36 0 5 36 2 0 0 1 36 0 1 36 0 1 36 0 1 36 0 0 4 36 3 0 0 0 1 36 0 1 36 0 1 36 0 0 0 3 36 4 0 0 0 0 1 36 0 1 36 0 0 0 0 2 36 5 P 0 0 0 0 0 1 36 0 0 0 0 0 1 36 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 36 36 Tabelle 1: Gemeinsame Verteilung und Randverteilungen für Augensumme und -differenz bei zwei Würfeln Definition 5.1.4 Zwei Zufallsvariable X und Y mit der gemeinsamen Verteilungsfunktion F (x, y) besitzen eine gemeinsame Dichtefunktion f (x, y), wenn diese in R2 definierte Funktion f (x, y) ≥ 0 erfüllt und durch x Zy Z F (x, y) = f (u, v)du dv −∞ −∞ die gemeinsame Verteilungsfunktion erzeugt. Hinweise: (a) Für das hier auftretende Mehrfachintegral gilt x y Zy Z Zx Z f (u, v)du dv = f (u, v)dv du −∞ −∞ −∞ 56 −∞ und daher wird die Klammer meist weggelassen und Zy Zx F (x, y) = f (u, v)du dv −∞ −∞ geschrieben. (b) Weil P (X, Y ) ∈ R2 = 1, haben wir die Normierungsbedingung Z+∞ Z+∞ Z+∞ Z+∞ f (u, v)du dv = f (u, v)dv du = 1 −∞ −∞ (20) −∞ −∞ (c) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, in diesem Zusammenhang auch Randverteilungen genannt, erhält man aus der gemeinsamen Dichtefunktion. Wir nennen die Dichtefunktion von X hier g(u), sie erfüllt Zt g(u)du FX (t) = −∞ und andererseits +∞ Zt Z FX (t) = P {X ≤ t} = P (X, Y ) ∈ ] − ∞, t] × R = f (u, v)dv du −∞ Ein Vergleich liefert −∞ Z∞ g(x) = f (x, y)dy −∞ Diese Dichtefunktion wird in diesem Zusammenhang Randdichte genannt. Wir bezeichnen die Dichtefunktion von Y mit h(y). Zt FY (t) = h(v)dv = P {Y ≤ t} = P (X, Y ) ∈ R× ] − ∞, t] −∞ Zt = −∞ Z+∞ f (u, v)du dv −∞ liefert für diese Randdichte Z∞ h(y) = f (x, y)dx −∞ 57 Beispiele: (a) Die Normalverteilung für 2 Zufallsvariable X und Y ist gegeben durch die gemeinsame Dichtefunktion mit ρ ∈ ] − 1, 1[ f (x, y) = 1√ 2πσ1 σ2 1−ρ2 ·e − 1 2(1−ρ2 ) x−µ1 σ1 2 2 x−µ y−µ2 y−µ −2ρ σ 1 + σ 2 σ 1 2 2 (21) Im Spezialfall µ1 = µ2 = 0, σ1 = σ2 = 1 erhalten wir (siehe Abb. 16) f (x, y) = 2π √1 1−ρ2 ·e − 1 2(1−ρ2 ) (x2 −2ρxy+y2 ) Abbildung 16: Dichtefunktion der Normalverteilung für µ1 = µ2 = 0, σ1 = σ2 = 1 und ρ = 0, 9 (links) sowie ρ = 0 (rechts) (b) Die Gleichverteilung auf dem Einheitsquadrat“ ist gegeben durch die gemeinsame ” Dichtefunktion ( 1 falls 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 f (x, y) = 0 sonst (c) Die Gleichverteilung auf dem Einheitskreis“ ist gegeben durch die gemeinsame ” Dichtefunktion ( 1 falls x2 + y 2 ≤ 1 f (x, y) = π 0 sonst Bei einer Zufallsvariablen X mit der Dichtefunktion g(x) gilt P {X ∈ [a, b]} = Zb g(x)dx a Analog hierzu haben wir den Satz 58 Satz 5.1.4 Seien X, Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und die gemeinsame Dichtefunktion f (x, y) besitzen und sei A eine als Ereignis zugelassene Teilmenge von R2 . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen ist, dass das auftretende Mehrfachintegral existiert. Dann gilt ZZ P (X, Y ) ∈ A = f (x, y)dx dy (22) A Hinweise: (a) Für den Sonderfall, dass A ein Rechteck ist, also A = [a1 , b1 ] × [a2 , b2 ] lautet die Aussage des Satzes Zb1 Zb2 f (x, y)dy dx P (X, Y ) ∈ [a1 , b1 ] × [a2 , b2 ] = (23) a1 a2 Man kann diese Aussage mit Hilfe von Verallgemeinerungen von Zerlegungen der Art ] − ∞, b] = ] − ∞, a] ∪ ]a, b] auf den zweidimensionalen Fall sowie mit Hilfe der Rechenregeln für Wahrscheinlichkeiten beweisen. Dabei hat man zu berücksichtigen, dass analog dazu, dass bei Zufallsvariablen X mit Dichtefunktion P {X = a} = 0 hier P (X, Y ) ∈ {a1 } × [a2 , b2 ] = P (X, Y ) ∈ [a1 , b1 ] × {a2 } = 0 gilt. Zum Beweis der allgemeinen Aussage des Satzes für beliebige als Ereignis zugelassene Teilmengen A hat man dann auszunutzen, dass A aus Rechtecken konstruiert ist (eventuell mit Vereinigungen von Folgen von Rechtecken). (b) Wenn wir speziell ein Rechteck der Form [x0 , x0 + ∆x] × [y0 , y0 + ∆y] betrachten und annehmen, dass ∆x und ∆y so klein gewählt sind, dass sich die Dichtefunktion in diesem Rechteck so wenig nähert, dass die Näherung f (x, y) ≈ f (x0 , y0 ) für alle (x, y) ∈ [x0 , y0 ] × [x0 + ∆x, y0 + ∆y] berechtigt ist, dann erhalten wir P (X, Y ) ∈ [x0 , x0 + ∆x] × [y0 , y0 + ∆y] x0Z+∆x y0Z+∆y = f (x, y)dy dx x0 ≈ f (x0 , y0 ) y0 x0Z+∆x y0Z+∆y dy dx = f (x0 , y0 ) · ∆x · ∆y x0 y0 Nun ist ∆x · ∆y die Fläche des betrachteten Rechtecks; diese Näherung rechtfertigt die Bezeichnung Wahrscheinlichkeitsdichte“ für f (x, y). ” 59 (c) Jede bis auf Kanten“ stetige Funktion f mit 2 Variablen, die in ganz R2 definiert ” ist, f (x, y) ≥ 0 für alle (x, y) ∈ R2 sowie die Normierungsbedingung (20) erfüllt, definiert durch (22) oder (23) ein Wahrscheinlichkeitsmaß in R2 . Mit Ω = R2 und den Zufallsvariablen X : R2 → R, (x, y) 7→ x, Y : R2 → R, und (x, y) 7→ y erhält man dann zwei Zufallsvariable auf dem Grundraum Ω = R2 , deren gemeinsame Dichtefunktion f (x, y) ist. Beispiele für bis auf Kanten“ stetige Funktionen ” sind die gemeinsamen Dichtefunktionen der Gleichverteilung auf dem Einheitskreis oder dem Einheitsquadrat. Sie sind bis auf den Rand des Einheitskreises oder Einheitsquadrates als Kanten“ stetig. ” Satz 5.1.5 Seien X, Y Zufallsvariable mit den stetigen Dichtefunktionen g(t) und h(t), d.h die einzelnen Verteilungsfunktionen erfüllen Zt FX (t) = Zt g(u)du, FY (t) = −∞ h(u)du −∞ und sei f (x, y) die gemeinsame stetige Dichtefunktion. Dann sind X und Y genau dann stochastisch unabhängig, wenn f (x, y) = g(x) · h(y) für alle x, y ∈ R2 gilt. Hinweis zum Beweis: Wenn f (x, y) = g(x) · h(y), dann gilt für die gemeinsame Verteilungsfunktion Zx Zy F (x, y) = g(u) · h(v)dv du = −∞ −∞ Zx g(u)du · −∞ Zy h(v)dv = FX (x) · FY (y) −∞ und daraus folgt mit Satz 5.1.1 die Unabhängigkeit von X und Y . Wenn umgekehrt X und Y stochastisch unabhängig sind, dann gilt F (x, y) = FX (x) · FY (y) = Zx g(u)du · −∞ Zy Zx Zy h(v)dv = −∞ g(u) · h(v)dv du −∞ −∞ Zx Zy = f (u, v)dv du −∞ −∞ Daraus folgt Zx Zy f (u, v) − g(u) · h(v) dv du = 0 −∞ −∞ 2 für alle x, y ∈ R . Wir haben vorausgesetzt, dass f , g und h stetig sind. Es ist also plausibel, dass diese Gleichung nur möglich ist, wenn f (u, v) − g(u) · h(v) = 0 für alle u, v ∈ R2 ist. 60 Beispiele: (a) Bei der Gleichverteilung auf dem Einheitsquadrat“ sind die beiden Zufallsvariablen ” stochastisch unabhängig, denn die gemeinsame Dichtefunktion erfüllt f (x, y) = g(x) · g(y) wobei ( 1 g(x) = 0 falls 0 ≤ x ≤ 1 sonst die Dichtefunktion der Gleichverteilung auf [0, 1] ist. (b) Für die Normalverteilung erhält man als Randdichten die Dichtefunktionen der Normalverteilung (mühsame Integration). Mit Satz 5.1.5 erhält man dann, dass normalverteilte Zufallsvariable genau dann stochastisch unabhängig sind, wenn ρ = 0. (c) Für die Gleichverteilung auf dem Einheitskreis“ erhält man (Übungsaufgabe) die ” Randdichten ( √ 2 1 − x2 falls − 1 ≤ x ≤ +1 g(x) = h(x) = π 0 sonst und da f (x, y) 6= g(x) · h(y), sind X und Y nicht stochastisch unabhängig. Definition 5.1.5 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und sei g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler. Dann wird die neue Zufallsvariable g(X, Y ) durch g(X, Y ) : Ω → R, ω 7→ g X(ω), Y (ω) definiert. Für die so definierte Zufallsvariable gilt der folgende Satz 5.1.6 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen, und sei g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler. Dann gilt für den Erwartungswert der Zufallsvariable g(X, Y ) ∞ X ∞ X E g(X, Y ) = P {X = xi } ∩ {Y = yk } g(xi , yk ) i=1 k=1 bzw. E g(X, Y ) = Z+∞ Z+∞ f (x, y) · g(x, y)dx dy −∞ −∞ falls diese Summe bzw. dieses Integral absolut konvergent ist. Hinweis: Dieser Satz ist eine Verallgemeinerung von Satz 3.2.1 auf Funktionen von zwei Variablen. Im Spezialfall g(x, y) = ax + by mit a, b ∈ R sowie g(x, y) = x − y erhalten wir 61 Satz 5.1.7 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen und deren Erwartungswerte E(X) und E(Y ) existieren. Dann gilt E(aX + bY ) = a · E(X) + b · E(Y ) und X ≥ Y =⇒ E(X) ≥ E(Y ) Definition 5.1.6 Es wird vorausgesetzt, dass X und Y Zufallsvariable sind, die auf demselben Grundraum Ω definiert sind. Wenn E(X 2 ) und E(Y 2 ) existieren, dann wird die Kovarianz von X und Y durch Cov(X, Y ) := E X − E(X) Y − E(Y ) definiert. Falls Var(X) > 0 und Var(Y ) > 0, dann wird der Korrelationskoeffizient definiert durch Cov(X, Y ) Cov(X, Y ) = ρ(X, Y ) := p σ(X)σ(Y ) Var(X) Var(Y ) X und Y heißen unkorreliert, wenn ρ(X, Y ) = 0. Hinweise: (a) Die Kovarianz hat tatsächlich etwas mit der Varianz zu tun. Für die Summe zweier Zufallsvariablen X und Y mit µX := E(X) und µY := E(Y ) gilt 2 Var(X + Y ) = E X + Y − E(X + Y ) = E (X + Y − µX − µY )2 = E (X − µX )2 + E (Y − µY )2 + 2E (X − µX )(Y − µY ) und damit Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) (24) (b) Definiert man die Abkürzungen µX := E(X) und µY := E(Y ), dann erhält man durch Ausmultiplizieren Cov(X, Y ) = E (X − µx )(Y − µY ) = E(XY ) − µX E(Y ) − µY E(X) + µX µY und damit Cov(X, Y ) = E(XY ) − E(X) · E(Y ) (25) (c) Man kann zeigen, dass E(|XY |) ≤ p E(X 2 ) · E(Y 2 ) (26) falls E(X 2 ) und E(Y 2 ). Also folgt aus der Existenz von E(X 2 ) und E(Y 2 ) tatsächlich die Existenz von Cov(X, Y ). 62 (d) Mit der Abschätzung (26) und Satz 3.2.2 erhalten wir |Cov(X, Y )| ≤ E(|X − E(X)| · |Y − E(Y )|) q ≤ E (X − E(X))2 · E (Y − E(Y ))2 p Var(X) · Var(Y ) = σ(X) · σ(Y ) = und damit für den Korrelationskoeffizienten |ρ(X, Y )| ≤ 1 (e) Im Spezialfall, dass Y = aX + b mit a, b ∈ R und a 6= 0, erhalten wir mit der Abkürzung µ := E(X) Var(X) = E(X 2 ) − µ2 Var(Y ) = a2 Var(X) = a2 (E(X 2 ) − µ2 ) und sowie nach (25) Cov(X, Y ) = E X · (aX + b) − µE(Y ) = aE(X 2 ) + bµ − µ(aµ + b) = a(E(X 2 ) − µ2 ) und somit a a(E(X 2 ) − µ2 ) a ρ(X, Y ) = p =√ = 2 |a| Var(X) · a Var(X) a2 Wenn also Y = aX + b, dann ist |ρ(X, Y )| maximal und ρ(X, Y ) = 1 wenn a > 0 und ρ(X, Y ) = −1 wenn a < 0. (f) Wir haben Cov(X, Y ) = Cov(Y, X) und Cov(X, X) = Var(X) (g) Wenn X und Y normalverteilt sind, dann ergibt eine aufwändige Integration, dass der Korrelationskoeffizient ρ(X, Y ) mit dem Parameter ρ in der durch (21) gegebenen gemeinsamen Dichtefunktion übereinstimmt. Dies begründet die übliche Wahl des Buchstabens ρ für diesen Parameter. Satz 5.1.8 Wenn X, Y stochastisch unabhängige Zufallsvariable sind, für die E(X 2 ) und E(Y 2 ) existieren, dann gilt Cov(X, Y ) = 0 und Var(X + Y ) = Var(X) + Var(Y ) Hinweis zum Beweis: Wenn X und Y stochstisch unabhängige diskrete Zufallsvariable mit den Werten xi und yk sind, dann gilt E(XY ) = = = ∞ ∞ X X i=1 k=1 ∞ X ∞ X i=1 k=1 ∞ X i=1 P {X = xi } ∩ {Y = yk }xi yk P {X = xi } · P {Y = yk } · xi · yk ! P {X = xi } · xi · 63 ∞ X k=1 ! P {Y = yk } · yk = E(X) · E(Y ) und damit Cov(X, Y ) = E(XY ) − E(X) · E(Y ) = 0. Die zweite Gleichung folgt unmittelbar aus (24). Für Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x, y) kann der Beweis analog geführt werden. Hinweis zum Satz: Die Umkehrung der Aussage gilt nicht: Es gibt Zufallsvariable X, Y , die nicht stochastisch unabhängig sind, aber Cov(X, Y ) = 0 erfüllen. Ein Beispiel hierfür ist die Augensumme Xs und die Differenz der Augenzahl Xd bei zwei Würfeln. Es war schon in einem früheren Beispiel (nach Def. 5.2.1) gezeigt worden, dass Xs und Xd nicht unabhängig sind. Aufgrund der Definition und der Rechenregeln für Erwartungswerte kann man leicht zeigen (siehe die Übungen), dass Cov(Xs , Xd ) = Cov(X1 + X2 , X1 − X2 ) = 0 da X1 und X2 unabhängig sind. Lediglich für normalverteilte Zufallsvariable gilt eine entsprechende Umkehrung. Wie schon angemerkt, stimmt der Parameter ρ in der durch (21) gegebenen gemeinsamen Dichtefunktion mit dem Korrelationskoeffizienten überein. Damit folgt in diesem Fall aus Cov(X, Y ) = 0 die stochastische Unabhängigkeit von X und Y . Beispiele: (a) Bei der Gleichverteilung auf dem Einheitskreis“ mit der gemeinsamen Dichtefunk” tion ( 1 falls x2 + y 2 ≤ 1 f (x, y) = π 0 sonst haben wir bereits herausgefunden, dass die zugehörigen Zufallsvariablen X und Y nicht stochastisch unabhängig sind. Die Randdichten sind ( √ 2 1 − x2 falls − 1 ≤ x ≤ +1 π g(x) = h(x) = 0 sonst und aus Symmetriegründen haben wir E(X) = E(Y ) = 0. Damit gilt für die Kovarianz Cov(X, Y ) = E(XY ) und diese Größe muss aus Symmetriegründen verschwinden. Rechnerisch haben wir hier Z+∞ Z+∞ ZZ 1 x · y dx dy x · y · f (x, y)dx dy = E(XY ) = π −∞ −∞ x2 +y 2 ≤1 und wir können Polarkoordinaten x = r cos ϕ, y = r sin ϕ einführen (beim Einheitskreis ist dann 0 ≤ r ≤ 1 und −π < ϕ ≤ π). liefert Die Substitutionsregel von Abschnitt A.1 (dx dy durch r dr dϕ ersetzen) liefert dann Z1 Z+π Z1 Z+π 1 3 3 E(XY ) = r cos ϕ sin ϕ dϕ dr = r dr sin(2ϕ)dϕ = 0 2 0 −π 0 64 −π 1.0 0.5 - 1.5 - 1.0 - 0.5 0.0 0.0 0.5 1.0 - 0.5 - 1.0 - 1.5 Abbildung 17: Viertelkreise B1 und B2 (b) Wir ändern die Gleichverteilung auf dem Einheitskreis“ ein wenig ab und betrach” ten die Gleichverteilung auf zwei Viertelskreisen“, die durch folgende gemeinsame ” Dichtefunktion gegeben ist: ( 2 falls x2 + y 2 ≤ 1 und xy ≥ 0 f (x, y) = π 0 sonst Diese Dichtefunktion ist auf den beiden in Abb. 17 markierten Viertelkreisen konstant, ansonsten ist sie Null. Wir bezeichnen hier mit B = B1 ∪ B2 die Vereinigung der beiden Viertelkreise, mit B1 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≥ 0 und y ≥ 0 B2 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≤ 0 und y ≤ 0 Beachten Sie die Symmetrie (x, y) ∈ B2 ⇐⇒ (−x, −y) ∈ B1 Wir erhalten dieselben Randdichten (Übungsaufgabe!) ( √ 2 1 − x2 falls − 1 ≤ x ≤ +1 g(x) = h(x) = π 0 sonst und aus Symmetriegründen erhalten wir wieder E(X) = E(Y ) = 0. Für die Kovarianz macht sich hier aber eine Asymmetrie bemerkbar, denn die Wahrscheinlichkeit, dass X und Y unterschiedliche Vorzeichen annehmen, ist hier Null! Es ist sinnvoll, das Integral über B in eine Summe über Integrale über B1 und B2 aufzuspalten (siehe die Rechenregeln von Abschnitt A.1. Wenn wir dann noch die schon erwähnte Symmetrie ausnutzen und beachten, dass (−x) · (−y) = x · y, erhalten wir Z+∞ Z+∞ Cov(X, Y ) = E(XY ) = x · y · f (x, y)dx dy −∞ −∞ 1 = π ZZ 1 x · y dx dy + π B1 ZZ B2 65 2 x · y dx dy = π ZZ B1 x · y dx dy Auch hier ist es sinnvoll, Polarkoordinaten einzuführen. Für B1 erhalten wir den Bereich 0 ≤ r ≤ 1 und 0 ≤ ϕ ≤ π2 . Somit erhalten wir hier das Ergebnis π Cov(X, Y ) = 2 π ZZ x · y dx dy = 0 B1 Z1 = π 2 3 Z r dr 0 Z1 Z2 0 r3 cos ϕ sin ϕ dϕ dr 0 1 π2 1 1 1 1 4 · − cos(2ϕ) = sin(2ϕ)dϕ = r 2 4 0 4 8 0 Da E(X) = E(Y ) = 0 und die beiden Randdichten übereinstimmen, haben wir nach einer etwas mühsamen Integration (Übungsaufgabe!) 2 Var(X) = Var(Y ) = E(X ) = π 2 Z+1 √ 1 x2 · 1 − x2 dx = 4 −1 Damit erhalten wir für den Korrelationskoeffizienten Cov(X, Y ) ρ(X, Y ) = p = Var(X) · Var(Y ) 5.2 1 8 1 4 = 1 2 Mehr als zwei Zufallsvariable auf demselben Grundraum In diesem Unterabschnitt verallgemeinern wir eine Reihe von Begriffen aus dem vorherigen Unterabschnitt. Die Vorgehensweise ist zwar naheliegend, doch leider versagt die Anschauung in vielen Fällen. Wir benötigen diese Verallgemeinerung für den zentralen Grenzwertsatz. Wir betrachten hier also Zufallsvariable X1 , X2 , . . . Xn : Ω → R, die auf demselben Grundraum Ω definiert sind. Mit diesen erhalten wir durch ω 7→ X1 (ω), X2 (ω), X3 (ω), . . . Xn (ω) eine Abbildung von unserem Grundraum Ω in den Rn . Wir gehen hier ganz analog zum vorherigen Unterabschnitt vor und haben lediglich den R2 durch den Rn zu ersetzen. Hier kann n-dimensionalen Quadern“ der Form [a1 , b1 ]×[a2 , b2 ]×· · ·×[an , bn ] die Wahrschein” lichkeit P(X1 ,X2 ,...Xn ) ([a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ]) := P {X1 ∈ [a1 , b1 ]} ∩ {X2 ∈ [a2 , b2 ] ∩ · · · ∩ {Xn ∈ [an , bn ]} (27) zugeordnet werden. Aus n-dimensionalen Quadern kann man durch Komplementbildung und Vereinigung von Folgen allgemeinere Teilmengen des Rn bilden, die man als Ereignisse zulässt. Unter Beachtung der Rechenregeln für Wahrscheinlichkeiten kann man dann mit Hilfe von (27) ein Wahrscheinlichkeitsmaß auf Rn definieren. Definition 5.2.1 Sei n ∈ N und seien X1 , X2 , . . . Xn : Ω → R Zufallsvariable (die auf demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 , X2 , . . . Xn stochastisch unabhängig, wenn für alle als Ereignis zugelassenen Teilmengen A1 , A2 , . . . An ⊂ R gilt P {X1 ∈ A1 } ∩ {X2 ∈ A2 } ∩ · · · ∩ {Xn ∈ An } = P {X1 ∈ A1 } · P {X2 ∈ A2 } · · · P {Xn ∈ An } 66 Hinweis: Die Zufallsvariablen X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn die Ereignisse {X1 ∈ A1 }, {X2 ∈ A2 } . . . {Xn ∈ An } stochastisch unabhängig nach Definition 2.1.2 sind. Definition 5.2.2 Sei n ∈ N und seien X1 , X2 , . . . Xn auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch F (~x) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 } ∩ · · · ∩ {Xn ≤ xn } definiert. Hinweise: (a) Auch hier haben wir das asymtotische Verhalten lim lim · · · lim F (~x) · · · = 1 x1 →∞ x2 →∞ xn →∞ und entsprechend für jede mögliche andere Reihenfolge der Grenzwerte. (b) Weiterhin gilt lim F (~x) = 0 xk →−∞ für jedes beliebige k = 1, 2, . . . n. (c) Die gemeinsame Verteilungsfunktion ist monoton wachsend in jedem Argument, d.h. für alle h > 0 und alle k = 1, 2, . . . n gilt F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) ≥ F (x1 , x2 , x3 , . . . xn ) (d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in jedem Argument, d.h. für alle k = 1, 2, . . . n gilt lim F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) = F (x1 , x2 , x3 , . . . xn ) h→0+ (e) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, die Randverteilungsfunk” tionen“ genannt werden, erhalten wir durch FX1 (t) = lim lim · · · lim F (~x) · · · x2 →∞ x3 →∞ xn →∞ FX2 (t) = lim lim · · · lim F (~x) · · · x1 →∞ x3 →∞ xn →∞ und analog für k = 3, 4, . . . n (um FXk (t) zu erhalten, ist der Grenzwert xl → ∞ für alle l = 1, 2, . . . n, l 6= k zu bilden). 67 Satz 5.2.1 Sei n ∈ N und seien F1 (t), F2 (t) . . . Fn (t) die Verteilungsfunktionen der auf demselben Grundraum Ω definierten Zufallsvariablen X1 , X2 , . . . Xn und sei F (~x) die gemeinsame Verteilungsfunktion dieser Zufallsvariablen. Dann gilt: X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn F (~x) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn ) für alle ~x ∈ Rn gilt. Der Beweis ist elementar. Definition 5.2.3 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω. Die gemeinsame Verteilungsfunktion F (~x) hat eine gemeinsame Dichtefunktion f (~x), wenn Zxn xZn−1 Zx1 F (x1 , x2 , . . . xn ) = ··· f (u1 , u2 , . . . un ) du1 du2 · · · dun −∞ −∞ −∞ Hinweise (a) Dies ist nur möglich, wenn die gemeinsame Dichtefunktion nicht negativ ist, d.h. für alle ~x ∈ Rn f (~x) ≥ 0 (b) Außerdem muss analog zum Fall n = 2 die Normierungsbedingung Z+∞ Z+∞ Z+∞ ··· f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn = 1 −∞ −∞ (28) −∞ erfüllt sein Satz 5.2.2 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω, f (~x) sei die zugehörige gemeinsame Dichtefunktion und A sei eine als Ereignis zugelassene Teilmenge von Rn . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen ist, dass das auftretende Mehrfachintegral existiert. Dann gilt ZZ Z P (X1 , X2 , . . . Xn ) ∈ A = · · · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn (29) A Hinweise: (a) Für n-dimensionale Quader A = [a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ] lautet die Aussage des Satzes P (X1 , X2 , . . . Xn ) ∈ A = Zbn bZn−1 an an−1 ··· Zb1 f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn (30) a1 (b) Jede bis auf Kanten“ stetige Funktion, die f (~x) ≥ 0 für alle ~x ∈ Rn erfüllt und ” der Normierungsbedingung (28) genügt, definiert durch (29) oder (30) ein Wahrscheinlichkeitsmaß in Rn . Man kann also dann Ω = Rn wählen. Die zugehörigen Zufallsvariablen erhält man dann für k = 1, 2, . . . n durch Xk : Rn → R, (x1 , x2 , . . . xk−1 , xk , xk+1 , . . . xn ) 7→ xk 68 Beispiele: (a) Gleichverteilung im n-dimensionalen Einheitswürfel. Wir betrachten die durch ( 1 falls ~x ∈ [0, 1]n f (~x) := 0 sonst definierte gemeinsame Dichtefunktion. Sie erfüllt f (~x) ≥ 0, genügt der Normierungsbedingung (28) und definiert damit ein Wahrscheinlichkeitsmaß in Rn . Sie ist ein Beispiel dafür, was mit bis auf Kanten“ stetig gemeint ist. Die Kanten“ sind hier ” ” die Randflächen des Einheitswürfels. (b) Gleichverteilung in der Einheitskugel. Wir definieren die gemeinsame Dichtefunktion f (~x) für ~x ∈ R3 durch ( 3 falls |~x| ≤ 1 f (~x) := 4π 0 falls |~x| > 1 Sie erfüllt ebenfalls f (~x) ≥ 0, genügt der Normierungsbedingung, denn ZZZ 4π dx1 dx2 dx3 = 3 |~ x|≤1 ist das Volumen einer dreidimensionalen Kugel mit Radius 1. Damit ist mit dieser Dichtefunktion ein Wahrscheinlichkeitsmaß in R3 definiert. Diese Funktion ist bis auf den Rand der Kugel als Kante“ stetig. Dieses Beispiel lässt sich auf den Rn ” verallgemeinern. Definition 5.2.4 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω. (a) Die Zufallsvariablen X1 , X2 , . . . Xn heißen identisch verteilt, wenn die Verteilungsfunktionen FX1 (t) = P {X1 ≤ t} = FX2 (t) = P {X2 ≤ t} = · · · = FXn (t) = P {Xn ≤ t} für alle t ∈ R erfüllen, ihre Wahrscheinlichkeitsverteilungen also identisch sind. Insbesondere haben sie dann denselben Erwartungswert und dieselbe Varianz (wenn diese existieren). (b) Sei g : Rn → R, (x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn ) eine stetige Funktion. Die Zufallsvariable g(X1 , X2 , . . . Xn ) ist durch g(X1 , X2 , . . . Xn ) : Ω → R, ω 7→ g X1 (ω), X2 (ω), . . . Xn (ω) definiert. Diese Definition der Zufallsvariablen g(X1 , X2 , . . . Xn ) ist eine Verallgemeinerung von Definition 5.1.5, und wir haben als Verallgemeinerung von Satz 5.1.6: 69 Satz 5.2.3 Seien X1 , X2 , . . . Xn diskrete Zufallsvariable mit den Werten x1 (k1 ), x2 (k2 ), x3 (k3 ), . . . xn (kn ) oder Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x1 , . . . xn ) und sei g : Rn → R, (x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn ) eine stetige Funktion. Dann gilt für den Erwartungswert der Zufallsvariablen g(X1 , X2 , . . . Xn ) X E g(X1 , X2 , . . . Xn ) = g x1 (k1 ), x2 (k2 ), . . . xn (kn ) k1 ,k2 ,...kn ·P {X1 = x1 (k1 )} ∩ · · · ∩ {Xn = xn (kn )} wenn diese Reihe absolut konvergiert bzw. E g(X1 , X2 , . . . Xn ) = Z+∞ Z+∞ Z+∞ ··· g(x1 , x2 . . . xn ) · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn −∞ −∞ −∞ wenn dieses Integral absolut konvergent ist. 5.3 Summen von Zufallsvariablen, Grenzwertsatz In diesem Unterabschnitt wird grundsätzlich vorausgesetzt, dass alle Zufallsvariable auf demselben Grundraum Ω definiert sind. Satz 5.3.1 Seien X1 , X2 , . . . Xn Zufallsvariable. Dann ist E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ) und Var(X1 + X2 + · · · + Xn ) = n X Var(Xk ) + k=1 n X Cov(Xi , Xk ) (31) i, k = 1 i 6= k wenn die entsprechenden Werte existieren. Wenn die Zufallsvariablen X1 , X2 , . . . Xn stochastisch unabhängig sind, dann gilt Var(X1 + X2 + · · · + Xn ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xn ) (32) Hinweis: Die Gleichung (32) ist auch unter der schwächeren Voraussetzung, dass die Zufallsvariablen X1 , X2 , . . . Xn unkorreliert sind, gültig, d.h. wenn Cov(Xi , Xk ) = 0 für alle i 6= k. Dies ist aus Gleichung (31) unmittelbar einsichtig. Die folgenden beiden Sätze sind von großer Bedeutung. Satz 5.3.2 (Schwaches Gesetz der großen Zahlen) Sei X1 , X2 , X3 . . . eine Folge identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz σ 2 existiert. Dann gilt für alle ε > 0 X1 + X 2 + · · · + Xn − µ > ε =0 lim P n→∞ n 70 Hinweis: Dieser Satz rechtfertigt die Berechnung des Mittelwerts n1 (X1 + X2 + · · · + Xn ) als Schätzung für den Erwartungswert der Zufallsvariablen. Beispiel: Wiederholtes Würfeln, Xk = 1, wenn ωk = 6 und Xk = 0, wenn ωk 6= 6. Dann ist X1 + X2 + · · · + Xn die Zahl der gewürfelten Die 5 1 Sechsen bei n Versuchen. Wahrscheinlichkeitsverteilung ist durch P {Xk = 1} = 6 und P {Xk = 0} = 6 gegeben mit Erwartungswert µ = 16 . Dann ist Zahl der gewürfelten Sechsen 1 − >ε lim P =0 n→∞ Zahl der Versuche 6 In diesem Sinn stimmt die Wahrscheinlichkeit mit der relativen Häufigkeit bei vielen Versuchen überein. Satz 5.3.3 (Zentraler Grenzwertsatz) Sei X1 , X2 , X3 . . . eine Folge identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz σ 2 existiert. Sei Sn∗ die standardisierte Summe n P Sn∗ := (Xk − µ) n 1 X Xk − µ X1 + X2 + · · · + X n − n · µ √ √ =√ = σ σ n n k=1 σ n k=1 (33) und sei Fn (t) := P {Sn∗ ≤ t} die Verteilungsfunktion der standardisierten Summe. Dann gilt Zt 1 2 1 e− 2 u du = Φ(t) lim Fn (t) = √ n→∞ 2π −∞ d.h. die Verteilungsfunktion der standardisierten Summe nähert sich für große n der Verteilungsfunktion der Standardnormalverteilung an. Hinweise: (a) Dies bedeutet, dass für große n die Zufallsvariable X1 − µ + X2 − µ + · · · + Xn − µ = n X k=1 Xk − n · µ näherungsweise normalverteilt mit Erwartungswert 0 und Varianz nσ 2 ist. Die Summe X1 + X2 + · · · + Xn ist also näherungsweise normalverteilt mit Erwartungswert n · µ und Varianz nσ 2 . Die Verteilung der Summe X1 + X2 + · · · + Xn wird demnach näherungsweise durch die Dichtefunktion (t−nµ)2 1 · e− 2nσ2 f (t) = √ σ n · 2π beschrieben. Dies erklärt die große Bedeutung der Normalverteilung. 71 (34) (b) Für identisch verteilte Zufallsvariable Xk mit Erwartungswert µ gilt ! n n n X X X E (Xk − µ) = E(Xk − µ) = E(Xk ) − µ = 0 k=1 k=1 k=1 Wenn die Xk stochastisch unabhängig sind, dann sind auch die Zufallsvariablen Xk −µ stochastisch unabhängig (dies folgt unmittelbar aus der Definition). In diesem Fall haben wir also, falls die Varianz Var(Xk ) = σ 2 existiert, ! n n n X X X Var (Xk − µ) = Var(Xk − µ) = Var(Xk ) = nσ 2 k=1 k=1 k=1 Die durch (33) definierte standardisierte Summe stochastisch unabhängiger identisch verteilter Zufallsvariabler erfüllt also für alle n ∈ N E(Sn∗ ) = 0, Var(Sn∗ ) = 1 Beachten Sie, dass hier das Gleichheitszeichen steht, der Erwartungswert also exakt 0 und die Varianz exakt 1 sind. Abbildung 18: Binomialverteilung mit den Parametern n = 1024 und p = 0, 01, links Wahrscheinlichkeiten P {Yn = k} , rechts die zugehörige Verteilungsfunktion FYn (t), blau: exakte Werte, rot: Näherung mit Hilfe des zentralen Grenzwertsatzes Beispiele: (a) Betrachten wir die schon im Abschnitt 4.1 behandelte Binomialverteilung. Sie ensteht aus dem Grundraum Ω = {0, 1} × {0, 1} × {0, 1} × · · · × {0, 1} (n-faches kartesisches Produkt) dem Wahrscheinlichkeitsmaß P0 {1} = p auf {0, 1} und dem Produktwahrscheinlichkeitsmaß P auf Ω sowie den identisch verteilten diskreten stochastisch unabhängigen Zufallsvariablen Xk (ω) = ωk für ω = (ω1 , ω2 , . . . ωn ) mit ωk ∈ {0, 1}. Um die 72 Abhängigkeit von n in der Schreibweise sichtbar zu machen, schreiben wir hier für ω∈Ω n n X X Yn (ω) = Xk (ω) = ωk k=1 k=1 Mit Hilfe der Analogie zum Lotto hatten wir früher hergeleitet, dass n k P {Yn = k} = p (1 − p)n−k für k = 0, 1, 2, . . . n k und außerdem E(Yn ) = n · p sowie Var(Yn ) = n · p · (1 − p) in Übereinstimmung mit E(Xk ) = p und Var(Xk ) = E (X − p)2 = p(1 − p)2 + (1 − p)(−p)2 = p(1 − p) (1 − p) + p = p(1 − p) Nach der anschaulichen Interpretation der durch (34) gegebenen Wahrscheinlichkeitsdichte ist also für großes n die Wahrscheinlichkeit näherungsweise gegeben durch (k−np)2 1 1 1 · e− 2np(1−p) P {Yn = k} = P {Yn ∈ [k − , k + ]} ≈ p 2 2 np(1 − p) · 2π Für die zugehörige Verteilungsfunktion haben wir die Näherung ! ! t − np 1 1 t − np FYn (t) = P {Yn ≤ t} ≈ Φ p = + · erf p 2 2 np(1 − p) 2np(1 − p) In Abb. 18 ist diese Näherung (in rot) zusammen mit den exakten Werten (in blau) für die Wahrscheinlichkeiten und die Verteilungsfunktion grafisch dargestellt. (b) Gleichverteilung auf [0, 1]: Die stochastisch unabhängigen Zufallsvariablen Xk seien alle identisch verteilt mit der Dichtefunktion ( 1 falls t ∈ [0, 1] f (t) = 0 sonst mit E(Xk ) = 1 2 und Var(Xk ) = 1 12 (Übungsaufgabe!) Wir betrachten Yn = X 1 + X2 + X 3 + · · · Xn mit E(Yn ) = n2 und Var(Yn ) = näherungsweise durch die Dichte n . 12 fn (t) = Die Wahrscheinlichkeitsdichte von Yn wird q 6 nπ · e− 2 6(t− n 2) n beschrieben. Die Wahrscheinlichkeitsdichten von Yn sind in der Mathematik bekannt ( B-Splines“), die Funktionswerte sind leicht zu berechnen. Für einige Werte von n ” sind sie in Abb. 19 und Abb. 20 gezeigt (teilweise zusammen mit der Näherung). 73 Abbildung 19: Wahrscheinlichkeitsdichte für Xk und Y1 (Gleichverteilung auf [0, 1], links) sowie für Y2 = X1 + X2 (rechts) Abbildung 20: blau: Wahrscheinlichkeitsdichte für Y3 = X1 + X2 + X3 (links) sowie für Y4 = X1 + X2 + X3 + X4 (rechts), rot: Näherung nach dem zentralen Grenzwertsatz Satz 5.3.4 Seien X1 , X2 , . . . Xn stochastisch unabhängige normalverteilte Zufallsvariable mit den Erwartungswerten E(Xk ) = µk und den Varianzen Var(Xk ) = σk2 und sei Y = n X Xk k=1 Dann ist Y normalverteilt mit E(Y ) = n X µk und k=1 Var(Y ) = n X σk2 k=1 Hinweis: Der Wert von Erwartungswert und Varianz folgt aus Satz 5.3.1. Die entscheidende Aussage des Satzes ist jedoch, dass die Summe wieder normalverteilt ist. Der Beweis dieser Aussage kann mit Hilfe der (hier nicht behandelten) momentenerzeugenden Funktion oder durch aufwändige Auswertung eines Faltungsintegrals erfolgen. 74 6 Grundbegriffe der Statistik 6.1 Histogramm, Mittelwert, Stichprobenvarianz Die Statistik beschäftigt sich mit der Interpretation großer Datenmengen, die experimentell, also beispielsweise durch Messungen oder durch Befragungen von Personen gewonnen werden. Ziel ist dabei, Rückschlüsse aus diesen Daten zu ziehen vor dem Hintergrund eines Modells. Das Modell benutzt meist Ideen aus der Wahrscheinlichkeitsrechnung. Beispiele für Daten, die statistisch interpretiert werden können: • Ergebnisse des Mathematik-Eingangstests des Arbeitskreises Ingeniermathematik, konkret: Zahl der erhaltenen Punkte xk des Teilnehmers Nr. k • Grauwerte eines digitalisierten Bildes, konkret xk mit 0 ≤ xk ≤ 255, xk gibt die Helligkeit des k. Pixels an (xk = 0 schwarz, xk = 255 weiß) • Messungen zum radioaktiven Zerfall, beispielsweise xk Zahl der Zählimpulse in jeweils 10 Sekunden, k Nummer der Messung • Messungen von elektrischen Spannungen in einer Schaltung, xk in der k. Messung gemessene Spannung • Zahl der Übertragungsfehler bei der Übertragung des k. Blocks von 512 Zeichen zu 8 Bit In einfachen Fällen hat man also Zahlenwerte xk , die mit k durchnummeriert sind und experimentell gewonnen wurden. Arbeitskreis Ingenieurmathematik NRW Eingangstest WS 2005/06 5% % 25 % 50 % 75 % 95 % 22.0 20 18.2 17.0 15 11.4 10.6 10 8.7 5.0 5 2.6 2.4 1.4 0.6 0 0 1 2 3 keine Angabe Sonstige Zugangsberechtigung Fachhochschulreife Abitur, Grundkurs Abitur, Leistungskurs 4 5 6 7 8 9 10 Punkte Ergebnisse: (27 Tests, 1626 Stud. = 100 %) © 19.11.2005 AK Ingenieurmathematik c/o baszenski@fh dortmund.de Abbildung 21: Beispiel für ein Histogramm Ein Histogramm ist eine grafische Darstellung der absoluten oder relativen Häufigkeit, dass bestimmte Zahlenwerte aufgetreten sind. Wenn die Messwerte xk als wenige 75 diskrete Werte vorliegen (z.B. Punktzahlen bei einem Test), ist dies unproblematisch. Nehmen die Messwerte jedoch kontinuierliche oder sehr viele fein verteilte Werte an, so ist es notwendig, den Wertebereich in möglichst gleichlange Intervalle einzuteilen und grafisch darzustellen, wieviele Messwerte im entsprechenden Intervall liegen. Eine solche Einteilung wird Klasseneinteilung geannt, die Länge der Einzelintervalle heißt Klassenbreite. Als Beispiel für Histogramme ist in Abb. 21 das Ergebnis des Mathematik-Eingangstests des Arbeitskreises Ingeniermathematik 2005 in Nordrhein-Westfalen, in Abb. 22 die relative Häufigkeit der Grauwerte des Testbilds Lena“gezeigt. Häufig werden die Messungen ” Abbildung 22: weiteres Beispiel für ein Histogramm: relative Häufigkeit der Grauwerte des Testbilds Lena“ ” mit Methoden der Wahrscheinlichkeitsrechnung interpretiert. Die relative Häufigkeit wird meist als Näherung an die Wahrscheinlichkeit angesehen. Eine gängige Vorstellung ist es, die Messwerte xk als Funktionswerte von stochastisch unabhängigen, identisch verteilten Zufallsvariablen Xk anzusehen. Die Messwerte x1 , x2 , x3 , . . . xn heißen dann Stichprobe vom Umfang n. Die gemessene Größe wird Merkmal genannt. So kann das Aussehen eines Histogramms einen Anhaltspunkt dafür geben, welche Verteilung als Modell infrage kommt. Um ähnliche Messreihen vergleichen zu können (beispielsweise Testergebnisse aus verschiedenen Jahren), ist es sinnvoll bestimmte charakteristische Zahlen, Kennwerte genannt, aus den Messwerten zu berechnen. Definition 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n. Dann ist n 1X xk x := n k=1 der empirische Mittelwert und n 1 X s := (xk − x)2 die empirische Varianz sowie n − 1 k=1 v u n √ u 1 X 2 t s := s = (xk − x)2 die empirische Standardabweichung n − 1 k=1 2 der Stichprobe. Die empirische Standardabweichung wird auch empirische Streuung genannt. 1 Hinweis: Der Faktor n−1 bei der empirischen Varianz mag überraschen, denn man erwartet vielleicht in Analogie zum Mittelwert den Faktor n1 . Eine anschauliche, aber unbefriedigende Begründung ist, dass die empirische Varianz und damit auch die empirische 76 Streuung unsinnig sind für einen einzigen Messwert und dass dies in der Formel auch sichtbar sein sollte. Eine genauere und befriedigendere Begründung erhalten wir im nächsten Unterabschnitt. Für den empirischen Mittelwert und die bei der empirischen Varianz auftretende Summe gilt folgende nützliche Rechenregel: Satz 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n und x der empirische Mittelwert. Dann gilt n n X X 2 x2k − nx2 (xi − x) = k=1 k=1 Beweis: n X k=1 n n n X X X 2 2 2 = (xk − 2xk x + x ) = xk − 2x xk + nx2 2 (xk − x) k=1 = n X k=1 k=1 x2k − 2x · n · x + nx2 = k=1 n X k=1 x2k − nx2 Folgerung: Die empirische Varianz kann auch durch n 1 X 2 n s = x2 xk − n − 1 k=1 n−1 2 berechnet werden. Hinweis: Wenn man die Stichprobe skaliert und um einen Offset verschiebt, also die neue Stichprobe yk = a + bxk bildet, so gilt für die empirischen Mittelwerte und die empirische Varianz s2y = b2 s2x y = a + bx, denn n P (yk − y)2 = b2 k=1 6.2 n P (xk − x)2 . k=1 Parameterschätzungen Unsere Modellvorstellung ist es, dass die Werte der Stichprobe x1 , x2 , x3 , . . . xn Funktionswerte der stochastisch unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn sind. Diese Variablen heißen Stichprobenvariablen. Die zugehörige Messgröße oder physikalische Größe wird in der Statistik Merkmal genannt (beispielsweise die elektrische Spannung oder die Anzahl der Übertragungsfehler). Die Verteilungen dieser Zufallsvariablen (denken Sie an die Poisson- oder die Normalverteilung), also deren Verteilungsfunktion oder Wahrscheinlichkeitsdichte, sind meist durch den Erwartungswert µ sowie die Varianz σ 2 gekennzeichnet. Es gibt aber auch Verteilungen, die durch mehr Parameter charakterisiert sind. Man kennt den konkreten Zahlenwert dieser Parameter für das Merkmal oder die Messgröße meist nicht und möchte diese Parameter mit Hilfe der Stichprobe schätzen. Es ist naheliegend, den unbekannten Erwartungswert µ einer Verteilung der identisch verteilten, stochastisch unabhängigen Zufallsvariablen durch den Mittelwert zu schätzen, also µ ≈ x anzunehmen. Man nennt dann die Funktion n 1X g(x1 , x2 , x3 , . . . xn ) := xk n k=1 77 die Schätzfunktion. Wir können keine Übereinstimmung des geschätzten Parameters mit dem exakten erwarten, bei verschiedenen Messreihen werden wir meist verschiedene Schätzungen erhalten. Man stellt jedoch gewisse Güteanforderungen an die Schätzfunktion. Einer Schätzfunktion g(x1 , x2 , x3 , . . . xn ) kann man die Schätzvariable g(X1 , X2 , X3 , . . . Xn ) zuordnen (die eine Zufallsvariable ist). Wir nennen die Schätzfunktion erwartungstreu, wenn der Erwartungswert der Schätzvariablen mit dem tatsächlichen Wert des Parameters übereinstimmt. Für die angegebene Schätzfunktion für den Erwartungswert ist die Schätzvariable n 1X X= Xk n k=1 Hierfür erhalten wir n 1X Xk n k=1 E g(X1 , X2 , X3 , . . . Xn ) = E(X) = E ! n 1X 1 = E(Xk ) = · n · µ = µ n k=1 n Dabei haben wir die Rechenregeln für Erwartungswerte aus Satz 3.2.2 und die Annahme benutzt, dass alle Stichprobenvariablen identisch verteilt sind. Aufgrund dieser Annahme sind alle Erwartungswerte E(Xk ) = µ gleich. Beachten Sie, dass wir nur vorausgesetzt haben, dass die Erwartungswerte existieren, aber keinerlei Annahme über die konkrete Verteilung gemacht haben. Wir merken uns: Der empirische Mittelwert ist eine erwartungstreue Schätzfunktion für den Erwartungswert. Untersuchen wir nun die empirische Varianz. Wir prüfen, ob sie eine erwartungstreue Schätzfunktion für die Varianz ist. Wir betrachten also die Funktion n g(x1 , x2 , x3 , . . . xn ) = n 1 X 1 X 2 n (xk − x)2 = xk − x2 n − 1 k=1 n − 1 k=1 n−1 Für die Umformung der Funktion wurde Satz 6.1.1 verwandt. Die zugehörige Schätzvariable ist n n 1 X 1 X 2 n 2 S := g(X1 , X2 , X3 , . . . Xn ) = (Xk − x)2 = Xk − X n − 1 k=1 n − 1 k=1 n−1 2 Für deren Erwartungswert erhalten wir n 1 X 2 n 2 E(S 2 ) = E Xk − X n − 1 k=1 n−1 n n 2 = E(X12 ) − E(X ) n−1 n−1 ! n = 1 X n 2 E(Xk2 ) − E(X ) n − 1 k=1 n−1 Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als identisch verteilt angenommen wurden, also E(Xk2 ) = E(X12 ) für alle k gilt. Wir vereinbaren die Schreibabkürzungen µ := E(Xk ) = E(X1 ) und 78 σ 2 := Var(Xk ) = Var(X1 ) 2 Nach Satz 3.2.3 gilt Var(X) = E(X 2 ) − E(X) , also 2 E(X12 ) = Var(X1 ) + E(X1 ) = σ 2 + µ2 Analog haben wir nach Satz 3.2.3 2 E(X ) = Var(X) + E(X) n X 1 Var = Xk n2 k=1 2 = Var ! n + ! n 1X Xk + n k=1 !2 1X E(Xk ) n k=1 E n X !!2 Xk k=1 1 = 2 · nσ 2 + n 1 · nµ n 2 = 1 2 σ + µ2 n Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als stochastisch unabhängig vorn n P P ausgesetzt werden und damit nach Satz 5.3.1 Var Xk = Var(Xk ) = nσ 2 gilt. k=1 Wir haben nun für den Erwartungswert der Schätzvariablen S 2 k=1 n n n n n 1 2 2 2 2 2 2 E(S ) = E(X1 ) − E(X ) = σ + µ − σ +µ n−1 n−1 n−1 n−1 n−1 n n n 1 n n 1 2 2 2 2 2 σ + µ − σ − µ =σ − = n−1 n−1 n−1 n−1 n−1 n−1 n−1 = σ2 · = σ2 n−1 2 Wir haben damit das folgende Ergebnis gewonnen: Die empirische Varianz s2 ist eine erwartungstreue Schätzfunktion für die Varianz. 1 Aus der Rechnung ist auch sichtbar geworden, dass der Faktor n−1 nicht durch n1 ersetzt werden kann, wenn √ die Schätzfunktion erwartungstreu sein soll. Die empirische Standardabweichung s = s2 selbst ist keine erwartungstreue Schätzung der Standardabweichung, i.a. ist der Erwartungswert der entsprechenden Schätzvariablen kleiner als die Standardabweichung der Verteilung. Dies sieht man daran, dass nach Satz 3.2.3 für die Schätzvariable S gilt 2 2 Var(S) = E(S 2 ) − E(S) = σ 2 − E(S) 2 und damit E(S) = σ 2 − Var(S). Für den Erwartungswert von S selbst erhält man also p E(S) = σ 2 − Var(S) < σ denn in den Hinweisen nach Def. 3.2.3 wurde erläutert, dass für eine Zufallsvariable Y nur möglich ist, dass Var(Y ) = 0, wenn die Wahrscheinlichkeit P {Y (ω) = E(Y )} = 1 ist, das zugehörige Wahrscheinlichkeitsmaß also trivial ist. Erwartungstreue ist nicht das einzige Gütekriterium, nach dem man eine Schätzfunktion beurteilen sollte. Für den Erwartungswert könnten wir statt des Mittelswertes die völlig unsinnige Schätzfunktion g(x1 , x2 , . . . xn ) = x1 nehmen. Auch diese Schätzfunktion liefert E g(X1 , X2 , . . . Xn ) = E(X1 ) = µ, die Schätzung ist also erwartungstreu. Der empirische Mittelwert ist die bessere Schätzung, weil seine Werte weniger streuen. Die Varianz der zugehörigen Schätzvariable X erfüllt ! n n 1X 1 X 1 σ2 Var(X) = Var Xk = 2 Var(Xk ) = 2 · n · σ 2 = n k=1 n k=1 n n 79 Dagegen ist Var(X1 ) = σ 2 . Dies wird bei vielen Messungen ausgenutzt, indem man mehrmals misst und den Mittelwert bildet, um die Genauigkeit zu erhöhen. Die Standardabweichung für den Mittelwert von Messungen ist also √σn , wenn σ die Standardabweichung der einzelnen Messungen ist. Beachten Sie, dass die Annahme, dass die Messfehler Werte einer Zufallsvariablen sind, eine Modellvorstellung ist. Der Erwartungswert der Messwerte muss nicht unbedingt mit der gesuchten physikalischen Größe übereinstimmen (wenn beispielsweise alle Messwerte aufgrund einer zu hohen Temperatur erheblich kleiner sind). Eine erwartungstreue Schätzung heißt wirksam oder effizient, wenn die zugehörige Schätzvariable unter allen erwartungstreuen Schätzvariablen die kleinste Varianz besitzt. Man kann zeigen, dass der empirische Mittelwert eine wirksame Schätzung des Erwartungswerts darstellt. n P Xk für Nach dem zentralen Grenzwertsatz ist der empirische Mittelwert X = n1 k=1 2 große n näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Die Wahrscheinlichkeit, dass der empirische Mittelwert sich betragsmäßig um weniger als eine vorgegebene Fehlerschranke ε > 0 vom Erwartungswert µ unterscheidet, ist also näherungsweise gegeben durch √ √ √ Z+ε 2 n nε nε − nx2 −Φ − e 2σ dx = Φ P { X − µ < ε} ≈ √ σ σ σ 2π −ε √ √ nε nε 1 = 2 Φ − = 2Φ −1 σ 2 σ Dabei wurden die Symmetrieeigenschaften der Verteilungsfunktion Φ(t) benutzt. Wir haben demnach lim P {X − µ < ε} = 1 n→∞ Also ist für jede Fehlerschranke ε > 0 die Wahrscheinlichkeit, dass der Abstand des empirischen Mittelwerts vom Erwartungswert größer als ε ist, im Grenzwert Null, also lim P {X − µ > ε} = 0 n→∞ Dieses Ergebnis ist gerade die Aussage des schwachen Gesetzes der großen Zahlen. Schätzungen mit einer derartigen Eigenschaft heißen konsistent. Verlangt ist hierfür, dass die Wahrscheinlichkeit, dass der Abstand der Schätzvariable vom tatsächlichen Wert des Parameters größer als ε ist, im Grenzwert n → ∞ verschwindet. Die Aussage des schwachen Gesetzes der großen Zahlen ist also, dass der empirische Mittelwert eine konsistente Schätzung des Erwartungswertes darstellt. Fehlerfortpflanzung: Aus den Messwerten x1 , x2 , . . . xn wird häufig eine neue Größe y = f (x1 , x2 , . . . xn ) berechnet. So kann die Spannung U = R·I aus dem gemessenen Widerstand und der gemessenen Stromstärke berechnet werden. Ein mögliches wahrscheinlichkeitstheoretisches Modell ist, dass wir die Messwerte x1 , x2 , . . . xn als Funktionswerte der Zufallsvariablen X1 , X2 , . . . Xn mit den Erwartungswerten µ1 , µ2 , . . . µn und den Varianzen σ12 , σ22 , . . . σn2 ansehen. Dann ist die Größe y ein Funktionswert der Zufallsvariablen Y = f (X1 , X2 , . . . Xn ). Von Interesse ist eine Näherung für die Varianz Var(Y ). Hierzu wird meist die Funktion f 80 durch ihr Taylorpolynom ersten Grades ersetzt, also eine lineare Näherung vorgenommen: n X ∂f (x1 , x2 , . . . xn )hk f (x1 + h1 , x2 + h2 , . . . xn + hn ) = f (x1 , x2 , . . . xn ) + ∂x k k=1 Statt der Zufallsvariablen f (X1 , X2 , . . . Xn ) betrachten wir also die Zufallsvariable Y = f (µ1 , µ2 , . . . µn ) + n X ∂f (µ1 , µ2 , . . . µn )(Xk − µk ) ∂x k k=1 Wenn die Zufallsvariablen Xk stochastisch unabhängig sind, dann erhalten wir nach Satz 3.2.3 und 5.3.1 2 2 n n X X ∂f ∂f (µ1 , µ2 , . . . µn ) Var(Xk ) = (µ1 , µ2 , . . . µn ) σk2 Var(Y ) = ∂x ∂x k k k=1 k=1 und damit für die Standardabweichung v u n 2 uX ∂f (µ1 , µ2 , . . . µn ) σk2 σ(Y ) = t ∂x k k=1 Dies ist die bekannte Formel für die Fehlerfortpflanzung nach Gauß (siehe das AnalysisSkript, Abschnitt 8.3.4, Gleichung (125)). Eine plausible Schätzung erhält man, wenn man die unbekannten Varianzen σk2 durch die entsprechenden empirischen Varianzen ersetzt. Beachten Sie, dass hierbei die Annahme der stochastischen Unabhängigkeit von X1 , X2 , . . . Xn eingeht. Bei zwei Variablen, also im Sonderfall n = 2, erhält man ohne diese Voraussetzung mit den Schreibabkürzungen a1 := ∂f (µ1 , µ2 ), ∂x1 a2 := ∂f (µ1 , µ2 ) ∂x2 q q 2 2 2 2 a1 σ1 + a2 σ2 + 2a1 a2 Cov(X1 , X2 ) ≤ a21 σ12 + a22 σ22 + 2|a1 ||a2 | |Cov(X1 , X2 )| σ(Y ) = q p ≤ a21 σ12 + a22 σ22 + 2|a1 ||a2 |σ1 σ2 = (|a1 |σ1 + |a2 |σ2 )2 = |a1 |σ1 + |a2 |σ2 Diese Abschätzung ist im Analysis-Skript, Abschnitt 8.3.4, als die pessimistische Ab” schätzung“ angegeben worden. An dieser Rechnung ist auch sichtbar, dass für die Anwendbarkeit der Formel für die Fehlerfortpflanzung nach Gauß es ausreicht, dass die Variablen Xk unkorreliert sind, d.h. dass Cov(Xi , Xk ) = 0 für alle i 6= k. Dies ist eine schwächere Voraussetzung als die stochastische Unabhängigkeit. 6.3 Allgemeine Prinzipien zur Gewinnung von Schätzungen Maximum Likelihood: Eine Möglichkeit zur Gewinnung von Parameterschätzungen ist die Maximum-Likelihood-Methode. Nach unserer Modellvorstellung besteht die 81 Stichprobe x1 , x2 , . . . xn aus Funktionswerten der stochastisch unabhängigen identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn . Es soll nun ein unbekannter Parameter δ dieser Verteilung geschätzt werden. In der Praxis ist häufig δ = µ, der Erwartungswert oder δ = σ 2 , die Varianz. Die zugrunde liegende Idee zur Schätzung von δ ist, diesen Parameter so zu wählen, dass die Wahrscheinlichkeit, dass die Werte x1 , x2 , . . . xn der konkreten Stichprobe auftreten, maximal ist. Um die Abhängigkeit vom Paramter δ zu verdeutlichen, bezeichnen wir häufig die zugehörige Wahrscheinlichkeit mit Pδ . Betrachten wir zunächst den Fall, dass die Zufallsvariablen X1 , X2 , . . . Xn diskret sind. Dann versuchen wir den Parameter δ so zu bestimmen, dass die Wahrscheinlichkeit L(δ) = Pδ (X1 = x1 ) · Pδ (X2 = x2 ) · · · Pδ (Xn = xn ) maximal ist. Die Funktion L(δ) wird Likelihood-Funktion genannt. Ein häufig verwandter Rechentrick besteht darin, statt das Maximum von L(δ) direkt zu suchen, das Maximum von ln L(δ) zu suchen, da ln eine streng monoton wachsende Funktion ist, unddaher δ0 genau dann ein Maximum von L(δ) ist, wenn δ0 ein Maximum von ln L(δ) ist. Beispiel: Wir betrachten ein Bernoulli-Experiment, beispielsweise die Übertragung von Bits über einen unsicheren Übertragungskanal. xk = 1 soll bedeuten, dass ein Übertragungsfehler bei der Übertragung des k. Bits aufgetreten ist, xk = 0, dass kein Fehler aufgetreten ist. Wir haben als Parameter p, wobei P {Xk = 1} = p und P {Xk = 0} = 1 − p Dies kann zu der einheitlichen Formel P {Xk = xk } = pxk · (1 − p)1−xk zusammengefaßt werden. Aufgrund der Unabhängigkeit der Xk haben wir als Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn n P x1 1−x1 L(p) = p · (1 − p) x2 · p · (1 − p) 1−x2 ···p xn · (1 − p) 1−xn = p k=1 xk n− · (1 − p) n P xk k=1 Wir suchen das Maximum der Funktion n P n P ! n X ! xk n− xk f (p) = ln L(p) = ln p k=1 · (1 − p) k=1 = ln(p) · n X k=1 Ableitung liefert xk + ln(1 − p) · n P n− xk k=1 0 n P k=1 n− xk k=1 xk − p 1−p Die notwendige Bedingung für das Auftreten eines Maximums im Innern des Definitionsbereichs ist f 0 (p) = 0, und daraus folgt f (p) = n P xk k=1 p = 82 n− n P k=1 1−p xk und damit erhalten wir als Schätzung für den Parameter p n 1 X p= · xk n k=1 also die relative Häufigkeit des Auftretens eines Fehlers. Dies ist auch mit der anschaulichen Interpretation der Wahrscheinlichkeit verträglich. Die zugehörige Schätzn P Xk . variable ist n1 · k=1 Untersuchen wir nun den Fall von Zufallsvariablen X1 , X2 , . . . Xn mit einer stückweise stetigen Dichtefunktion fδ (x). Dann wird — in Verallgemeinerung von Satz 5.1.5 — die Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn durch die Dichtefunktion Lδ (x1 , x2 , . . . xn ) = fδ (x1 ) · fδ (x2 ) · · · fδ (xn ) beschrieben. Auch hier ist es häufig rechnerisch einfacher, das Maximum von n X g(δ) = ln Lδ (x1 , x2 , . . . xn ) = ln fδ (xk ) k=1 zu suchen. Beispiel: Für normalverteilte Zufallsvariable haben wir für den Parameter δ = µ das Maximum von n √ 1 X (xk − µ)2 g(µ) = ln Lµ (x1 , x2 , . . . xn ) = −n ln(σ 2π) − 2 2σ k=1 zu bestimmen. Ableiten ergibt g 0 (µ) = n n 1 X 1 X nµ (x − µ) = x − k k σ 2 k=1 σ 2 k=1 σ2 Die notwendige Bedingung für das Auftreten eines Maximums g 0 (µ) = 0 liefert die n P schon bekannte Schätzung von µ durch den empirischen Mittelwert µ = n1 xk = x. k=1 Führt man die entsprechende Rechnung für den Parameter δ = σ 2 durch, so erhält man mit der Maximum-Likelihood-Methode aus der notwendigen Bedingung für n P das Auftreten eines Maximums σ 2 = n1 (xk − x)2 . Dies ist keine erwartungstreue k=1 Schätzung aufgrund des Vorfaktors n1 , der allerdings für große n sich nicht wesent1 lich von dem Vorfaktor n−1 der erwartungstreuen Schätzung durch die empirische Varianz unterscheidet. Kleinste Quadrate: Die Abweichungen xk − µ von zufälligen Werten xi von einem erwünschten oder erwarteten Wert µ haben meist unterschiedliches Vorzeichen. Man erwartet, dass ihre Beträge |xk − µ| möglichst klein sind. Man könnte daher fordern, n P dass die Summe |xk − µ| möglichst klein ist, also ein Minimum hat. Die Betragsk=1 funktion ist aber nicht ableitbar. Es ist daher sinnvoll zu fordern, dass n X f (µ) = (xi − µ)2 k=1 83 minimal ist. Dies wird das Prinzip der kleinsten Quadrate genannt. Die notwendige Bedingung für ein Minimum im Innern des Definitionsbereiches f 0 (µ) = 0 liefert ! n n X X f 0 (µ) = −2 (xi − µ) = −2 xk − n · µ = 0 k=1 k=1 Daraus erhält man die bekannte Schätzfunktion für den Erwartungswert n 1X xk µ=x= n k=1 Wir werden dieses Prinzip im nächsten Unterabschnitt auf den Fall anwenden, dass man Paare von Messwerten hat. 6.4 Lineare Regression Abbildung 23: Infolge von Messfehlern liegen die Messpunkte nicht auf der Geraden, auf der sie nach den physikalischen Gesetzen liegen sollten, z.B. x = I, y = U in der rechts abgebildeten Schaltung. Bei Paaren xk , yk von Messwerten erwartet man häufig aufgrund von physikalischen Gesetzen der Form y = ax + b, dass diese bei einer grafischen Darstellung auf einer Geraden liegen. Aufgrund von Messfehlern ist aber meist yk 6= axk + b. Diese Situation wurde bereits im Analysis-Skript im Abschnitt 8.4.3 als Anwendungsbeispiel behandelt. Die dortige Abbildung 81 ist hier als Abb. 23 nochmal wiedergegeben. Führt man mehr Messungen durch als zur Berechnung der beiden Parameter a, b notwendig wäre, dann führt die Forderung yk = axk + b für k = 1, 2, . . . n mit n > 2 aufgrund von Messfehlern zu einem überbestimmten und unlösbaren linearen Gleichungssystem für die beiden Unbekannten a und b. Das Prinzip der kleinsten Quadrate führt zu der erfüllbaren Forderung, dass n X S(a, b) := (yk − b − axk )2 (35) k=1 minimal ist. Wir erhalten als Ergebnis der im Analysis-Skript behandelten Rechnungen den 84 Satz 6.4.1 Seien x1 , x2 . . . xn ∈ R und y1 , y2 . . . yn ∈ R und seien mindestens zwei der Werte xk verschieden, also xi 6= xl für ein i 6= l und sei die Funktion S(a, b) durch (35) gegeben. Ferner sei x der empirische Mittelwert und seien ∆xk := xk − x n X ∆ := n · (∆xk )2 und k=1 Dann gilt ∆ > 0 und S(a, b) nimmt sein Minimum genau dann an, wenn ! n !! n n X X X 1 n xk yk − a = xk yk und ∆ k=1 k=1 k=1 ! ! ! n !! n n n X X X X 1 x2k yk − xk b = xk yk ∆ k=1 k=1 k=1 k=1 (36) (37) Definition 6.4.1 Wenn verschiedene Arten von Messwerten x1 , x2 . . . xn ∈ R y1 , y2 . . . yn ∈ R und untersucht werden, dann schreiben wir zur Verdeutlichung für die empirische Varianz von x1 , . . . xn das Symbol s2x , analog für die empirische Varianz von y1 , . . . yn das Symbol s2y . Entsprechend schreiben wir sx und sy für die zugehörigen empirischen Standardabweichungen. Analog zur Abkürzung ∆xk in der Voraussetzung von Satz 6.4.1 definieren wir ∆yk := yk − y Der durch (36) gegebene Koeffizient a heißt empirischer Regressionskoeffizient und wir nennen n 1 X sxy := (xk − x)(yk − y) die empirische Kovarianz sowie n − 1 k=1 sxy den empirischen Korrelationskoeffizienten. r := sx · sy Dabei ist vorausgesetzt, dass mindestens zwei der Werte yk verschieden sind und damit sy > 0. Hinweise: (a) Für die Abkürzung aus der Voraussetzung von Satz 6.4.1 haben wir ∆ = n · (n − 1) · s2x (38) (b) Mit Hilfe der Umformung n n X k=1 (xk − x)(yk − y) = n = n n X k=1 n X k=1 xk yk − nx 2 n X k=1 yk − ny xk yk − n · x · y = n 85 n X k=1 n X k=1 x k + n2 · x · y xk yk − n X k=1 ! xk n X k=1 ! yk sowie mit Satz 6.1.1 und (38) erhalten wir für den empirischen Regressionskoeffizienten n n P P (xk − x)(yk − y) n (xk − x)(yk − y) sxy k=1 k=1 = = (39) a= n · (n − 1) · s2x (n − 1) · s2x s2x (c) Wir benutzen xk = x + ∆xk (analog für yk ) sowie n P ∆xk = 0 (analog für yk ) und k=1 n X x2k = n X k=1 (x + ∆xk )2 = nx2 + 2x k=1 sowie n X ∆xk + k=1 n X n X xk yk = k=1 n n X X (∆xk )2 (∆xk )2 = nx2 + k=1 k=1 (x + ∆xk )(y + ∆yk ) = nxy + n X ∆xk ∆yk k=1 k=1 und vereinfachen damit die in Satz 6.4.1 angegebene Berechnung des Koeffizienten: n n P P 2 2 nx + (∆xk ) ny − nx(nxy + ∆xk ∆yk ) k=1 k=1 b = n P n (∆xk )2 k=1 ny n P (∆xk )2 − nx k=1 = n n P n P n P ∆xk ∆yk k=1 =y− (∆xk )2 ∆xk ∆yk x k=1 n P k=1 (∆xk )2 =y− k=1 (n − 1)sxy x (n − 1)s2x = y − ax Zusammen mit (39) erhalten wir damit eine einfachere Formulierung von Satz 6.4.1 Unter den Voraussetzungen von Satz 6.4.1 hat die durch (35) gegebene Funktion S(a, b) genau dann ein Minimum, wenn die Koeffizienten a und b sxy s2x a= und b = y − ax (40) erfüllen. (d) Aus n P x2k = nx2 + k=1 n P (∆xk )2 (siehe c) bekommt man die nützliche Gleichung k=1 ∆=n n X (∆xk )2 = n k=1 n X k=1 x2k − n2 x2 Hiermit, mit der Umformung von (b) sowie mit n n n n X X X X (xk − x)(yk − y) = (xk − x)yk − y (xk − x) = (xk − x)yk k=1 k=1 k=1 86 k=1 erhält man die nützliche Umformung für den linearen Regressionskoeffizienten n a= n P (xk − x)(yk − y) k=1 n n P (xk − n P = x)2 (xk − x)yk k=1 n P x2k k=1 k=1 − nx 2 n nX = (xk − x)yk ∆ k=1 (41) (e) Aus der Definition der empirischen Standardabweichung und der Abkürzung ∆xk in der Voraussetzung von Satz 6.4.1 erhält man v uP u n u (∆xk )2 t sx = k=1 n−1 Mit einer analoge Formel für sy erhält man für den Korrelationskoeffizienten n P r=s ∆xk ∆yk k=1 n P (∆xk )2 k=1 n P (∆yk )2 k=1 Definieren wir die Vektoren ∆x1 ∆x2 ~u := .. . und ∆y1 ∆y2 ~v := .. . ∆yn ∆xn so erhalten wir r= ~u · ~v |~u| Aus der Cauchy-Schwarz-Ungleichung |~u · ~v | ≤ |~u| · |~v | (die auch für Vektoren im Rn gültig ist) folgt dann |r| ≤ 1 Eine kurze Rechnung (Übungsaufgabe!) zeigt, dass |r| = 1, wenn für alle k = 1, 2, . . . n gilt yk = a · xk + b, und zwar r = 1, wenn a > 0 und r = −1, wenn a < 0. Wenn die Messwerte alle auf einer Geraden liegen, dann ist r = ±1, wenn die Steigung der Geraden positiv ist, dann ist r = 1, wenn sie negativ ist, dann ist r = −1. Und man kann zeigen, dass nur dann r = ±1 auftreten kann. Daran, wie nahe |r| an 1 liegt, kann man ablesen, wie gut“ die Werte (xk , yk ) auf einer Geraden ” liegen. Man sollte sich hüten, aus einem Wert |r| ≈ 1 zu schließen, dass große Werte für |xk | die Ursache für große Werte von |yk | sind. Bei einem häufig als Warnung angeführten Beispiel ist xk die Zahl der Storchennester im Landkreis k und yk die Zahl der Geburten in einem Jahr. Bisher haben wir uns darauf beschränkt, nach dem Prinzip der kleinsten Fehlerquadrate eine Gerade durch die Messpunkte (xk , yk ) zu legen. Wir wollen nun ein einfaches wahrscheinlichkeitstheoretisches Modell betrachten. Wir nehmen zur Vereinfachung an, dass 87 die Messfehler bei den Werten xk vernachlässigbar klein sind gegenüber dem bei den Werten yk . Wir gehen also davon aus, dass yk = axk + b + zk und die unbekannten Fehler zk Funktionswerte von identisch verteilten und stochastisch unabhängigen Zufallsvariablen Zk sind mit dem Erwartungswert E(Zk ) = 0 und der Varianz Var(Zk ) = σ 2 . Damit sind die Messwerte yk Funktionswerte der Zufallsvariablen Yk = axk + b + Zk und wir haben nach Satz 3.2.3 Var(Yk ) = Var(Zk ) = σ 2 . Wir können die Koeffizienten a und b aufgrund von (40) und (41) als Funktionswerte der Zufallsvariablen n P A= (xk − x)Yk k=1 n P x2k k=1 − nx 2 n nX = (xk − x ∆ k=1 n und 1X B= Yk − xA n k=1 ansehen. Aufgrund von Satz 3.2.3 erhalten wir daraus n P (xk − x)2 Var(Yk ) σ2 σ2 n 2 Var(A) = k=1 = = = σ n n 2 P 2 P n ∆ P 2 2 xk − nx (∆xk ) x2k − nx2 k=1 k=1 wobei die Umformung n P (xk − x)2 = k=1 n P k=1 k=1 x2k − nx2 (Satz 6.1.1) ausgenutzt wurde. Für die Berechnung von Var(B) ist es geschickter, von der ursprünglich in Satz 6.4.1 angegebenen Form, also von (37) auszugehen. Da wir hier b als Funktionswert der Zufallsvariablen B ansehen, haben wir ! n n 1 X X 2 x − nx · xk Yk B= ∆ k=1 l=1 l und damit !2 n n 1 X X 2 Var(B) = xl − nx · xk · σ 2 2 ∆ k=1 l=1 !2 ! n n n 2 X X X σ = x2l −2 x2l nx · xk + n2 x2 x2k 2 ∆ k=1 l=1 l=1 ! ! ! 2 n n n 2 X X X σ 2 2 2 2 2 2 x x + n x x2l = n x − 2n l l ∆2 l=1 l=1 k=1 ! n n n n X σ2 X 2 σ2 X 2 σ2 X 2 2 2 2 = x n xl − n x = 2 xl · ∆ = xl ∆2 k=1 l ∆ ∆ k=1 k=1 k=1 In praktischen Anwendungen ist die Varianz der Messfehler Var(Zk ) = σ 2 meist unbekannt. Diese unbekannte Varianz kann man aufgrund der Messungen schätzen: 88 Satz 6.4.2 Seien x1 , x2 . . . xn ∈ R bekannt und seien mindestens zwei der Werte xk verschieden. Wir nehmen weiterhin an, dass die Zufallsvariablen Yk stochastisch unabhängig sind und die Erwartungswerte E(Yk ) = axk +b sowie dieselbe Varianz Var(Yk ) = σ 2 haben. n P Außerdem sei ∆ := n · (xk − x)2 k=1 Dann sind n n nX (xk − x)Yk A= ∆ k=1 1X B= Yk − xA n k=1 und Schätzvariablen einer erwartungstreuen Schätzung für die Parameter a und b, d.h. E(A) = a Weiterhin ist n P SZ2 := E(B) = b und k=1 (Yk − xk A − B)2 n−2 eine erwartungstreue Schätzung für die unbekannte Varianz σ 2 , d.h. E(SZ2 ) = σ 2 und wir haben für die Varianzen von A und B n Var(A) = σ 2 ∆ und n σ2 X 2 Var(B) = x ∆ k=1 k Hinweise: (a) Der Satz kann mit Methoden der Linearen Algebra bewiesen werden. Die bisherigen umständlichen Rechnungen mit dem Summenzeichen legen nahe, dass eine Formulierung mit Hilfe der Linearen Algebra zur Vereinfachung führt. Man definiert die Datenmatrix X, den Datenvektor y sowie den Parametervektor b durch 1 x1 y1 1 x2 y2 b X := .. .. , y := .. , b := a . . . 1 xn yn Das durch xk · a + b = yk für k = 1, 2, . . . n gegebene und für n > 2 überbestimmte lineare Gleichungssystem lautet dann Xb = y und die Summe der Fehlerquadrate ist dann S(b) = |y − Xb|2 = (y − Xb)T (y − Xb) Man kann allein mit Hilfsmitteln der Linearen Algebra (also ohne partielle Ableitungen) beweisen, dass das Minimum genau dann angenommen wird, wenn b Lösung des Gleichungssystems XT Xb = XT y ist. Die Voraussetzung, dass mindestrens zwei der Werte xk verschieden sind, ist äquivalent dazu, dass Rang(X) = 2. Der Beweis von Satz 6.4.2 selbst kann mit dieser Formulierung unter Benutzung zahlreicher Ergebnisse der Linearen Algebra durchgeführt werden. Er ist jedoch ziemlich umfangreich und wird daher hier nicht angegeben. 89 (b) In der Praxis berechnet man aus den Daten x1 , x2 , . . . xn und y1 , y2 , . . . yn zunächst nach (36) und (36) die Koeffizienten a und b und danach den Schätzwert für σ 2 durch n P (yk − xk a − b)2 (42) s2z := k=1 n−2 p Mit s2z wird dann die Standardabweichung und damit der Messfehler jeder einzelnen Messung abgeschätzt (diese Schätzung ist jedoch nicht erwartungstreu). Die Standardabweichung (und damit den Einfluss der Messfehler) von a und b kann man dann durch v u r n u s2z X n 2 t s und sb = sa = x2 ∆ z ∆ k=1 k abschätzen.Der durch s2z geschätzte Parameter σ 2 wird auch Restvarianz genannt. (c) Es ist plausibel, dass die gemittelte Summe der Fehlerquadrate in (42) die Varianz von Yk schätzt. Vergleichen Sie (42) mit der empirischen Varianz! Dass hier im Nenner n−2 auftritt (statt n−1 bei der empirischen Varianz), kann man anschaulich dadurch begründen, dass die Schätzung im Fall n = 2 keinen Sinn macht, da durch zwei Punkte stets eine Gerade gelegt werden kann. Eine befriedigendere Begründung erhält man durch einen mathematischen Beweis von Satz 6.4.2. (d) Die Methoden dieses Unterabschnitts können verallgemeinert werden: • Statt davon auszugehen, dass die Messpunkte auf einer Geraden liegen, kann man als Modell auch zugrunde legen, dass sie auf einer Parabel liegen, oder, noch allgemeiner, dass ein Zusammenhang der Form yk = a0 + a1 xk + a2 x2k + · · · + am xm k gilt. Auch hier führt die Forderung, dass n X 2 (yk − a0 − a1 xk − a2 x2k − · · · − am xm S(a0 , a1 , . . . am ) = k ) k=1 minimal ist, zu einem linearen Gleichungssystem für die Koeffizienten a0 , a1 , a2 , . . . am . • Die Größe y kann von mehreren Arten von Messgrößen, also von mehreren Merkmalen, abhängen, also beispielsweise yk = a + buk + cvk was aufgrund von Messfehlern bei mehr als drei Messungen nicht exakt erfüllbar ist. Auch hier liefert die Forderung, dass S(a, b, c) = n X k=1 (yk − a − buk − cvk )2 minimal ist, ein lineares Gleichungssystem für die unbekannten Parameter a, b, c. Auch hier kann y statt von drei von m Größen abhängen. 90 In allen diesen Verallgemeinerungen ist eine Formulierung mit Matrizen, wie sie in Hinweis (a) angedeutet wurde, dringend zu empfehlen. (e) In vielen Fällen besteht zunächst kein linearer, sondern ein exponentieller Zusammenhang zwischen den Messgrößen. So erwartet man bei der Entladung eines Kondensators, dass die Spannungen uk zu den Zeitpunkten tk 1 uk = u0 · e− τ tk erfüllen. Hier kann man die Methoden dieses Unterabschnitts anwenden, indem man 1 yk = ln(uk ) = ln(u0 ) − tk τ und xk = tk setzt. Dann erhält man a = − τ1 und b = ln(u0 ). 6.5 Intervallschätzungen, Konfidenzintervalle Bei den bisherigen Schätzungen haben wir eine Funktion angegeben, mit deren Hilfe wir aus den Messwerten oder aus der Stichprobe einen den Wert eines unbekannten Parameters geschätzt haben. Zur Verdeutlichung kann man von einer Punktschätzung sprechen, da ein einziger Wert, beispielsweise der unbekannte Erwartungswert durch Berechnung des Mittelwerts, geschätzt wird. Wir können jedoch nicht erwarten, dass die Schätzung, also im Beispiel x mit dem Erwartungswert µ exakt übereinstimmt. Neue Messwerte, d.h. eine neue Stichprobe, werden in der Regel einen andern Wert liefern. Statt also einen einzelnen Wert oder einen Punkt als Schätzung anzugeben, kann es sinnvoll sein, ein Intervall anzugeben, in dem der Parameter mit einem gewissen Grad des Vertrauens“ liegt. ” Beispiel: Wir betrachten als erstes einfaches (dafür aber unrealistisches) Beispiel die Schätzung des unbekannten Erwartungswertes µ von stochastisch unabhängigen normalverteilten Zufallsvariablen mit Xk mit bekannter Varianz σ 2 durch eine Stichprobe x1 , x2 , . . . xn . Wir wissen aufgrund von Satz 5.3.4, dass die Schätzvariable X normalver2 teilt ist mit Erwartungswert µ und Varianz Var(X) = σn . Also ist die Zufallsvariable Z= X −µ √σ n √ n(X − µ) = σ standardnormalverteilt. Wir legen nun einen Grad des Vertrauens“ mit beispielsweise p = ” 0, 95 bzw. 95 % fest und suchen ein Intervall ]a, b[ mit der Eigenschaft, dass der unbekannte Erwartungswert µ mit 95 % Vertrauen“ a < µ < b erfüllt. Wir haben aber hier das ” Problem, dass µ keine Zufallsvariable ist, und die Frage nach der Wahrscheinlichkeit dafür, dass a < µ < b erfüllt ist, unsinnig ist! Als Ausweg suchen wir stattdessen ein c > 0 mit der Eigenschaft, dass die Wahrscheinlichkeit P {X − c < µ < X + c} = 0, 95 (43) Wenn wir ein solches c gefunden haben, ist es plausibel, dass mit dem gewählten Grad des Vertrauens von 95 % für das zufällig gewonnene Stichprobenmittel x−c < µ < x+c erfüllt √ n ist. Wir können die Ungleichung in (43) mit mit Z = σ (X − µ) äquivalent umformen: √ √ n n <Z<c X −c < µ < X +c ⇐⇒ −c < µ−X < c ⇐⇒ −c < X −µ < c ⇐⇒ −c σ σ 91 Da Z standardnormalverteilt ist, gilt für die Wahrscheinlichkeit √ √ √ √ n n n n <Z<c =Φ c − Φ −c P −c σ σ σ σ √ 1 1 Da Φ(t) = 2 + 2 · erf √t2 und erf(−x) = − erf(x) haben wir mit ξ := c σn Φ(ξ) − Φ(−ξ) = erf ξ √ 2 = 2Φ(ξ) − 1 = p = 0, 95 nach ξ aufzulösen. Diese Gleichung ist äquivalent zu 2Φ(ξ) = 1 + p bzw. 1 Φ(ξ) = (1 + p) 2 D.h. ξ ist das Quantil der Ordnung q = 12 (1 + p) der Standardnormalverteilung (siehe Abschnitt 3.3). Dieses kann beispielsweise in Scilab durch cdfnor("X",0,1,q,1-q) berechnet werden. Wir erhalten hier σ ξ ≈ 1, 96 und damit c ≈ 1, 96 · √ n und σ σ P X − 1, 96 · √ < µ < X + 1, 96 · √ = 0, 95 n n Als Ergebnis erhalten wir das Konfidenzintervall σ σ x − 1.96 · √ , x + 1, 96 · √ n n mit 95 % Vertrauen. Man sieht, dass es mit wachsendem Umfang n der Stichprobe kleiner wird. Praktisches Anwendungsbeispiel: Eine Messgröße wird in ein analoges Spannungssignal umgewandelt und anschließend über eine verrauschte Leitung übertragen. Wir nehmen an, dass man weiß, dass das Rauchen normalverteilt ist mit Mittelwert 0 und Standardabweichung σ = 5 mV. Also ist das das übertragene Signal normalverteilt, X ∼ N (µ, 25) mit der ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Durch zehnmaliges Übertragen des analogen Signals erhält man einen Mittelwert von beispielsweise 42 mV. Dann kann man nach der obigen Rechnung sagen, dass die ursprüngliche Spannung mit 95 % Vertrauen im Intervall ]38, 9 mV, 45, 1 mV[ liegt. Wir möchten allgemein einen Parameter aufgrund einer Stichprobe x1 , x2 , . . . xn schätzen, der meist mit θ bezeichnet wird (in den häufigsten Anwendungen ist θ = µ = E(X) der Erwartungswert oder θ = σ 2 = Var(X) die Varianz einer Zufallsvariable). Statt nur einen einzigen Wert anzugeben, wollen wir ein Intervall angeben mit a < θ < b. Wir müssen dabei das Problem umgehen, dass wir hierfür keine Wahrscheinlichkeit angeben können, denn θ ist keine Zufallsvariable, sondern wir wissen nicht, ob θ ∈ ]a, b[ wahr oder falsch ist. Wir behelfen uns auf folgende Weise: Definition 6.5.1 Gegeben seien • eine Stichprobe x1 , x2 , . . . xn und die zugehörigen identisch verteilten stochastisch unabhängigen Zufallsvariablen X1 , X2 , . . . Xn 92 • θ ein (in der Praxis unbekannter und zu schätzender) Parameter der Verteilung der Xk • Schätzfunktionen gu (x1 , x2 , . . . xn ) und go (x1 , x2 , . . . xn ) mit den zugehörigen Schätzvariablen Gu (X1 , X2 , . . . Xn ) und Go (X1 , X2 , . . . Xn ) • eine Zahl 0 < p < 1, die Vertrauensniveau oder Konfidenznieveau genannt wird (in der Praxis ist meist p = 0, 95, p = 0, 99 oder p = 0, 999) Wenn dann die Wahrscheinlichkeit P {Gu (X1 , X2 , . . . Xn ) < θ < Go (X1 , X2 , . . . Xn )} = p erfüllt, dann heißt das Intervall ]gu (x1 , x2 , . . . xn ), go (x1 , x2 , . . . xn )[ Konfidenzintervall oder Vertrauensintervall zum Vertrauensniveau p. Abbildung 24: Wahrscheinlichkeitsdichtefunktion fk (x) der Student-Verteilung für verschiedene Werte von k (Zahl der Freiheitsgrade), k=infini“ steht für den Grenzwert ” g(x) = lim fk (x) k→∞ Im Beispiel zu Beginn dieses Unterabschnitts hatten wir die unrealistische Annahme gemacht, dass die Varianz σ 2 der Verteilungen von Xk bekannt sei. In der Praxis wird man diese durch die empirische Varianz schätzen mit der Schätzvariable n P S2 = (Xk − X)2 k=1 n−1 √ Die Zufallsvariable S ist dann durch S = S 2 gegeben. Wir bezeichnen den Erwartungswert mit µ = E(Xk ). Dann hat man auszunutzen, dass die Verteilungsfunktion der Zufallsvariablen √ X −µ Tn−1 := n S 93 bekannt ist. Diese Verteilung heißt Student-Verteilung oder t-Verteilung mit m = n − 1 Freiheitsgraden. Ihre Wahrscheinlichkeitsdichte ist bei m Freiheitsgraden durch Γ 12 (m + 1) 1 · fm (x) = √ 1 m 1 mπΓ 2 (1 + m x2 ) 2 (m+1) gegeben. Dabei ist die Gamma-Funktion Γ(x) für x > 0 durch Z∞ Γ(x) := tx−1 e−t dt 0 definiert. Sie erfüllt Γ(n + 1) = n! für alle n ∈ N und für halbzahlige Argumente können die Funktionswerte durch √ √ Γ(2n) 1 1 Γ = π, = 21−2n π · für alle n ∈ N Γ n+ 2 2 Γ(n) berechnet werden. Die Dichtefunktion fm (x) ist für mehrere Werte von m in Abb. 24 grafisch dargestellt. Die Abbildung stammt aus http://en.wikipedia.org/wiki/Student%27s_t_distribution Die Verteilungsfunktion von Tm ist Zx Fm (x) = fm (t)dt −∞ Da — wie bei der Normalverteilung — die Wahrscheinlichkeitsdichte gerade ist, erfüllt sie dieselbe nützliche Rechenregel wie Φ(x): Fm (x) − Fm (−x) = 2Fm (x) − 1 für alle x ∈ R Für die praktische Berechnung eines Konfidenzintervalls benötigt man Quantile dieser Verteilungsfunktion. Das Quantil der Ordnung q bei m Freiheitsgraden kann in Scilab durch x=cdft("T",m,q,1-q) berechnet werden. Damit kann ein Konfidenzintervall analog zu den Überlegungen bei bekannter Varianz zu Beginn dieses Unterabschnitts bestimmt werden. 6.6 Tests von Hypothesen Wir betrachten hier zunächst ein einfaches Beispiel einer Stichprobe x1 , x2 , . . . xn und nehmen an, dass dies die Funktionswerte von stochastisch unabhängigen normalverteilten Zufallsvariablen Xk sind. Wir machen außerdem wieder die unrealistische Annahme, dass wir die Varianz Var(Xk ) = σ 2 kennen, denn dies vereinfacht viele Überlegungen. Beim Test von Hypothesen geht man meist von einer Hypothese aus, die man die Nullhypothese nennt. Wir betrachten hier als Nullhypothese, dass der unbekannte Erwartungswert E(Xk ) = µ mit einem vermuteten Wert µ0 übereinstimmt, also H0 : µ = µ0 94 Als Alternativhypothese wählen wir µ 6= µ0 H1 : Man kann auch mehrere Alternativhypothesen testen. Beachten Sie, dass der unbekannte Erwartungswert µ selbt keine Zufallsvariable ist! Es macht also keinen Sinn, nach der Wahrscheinlichkeit zu fragen, ob die Nullhypothese wahr ist. Wie man beim Schätzen eine Schätzfunktion benutzt, so benutzt man hier eine Testfunktion g(x1 , x2 , . . . xn ) und die zugehörige Testvariable Y = g(X1 , X2 , . . . Xn ). Für den Erwartungswert werden wir den Mittelwert x als Testfunktion und X als Testvariable benutzen. Es ist naheliegend, dass wir als Test für H0 eine kritische Bedingung der Form |x − µ0 | > c festlegen und H0 verwerfen, wenn diese Bedingung erfüllt ist. Wir nennen hier die Menge {x ∈ R | |x − µ0 | > c} den Verwerfungsbereich, die Menge {x ∈ R | |x − µ0 | ≤ c} den Annahmebereich. Da es sich hier um Zufallsexperimente handelt, können beim Testen der Nullhypothese zwei Fehler auftreten: (a) Ein Fehler 1. Art (englisch type I error) liegt vor, wenn wir die Nullhypothese aufgrund des zufälligen Testergebnisses ablehnen, obwohl sie in Wirklichkeit richtig ist. (b) Ein Fehler 2. Art (englisch type II error) liegt vor, wenn wir die Nullhypothese aufgrund des zufälligen Testergebnisses akzeptieren, obwohl sie nicht erfüllt ist. Beachten Sie, dass wir die Nullhypothese verwerfen, wenn unser Test mit einer Bedingung der Art |x − µ0 | > c erfüllt, also positiv“ ist. Häufig wird ein derartiger Test ” (anstelle der Nullhypothese) in den Vordergrund gestellt. Dies ist vor allem bei medizinischen Anwendungen der Fall. Dann wird ein Fehler 1. Art auch ein falsch positives“ ” Testergebnis und ein Fehler 2. Art ein falsch negatives“ Testergebnis genannt. ” Man legt nun eine kleine maximale Wahrscheinlichkeit α dafür fest, dass ein Fehler 1. Art auftritt, also ist α durch die Forderung für die Wahrscheinlichkeit P {H0 wird verworfen, obwohl H0 gilt} ≤ α festgelegt. Diese Wahrscheinlichkeit wird Signifikanzniveau genannt. Meist wird α = 0.05, α = 0, 01 oder α = 0, 001 gewählt. Hierfür wird ziemlich einheitlich der Buchstabe α gewählt. Fehler 1. Art werden daher auch α-Fehler genannt. Wir bestimmen also die Zahl c unseres Tests so, dass Pµ0 {X − µ0 > c} = α Hierzu ist zu beachten, dass X normalverteilt ist mit Erwartungswert µ0 und Varianz Var(X) = n1 σ 2 . Also ist die Zufallsvariable √ n(X − µ0 ) (44) Z0 := σ 95 standardnormalverteilt, Z0 ∼ N (0, 1). Weiterhin gilt √ X − µ0 > c ⇐⇒ |Z0 | > c n σ und damit haben wir √ √ √ √ c n c n c n c n = 1− Φ −Φ − = 1 − 2Φ −1 P |Z0 | > σ σ σ σ √ c n = 2 1−Φ =α σ nach c aufzulösen. Wir erhalten √ c n α Φ =1− σ 2 und müssen also die Gleichung Φ(ξ) = 1 − α2 auflösen nach ξ. In der Sprache der Wahrscheinlichkeitsrechnung heißt dies, dass wir das Quantil ξ = zq der Ordnung q = 1 − α2 √ der Standardnormalverteilung berechnen müssen. Danach haben wir ξ = c σ n nach c aufzulösen und erhalten für den Zahlenwert α = 0.05 mit ξ = zq ≈ 1, 959964 σ σ c = ξ · √ ≈ 1, 96 · √ n n Es ist sinnvoll, die kritische Bedingung für unseren Test für die durch (44) gegebene Zufallsvariable Z0 umzuformulieren, da diese standardnormalverteilt ist. Sie bewertert in standardisierter Form die Abweichung des Zufallsexperiments von der Nullhypothese, ein großer Absolutwert von Z0 ist also unwahrscheinlich, wenn die Nullhypothese wahr ist. Wir berechnen somit aus der Stichprobe die zu Z0 gehörige standardisierte Testfunktion √ n(x − µ0 ) z= σ und erhalten damit unseren Test (zq ist Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung): H0 ist zu verwerfen, wenn H0 ist zu akzeptieren, wenn |z| > zq ≈ 1, 96 |z| ≤ zq ≈ 1, 96 Dies ist in Abb. 25 (links) verdeutlicht. Die Abbildung zeigt die Wahrscheinlichkeitsdichte ϕ(z) der Testvariablen Z0 . Der Verwerfungsbereich ist grau markiert, die Summe der beiden grauen Flächen entspricht der Wahrscheinlichkeit α = 0, 05 für einen Fehler 1. Art. Betrachten wir erneut das im Unterabschnitt 6.5 angegebene Anwendungsbeispiel der Übertragung eines analogen Spannungssignals über eine verrauschte Leitung, bei der das übertragene Spannungssignal normalverteilt ist, also X ∼ N (µ, 25) mit der ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Wir testen die Nullhypothese, dass diese Spannung 40 mV beträgt, und behalten als Signifikanzniveau 96 Abbildung 25: Wahrscheinlichkeitsdichte der Testvariablen Z0 , der Verwerfungsbereich ist der zur grau markierten Fläche gehörende Teil der z-Achse, die Summe der beiden grauen Flächen ist das Signifikanzniveau α (links α = 0, 05, rechts α = 0, 001) α = 0, 05 bei. Wenn wir nach zehnmaliger Übertragung den Mittelwert 42 mV erhalten haben, dann bekommen wir für unsere standardnormalverteilte Zufallsvariable Z0 den Wert z ≈ 1, 26. Weil |z| ≤ zq , haben wir die Nullhypothese µ = 40 mV zu akzeptieren. Wenn jedoch nach 64 Übertragungen den Mittelwert 42 mV beträgt, dann ist |z| = 3, 2 > zq und wir müssen die Nullhypothese verwerfen. Dies ist plausibel, denn bei einer so erheblich höheren Zahl von Übertragungen ist es unwahrscheinlicher, dass wir bei einem tatsächlichen Erwartungswert von 40 mV einen Mittelwert von 42 mV feststellen. Beachten Sie den Einfluss des Signifikanzniveaus α auf das Testergebnis. Wir akzeptieren die Nullhypothese, auch wenn das zufällige Ergebnis eines Experiments eigentlich dagegen spricht, wenn dieses Zufallsergebnis zu einem Ereignis der Art {|Z0 | ≤ |z|} gehört, dessen Wahrscheinlichkeit nicht kleiner als das Signifikanzniveau ist und bringen dann sozusagen als Entschuldigung vor, dass wir eben Pech hatten. Wir akzeptieren die Nullhypothese, solange der Absolutbetrag des Werts für die Zufallsvariable Z (die die Abweichung“ ” von der Nullhypothese bewertet) nicht oberhalb des Quantils zq liegt. Wenn wir das Signifikanzniveau absenken, dann akzeptieren wir eher eine derartige Entschuldigung, dass eben ein sehr unwahrscheinliches Ereignis eingetreten ist und die Nullhypothese trotzdem wahr ist. Wenn wir in dem gerade betrachteten Zahlenbeispiel das Signifikanzniveau von α = 0, 05 auf α = 0, 001 absenken, dann erhöht sich das Quantil zq der Ordnung q = 1 − α2 auf zq ≈ 3, 29 und wir können unsere Nullhypothese µ = 40 mV trotz eines Mittelwerts von 42 mV bei 64 Übertragungen noch akzeptieren, weil |z| = 3, 2 < zq . Dies ist in Abb. 25 (rechts) verdeutlicht. Die Grenzen −zq und zq für den Verwerfungsbereich sind erheblich weiter außen, und die Summe der grau markierten Flächen entspricht dem erheblich kleineren Wert von α. Beachten Sie, dass der Maßstab verändert wurde, um diese Flächen überhaupt sichtbar zu machen. Es ist verständlich, dass eine derartige Abhängigkeit vom Parameter Signifikanzniveau“ zu Manipulationen einlädt. ” Als Beispiel für kritische Anmerkungen zu statistischen Tests sei hier auf http://www.npwrc.usgs.gov/resource/methods/statsig/stathyp.htm verwiesen. 97 Wenden wir uns nun Fehlern 2. Art zu. Wir setzen also voraus, dass die Nullhypothese falsch ist, in unserem Beispiel also, dass µ 6= µ0 . Die Wahrscheinlichkeit dafür, dass man aufgrund des Testergebnisses die Nullhypothese trotzdem akzeptiert, wird in der Regel mit β bezeichnet. Also ist β := P {H0 wird akzeptiert, obwohl H0 falsch ist} (45) Fehler 2. Art heißen auch β-Fehler. Beachten Sie, dass diese Wahrscheinlichkeit in unserem Beispiel eine Funktion des unbekannten tatsächlichen Erwartungswertes µ ist. Um dies zu verdeutlichen, werden wir β(µ) schreiben. Diese Funktion ist streng genommen für µ = µ0 nicht definiert, da in diesem Fall H0 wahr ist. Wir erwarten jedoch, dass der Grenzwert für µ → µ0 existiert und werden dann β(µ) stetig fortsetzen. Dieser Grenzwert β(µ0 ) ist die Wahrscheinlichkeit, dass die Hypothese akzeptiert wird, wenn µ = µ0 , wenn sie also wahr ist. Wir haben die Wahrscheinlichkeit, dass sie in diesem Fall verworfen wird, mit α festgelegt. Also gilt β(µ0 ) = 1 − α Wir erwarten, dass β(µ) das Maximum in µ = µ0 annimmt. Die Funktion β(µ) wird Operationscharakteristik des Tests genannt. Die Funktion 1 − β(µ) heißt die Macht des Tests. Beachten Sie, dass diese Funktionen vom gewählten Signifikanzniveau abhängen. Unglücklicherweise wird diese Bezeichnungsweise nicht von allen akzeptiert, und manche nennen die Wahrscheinlichkeit in (45) 1 − β. Sie können dies daran erkennen, dass dann — im Gegensatz zur hier gewählten Bezeichnungsweise — β(µ) besonders klein ist, wenn µ ≈ µ0 . Dann ist die Funktion 1 − β(µ) die Operationscharakteristik. Wir wollen nun die Operationscharakteristik in unserem Beispiel einer normalverteilten Zufallsvariablen X mit bekannter Varianz σ 2 , aber unbekanntem Erwartungswert µ berechnen. Das durch X gegebene Wahrscheinlichkeitsmaß bezeichnen wir hier mit Pµ , um zu verdeutlichen, dass es vom Erwartungswert abhängt. Es ist sinnvoll, statt des Stichprobenmittelwerts X die standardnormalverteilte Variable √ n Z= (X − µ) ∼ N (0, 1) σ zu benutzen. Nur für µ = µ0 stimmt diese Variable mit der bisher benutzten Variablen Z0 überein, die bei der Diskussion des Fehlers 1. Art in (44) definiert wurde. Unsere Testbedingung für die Annahme von H0 ist, ausgedrückt durch den Funktionswert z der Testvariablen Z0 −zq ≤ z ≤ zq wobei zq das Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung ist. Es ist durch Φ(zq ) = q gegeben. Zur Berechnung von β(µ) ist es nützlich, die bisher benutzte Variable Z0 durch die hier neu eingeführte Variable Z auszudrücken. Denn im Fall µ 6= µ0 ist Z standardnormalverteilt, Z0 jedoch nicht. Wir haben √ √ √ n n n Z0 = (X − µ0 ) = (X − µ − µ0 + µ) = Z − (µ0 − µ) σ σ σ 98 Damit erhalten wir für die Operationscharakteristik √ n (µ0 − µ) ≤ zq β(µ) = Pµ ({−zq ≤ Z0 ≤ zq }) = Pµ −zq ≤ Z − σ √ √ n n (µ0 − µ) − zq ≤ Z ≤ (µ0 − µ) + zq = Pµ σ σ √ √ n n = Φ (µ0 − µ) + zq − Φ (µ0 − µ) − zq σ σ Abbildung 26: links: Operationscharakteristik β(µ) für das Beispiel µ0 = 40 mV, σ = 5 und n = 10 für α = 0, 05 (blau, untere Kurve) und α = 0, 001 (rot, obere Kurve); rechts: standardisierte“ Operationscharakteristik fOC (d) für α = 0, 05 (blau, untere Kurve) und ” α = 0, 001 (rot, obere Kurve) Für das hier schon mehrfach angeführte Zahlenbeispiel des verrauschten Spannungssignals mit µ0 = 40 mV, σ = 5 und 10 Übertragungen ist die Operationscharakteristik β(µ) für α = 0.05 und α = 0, 001 in Abb. 26 (links) gezeigt. Im Fall α = 0.05 hat man bei 10 Übertragungen nur eine vernünftige Chance, mit dem Test eine Abweichung von der Nullhypothese festzustellen, wenn die Abweichung mehr als 2 bis 3 mV beträgt, bei α = 0, 001 kann man nur eine Abweichung von etwa 5 mV feststellen. Bei kleineren Abweichungen ist die Wahrscheinlichkeit für einen Fehler 2. Art größer als 21 . Beachten Sie, dass man bei größerem n (also mehr Übertragungen desselben Signals) auch kleinere Abweichungen feststellen kann. Damit die Darstellung nicht von der Zahl der Messungen, vom Erwartungswert und der Varianz abhängt, ist es sinnvoll, statt µ die Variable √ n d := (µ − µ0 ) σ einzuführen und die Funktion fOC (d) := Φ(zq − d) − Φ(−zq − d) zu betrachten. Dann erhält man die Operationscharakteristik durch β(µ) = fOC d(µ) . Diese Funktion ist in Abb. 26 (rechts) gezeigt, und zwar für die beiden bisher betrachteten Werte für α. Mit Hilfe der Symmetrieeigenschaften der Verteilungsfunktion Φ(x) 99 der Standardnormalverteilung kann man zeigen (Übungsaufgabe, siehe (16)), dass fOC (d) eine gerade Funktion ist. Zuweilen wird daher auch |d| als Parameter eingeführt. Betrachten wir ein Zahlenbeispiel: Wir legen α = 0, 05 fest und fordern für unsere Anwendung, dass man bei einer Abweichung von mehr als 2 mV vom Wert µ0 = 40 mV mit einer Wahrscheinlichkeit von höchstens 0, 1 die Nullhypothese akzeptiert. Damit ergibt sich aus der Abbildung ein Wert von |d| ≈ 3, 2. Da σ = 5 gegeben ist, kann man die Forderung erfüllen, indem man n = 64 (oder größer) wählt. Wir sind hier von der unrealistischen Annahme ausgegangen, dass wir die Varianz σ 2 kennen. In der Praxis kennt man diese nicht. Man hat dann — wie bei den Konfidenzintervallen erläutert wurde — eine Testvariable, die der Student-Verteilung genügt. Die grundlegende Vorgehensweise ist aber dieselbe wie im hier betrachteten Beispiel. 7 Zufallszahlen, Simulation von Zufallsexperimenten Bei vielen Programmiersprachen und Mathematik-Programmen besteht die Möglichkeit, Zufallszahlen zu erzeugen. Unter Scilab kann man durch den Aufruf rand(’uniform’) eine Gleichverteilung im Intervall [0, 1] als die gewünschte Verteilung wählen und dann durch x=rand() eine Zufallszahl zwischen 0 und 1 erzeugen. Die Einstellung auf eine Gleichverteilung bleibt dann erhalten, bis sie explizit geändert wird. Durch rand(’normal’) wird eine Standardnormalverteilung eingestellt, danach erhält man durch x=rand() standardnormalverteilte Zufallszahlen. Mit dem Kommando x=rand(1,2000); erhält man einen Zeilenvektor von 2000 Zufallszahlen. Abb. 27 zeigt als Ergebnis die Histogramme von 2000 auf diese Weise erzeugten Zufallszahlen für beide mögliche Verteilungen. Das Verfahren, das von rand verwendet wird, gilt heute als veraltet. Es wird daher empfohlen, für wissenschaftliche Zwecke (beispielsweise Diplomarbeiten) die etwas aufwändigere Funktion grand zu nehmen, näheres hierzu siehe das Help-Menu (erhältlich mit help grand). Abbildung 27: Histogramme von 2000 mit Scilab erzeugten Zufallszahlen, links gleichverteilte, rechts standardnormalverteilte Zufallszahlen Man sollte sich jedoch darüber im klaren sein, dass der Computer kein echtes Zufallsexperiment durchführt. Es ist daher zutreffender, von Pseudozufallszahlen zu sprechen. Das Ergebnis von Rechnungen im Computer ist stets eindeutig bestimmt. Man kann jedoch durch bestimmte Rechenoperationen versuchen, Folgen von Zahlen zu erzeugen, deren relative Häufigkeit innerhalb gleichlanger kleiner Teilintervalle von [0, 1] annähernd gleich ist. Ein beliebtes Rechenschema hierzu ist, zunächst eine Folge ganzer Zahlen durch eine 100 Vorschrift der Art nk := (a · nk−1 + c) mod m für k > 0 (46) mit einem beliebigen Startwert n0 ∈ {0, 1, 2, 3, . . . m − 1} zu erzeugen. Dabei kommt es entscheidend auf eine geschickte Wahl der Zahlen a, c ∈ {0, 1, 2, 3, . . . m − 1} an. n mod m ist der positive ganzzahlige Rest, der bei Division von n durch m entsteht. Eigentlich ist durch dieses Symbol die entsprechende Restklasse gemeint, wir gehen aber hier davon aus, dass wir stets einen Vertreter in {0, 1, 2, 3, . . . m − 1} aus der Restklasse auswählen (siehe Abschnitt 8.1 im Skript zur Linearen Algebra). Bei günstiger Wahl der Zahlen a, c und m kann man hoffen, dass sich die so erzeugten Zahlen mit einer Periode von m wiederholen. Dann erhält man durch nk xk := m Zahlen, die in [0, 1[ liegen und eine Gleichverteilung einigermaßen simulieren. Beachten Sie, dass man damit höchstens m verschiedene Zufallszahlen erzeugen kann. Eine ungeschickte Wahl der Parameter wie beispielsweise a = c = n0 = 5 und m = 10 führt auf die Folge 5, 0, 5, 0, 5, 0, . . ., die zur Simulation von gleichverteilten Zahlen völlig ungeeignet ist. Bei einer geschickten Wahl dieser Parameter verhalten sich die auf diese Weise erzeugten Zahlen in vielerlei Hinsicht so, als ob sie Funktionswerte unabhängiger identisch verteilter Zufallsvariabler seien, deren Dichtefunktion und Verteilungsfunktion ( 0 falls x < 0 1 falls x ∈ [0, 1[ und FX (t) = t falls x ∈ [0, 1] (47) f (x) = 0 sonst 1 falls x > 1 erfüllen. Bekannte günstige Parameter sind: • m = 231 , a = 65539, c = 0, n0 = 1 (RANDU genannt, gilt heute als veraltet) • m = 235 , a = 513 , c = 0, n0 = 1 (von Apple verwandt) • m = 1012 − 11, a = 427419669081, c = 0, n0 = 1 (von Maple verwandt) • m = 259 , a = 1313 , c = 0, n0 = 123456789(232 +1) (von der NAG-Fortran-Bibliothek verwandt) • m = 232 , a = 3141592653, c = 1, n0 = 0 (vom Programm Derive verwandt) • m = 231 − 1, a = 75 , c = 0, n0 = 1 Fasst man zwei aufeinanderfolgende auf diese Weise erzeugte Zufallszahlen (xk , xk+1 ) als Koordinaten eines Punktes in der Ebene auf, dann sollten diese Punkte im Einheitsquadrat möglichst gleich verteilt liegen. Analog kann man drei oder allgemein n aufeinanderfolgende Zahlen als Koordinaten eines Punktes im Raum R3 oder allgemein Rn auffassen, die eigentlich möglichst gleichverteilt im (allgemein n-dimensionalen) Einheitswürfel liegen sollten. Derartige Anforderungen zu erfüllen, ist mit Zufallsgeneratoren der angegebenen Art nicht möglich. Das fällt nicht auf, wenn man bedeutend weniger als m Zufallszahlen benutzt. Wenn man jedoch alle m Zufallszahlen benutzt, dann ist es deutlich sichtbar, dass die damit erzeugten Punkte im Rn nicht zufällig verteilt sind. Dies ist 101 in Abb. 28 demonstriert für Zufallszahlen, die gemäß (46) mit m = 500, a = 41, c = 343 und n0 = 251 erzeugt wurden. Links sind die Punkte (xk , xk+1 ) für k = 0, . . . 48 (also insgesamt 25 Punkte) grafisch dargestellt. Sie scheinen zufällig über das Einheitsquadrat verteilt. Rechts sind dagegen alle möglichen 250 Punkte (also für k = 0, . . . 498) gezeigt. Sie liegen auf wenigen zueinander parallelen Geraden und entsprechen daher in keiner Weise dem, was man anschaulich unter zufällig verteilt“ versteht. Die hier angegebenen ” Verfahren zur Erzeugung von Zufallszahlen sind daher weiter verfeinert und verbessert worden. Es muss hierzu auf die Spezialliteratur verwiesen werden. Abbildung 28: Punkte (xk , xk+1 ), die nach (46) und xk := nmk mit m = 500, a = 41, c = 343 und n0 = 251 erzeugt wurden. Die ersten 25 Punkte (links) scheinen zufällig verteilt, alle 250 möglichen Punkte (rechts) liegen auf wenigen parallelen Geraden. Wenn man auf die beschriebene oder eine ähnliche Weise in [0, 1[ gleichverteilte Zufallszahlen xk erzeugt, dann kann man diese benutzen, um Zufallszahlen zu erzeugen, die nach einer anderen, beispielsweise durch ihre Verteilungsfunktion F (t) gegebenen Verteilung, verteilt sind. Besonders einfach ist dies, wenn die vorgegebene Verteilungsfunktion F (t) injektiv und stetig ist und damit eine Umkehrfunktion F −1 existiert. Dann simulieren die Werte yk = F −1 (xk ) Funktionswerte von unabhängigen identisch verteilten Zufallsvariablen, deren Verteilungsfunktion F (t) ist. In der Fachsprache der Wahrscheinlichkeitsrechnung bedeutet dies, dass wir als neue Zufallszahl yk das xk -Quantil zur vorgegebenen Verteilungsfunktion F (t) wählen. Falls xk = 0 oder xk = 1, dann wäre F −1 (xk ) nicht definiert. Eine solche Zufallszahl ist dann einfach zu überspringen, sollten (wenn überhaupt) diese beiden Werte sehr selten auftreten, denn P {X = 0} = P {X = 1} = 0. Um zu überprüfen, ob diese Zahlen tatsächlich nach der durch F (t) gegebenen Verteilungsfunktion verteilt sind, haben wir nachzuweisen, dass für die durch Y := F −1 (X) definierte Zufallsvariable FY (t) = P {Y ≤ t} = F (t) erfüllt ist, wenn die Verteilung von X durch (47) gegeben ist. Nun ist jede Verteilungsfunktion F (t) monoton wachsend, also a ≤ b ⇐⇒ F (a) ≤ F (b) und damit 102 F −1 (x) ≤ t ⇐⇒ x ≤ F (t) Also haben wir {F −1 (X) ≤ t} = {X ≤ F (t)}. Die Verteilungsfunktion der Variablen X ist laut Voraussetzung durch (47) gegeben, also haben wir hier P {X ≤ c} = c, wenn c ∈ [0, 1] . Weil F (t) ∈ [0, 1], erhalten wir das gewünschte Ergebnis FY (t) = P {Y ≤ t} = P {F −1 (X) ≤ t} = P {X ≤ F (t)} = F (t) Auch wenn die vorgegebene Verteilungsfunktion F (t) nicht injektiv oder nicht stetig ist, dann kann durch (10) stets eindeutig ein Quantil ausgewählt werden, falls q ∈]0, 1[ liegt. Wir können also aus in ]0, 1[ gleichverteilten Zufallszahlen xk (Werte xk = 0 und xk = 1 sind zu überspringen) stets nach F (t) verteilte Zufallszahlen yk erhalten, indem wir yk = min{t ∈ R | F (t) ≥ xk } setzen. Man kann sich durch eine analoge Rechnung (wie im Sonderfall, dass F (t) injektiv und stetig ist) davon überzeugen, dass diese Zufallszahlen tatsächlich nach der gewünschten Verteilung verteilt sind. Hierzu geht man von der Zufallsvariablen Y (ω) := min{ξ ∈ R |F (ξ) ≥ X(ω)} aus, wobei X durch (47) gegeben ist. Durch eine analoge Überlegung wie im schon behandelten Spezialfall hat man zu beweisen, dass FY (t) = P {Y ≤ t} = F (t). Dies kann man durchführen, wenn man sich klarmacht, dass F Y (ω) ≥ X(ω) und Y (ω) ≤ t ⇐⇒ X(ω) ≤ F (t) Hierzu kann man auch eine Zeichnung anfertigen. Beachten Sie, dass F (t) monoton wachsend ist, Sprungstellen haben kann, jedoch stets lim F (t) = F (a) t→a+ erfüllt. Statt die Zufallszahlen yk auf diese Weise zu berechnen, sollte man in der Praxis überprüfen, ob für die gewünschte Verteilung ein einfacheres Verfahren existiert, entsprechende Zufallszahlen aus gleichverteilten Zahlen zu erhalten. Dies ist beispielsweise für die Normalverteilung der Fall. Hierzu wird auf die Literatur verwiesen. Für die meisten in der Praxis benutzten Verteilungen existieren frei verfügbare Programme, um zugehörige Zufallszahlen zu erzeugen. In Scilab können mit der Funktion grand alle üblichen Verteilungen simuliert werden, die gewünschte Verteilung muss durch Übergabe eines betreffenden Schlüsselworts als Argument eingestellt werden (siehe das Help-Menu). A A.1 Anhang: Mehrfachintegrale Funktionen von 2 Variablen: Zweifachintegrale Die anschauliche Bedeutung des Integrals Rb f (x)dx ist die mit dem Vorzeichen der Funk- a tion versehene Fläche zwischen dem Graphen der Funktion und der x-Achse. Wir wollen dies hier zunächst für Funktionen von 2 Variablen verallgemeinern. Der Graph z = f (x, y) ist eine gekrümmte Fläche, und wir wollen durch einen analogen Grenzübergang das mit 103 dem Vorzeichen von z versehene Volumen zwischen der xy-Ebene und dieser gekrümmten Fläche berechnen. Rb Beim Integral f (x)dx hatten wir uns auf ein Intervall als besonders einfache Teila menge von R2 beschränkt und das Intervall [a, b] in Teilintervalle unterteilt und dann den Grenzwert immer kleiner werdender Teilintervalle betrachtet. Hier haben wir es statt mit Intervallen [a, b] mit Teilmengen der xy-Ebene zu tun, und auch hier werden wir uns nur mit mathematisch vernünftigen“ Teilmengen B ⊂ R2 beschäftigen. In der Praxis sind ” das häufig Rechtecke (besonders einfach) [a, b] × [c, d] Dreiecke, Kreise (das Innere) oder Ellipsen. Wie wir bei Intervallen auch [a, ∞[ zugelassen haben, werden wir dann mit einem weiteren Grenzübergang auch unendlich ausgedehnte Teilmengen in R2 zu behandeln haben, als einfaches Beispiel sei die Menge [−∞, b] × [−∞, d] genannt. Wir werden auch Teilmengen als vernünftig“ ansehen, die als Vereinigung einer ” Folge von Rechtecken zustandekommen. Abbildung 29: Zerlegung einer Teilmenge B ⊂ R2 in kleine Rechtecke (links), wir betrach(n) ten den Grenzwert max{∆Ak )} → 0 (rechts) Wir gehen davon aus, dass wir eine auf einer derartigen Teilmenge definierte vernünf” tige“ Funktion haben, betrachten also beispielsweise auf B ⊂ R2 stetige und beschränkte Funktionen. Unsere frühere Unterteilung des Intervalls in Teilintervalle ersetzen wir durch eine Unterteilung der Teilmenge B in kleine Rechtecke der Kantenlängen ∆xk und ∆yk . Wir werden dann Folgen solcher Unterteilungen betrachten, die so gewählt sind, dass die jeweils maximale Kantenlänge gegen Null konvergiert, wir also immer mehr kleinere Rechtecke haben. Dies ist in Abb. 29 angedeutet. Die Fläche der Rechtecke bezeichnen wir mit ∆Ak = ∆xk · ∆yk (n) Wir nehmen also Folgen solcher Unterteilungen, so dass max{∆Ak )} → 0. Wir nähern das Volumen zwischen xy-Ebene und der gekrümmten Fläche z = f (x, y) durch das Volumen von kleinen Quadern an, deren Grundfläche durch die kleinen Flächen mit dem Flächeninhalt ∆Ak und deren Höhe durch den Funktionswert im kleinen Rechteck gegeben 104 2 2 Abbildung 30: Fläche z = e−x −y , eingeschränkt auf den Einheitskreis (links), grobe Näherung des Volumens zwischen der xy-Ebene und dieser Fläche (rechts) ist. Im Grenzwert kleiner Rechtecksflächen sollte es keine Rolle spielen, an welcher Stelle des Rechtecks wir den Funktionswert berechnen. In jedem der Rechtecke wählen wir einen Punkt (ξk , ηk ) aus. Dies kann der Mittelpunkt sein, aber auch der Punkt, an dem innerhalb des Rechtecks die Funktion ihr Minimum oder ihr Maximum annimmt. Das Volumen des kleinen Quaders ist also durch ∆Vk = ∆Ak · f (ξk , ηk ) gegeben, wenn f (ξk , ηk ) positiv ist. Ansonsten erhalten wir das mit dem Vorzeichen der Funktion behaftete Volumen. Das gesamte, mit dem Vorzeichen behaftete Volumen zwischen der Teilmenge B der xy-Ebene und der gekrümmten Fläche z = f (x, y) ist dann näherungsweise gegeben durch die Riemannsche Summe X X f (ξk , ηk )∆xk · ∆yk f (ξk , ηk )∆Ak = k k und diese Näherung sollte umso besser sein, je kleiner die Rechtecke gewählt sind. Dies ist in Abb. 30 und Abb. 31 veranschaulicht. Dabei ist als Beispiel B := {(x, y) ∈ R2 | x2 + y 2 ≤ 1}, (x, y) 7→ f (x, y) = e−x f : B → R, 2 −y 2 gewählt. Wir definieren das Integral als den Grenzwert dieser Riemannschen Summen, wobei wir die immer feiner werdenden Zerlegungen mit n nummerieren (zur Erinnerung, immer (n) feiner heißt hier max{∆Ak )} → 0) ZZ f (x, y)dA = B ! ZZ f (x, y)dx dy := lim n→∞ B X (n) (n) (n) f (ξk , ηk )∆Ak k Analog zum Integral für Funktionen einer Variablen erhalten wir die folgenden Rechen- 105 Abbildung 31: Verbesserung der Näherung des Volumens zwischen dem Einheitskreis auf 2 2 der xy-Ebene und der Fläche z = e−x −y durch Verfeinerung der Unterteilung in kleine Rechtecke regeln: ZZ f (x, y) + g(x, y) dx dy = ZZ ZZ f (x, y)dx dy + g(x, y)dx dy B B B und für alle Konstanten c ∈ R ZZ ZZ c · f (x, y)dx dy = c · f (x, y)dx dy B B sowie für Teilmengen B1 ⊂ R2 und B2 ⊂ R2 mit B1 ∩ B2 = ∅ ZZ ZZ ZZ f (x, y)dx dy = f (x, y)dx dy + f (x, y)dx dy B1 ∪B2 B1 B2 Ausrechnen lassen sich Flächenintegrale meist mit dem folgenden Satz: RR Satz A.1.1 (Satz von Fubini) Wenn B = [a, b] × [c, d] und |f (x, y)|dx dy existiert B RR (also |f (x, y)|dx dy < ∞), dann gilt B Zb ZZ f (x, y)dx dy = c Zb f (x, y)dx dy = B B Zb f (x, y)dx dy a |f (x, y)|dx dy < ∞, dann gilt Zd Zd f (x, y)dy dx = −∞ RR c analog wenn B = ] − ∞, b]× ] − ∞, d] und ZZ Zd f (x, y)dy dx = a B Zd −∞ Zb f (x, y)dx dy −∞ −∞ und entsprechend für die anderen Möglichkeiten unendlicher Rechtecke“ B ⊂ R2 . ” 106 y B x Abbildung 32: Teilmenge B oben und unten durch den Graphen von Funktionen begrenzt In vielen praktischen Fällen ist die Menge B ⊂ R2 durch die Graphen der Funktionen y = fo (x) oben“ und y = fu (x) unten“ begrenzt, also ” ” B = {(x, y) | a ≤ x ≤ b und fu (x) ≤ y ≤ fo (x)} RR wie dies in Abb. 32 verdeutlicht ist. Wenn |f (x, y)|dx dy < ∞, dann kann in diesem B Fall das Integral ausgerechnet werden durch Zb ZZ f (x, y)dx dy = fZo (x) f (x, y)dy dx a B (48) fu (x) Beachten Sie dabei, dass x = c die Ebene senkrecht zur x-Achse ist. Der Wert des Integrals fZo (x) f (x, y)dy fu (x) ist für den Fall f (x, y) ≥ 0 die von x abhängige Querschnittsfläche senkrecht zur x-Achse durch das zu berechnende Volumen. Diese Querschnittsfläche ist in y-Richtung durch fu (x) und fo (x) begrenzt, wie aus der Abb. 32 ersichtlich ist. Es ist plausibel, dass man dann das gesamte Volumen durch eine Integration über x erhält. Wenn die Menge B ⊂ R2 durch die Graphen der Funktionen x = gl (y) links“ und ” x = gr (y) rechts“ begrenzt ist (siehe hierzu Abb. 33), also ” B = {(x, y) | c ≤ y ≤ d und gl (y) ≤ x ≤ gr (y)} RR und wenn |f (x, y)|dx dy < ∞, dann erhält man das Integral durch B Zd ZZ f (x, y)dx dy = B gZr (y) f (x, y)dx dy c 107 gl (y) (49) y B x Abbildung 33: Teilmenge B links und rechts durch den Graphen von Funktionen begrenzt Dies ist ebenfalls für f (x, y) ≥ 0 plausibel, denn gZr (y) f (x, y)dx gl (y) stellt die von y abhängige Querschnittsfläche durch das zu berechnende Volumen dar (y = c ist die Ebene senkrecht zur y-Achse). Substitutionsregel: Bei der Substitution x = gx (u, v), y = gy (u, v) ist dx dy zu ersetzen durch ∂gx (u, v) ∂u ∂gx (u, v) ∂v du dv ∂gy ∂gy (u, v) (u, v) ∂u ∂v (50) Bei einer konkreten Berechnung nach dem Satz von Fubini bzw. (48) oder (49) hat man dann die Grenzen bezüglich der neuen Variablen u und v so umzurechnen, dass die Integration über die vorgegebene Teilmenge B erfolgt! Ein häufig vorkommender Spezialfall ist die Einführung von Polarkoordinaten x = gx (r, ϕ) = r cos ϕ, Hierfür erhalten wir ∂gx (r, ϕ) ∂r ∂gy ∂r (r, ϕ) y = gy (r, ϕ) = r sin ϕ cos ϕ −r sin ϕ = ∂gy (r, ϕ) sin ϕ r cos ϕ ∂ϕ ∂gx (r, ϕ) ∂ϕ 108 = r(cos2 ϕ + sin2 ϕ) = r Damit haben wir die folgende nützliche Regel gewonnen: Bei der Substitution ersetzen. x = r cos ϕ, y = r sin ϕ ist dx dy durch r dr dϕ zu Polarkoordinaten sind besonders dann nützlich, wenn das Integrationsgebiet B rotationssymmetrisch ist wie beispielsweise das Innere des Einheitskreises: B = {(x, y) | x2 + y 2 ≤ 1} Dann ergeben sich die neuen“ Grenzen zu r ∈ [0, 1] und ϕ ∈ ] − π, +π]. Im Sonderfall ” B = R2 haben wir r ∈ [0, ∞[. Beispiele: +∞ R (a) Berechnung des Integrals 2 e−x dx −∞ 2 +∞ +∞ Z+∞ Z Z 2 2 2 e−x dx = e−x dx · e−y dy −∞ −∞ (51) −∞ Nach dem Satz von Fubini haben wir Z+∞ Z+∞ Z+∞ Z+∞ Z+∞ Z+∞ 2 2 e−(x2 +y2 ) dx dy = e−x2 · e−y2 dx dy e−(x +y ) dx dy = −∞ −∞ −∞ −∞ −∞ −∞ Z+∞ +∞ Z 2 2 e−y e−x · dx dy = −∞ −∞ Z+∞ Z+∞ 2 2 e−x dx · e−y dy = −∞ (52) −∞ da Konstante vor das Integral gezogen werden können. Damit haben wir +∞ 2 +∞ +∞ Z Z Z Z+∞ Z+∞ 2 2 2 2 2 −x −x −y e dx = e dx · e dy = e−(x +y ) dx dy −∞ −∞ −∞ Z+πZ∞ Z∞ = 2 e−r r dr dϕ = −π 0 0 −∞ −∞ Z+π Z+∞ 2 2 −r re dϕ dr = 2π re−r dr −π 0 Z+∞ ∞ e−u du = π −e−u 0 = π = π (53) 0 wobei die Substitution r2 = u, r dr = 21 du angewandt wurde. Wir erhalten damit das Ergebnis Z+∞ √ 2 e−x dx = π −∞ 109 das bei Rechnungen mit der Wahrscheinlichkeitsdichte der Normalverteilung häufig benutzt wird. (b) Weiteres Beispiel für die Anwendung von Mehrfachintegralen in der Stochastik: Wir betrachten zwei stochastisch unabhängige Zufallsvariable X und Y über demselben Grundraum. Wir nehmen an, dass diese eine Wahrscheinlichkeitsdichte besitzen, bezeichnen die Wahrscheinlichkeitsdichte von X mit fX (t) und die von Y mit fY (t) sowie die gemeinsame Wahrscheinlichkeitsdichte mit f (x, y). Diese ist also nach Satz 5.1.5 gegeben durch f (x, y) = fX (x) · fY (y). Wir wollen daraus die Wahrscheinlichkeitsdichte der Zufallsvariablen Z = X + Y berechnen, d.h. hierzu eine allgemeine Formel aufstellen. Schließlich wollen wir diese dann anwenden auf das konkrete Beispiel der Gleichverteilung auf [0, 1], d.h. für ( 1 falls 0 ≤ t ≤ 1 fX (t) = fY (t) = (54) 0 sonst Die Verteilungsfunktion FZ (t) erfüllt FZ (t) = P {Z ≤ t} = P {X+Y ≤ t} = ZZ ZZ fX (x)·fY (y)dx dy f (x, y)dx dy = Bt Bt wobei Bt = {(x, y) | x + y ≤ t} ein unendliches Dreieck“ darstellt, das nach oben ” Abbildung 34: Teilmenge Bt = {(x, y) | x + y ≤ t} (gelb, hier für t = 2, 5) durch die Gerade y = −x + t begrenzt ist (siehe hierzu auch die Abb. 34). Damit können wir das Mehrfachintegral nach (48) ausrechnen, wobei wir hier ] − ∞, +∞[ statt [a, b] und −∞ statt fu (x) zu nehmen haben: t−x ZZ Z+∞ Zt−x Z+∞ Z fX (x) fY (y)dy dx fX (x)·fY (y)dx dy = fX (x) · fY (y)dy dx = Bt −∞ −∞ −∞ 110 −∞ Die Substitution u = y + x, du = dy mit der Umrechnung der Grenzen nach y → −∞ ⇐⇒ u → −∞ y = t − x ⇐⇒ u = t und liefert t−x t Z+∞ Z Z+∞ Z fX (x) fY (y)dy dx = fX (x) fY (u − x)du dx −∞ −∞ −∞ Zt = −∞ Z+∞ fX (x)fY (u − x)dx du −∞ −∞ wobei wir zuletzt die Integrationsreihenfolge nach dem Satz von Fubini vertauscht haben, denn ] − ∞, t] × ] − ∞, +∞[ stellt ein unendliches Rechteck“ dar. ” Insgesamt haben wir dadurch erhalten +∞ Z Zt Zt fX (x)fY (u − x)dx du FZ (t) = P {Z ≤ t} = fZ (u)du = −∞ −∞ −∞ und wir erhalten durch Vergleich die gesuchte Wahrscheinlichkeitsdichte von Z = X +Y: Z+∞ fZ (u) = fX (x)fY (u − x)dx (55) −∞ Ein derartiges Integral heißt Faltungsintegral“ oder Faltung“ von fX und fY . ” ” Wir haben nun noch das Integral (55) für unser durch (54) gegebenes Beispiel auszurechnen: Z+∞ Z1 fZ (u) = fX (x)fY (u − x)dx = fY (u − x)dx −∞ 0 Für x ∈ [0, 1] ist fY (u − x) = 0 falls u < 0 oder u > 2. Wir haben also noch die Fälle zu unterscheiden (a) u ∈ [0, 1]: Dann ist (weil x ∈ [0, 1]) ( 1 fY (u − x) = 0 falls x ≤ u falls x > u Für diesen Fall ist Z1 fZ (u) = fY (u − x)dx = 0 Zu dx = u 0 111 Abbildung 35: Wahrscheinlichkeitsdichte von X und Y (links) sowie von Z = X + Y (rechts) (b) u ∈ ]1, 2]: Dann ist (weil x ∈ [0, 1]) ( 0 falls u > 1 + x, also falls x < u − 1 fY (u − x) = 1 falls u ≤ 1 + x, also falls x ≥ u − 1 Für diesen Fall ist Z1 fZ (u) = fY (u − x)dx = 0 Z1 dx = 1 − (u − 1) = 2 − u u−1 Wir haben also als Ergebnis dieser mühsamen Überlegungen die Wahrscheinlichkeitsdichte falls u ∈ [0, 1] u fZ (u) = 2 − u falls u ∈ ]1, 2] 0 sonst Sie ist in Abb. 35 (rechts) gezeigt, links ist die Wahrscheinlichkeitsdichte von X und Y. A.2 Funktionen von 3 und mehr Variablen Bei Funktionen von drei Variablen kann man sich den Graphen der Funktion nicht mehr anschaulich vorstellen, wohl aber den Integrationsbereich als Teilmenge B ⊂ R3 . Wie wir uns bei einer Variablen auf Intervalle als besonders einfache Teilmengen beschränkt haben, werden wir auch hier nur vernünftige“ Teilmengen des R3 betrachten, wie das ” Innere von Quadern B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] oder unendlich ausgedehnte Mengen der Form B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ] 112 oder das Innere von Kugeln, Pyramiden, Zylindern. Wir werden die Teilmenge B dann in kleine Quader mit den Kantenlängen ∆xk , ∆yk und ∆zk unterteilen. Das Volumen eines solchen Quaders bezeichnen wir mit ∆Vk = ∆xk · ∆yk · ∆zk (n) Und wir betrachten Folgen solcher Unterteilungen, so dass max{∆Vk )} → 0. In jedem der kleinen Quader wählen wir einen Punkt (ξk , ηk , µk ) aus. Dies kann der Mittelpunkt sein, aber auch der Punkt, an dem innerhalb des Quaders die Funktion ihr Minimum oder ihr Maximum annimmt. Das im vorigen Unterabschnitt betrachtete Volumen ist hier durch das mit dem Vorzeichen der Funktion behaftete Volumen“ eines vierdimensionalen ” Quaders zu ersetzen, ∆Vk · f (ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · f (ξk , ηk , µk ) Auch wenn das Ergebnis keine anschauliche geometrische Bedeutung hat, so kommt es in vielen Anwendungen vor. Wenn die Dichte ρ eines Gegenstands vom Ort abhängt und durch die Funktion f beschrieben ist, dann stellt ∆Vk · ρ(ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · ρ(ξk , ηk , µk ) näherungsweise die Masse des Quaders mit dem Volumen Vk dar, und die Näherung ist gerechtfertigt, wenn sich die Funktion ρ(x, y, z) im betrachteten kleinen Quader nur wenig ändert. (n) Für Folgen von Unterteilungen in kleine Quader mit max{∆Vk )} → 0 definieren wir das Dreifachintegral durch den Grenzwert ZZZ ! ZZZ f (x, y)dV = B f (x, y, z)dx dy dz := lim n→∞ B X (n) (n) (n) (n) f (ξk , ηk , µk )∆Vk k und wir erhalten analog die Rechenregeln ZZZ f (x, y, z)+g(x, y, z) dx dy dz = B ZZZ ZZZ f (x, y, z)dx dy dz+ g(x, y, z)dx dy dz B B und für alle Konstanten c ∈ R ZZZ ZZZ c · f (x, y, z)dx dy dz = c · f (x, y, z)dx dy dz B B sowie für Teilmengen B1 ⊂ R3 und B2 ⊂ R3 mit B1 ∩ B2 = ∅ ZZZ ZZZ ZZZ f (x, y, z)dx dy dz = f (x, y, z)dx dy dz + f (x, y, z)dx dy dz B1 ∪B2 B1 B2 113 In unserem Beispiel der vom Ort abhängigen Dichte ρ(x, y, z) stellt ZZZ ρ(x, y, z)dx dy dz B die Masse des durch die Teilmenge B ⊂ R3 beschriebenen Gegenstands dar. Zum Ausrechnen ist hier die Verallgemeinerung von Satz A.1.1 nützlich: Satz A.2.1 (Satz von Fubini) Wenn B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] RRR RRR und |f (x, y, z)|dx dy dz existiert (also |f (x, y, z)|dx dy < ∞), dann gilt B B Zb1 ZZZ f (x, y, z)dx dy dz = Zb3 a2 = Zb2 a3 f (x, y, z)dz dy dx a3 Zb1 f (x, y, z)dx dy dz a2 Zb3 a1 B Zb2 a1 und analog für die anderen Möglichkeiten, die Reihenfolge der Integration zu ändern. Entsprechend gilt, wenn B = ] − ∞, b1 ]× ] − ∞, b2 ]× ] − ∞, b3 ] und RRR B |f (x, y, z)|dx dy dz < ∞ Zb1 ZZZ f (x, y, z)dx dy dz = Zb2 −∞ B Zb3 = Zb2 −∞ Zb3 −∞ f (x, y, z)dz dy dx −∞ −∞ Zb1 f (x, y, z)dx dy dz −∞ und entsprechend für die anderen Möglichkeiten, die Reihenfolge zu vertauschen und für andere unendliche Quader“ B ⊂ R3 . ” Die Verallgemeinerung auf Funktionen von n Variablen und vernünftige“ Teilmengen ” B ⊂ Rn ist naheliegend. Besonders angenehm sind n-dimensionale Quader B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] × · · · × [an , bn ] und in der Wahrscheinlichkeitsrechnung spielen unendlich ausgedehnte Quader“ der Form ” B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ] × · · · × ] − ∞, bn ] eine wichtige Rolle. Wir unterteilen vernünftige“ Teilmengen B ⊂ Rn in kleine Quader ” mit den Kantenlängen ∆x1 , ∆x2 , ∆x3 , . . . ∆xn mit dem Volumen“ ” ∆x1 · ∆x2 · ∆x3 · · · ∆xn 114 Wir beschränken uns auf vernünftige“ Funktionen, beispielsweise solche, die in B stetig ” und beschränkt sind. In jedem kleinen Quader wählen wir einen Punkt (ξ1 , ξ2 , ξ3 , . . . ξn ) aus. Dies kann der Mittelpunkt oder der Punkt sein, an dem die Funktion ihr Minimum oder Maximum annimmt oder ein willkürlich gewählter Punkt. Grundbausteine“ der ” Riemannschen Summen haben dann die Form f (ξ1 , ξ2 , ξ3 , . . . ξn )∆x1 · ∆x2 · ∆x3 · · · ∆xn Wir betrachten Folgen von Unterteilungen von B in kleine Quader, die immer feiner wer(m) den in dem Sinn, dass max{∆xk )} → 0 für alle k. Wir haben dabei zur Nummerierung dieser Unterteilungen den Buchstaben m gewählt, da n hier die Zahl der Variablen der Funktion angibt. Wir definieren dann das Mehrfachintegral als Grenzwert Z Z Z ··· Z f (x1 , x2 , x3 , . . . xn )dx1 dx2 dx3 . . . dxn := B ! lim m→∞ X (m) (m) (m) (m) f (ξ1 , ξ2 , ξ3 , . . . ξn(m) )∆x1 k · (m) ∆x2 · (m) ∆x3 · · · ∆x(m) n Es wird hier sichtbar, dass die bisher benutzte Notation zwar anschaulich, aber für n Variable sehr schwerfällig ist. Der Satz von Fubini gilt auch für n Variable und sagt aus, dass das Integral über einen n-dimensionalen Quader B in jeder beliebigen Reihenfolge durch eine Integration über die einzelnen Variablen ausgerechnet werden kann, wenn Z Z Z Z · · · |f (x1 , x2 , x3 , . . . xn )|dx1 dx2 dx3 . . . dxn < ∞ B und dies gilt auch, wenn der Quader B unendlich ausgedehnt ist. Mathematische Anmerkung: Es wurde in diesem Abschnitt darauf verzichtet, genaue mathematische Voraussetzungen anzugeben dafür, dass die angegebenen Sätze gelten, schon bei der Definition des Mehrfachintegrals wurde einfach unterstellt, dass der entsprechende Grenzwert existiert. Es hat sich herausgestellt, dass geeignete Voraussetzungen für den hier benutzten Riemannschen Integralbegriff (Grenzwert von Riemannschen Summen) sehr schwerfällig zu formulieren sind und daher unbefriedigend sind. In der modernen Mathematik hat sich daher der Integralbegriff von Lebesgue durchgesetzt, für den die Formulierung und vor allem auch die Beweise der entsprechenden Sätze sehr viel einfacher sind. Er wird in der Lehrveranstaltung Höhere Mathematik“ der Masterstudiengänge behandelt. ” letzte Änderung am 4. Februar 2012 115