Wahrscheinlichkeitsrechnung und Statistik 21 21.1 Zufall und Wahrscheinlichkeit 21.1.1 Wahrscheinlichkeit Wenn Begriffe stark durch den Alltag geprägt sind, muss man bei der Mathematisierung besonders vorsichtig sein. Für Zufall und Wahrscheinlichkeit ist das sicher so. (Wie wahrscheinlich ist es, dass es morgen regnet? Sicher scheint die Sonne!) Wie groß ist die Chance, mit zwei Würfeln die Gesamtaugenzahl 7 zu werfen? Fragen wie diese sind Musterbeispiele für einfache Experimente. Wahrscheinlichkeit und Zufall sind miteinander eng verbundene Begriffe. Mit Zufall bezeichnen wir im Alltag meist Ereignisse, die wir nicht beeinflussen oder vorhersehen können. Die Definition hängt also implizit von unserem Kenntnisstand und unseren Möglichkeiten ab. Die Diskussion, ob es letztendlich wirklichen“ Zufall gibt, führt einerseits zur Quanten” mechanik und andererseits in die Metaphysik. In den Naturwissenschaften beschränkt man sich daher auf axiomatische Annahmen über Zufallsereignisse und deren Wahrscheinlichkeiten, die im Einzelfall natürlich Idealisierungen sind. Ein Ereignis kann eintreffen (wahr sein) oder auch nicht (falsch sein). Ein Experiment stellt fest, ob das Ereignis eintritt ( erfolgreich ist“) oder nicht. Man ist versucht, ” den Begriff Wahrscheinlichkeit so zu definieren: Wenn man dieses Experiment nmal wiederholt und die Zahl der erfolgreichen Experimente mit m bezeichnet, so gilt für die Wahrscheinlichkeit, mit der das Ereignis A eintrifft, m . n→∞ n P (A) = lim (21.1) Da man aber nie wirklich unendlich viele Versuche durchführen kann, muss man die Wahrscheinlichkeit theoretisch begründen oder einfach postulieren. Man nennt sie daher a-priori Wahrscheinlichkeit. Die a-priori Wahrscheinlichkeit, dass bei einem perfekten Würfel die Zahl 6 geworfen wird, ist offenbar 1/6. An diverse kombinatorische Regeln wird in M.21.1 erinnert. 614 21 Wahrscheinlichkeitsrechnung und Statistik M.21.1 Kurz und klar: Kombinatorik Hier folgt eine sehr kurze Erinnerung an die wichtigsten Abzählregeln. Variation: Möglichkeiten, aus einem Alphabet mit n Zeichen (mit Zurücklegen) Worte mit k Zeichen zu bilden; Anzahl Vk = nk . (Beispiel: Es gibt 105 fünfstellige Dezimalzahlen; dabei zählen auch 00000 und andere fünfstellige Zahlen mit vorlaufenden Nullen.) Permutation: Alle verschiedenen Anordnungen von n verschiedenen Elementen; Anzahl Pn = n! (Beispiel: Es gibt 5!=120 Möglichkeiten, die fünf Buchstaben {a,b,c,d,e} anzuordnen.) Permutation von Gruppen: Alle unterscheidbaren Anordnungen von insgesamt n Elementen, die in k Untergruppen von jeweils ni gleichen Elementen eingeteilt sind; Anzahl Pn,k = Qk n! i=1 ni ! . (Beispiel: Es gibt 5!/(2! 2 !1!) = 30 unterscheidbare Möglichkeiten, die fünf Buchstaben {a,a,b,b,c} anzuordnen. Kombination: Auswahlmöglichkeiten von k Elementen aus einer Menge von n Elementen n (ohne Zurücklegen), Anzahl k (Beispiel: Lotterie 6 aus 45: Es gibt 45 6 = 8145060 Möglichkeiten.) Zwei Ereignisse gibt es auf jeden Fall: das unmögliche Ereignis Φ ( der Würfel ” zeigt keine der Augenzahlen 1 bis 6“) und das sichere Ereignis E ( der Würfel zeigt ” eine der Augenzahlen zwischen 1 und 6 “, der Hund folgt mir, oder er tut es nicht “). ” Um die Wahrscheinlichkeiten zu normieren, nehmen wir an, dass P (Φ) = 0 und P (E) = 1 ist. Alle anderen Ereignisse haben also einen Wert 0 ≤ P ≤ 1. Wir müssen etwas präziser werden. Man kann Ereignisse wie Mengen und deren Elemente behandeln und die Wahrscheinlichkeiten als Mengenmaße (vgl. unseren Ausflug in die Maßtheorie in Kap. 5) definieren. Dazu wollen wir alle möglichen Ergebnisse eines Versuchs als Elementarereignisse bezeichnen, die so definiert sind, dass sie nicht gleichzeitig zutreffen können. Ein Elementarereignis ist also zum Beispiel, dass ein Würfelwurf den Wert 3 ergibt. Ein Ereignis ist eine aus solchen Elementarereignissen bestehende Menge. Die Menge {3, 5} beschreibt das Ereignis, dass der Wurf entweder 3 oder 5 ergibt. Die Menge aller möglichen Elementarereignisse ist der Wahrscheinlichkeitsraum E, das sichere Ereignis. Im Zusammenhang mit Experimenten und Stichproben nennt man E auch Grundgesamtheit. Die leere Menge beschreibt das unmögliche Ereignis Φ. Unser Axiomensystem weist nun jedem Ereignis, also jeder Menge, eine Zahl zu. Diese bezeichnet die Wahrscheinlichkeit, dass der Versuch eines der Ereignisse der Menge ergeben hat. (Mengenfunktionen oder Maße ähnlicher Art haben wir schon in Kap. 5 besprochen.) 21.1 Zufall und Wahrscheinlichkeit 615 Verschiedene Ereignisse kann man mit den Definitionen der Mengenlehre behandeln und zu einem neuen Ereignis auf verschiedene Arten zusammenfassen. • C = A + B : entweder A oder B oder beide treten ein (Vereinigungsmenge). • C = A B : sowohl A als auch B treten ein (Durchschnittsmenge). Neben A B und A + B sind noch folgende Operationen nützlich: • A : Elemente von E, die nicht in A enthalten sind (Komplementärmenge). • C = A − B ≡ A B : in A aber nicht in B enthalten (Differenzmenge, oft auch mit A\B bezeichnet). Die Mengen werden oft durch so genannte Venn-Diagramme dargestellt (Abb. 21.1). Man kann grafisch leicht bekannte Zusammenhänge, wie etwa den Satz von De Morgan, zeigen: A+ B = A B , AB = A + B . (21.2) Wenn E insgesamt n Elementarereignisse enthält, dann gibt es offenbar 2n mögliche E A AB B Abb. 21.1 Venn-Diagramm für überlappende Ereignismengen. Vereinigung und Durchschnitt folgen den üblichen Regeln der Mengenlehre. Untermengen, also 2n denkbare Ereignisse. Die Menge E aller zufälligen Ereignisse enthält also insbesondere auch E und Φ, zu jedem A ⊂ E natürlich auch A und auch alle Kombinationen A + B. Sie ist daher ein Körper (siehe M.2.2). Wenn man beliebig viele (abzählbar unendlich viele) Ereignisse zulässt und auch alle Vereinigungsmengen und Durchschnittsmengen, so handelt es sich sogar um einen so genannten Borelschen Mengenkörper. Beispiel: Wenn E die reellen Zahlen R bezeichnet, so muss man als Ereignisse Intervalle und Punkte auf den reellen Zahlen betrachten, sowie alle Vereinigungs- und Durchschnittsmengen dieser Intervalle und Punkte. Punkte werden allerdings meist die Wahrscheinlichkeit null haben. Elementarereignisse sind dann disjunkte Teilmengen, wie wir sie schon bei der Einführung der Integration in Kap. 5 besprochen haben. Es ist zum Beispiel sinnvoll zu fragen, ob die Zerfallsdauer eines instabilen Elementarteilchens zwischen 10 und 10.1 s liegt. Die Wahrscheinlichkeit, dass sie genau 10 s ist, ist allerdings null. Dazu müsste sie ja tatsächlich genau 10.00000. . . s sein. Man erkennt die Tücke der reellen Zahlen. 616 21 Wahrscheinlichkeitsrechnung und Statistik Kolmogorow hat ein Axiomensystem für die Wahrscheinlichkeitsrechnung aufgestellt, in dessen Rahmen wir uns bewegen. Folgende Grundsätze gehören dazu: • Jedes Ereignis A hat eine Wahrscheinlichkeit P (A) ≥ 0. • Das sichere Ereignis E hat die Wahrscheinlichkeit P (E) = 1. • Für disjunkte Ereignisse (A B = Φ) gilt P (A + B) = P (A) + P (B), die Wahrscheinlichkeiten addieren sich also. Man sieht daraus leicht einige bekannte Eigenschaften, wie etwa A ⊂ B ⇒ P (A) ≤ P (B) (21.3) A B 6= Φ ⇒ P (A + B) = P (A) + P (B) − P (A B) . (21.4) oder Wie groß ist die Wahrscheinlichkeit, dass es regnet, wenn wir einen Regenschirm mitgenommen haben? (Manche behaupten, sie wäre null!) Diese Frage nach möglichen Abhängigkeiten ist oft sehr wichtig. Sind die Ereignisse voneinander unabhängig oder nicht? Wir bezeichnen die bedingte Wahrscheinlichkeit, dass A eintritt, falls B eingetreten ist, mit P (A|B) (gesprochen: P (A wenn B)“). Wie groß ist P (A|B)? A und ” B gehören beide zum Wahrscheinlichkeitsraum und sind also Teilmengen von E. Offenbar muss P (A|E) = P (A) und P (B|E) = P (B) gelten, da ja E sicher eintritt. Wenn sich A und B ausschließen, dann ist natürlich P (A|B) = 0, da ja niemals A und B gleichzeitig wahr sein können. Wenn hingegen B ⊂ A wäre, dann ist sicher P (A|B) = 1. Ein Beispiel dafür wäre die Frage: Wie wahrscheinlich ist es, eine ” gerade Zahl zu würfeln, wenn man die Zahl 6 gewürfelt hat?“ Man fragt also nach der Wahrscheinlichkeit der Ereignisse, die in A B sind (vgl. Abb. 21.1P (A B)) , im Vergleich zu denen, die in B sind, also normiert relativ zu B. Die Definition P (A B) P (A|B) = falls P (B) 6= 0 (21.5) P (B) erfüllt all diese Bedingungen. Daraus folgt P (A B) = P (A|B) P (B) = P (B|A) P (A) . (21.6) Diese Definition der bedingten Wahrscheinlichkeit kann man auf die Rechnung mit relativen Häufigkeiten zurückführen, wie man im folgenden Beispiel sehen kann. Beispiel: Man hat einen Topf mit 10 Kugeln, davon sind 6 aus Silber und 4 aus Gold. Man zieht zufällig zwei Kugeln (ohne zurückzulegen). Wir nennen • A das Ziehen einer Goldkugel beim ersten Mal, • B das Ziehen einer Goldkugel beim zweiten Mal, • A B das zweimalige Ziehen einer Goldkugel. 21.1 Zufall und Wahrscheinlichkeit 617 Es ist P (A) = 2/5; wenn schon eine Goldkugel gezogen wurde, hat sich das Verhältnis von Silber zu Gold auf 6:3 geändert, daher ist P (B|A) = 1/3. Daher ist P (A B) = P (B|A) P (A) = 2 . 15 Man kann das leicht auch durch Abzählen aller Möglichkeiten überprüfen. Etwas schwieriger ist die Frage nach P (A|B): Wenn man weiß, dass die Kandidatin beim zweiten Mal Gold gezogen hat, mit welcher Wahrscheinlichkeit hat sie das auch beim ersten Mal getan? Man beachtet P (B) = P (B A) + P (B A) = 2/5 und findet P (A|B) = 1/3. Wenn wir P E in eine Anzahl von einander ausschließenden Ereignissen Ai zerlegen, also E = i Ai , dann ist ein beliebiges Ereignis auf dieser Mengenbasis darstellbar, ! ! X X X P (B) = P (B E) = P B Ai = P B Ai = P (B Ai ) (21.7) i i i und daher P (B) = P (A1 ) P (B|A1 ) + P (A2 ) P (B|A2) + · · · = X P (Ai ) P (B|Ai) . (21.8) i Dies führt zum Satz von Bayes, der es erlaubt, die bedingte Wahrscheinlichkeit auf einem Umweg zu bestimmen: P (B|Ai) P (Ai) . P (Ai|B) = P j P (B|Aj ) P (Aj ) (21.9) Beispiel: Angenommen, Sie haben drei Internetprovider (Firmen, die Internetzugänge vermieten) zur Auswahl. Provider X hat 250 Telefoneingänge, von denen durchschnittlich 30% besetzt sind, Y hat 100 mit durchschnittlicher Besetzungsrate von 20% und Z hat 50 mit 30% Belegung. Alle werden über eine gemeinsame Telefonnummer angesteuert, die dann zufällig mit einem der Providereingänge verbunden wird. Wie wahrscheinlich ist es, dass Sie einen freien Eingang finden? Falls der Anschluss besetzt ist, mit welcher Wahrscheinlichkeit sind Sie bei Provider Z gelandet? Die Ereignismengen sind E = X + Y + Z (für die Provider) und E = F + B (für freien oder besetzten Eingang) mit den Wahrscheinlichkeiten 100 50 250 = 0.625 , P (Y ) = = 0.25 , P (Z) = = 0.125 , 400 400 400 P (F |X) = 0.7 , P (F |Y ) = 0.8 , P (F |Z) = 0.7 . P (X) = Daher ist P (F ) = 0.625 0.7 + 0.25 0.8 + 0.125 0.7 = 0.725 , P (B) = 1 − P (F ) = 0.275 . Sie bekommen also in 72.5% der Versuche einen freien Eingang. Falls nicht, dann sind Sie mit folgender Wahrscheinlichkeit bei Z gelandet: P (Z|B) = 0.3 0.125 P (B|Z) P (Z) = = 0.136 . P (B) 0.275 618 21 Wahrscheinlichkeitsrechnung und Statistik Wenn Sie ein Weinglas und ein Bierglas gleichzeitig zu Boden fallen lassen, dann ist die Wahrscheinlichkeit dafür, dass das Bierglas zerbricht, sicher unabhängig von der für das Weinglas. Die Wahrscheinlichkeit, dass beide zerbrechen (Scherben bringen Glück?), ist offenbar das Produkt der Einzelwahrscheinlichkeiten. Wir fassen zusammen: Wenn die Ereignisse A und B voneinander unabhängig sind, so ist P (A B) = P (A) P (B) . (21.10) Dies passt gut zur Definition der bedingten Wahrscheinlichkeit, da ja P (A|B) = P (A) und P (B|A) = P (B) die gegenseitige Unabhängigkeit festlegt. Mehrere Ereignisse sind voneinander unabhängig, wenn sie paarweise unabhängig sind, und es gilt ! Y Y Ai = P (Ai) . (21.11) P i i Damit können wir endlich auch die Wahrscheinlichkeit von Mengensummen unabhängiger Ereignisse bestimmen, P (A + B) = P (A) + P (B) − P (A B) = P (A) + P (B) − P (A) P (B) . (21.12) Beispiel: Wir betrachten radioaktive Nuklide. Die Wahrscheinlichkeit, dass ein einzelnes Atom in den folgenden Minute nicht zerfällt, sei a. Nach unserem Kenntnisstand ist diese Wahrscheinlichkeit unabhängig vom Zeitpunkt, also für die darauffolgende Minute (sofern es nicht schon zerfallen ist) ebenfalls a. Die Wahrscheinlichkeit, dass das Atom die zwei Minuten ohne Zerfall überdauert, ist daher a2 , bei t Minuten also at . Mit a = e−λ erhalten wir das bekannte Gesetz, dass die Wahrscheinlichkeit des radioaktiven Zerfalls proportional zu e−λ t ist. Beispiel: Ein Chip wird zweimal unabhängig voneinander auf Produktionsfehler untersucht. Es werden in den beiden Tests c Fehler beide Male gefunden, darüber hinaus aber noch weitere a Fehler beim Check A und, davon verschieden, b Fehler beim Check B. Wie nehmen an, dass die verschiedenen Fehlerarten mit gleicher Wahrscheinlichkeit gefunden werden. Wie viele Fehler hat der Chip vermutlich insgesamt? Wir nennen P (A) und P (B) die Wahrscheinlichkeit, einen Fehler beim Check A oder B zu finden (vgl. Abb. 21.1). Aufgrund der Beobachtung schätzen wir P (A|B) = c P (A B) ≈ , P (B) b+c P (B|A) = P (A B) c ≈ . P (A) a+c (Die tatsächlichen Wahrscheinlichkeiten werden durch unsere Messwerte nur approximiert, und wir haben daher das entsprechende Zeichen verwendet.) Das sind gleichzeitig die Schätzwerte für P (A) und P (B), da wegen der Unabhängigkeit P (A B) = P (A) P (B) , P (A|B) = P (A) , P (B|A) = P (B) . Daher finden wir eine Schätzung der Wahrscheinlichkeit, einen Fehler in zumindest einem der beiden Tests zu finden, zu P (A+B) = P (A)+P (B)−P (A B) ≈ c c2 c (a + b + c) c + − = . b + c a + c (a + c) (b + c) (a + c) (b + c) 21.1 Zufall und Wahrscheinlichkeit 619 Die vermutete Gesamtzahl N aller vorhandenen Fehler ist in der Schätzung von P (A) versteckt, da ja P (A) ≈ (a + c)/N , gleichzeitig aber (siehe oben) auch c/(b + c) ein entsprechender Schätzwert ist. Daher erhalten wir 1 N = (a + c) (b + c) c als geschätzte Gesamtanzahl der Fehler im Chip. Die Genauigkeit dieser Schätzwerte wird natürlich mit der Zahl der gefundenen Fehler zunehmen. Wie man sich darüber eine bessere Vorstellung verschafft, wird im Abschnitt 21.5.1 über Schätzungen und Statistik erklärt. 21.1.2 Zufallsvariablen und Verteilungsfunktionen Die Augenzahl des geworfenen Würfels ist eine Zufallsvariable. Ebenso ist die Lebensdauer eines instabilen Atoms eine solche. Allgemein sind Zufallsvariablen X Abbildungen von Ereignissen in Intervalle auf R: X : e 7→ x ∈ I ⊂ R . Die Zufallsvariable X nimmt nur endliche Werte x ∈ R an. Die Wahrscheinlichkeit, dass X einen Wert im Intervall I hat, wird also mit der Wahrscheinlichkeit des entsprechenden Ereignisses gleichgesetzt. • Jedem reellen Zahlenintervall (−∞, x) entspricht ein Ereignis. • Die Wahrscheinlichkeit, dass X = ±∞ ist, muss null sein. Beispiel: Ein instabiles Teilchen zerfällt in einem Experiment nach t Sekunden. Wir definieren eine Zufallsvariable X, die dann den Wert 1 hat, wenn 5 ≤ t < 27 ist, 0 t<5, X(t) = 1 5 ≤ t < 27 , 0 27 ≤ t . Diese Zufallsvariable hat nur die Werte 0 oder 1. Wir unterscheiden genau zwischen der Zufallsvariablen X und dem Wert x, den sie im Experiment jeweils annehmen kann. X steht gewissermaßen als Platzhalter für Werte, die die Variable entsprechend einer gegebenen Wahrscheinlichkeit annehmen kann, ist also eine Art Operator, wohingegen x einfach eine reelle Zahl bezeichnet. Beispiel: Ein Experiment misst die Orientierung des halbzahligen Spins eines Atoms, die Elementarereignisse seien die – gleich wahrscheinlichen – Werte + 1/2 und − 1/2. Diese Zahlen wählen wir auch als die entsprechenden Werte in R, welche die Zufallsvariable annehmen kann. Beliebige Intervalle enthalten also entweder keinen dieser Werte oder einen davon oder sogar beide. So sind zum Beispiel P (X < −0.5) = 0 , P (X ≤ 0) = 0.5 , P (−0.5 < X < 0.5) = 0 , P (X ≤ 0.9) = 1 . 620 21 Wahrscheinlichkeitsrechnung und Statistik Die Menge der Wahrscheinlichkeiten für alle denkbaren Ereignisse definiert die Wahrscheinlichkeitsverteilung oder kurz Verteilung. Die Verteilungsfunktion gibt die Wahrscheinlichkeit einer Verteilung an. Man definiert sie als Wahrscheinlichkeit dafür, dass die Zufallsvariable X einen Wert x ≤ t annimmt, FX (t) ≡ P (X ≤ t) . (21.13) Die Funktion ist also monoton wachsend, da ja für x1 < x2 auch P (X ≤ x1 ) ≤ P (X ≤ x2 ) ist. Wahrscheinlichkeiten für Teilintervalle werden aus den Werten von FX zusammengesetzt, P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ) = FX (x2 ) − FX (x1 ) . (21.14) Wir werden für den Fall einer einzigen Zufallsvariable FX künftig einfach nur F nennen, da dann Verwechslungen ausgeschlossen sind. Beispiel: Im weiter oben erwähnten Beispiel einer Spinmessung wäre die Verteilungsfunktion (unmöglichesEreignis) , 0 x < − 21 1 1 1 − ≤ x < Ereignis − 12 , F (x) = 2 2 12 1 2 ≤x sicheres Ereignis + 12 oder − 21 . Wir wollen die Verteilungsfunktion immer so definieren, dass sie stetig von rechts ist, also lim F (x + ǫ) = F (x) . (21.15) ǫ→0 Das eben besprochene Spin-Beispiel entspricht dieser Forderung. Diskrete Zufallsvariablen nehmen diskrete Werte (also zum Beispiel ganze Zahlen) an. Für diese Zufallsvariablen, die die Werte xi mit den Wahrscheinlichkeiten Pi annehmen, ist F eine Stufenfunktion (vgl. Abb. 21.5), X X F (x) = Pi mit Pi = 1 . (21.16) xi ≤x i Stetige Zufallsvariablen nehmen beliebige, meist kontinuierliche reelle Werte an. In diesem Fall definiert man eine geeignete nichtnegative Dichtefunktion f (x) ≥ 0, so dass (vgl. Abb. 21.2 und 21.7) Z x Z ∞ F (x) = dt f (t) mit F (∞) = dt f (t) = 1 . (21.17) −∞ −∞ Überall, wo F (x) differenzierbar ist, gilt f (x) = d F (x) , dx (21.18) und wenn F (x) an abzählbar vielen Punkten nur stetig, aber nicht differenzierbar ist, dann kann man dort f (x) beliebige endliche Werte zuweisen. 21.1 Zufall und Wahrscheinlichkeit 621 Beispiel: Wir betrachten noch einmal das Experiment zur Messung der Lebensdauer eines instabilen Teilchens. Die Zufallsvariable sei nun die Lebensdauer T eines Teilchens, ihr Wert in einer Messung sei t. Ein Ereignis Et soll einer Messung der Lebensdauer eines Teilchen zwischen 0 und t Sekunden entsprechen. Das sichere Ereignis ist also E ≡ E∞ . Um nach Kolmogorows System den Messwerten Wahrscheinlichkeiten zuzuordnen, brauchen wir eine auf R+ positive und integrable Funktion p(t) mit der Normierung Z ∞ dt′ p(t′ ) . P (E) = 1 = 0 Damit ist (vgl. Abb. 21.2) P (Et ) ≡ Z t dt′ p(t′ ) . 0 Die Wahrscheinlichkeit, genau einen bestimmten Wert zu messen, ist natürlich 0. p P (t1 <t< t 2 ) Abb. 21.2 Beispiel für eine Wahrscheinlichkeitsdichtefunktion p(t) für eine Zufallsvariable T . Die Wahrscheinlichkeit, eine Lebenszeit t1 < t ≤ t2 zu beobachten, entspricht der dunkelgrau markierten Fläche. Sie Rt ist P (t1 < t ≤ t2 ) = t12 dt′ p(t′ ). p( t ) t1 t2 t Für diskrete Zufallsvariablen kann man formal auch eine Dichtefunktion definieren, die dann eine Summe von Deltafunktionen (Definition der Deltafunktion siehe Kap. 14) ist und F (x) eine Stufenfunktion. Die Dichtefunktion, auch Wahrscheinlichkeitsdichte oder Verteilungsdichte genannt, hat Eigenschaften analog einer Massendichte oder einer Ladungsdichte, die von einer Variablen x (etwa dem Abstand vom Ursprung) abhängt. Eine Summe von Deltafunktionen entspricht dann zum Beispiel einer Anordnung von Punktladungen. Beispiel: Man lässt eine Nadel zufällig auf den Boden fallen. Die Zufallsvariable sei die Richtung der Nadel; sie ist durch einen Winkel 0 ≤ α < 2π gegeben. Die Wahrscheinlichkeitsdichte ist laut Annahme konstant und bevorzugt keine Richtung (wir vernachlässigen Magnetisierung, Nordpol und andere unfreundliche Bemerkungen zu diesem Beispiel), daher 0 x<0, 1 0 ≤ x < 2π , f (x) = 2π 0 2π ≤ x und die Verteilungsfunktion lautet daher 0 x F (x) = 2π 1 x<0, 0 ≤ x < 2π , 2π ≤ x . Wir haben die Dichtefunktion bereits richtig normiert. 622 21 Wahrscheinlichkeitsrechnung und Statistik 21.1.3 Erwartungswerte und Momente Es gibt sehr verschiedene Verteilungsfunktionen und Verteilungsdichten. Einige davon besprechen wir im nächsten Abschnitt 21.2. Sie unterscheiden sich durch ihre Form, und man hat verschiedene typische Parameter zur Charakterisierung eingeführt. Eine Hauptforderung an die Definition der Parameter ist, dass es auch möglich sein soll, sie zumindest näherungsweise zu bestimmen, wenn die Wahrscheinlichkeitsdichte nicht explizit bekannt ist, sondern nur durch Messung von Zufallsvariablen definiert ist. Genau das ist ja im tatsächlichen Experiment meistens der Fall! Die Parameter einer Verteilung werden daher jeweils als Erwartungswert (auch Mittelwert genannt) einer Funktion g(X) der Zufallsvariablen definiert, Z ∞ hg(X)i ≡ dx f (x) g(x) , (21.19) −∞ beziehungsweise für diskrete Zufallsvariable X hg(X)i ≡ Pi g(xi ) , (21.20) i wobei natürlich sowohl die Pi als auch die Dichtefunktion f (x) normiert sein müssen. Offenbar ist dann der Erwartungswert von g(x) = 1 auf jeden Fall Z ∞ h1i ≡ dx f (x) = 1 , (21.21) −∞ also trivial. Der wichtigste nichttriviale Parameter ist der Mittelwert der Verteilung (englisch: mean value), Z ∞ µ ≡ hXi = dx f (x) x . (21.22) −∞ Man sieht sofort, dass ha X + bi = a µ + b . (21.23) Bei einer Massendichteverteilung ist hXi die Position des Massenschwerpunkts. Daneben sind die einfachsten Parameter die Momente der Verteilung, definiert durch hX n i. Neben dem Mittelwert (1. Moment) am bekanntesten ist die aus dem 2. Moment berechenbare Varianz Z ∞ 2 2 Var(x) ≡ σ ≡ h(X − µ) i = dx f (x) (x − µ)2 , (21.24) −∞ die man umformen kann: h(X − µ)2 i = hX 2 i − 2hX µi + hµ2 i = hX 2 i − µ2 . (21.25) Wir haben dabei hµ Xi = µhXi = µ2 verwendet. Man kann ja µ als konstanten Faktor herausziehen. 21.1 Zufall und Wahrscheinlichkeit 623 M.21.2 Kurz und klar: Verteilungsfunktion, Dichte, Momente Eine Zufallsvariable X nimmt Werte x ∈ R an. Die Wahrscheinlichkeiten für die Messwerte (beziehungsweise Intervalle) definieren die Wahrscheinlichkeitsverteilung oder kurz Verteilung. Die Verteilungsfunktion FX (x) = P (X ≤ x) gibt die Wahrscheinlichkeit einer Verteilung an. Die Funktion ist monoton wachsend. Die Wahrscheinlichkeitsdichte oder Verteilungsdichte ist eine nichtnegative Funktion f mit der Eigenschaft Z ∞ Z x dt f (t) = 1 . (M.21.2.1) dt f (t) mit F (∞) = F (x) = −∞ −∞ Wo F (x) differenzierbar ist, gilt f (x) = d F (x) . dx Erwartungswerte sind Mittelwerte über die Verteilung Z ∞ dx f (x) g(x) . hg(X)i ≡ (M.21.2.2) (M.21.2.3) −∞ Andere gebräuchliche Bezeichnungen für Erwartungswerte sind hg(X)i ≡ g(x) ≡ E(g(x)). (M.21.2.4) Wichtige Erwartungswerte sind der Mittelwert µ = hXi, die Varianz σ 2 = h(X − µ)2 i = hX 2 i − µ2 und die zentralen Momente µk = h(X − µ)k i. Diese Parameter charakterisieren eine Verteilung. Die Varianz σ 2 (oft auch Streuung oder mittlere quadratische Abweichung genannt) ist ein Maß für die Breite der Verteilung. Sie ist nichtnegativ und kann nur dann√ null werden, wenn X nur den Wert µ annehmen kann. Ihre Quadratwurzel σ = + σ 2 heißt Standardabweichung. Vertrauensgrenzen ergeben sich durch Integration der jeweils relevanten Verteilungsdichte. Allgemein ist ja Z b P (a < x < b) = dx fX (x) . (21.26) a Bei einer Normalverteilung (im Abschnitt 21.2 genauer besprochen) für Messdaten liegen rund 2/3 der erwarteten Werte von X in einem Intervall µ − σ < x < µ + σ. Man nennt diesen Bereich daher auch das Vertrauensintervall (auch Konfidenzintervall), die Grenzen sind die Vertrauensgrenzen. Diese Größe wird bei Messdaten in Form eines Fehlerbalkens angegeben. Numerische Angaben werden in der Form 1.234 ± 0.072 oder auch 1.234(72) gemacht, wobei in Klammern der Fehler“ der ” letzten Stellen angegeben wird. Mehr über die Wahrscheinlichkeitsinterpretation des Fehlerbalkens folgt in Abschnitt 21.5.1. 626 21 Wahrscheinlichkeitsrechnung und Statistik 21.2.1 Binomialverteilung Im Boston Museum of Science kann man ein Galtonsches Nagelbrett bewundern. Von oben fallen in der Mitte Kugeln herab, die den Stiften im Brett jeweils nach links oder rechts ausweichen müssen. Darunter gibt es eine weitere Reihe von Stiften, und so ist jede Kugel auf ihrem Weg nach unten mehreren Zufallsentscheidungen unterworfen. In den Fächern am Boden ordnen sich die Kugeln so an, dass die entstehende Wahrscheinlichkeitsdichte einer Glockenkurve ähnelt (Abb. 21.4; Anmerkung des Lektors: bei den gezeichneten sieben Fächern eine gewagte Aussage“). ” 0000 1111 0000 1111 0000 1111 111 000 0000 1111 0000 1111 000 111 0000 1111 0000 1111 000 111 0000 1111 0000 1111 000 111 0000 1111 0000 1111 0000 1111 000 111 0000 1111 0000 1111 0000 1111 0000 1111 000 111 0000 1111 0000 1111 0000 1111 0000111 1111 000 0000 1111 0000 1111 0000 1111 0000 1111 00000000000000000000 11111111111111111111 1111 0000 1111 0000 000 0000 1111 0000 1111 0000 1111 0000111 1111 00000000000000000000 11111111111111111111 Abb. 21.4 Das Galtonsche Nagelbrett muss man sich als schiefe Ebene vorstellen, in die an den markierten Stellen Stifte eingeschlagen sind. Eine von oben nach unten rollende Kugel landet schließlich in einem der Fächer. Die Treppenkurve darunter gibt die Wahrscheinlichkeitsdichte an, also die Wahrscheinlichkeit, mit der eine Kugel in dem entsprechenden Fach landet. Offenbar kann ein bestimmtes Fach über verschiedene Wege erreicht werden. Da jeder Stift einer links-rechts-Entscheidung entspricht, die zufällig jeweils mit Wahrscheinlichkeit 0.5 passieren soll, kann man die Häufigkeit der Wahl eines Fachs aus der Menge der verschiedenen Wege zum Fach berechnen. Die entsprechende Dichtefunktion ist die einer Binomialverteilung. Sie wird auch Bernoullische Verteilung genannt. y 0.25 0.2 0.15 0.1 0.05 f (x) 2 y 1 0.8 0.6 0.4 0.2 4 6 8 10 x 4 6 8 10 x F(x) 2 Abb. 21.5 Wahrscheinlichkeitsdichte und Verteilungsfunktion für die Binomialverteilung (n = 10, p = 1/2); der Mittelwert µ = 5 und die p Standardabweichung σ = 5/2 sind ebenfalls eingezeichnet. Nur für p = 1/2 ist die Verteilung symmetrisch zum Punkt x = µ. Der Median stimmt hier mit dem Mittelwert überein. Mit rund 67.4% Wahrscheinlichkeit liegt ein Wert von X im Intervall [µ − σ, µ + σ]. 21.2 Spezielle Wahrscheinlichkeitsverteilungen 627 Für eine Verallgemeinerung betrachten wir ein Experiment, bei dem das Ergebnis entweder 0 oder 1 ist. Die Wahrscheinlichkeiten für die beiden Fälle müssen nicht gleich sein, wohl aber müssen sie sich zum Gesamtwert 1 ergänzen. Zum Beispiel kann P (0) = p und P (1) = 1 − p ≡ q sein. Wenn wir das Experiment n-mal wiederholen, ist das Ergebnis eine Menge von Werten, also etwa (0, 1, 1, 0, 1, . . . ). Bei n Versuchen gibt es insgesamt genau 2n mögliche Ergebnisse. Wir fragen nun, wie wahrscheinlich es ist, k-mal den Wert 0 zu bekommen. Wenn n = 2 ist, lässt sich die Gesamtwahrscheinlichkeit 1 folgendermaßen aufteilen (p + q) (p + q) = p2 + p q + q p + q 2 = p2 + 2 p q + q 2 . (21.32) Die einzelnen Terme auf der rechten Seite der ersten Gleichung entsprechen den Wahrscheinlichkeiten für die Ergebnisse (0, 0), (0, 1), (1, 0), (1, 1). Die Summe aller Terme ist natürlich 1. Man erkennt leicht, dass die Vorfaktoren 1, 2, und 1 die Binomialko2 effizienten k sind (siehe auch Anhang A). Die Wahrscheinlichkeit, bei n Versuchen k-mal den Wert 0 zu bekommen, ist also n k p (1 − p)n−k . (21.33) P (X = k) = k Wenn die Wahrscheinlichkeit für 0 oder 1 gleich, also p = 1/2 ist, dann ist für alle Werte von k der Faktor derselbe, nämlich pk (1 − p)n−k = 1/2n . Die Verteilungsdichte für diese diskrete Zufallsvariable kann also formal als Summe von Deltafunktionen (siehe Kap. 14) geschrieben werden. Es ist n X n k p (1 − p)n−k δ(x − k) , f (x) = k k=0 [x] X n (21.34) pk (1 − p)n−k , F (x) = k k=0 µ = np , σ 2 = n p (1 − p) . Wir haben dabei die Bezeichnung [x] für die größte ganze Zahl ≤ x“ (siehe Anhang ” A) verwendet. Abb. 21.5 zeigt die Verteilung für n = 10 und p = 1/2. Beispiel: Ihr Computerprogramm ist soeben abgestürzt“, und sie betrachten verzweifelt einen ” binären Coredump (Ausdruck des Speicherbereichs). Wie wahrscheinlich ist es, dass die Quersumme (Anzahl der 1-Bits) eines Bytes gleich 2 ist? Ein Byte entspricht acht Binärstellen. Wenn die Zahlen vollkommen zufällig verteilt sind, sollte jeder Bitwert gleich wahrscheinlich sein. Die Frage führt also zur Binomialverteilung für n = 8 und p = 1/2. Die Antwort ist 2 6 8 1 8! 7 1 = = ≈ 0.109 . . . , 2 2 2! 6! 256 64 2 und daher wird im Mittel eines von neun Bytes diese Eigenschaft haben. 21.2 Spezielle Wahrscheinlichkeitsverteilungen 631 21.2.4 Normalverteilung Die Gaußsche Normalverteilung ist neben der Gleichverteilung vermutlich die wichtigste Verteilung. Wie wir später sehen werden, beschreibt sie insbesondere den Grenzfall, dass eine Zufallsvariable eine Summe von Zufallsvariablen unbekannter Verteilung ist. Genau das ist in den meisten Experimenten der Fall; man kann keine Messung einer reellen Zahl exakt, ohne irgendeinen Fehler, ausführen. Meist ist der Messfehler eine Summe verschiedener kleiner, aber kaum kontrollierbarer Fehler, wie etwa das thermische Rauschen der elektronischen Apparatur, akustische Störungen, elektromagnetisches Rauschen und Ähnliches. y 0.4 f (x) 0.3 0.2 0.1 −3 −2 −1 1 2 3 x y 1 0.8 0.6 F(x) 0.4 0.2 −3 −2 −1 1 2 3 x Abb. 21.8 Verteilungsdichte und Verteilungsfunktion für die Normalverteilung (µ = 0, σ = 1); der Mittelwert und die Standardabweichung sind ebenfalls eingezeichnet. Mit rund 68.3% Wahrscheinlichkeit liegt ein Wert von X im Intervall [µ − σ, µ + σ]. Die Normalverteilung ist (siehe Abb.21.8 ) ! (x − µ)2 1 exp − f (x) = √ , 2σ 2 2πσ 2 ! Z x (x − µ)2 1 1 x−µ 1 . dx exp − ≡ + erf √ F (x) = √ 2σ 2 2 2 2σ 2πσ 2 −∞ (21.38) Mittelwert µ und Standardabweichung σ sind schon in die Definition eingebaut. Die unvollständige Integration über die Gaußsche Glockenkurve kann nicht analytisch durchgeführt werden. Aus diesem Grund hat man die Errorfunction“ erf(x) ein” geführt, die man entweder numerisch berechnen oder in Tabellen nachschlagen kann. In Kap. 5 haben wir in (5.76) die vollständige Integration der Glockenkurve durchgeführt. Man kann sich also leicht davon überzeugen, dass F (∞) = 1 gilt. Wegen der Symmetrie der Verteilungsdichte verschwinden alle zentralen Momente ungerader Potenzen h(X − µ)2k+1 i = 0 . (21.39) 632 21 Wahrscheinlichkeitsrechnung und Statistik Die geraden zentralen Momente lassen sich ebenfalls mit Hilfe der in Abschnitt 5.3 besprochenen Verfahren bestimmen. Nach einer Variablentransformation Y = (X − µ)/σ ergibt sich Z ∞ y2 1 2k hY i = √ dy y 2k e− 2 2π −∞ k Z ∞ 2 1 k ∂ − a 2y dy e = √ (−2) ∂ak −∞ 2π a=1 (21.40) k − 12 k ∂ a = (2k − 1)!! = (−2) ∂ak a=1 ⇒ h(X − µ)2k i = (2k − 1)!! σ 2k . Dabei verwenden wir die gebräuchliche Abkürzung (2k − 1)!! ≡ (2k − 1) (2k − 3) · · · 1 , (21.41) also eine Fakultätsfunktion, in der nur jeder zweite Faktor berücksichtigt wird (siehe Anhang A). Die Gauß-Verteilung ist auch der Grenzfall einer Binomialverteilung für große n und große n p (1 − p), die in diesem Fall in der Nähe ihres Maximums durch eine Normalverteilung der Form ! (k − n p)2 1 exp − (21.42) P (X = k) ≃ p 2 n p (1 − p) 2 π n p(1 − p) genähert werden kann. Dieser Übergang spielt auch in der statistischen Physik eine wesentliche Rolle. 21.2.5 Exponentialverteilung Die Beobachtung radioaktiver Atomkerne hat gezeigt, dass die Zerfallswahrscheinlichkeit eines Atomkerns nicht von seiner Vorgeschichte abhängt. Es ist zu jedem Zeitpunkt gleich wahrscheinlich, dass das Atom in der nächsten Zeitspanne dt zerfällt. Die Wahrscheinlichkeit dafür, dass das Atom nicht zerfällt, sei (1 − λ dt). Die Wahrscheinlichkeit, dass das Atom ein n-faches dieser Zeitspanne überlebt, ist (1 − λ dt)n . Wenn wir eine gegebene Zeitspanne t in n Teile dt = t/n zerlegen und die Zerlegung immer feiner machen, erhalten wir n λt lim 1 − = e−λt , (21.43) n→∞ n die so genannte Exponentialverteilung. Von einer zu t = 0 gegebenen Anzahl N(0) = N0 von Atomkernen werden zu einem späteren Zeitpunkt also N(t) = N0 e−λt (21.44)