2.1 Grundlagen der Wahrscheinlichkeitsrechnung 22 2. Wahrscheinlichkeitsrechnung Der Wahrscheinlichkeitstheorie kommt eine wichtige Rolle als Bindeglied zwischen der deskriptiven und der induktiven Statistik zu. Aufgabe der induktiven Statistik ist es ja, Verfahren bereitzustellen, die Schlüsse von einer Stichprobe auf die zugehörige Grundgesamtheit ermöglichen. Hierzu muss allerdings erst ein geeignetes Modell für die Grundgesamtheit entwickelt werden. Anstelle der zuvor betrachteten empirischen Verteilungen haben wir es dabei nun mit theoretischen Verteilungen zu tun, die als mathematische Modelle der Grundgesamtheit aufgefasst werden können. 2.1 Grundlagen der Wahrscheinlichkeitsrechnung Physikalische Prozesse sind in der Regel, zumindest aus makroskopischer Sicht, in ihrem Ablauf determiniert, d.h. vorhersagbar. Auch oftmalige Wiederholungen eines Experiments führen innerhalb der Messgenauigkeit immer zum selben Ergebnis. Im Gegensatz dazu besitzen Vorgänge im Bereich der Bio-, Sozial- oder Wirtschaftswissenschaften häufig den Charakter von Zufallsexperimenten, d.h., ihr Ausgang ist nicht vorhersehbar. Typische Beispiele von Zufallsexperimenten sind das Werfen einer Münze oder eines Würfels, das Ziehen einer Spielkarte, das zufällige Auswählen einer Person und Feststellen ihrer Körpergröße, ihres Blutdrucks oder ihres täglichen Zigarettenverbrauchs. Jede einzelne Durchführung eines Zufallsexperiments heißt ein Versuch, sein Ergebnis ein Versuchsausgang oder Elementarereignis. Alle Elementarereignisse eines Experiments bilden zusammen den sogenannten Ereignisraum oder Stichprobenraum Ω. So gilt etwa für das Ausspielen eines Würfels: Ω = {1,2,3,4,5,6}. Natürlich gibt es auch Experimente mit unendlichem Stichprobenraum. Bei Größen- und Gewichtsmessungen beispielsweise sind die möglichen Ausgänge beliebige positive Zahlen, d.h., Ω ist in diesem Fall die Menge —0+ aller positiven reellen Zahlen. Allgemein bezeichnet man als ein Ereignis A eine beliebige Teilmenge von Ω und man sagt, A tritt genau dann ein, wenn eines der in A enthaltenen Elementarereignisse eintritt. Enthält A dabei mehr als ein Elementarereignis, so heißt es zusammengesetzt. So ist z.B. das Würfeln einer geraden Augenzahl ein zusammengesetztes Ereignis, nämlich zusammengesetzt aus den Elementarereignissen, die den Augenzahlen 2, 4 und 6 entsprechen: A = {2,4,6}. Insbesondere ist auch Ω selbst ein Ereignis, welches bei jeder Versuchsausführung eines Zufallsexperiments eintritt und deshalb das sichere Ereignis genannt wird. Ferner ist es zweckmäßig, das Ereignis ∅ zuzulassen, das keinem möglichen Ausgang entspricht und daher auch unmögliches Ereignis heißt. Ereignisse können sofort zu neuen Ereignissen kombiniert werden. Sind A,B ⊆ Ω Ereignisse, so erhält man durch Anwendung der mengentheoretischen Operationen der Durchschnitts-, Vereinigungs- und Differenzenbildung die weiteren Ereignisse A ∩ B, A ∪ B und A \ B, welche als „A und B“, „A oder B“ bzw. „A aber nicht gleichzeitig B“ bezeichnet werden. Zu jedem A kann daher insbesondere auch A = Ω \ A, das komplementäre Ereignis zu A, 2.1 Grundlagen der Wahrscheinlichkeitsrechnung 23 gebildet werden. Ferner heißen zwei Ereignisse A und B disjunkt (oder unvereinbar), wenn A ∩ B = ∅ gilt. Wir greifen nochmals auf das einfache Zufallsexperiment „Werfen eines Würfels“ zurück und stellen uns die Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass ein bestimmtes Ereignis, z.B. eine gerade Augenzahl auftritt? Um die Wahrscheinlichkeit P(A) eines Ereignisses A festzulegen, gibt es verschiedene Zugänge: • Wir betrachten unter allen möglichen Ausgängen des Experiments diejenigen, bei denen das Ereignis A eintritt. Je größer die Anzahl dieser für A günstigen Fälle ist, desto wahrscheinlicher wird A eintreten. Es ist daher naheliegend, den Anteil der für A günstigen Ausgänge an allen insgesamt möglichen Ausgängen des Zufallsexperiments als die Wahrscheinlichkeit P(A) des Ereignisses A zu bezeichnen. Die sogenannte klassische Definition der Wahrscheinlichkeit P(A) eines Ereignisses A für ein Zufallsexperiment mit endlich vielen gleichwahrscheinlichen Ausgängen (ein sogenanntes Laplace-Experiment) lautet also P(A) = Anzahl der für A günstigen Ausgänge . Anzahl der insgesamt möglichen Ausgänge Aus dieser Definition folgt übrigens sofort, dass stets 0 ≤ P(A) ≤ 1 gilt. Insbesondere ist P(∅) = 0 und P(Ω) = 1. Die Antwort auf die oben gestellte Frage nach der Wahrscheinlichkeit dafür, dass beim Ausspielen eines Würfels eine gerade Augenzahl auftritt, ist nun leicht zu finden: Von den sechs möglichen Augenzahlen sind drei, nämlich eben die geraden Zahlen, für das betrachtete Ereignis A günstig, d.h. P(A) = 3/6 = 1/2. • Sind die Voraussetzungen für ein Laplace-Experiment nicht erfüllt, so kann man die Wahrscheinlichkeit P(A) eines Ereignisses A so festlegen, dass man das Zufallsexperiment n-mal durchführt und die relative Häufigkeit hn(A) für das Auftreten von A betrachtet. Strebt die Folge hn(A) für n = 1,2,3,... dann einem festem Wert zu, wählt man als naheliegende Definition P(A) = lim h n (A) n →∞ bzw. in der Praxis P(A) ≈ hn(A) für großes n. (Tatsächlich gilt nach dem sogenannten Gesetz der großen Zahlen, dass hn(A) „fast sicher“ gegen P(A) konvergiert.) Sind etwa laut Geburtenstatistik unter 4255 Neugeborenen eines Jahres in einer Geburtsklinik 2183 Knaben und 2072 Mädchen, wird man die Wahrscheinlichkeit für die Geburt eines Knaben mit P(K) = 2183/4255 = 0,513 und für die Geburt eines Mädchens mit P(M) = 2072/4255 = 0,487 festsetzen. Heute ist es allerdings üblich, den Begriff der Wahrscheinlichkeit rein axiomatisch festzulegen. Eine Wahrscheinlichkeit ist demnach eine Funktion P, die jedem Ereignis A (aus einer sogenannte Ereignisalgebra über einem Ereignisraum Ω) eine reelle Zahl P(A) zuordnet, wobei folgende Bedingungen erfüllt sind: 1. 0 ≤ P(A) ≤ 1 für alle Ereignisse A 2. P(Ω) = 1 3. P(A ∪ B) = P(A) + P(B) für disjunkte Ereignisse A und B 2.1 Grundlagen der Wahrscheinlichkeitsrechnung 24 Das sind die Axiome der Wahrscheinlichkeitstheorie von Kolmogoroff. Aus ihnen lassen sich für das praktische Rechnen mit Wahrscheinlichkeiten sofort einige einfache Folgerungen ableiten, die wir im Folgenden zusammenfassen. Rechnen mit Wahrscheinlichkeiten Neben den Axiomen 1. bis 3. von Kolmogoroff gelten für beliebige Ereignisse A und B die nachstehenden Rechenregeln: 4. P(∅) = 0 5. P( A ) = 1 − P(A) 6. A ⊆ B ⇒ P(A) ≤ P(B) 7. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Additionssatz für zwei beliebige Ereignisse Der zuletzt angeführte Additionssatz gilt für beliebige Ereignisse A und B im Gegensatz zum Axiom 3., welches nur für disjunkte Ereignisse gültig ist. Im übrigen kann man zeigen, dass der klassische Wahrscheinlichkeitsbegriff als Spezialfall für ein Zufallsexperiment mit endlich vielen gleichwahrscheinlichen Ausgängen im Axiomensystem von Kolmogoroff enthalten ist, sodass sich der axiomatische Wahrscheinlichkeitsbegriff als eine echte Verallgemeinerung des klassischen erweist. In vielen Fällen wird die Wahrscheinlichkeit P(A) für das Eintreten eines Ereignisses A dadurch verändert, dass ein anderes Ereignis B bereits eingetreten ist. Diese neue Wahrscheinlichkeit für das Eintreten von A unter der Bedingung B wird dann die durch B bedingte Wahrscheinlichkeit von A genannt und mit P(AB) bezeichnet. Ist P(B) = 0, so gilt dann klarerweise auch P(AB) = 0, für P(B) ≠ 0 dagegen ergibt sich ihr Wert aus der Formel P(AB) = P(A ∩ B) . P(B) Aus dieser Definition der bedingten Wahrscheinlichkeit folgt sofort P(A ∩ B) = P(AB) P(B) = P(A) P(BA), der Multiplikationssatz für zwei beliebige Ereignisse A und B. Die beiden Ereignisse A und B heißen unabhängig, falls P(A ∩ B) = P(A) P(B) bzw. gleichwertig dazu, falls P(AB) = P(A) oder (wegen der Symmetrie der Unabhängigkeitsbedingung in A und B) auch falls P(BA) = P(B). Beispiel: Werfen eines Würfels, Ω = {1,2,3,4,5,6} • A = {6} (Würfeln eines Sechsers), B = {2,4,6} (gerade Zahl) P(A) = 1/6, P(B) = 1/2, P(AB) = 1/3, A und B sind abhängig 25 2.1 Grundlagen der Wahrscheinlichkeitsrechnung • A = {1,2} (Augenzahl höchsten 2), B = {2,4,6} w.o. P(A) = 1/3, P(B) = 1/2, P(A∩B) = 1/6 = P(A) P(B), A und B sind unabhängig Beispiel: Wir betrachten eine Urne mit 10 Kugeln, davon 4 schwarze (S) und 6 weiße (W) Kugeln. • Werden zwei Kugeln ohne Zurücklegen gezogen, gilt für den ersten Zug etwa P(S1) = 4/10 und für den zweiten Zug P(S2S1) = 3/9 (siehe Baumdiagramm), folglich P(S1∩S2) = P(S1) P(S2S1) = (4/10)(3/9) = 12/90 ≈ 0,13. Also sind die beiden Ereignisse S1 und S2 abhängig. Genauso findet man P(S1∩W2) = 24/90 ≈ 0,27, usw. 4/10 6/10 W1 S1 3/9 S2 • 6/9 W2 4/9 S2 5/9 W2 Beim Ziehen mit Zurücklegen hingegen erhält man P(S1∩S2) = P(S1) P(S2) = 0,16, P(S1∩W2) = P(S1) P(W2) = 0,24, usw. In diesem Fall stellen die jeweiligen Ergebnisse beim ersten bzw. zweiten Zug unabhängige Ereignisse dar. Der Multiplikationssatz kann von zwei Ereignissen auf n ≥ 2 Ereignisse wie folgt verallgemeinert werden (der Beweis erfolgt durch vollständige Induktion): P(A1∩A2∩A3∩ ... ∩An) = P(A1) P(A2A1) P(A3A1∩A2) ... P(AnA1∩ ... ∩An−1) Beispiel (Geburtstagsparadoxon): Gesucht ist die Wahrscheinlichkeit dafür, dass in einer Gruppe von n ≥ 2 Personen mindestens zwei am selben Tag im Jahr Geburtstag haben. Zur Lösung dieses Problems bezeichnen wir zunächst das genannte Ereignis mit A. Ferner sei Ak das Ereignis, dass die k-te von n Personen an einem anderen Tag Geburtstag hat als die k − 1 vorhergehenden Personen (k = 2,3.,...,n). Dann gilt auf Grund des Multiplikationssatzes P(A) = P(A 2 ∩ A3 ∩ ... ∩ A n ) = P(A 2 )P(A 3 | A 2 )P(A 4 | A 2 ∩ A3 )⋯ P(A n | A 2 ∩ ... ∩ A n −1 ) = (1 − 1 2 3 n −1 )(1 − )(1 − )⋯ (1 − ) 365 365 365 365 und damit P(A) = 1 − P(A) 364 ⋅ 363⋯ (365 − n + 1) = 1− . 365n −1 2.1 Grundlagen der Wahrscheinlichkeitsrechnung 26 Die Werte für die gesuchte Wahrscheinlichkeit P(A) in Abhängigkeit von der Personenzahl n sind in obenstehender Abbildung veranschaulicht. Ab etwa 50 Personen ist es demnach beinahe sicher, dass zwei unter ihnen am selben Tag Geburtstag haben. Für n = 23 ist P(A) = 0,507, d.h., in einer Gruppe von 23 Personen ist es bereits wahrscheinlicher, dass darunter zwei Personen am selben Tag im Jahr Geburtstag feiern als dass umgekehrt alle Geburtstage auf verschiedene Tage des Jahres fallen. Sicherheitssysteme von Kernkraftwerken Mit normalem Wasser moderierte Reaktoren, so genannte Leichtwasserreaktoren, sind zumeist als Druckwasserreaktor (siehe Abbildung, http://www.kernenergie.de) oder als Siedwasserreaktor ausgelegt. Dabei können Übertemperaturen aus den Brennelementen im Reaktorkern entstehen, falls die Wärmeerzeugung zu groß oder die Wärmeabfuhr zu gering, 27 2.1 Grundlagen der Wahrscheinlichkeitsrechnung also kleiner als ein bestimmter Sollwert wird. Insbesondere kann durch Ausfall einer entsprechenden Kühlung ein Reaktorunfall entstehen. Alle Sicherheitssysteme eines Kernreaktors zielen daher darauf ab, bei einer eingetretenen Störung das Gleichgewicht zwischen erzeugter und abgeführter Wärme herzustellen. Sicherheitssysteme sind aus verschiedenen Bauelementen zusammengesetzt. Wir unterscheiden zwischen folgenden Systemen: • Ein Seriensystem mit den Komponenten K1, K2, ..., Kn ist ein System, das genau dann intakt ist, wenn alle Komponenten Ki intakt sind. Dem System entspricht folgendes Zuverlässigkeitsschaltbild: K1 K2 Kn Es sei pi die Wahrscheinlichkeit, dass die Komponente Ki intakt ist, und ferner seien die Komponenten als unabhängig vorausgesetzt. Dann ist die Wahrscheinlichkeit, dass das ganze System intakt ist, nach dem Multiplikationssatz für unabhängige Ereignisse gegeben durch pserie = p1 p2 ⋅⋅⋅ pn . • Ein Parallelsystem mit den Komponenten K1, K2, ..., Kn ist genau dann intakt, wenn wenigstens eine der Komponenten Ki intakt ist, und besitzt folgendes Zuverlässigkeitsschaltbild: K1 K2 Kn Ist wieder pi die Wahrscheinlichkeit, dass die Komponente Ki intakt ist, und werden die Komponenten als unabhängig angenommen, so ist die Wahrscheinlichkeit, dass das Parallelsystem defekt ist, gleich (1 − p1)(1 − p2) ⋅⋅⋅ (1 − pn). Daher ist die Wahrscheinlichkeit, dass das Parallelsystem intakt ist, gegeben durch pparallel = 1 − (1 − p1)(1 − p2) ⋅⋅⋅ (1 − pn). • Ein k-von-n-System mit den Komponenten K1, K2, ..., Kn (k < n) ist genau dann intakt, wenn mindestens k der n Komponenten Ki intakt sind. Betrachten wir z.B. ein 2-von-3-System mit folgendem Schaltbild: 28 2.1 Grundlagen der Wahrscheinlichkeitsrechnung K1 K2 K1 K3 K2 K3 Mit der Wahrscheinlichkeit pi, dass die Komponente Ki intakt ist, gilt in diesem Fall für die Intaktwahrscheinlichkeit p2/3 = p1p2(1 − p3) + p1(1 − p2)p3 + (1 − p1)p2p3 + p1p2p3 . Beispiel (Vergleich der Notkühlsysteme von Westinghouse und der Kraftwerksunion): Das Notkühlsystem von Westinghouse (WH) besteht aus zwei Strängen, von denen jeder 100% der erforderlichen Störfallkapazität führen kann. Das System ist folglich ein 1-von-2-Sytsem, und dementsprechend gilt pWH = p1/2 = p(1 − p) + (1 − p)p + p2 = 2p − p2 = 1 − q2. Dabei bezeichnet pi = p (für i = 1,2) die Wahrscheinlichkeit, dass ein Strang intakt ist, und q = 1 − p ist die Defektwahrscheinlichkeit eines Stranges. Strang 1 Strang 2 System WH 1 2 1 3 1 4 2 3 2 4 3 4 System KWU Das Notkühlsystem der Kraftwerksunion (KWU) besteht aus vier Komponenten 1, 2, 3, 4, von denen jede 50% der erforderlichen Störfallkapazität führen kann. Das System KWU ist also ein 2-von-4-System mit der Intaktwahrscheinlichkeit pKWU = p2/4 = 6p2(1 − p)2 + 4p3(1 − p) + p4 = 1 − 4q3 + 3q4, falls wieder alle Intaktwahrscheinlichkeiten pi = p der einzelnen Komponenten gleich groß sind. Damit ergibt sich als Wahrscheinlichkeit für das Versagen des Notkühlsystems bei Westinghouse qWH = q2, bei der Kraftwerksunion hingegen qKWU = 4q3 − 3q4. Rechnen wir für die Defektwahrscheinlichkeit q eines Stranges bei Kernkraftwerken ungefähr mit q ≈ 10−9 pro Stunde, so erhalten wir 2.1 Grundlagen der Wahrscheinlichkeitsrechnung 29 qWH = 10−18 und qKWU = 4⋅10−27 pro Stunde. Dementsprechend kann das System der Kraftwerksunion als sicherer angesehen werden. Satz von der totalen Wahrscheinlichkeit und Bayes’sche Formel In der Praxis hat man zur Ermittlung der Wahrscheinlichkeit P(A) sehr oft eine Fallunterscheidung durchzuführen, welche einer disjunkten Zerlegung Ω = B1 ∪ B2 ∪ ∪ Bn des Ereignisraums entspricht. Sind die Wahrscheinlichkeiten P(Bi) und die bedingten Wahrscheinlichkeiten P(ABi) für alle i bekannt, dann kann P(A) wie folgt ermittelt werden: A = (A ∩ B1 ) ∪ ... ∪ (A ∩ Bn ) ⇒ P(A) = P(A ∩ B1 ) + ... + P(A ∩ Bn ) = P(A | B1 )P(B1 ) + ... + P(A | Bn )P(Bn ), also n P(A) = ∑ P(A | Bi )P(Bi ) , i =1 was auch der Satz von der totalen Wahrscheinlichkeit genannt wird. Beispiel: Betrachten wir nochmals die Urne mit 4 schwarzen und 6 weißen Kugeln und fragen nach der Wahrscheinlichkeit P(S2) dafür, beim zweiten Zug ohne Zurücklegen eine schwarze Kugel zu ziehen. Da beim ersten Zug entweder eine schwarze (S1) oder eine weiße Kugel (W1) möglich ist, erhalten wir P(S2 ) = P(S2 | S1 )P(S1 ) + P(S2 | W1 )P(W1 ) = 3 4 4 6 36 + = = 0, 40. 9 10 9 10 90 Beispiel: Zur Chipproduktion werden drei Maschinen eingesetzt. Die Maschine M1 deckt 50% der Gesamtproduktion ab und liefert 3% Ausschuss. Auf die Maschine M2 entfallen 30% der Produktion bei einem Ausschussanteil von 1%, während die Maschine M3 20% der Produktion bei einem Ausschussanteil von 2% bestreitet. Gesucht ist die Wahrscheinlichkeit dafür, dass ein zufällig der Produktion entnommenes Stück defekt ist. Bezeichnen wir mit A das Ereignis, dass ein fehlerhaftes Stück produziert wurde und mit Mi das Ereignis, dass ein beliebig ausgewähltes Stück aus der Produktion der Maschine Mi stammt (für i = 1,2,3). Dann gilt P(A) = P(A | M1 )P(M1 ) + P(A | M 2 )P(M 2 ) + P(A | M 3 )P(M 3 ) = 0, 03 ⋅ 0, 5 + 0, 01 ⋅ 0, 3 + 0, 02 ⋅ 0, 2 = 0, 022. Somit beträgt die gesuchte Wahrscheinlichkeit, also der Ausschussanteil insgesamt 2,2%. Ein einfache Folgerung aus dem Satz von der totalen Wahrscheinlichkeit ist die so genannte Bayes’sche Formel: Ist Ω = B1 ∪ B2 ∪ ... ∪ Bn eine disjunkte Zerlegung des Ereignisraums und A ein beliebiges Ereignis, so gilt nach Definition der bedingten Wahrscheinlichkeit 30 2.1 Grundlagen der Wahrscheinlichkeitsrechnung P(Bi | A) = P(Bi ∩ A) P(A | Bi )P(Bi ) P(A | Bi )P(Bi ) = = n , P(A) P(A) ∑ P(A | B j )P(B j ) j=1 also für alle i = 1,...,n P(Bi | A) = P(A | Bi )P(Bi ) n ∑ P(A | B )P(B ) j=1 j . j Von der Aufgabenstellung her kann man dabei die Ereignisse B1, B2, ...,Bn oft als mögliche Ursachen für das Ereignis A deuten. Ist nun das Ereignis A tatsächlich eingetreten, so lässt dies dann Rückschlüsse auf die möglichen Ursachen zu, indem deren a priori Wahrscheinlichkeiten P(Bi) sich damit a posteriori (nämlich durch das Eintreten von A) zu P(BiA) ändern. Beispiel: Wir betrachten nochmals den Produktionsprozess auf den drei Maschinen M1, M2 und M 3 des vorhergehenden Beispiels. Unter der Annahme, dass ein produziertes Stück fehlerhaft ist, wie groß ist dann nachträglich die Wahrscheinlichkeit, dass es von einer der Maschinen Mi, i = 1,2,3, stammt? Zur Beantwortung dieser Frage verwenden wir die Bayes’sche Formel und erhalten P(M 1 | A) = P(A | M 1 )P(M 1 ) 0,03 ⋅ 0,5 = = 0,68 , P( A ) 0,022 P(M 2 | A) = P(A | M 2 )P(M 2 ) 0,01 ⋅ 0,3 = = 0,14 , P( A ) 0,022 P(M 3 | A) = P(A | M 3 )P(M 3 ) 0,02 ⋅ 0,2 = = 0,18 . P(A) 0,022 Wie nicht anders zu erwarten, hat sich diese Wahrscheinlichkeit für die Maschine M1 mit einem relativ hohen Ausschussanteil gegenüber der a priori Wahrscheinlichkeit von 0,5 erhöht, dagegen sind die Wahrscheinlichkeiten für die Maschinen M2 und M3 als mögliche „Ursachen“ für den Fehler jeweils zurückgegangen. M1 M2 M3 a priori 50% 30% 20% 100% a posteriori 68% 14% 18% 100% Zusammenfassung Ausgangspunkt wahrscheinlichkeitstheoretischer Überlegungen ist der Begriff des Zufallsexperiments, eines im Prinzip beliebig oft wiederholbaren Vorgangs mit unbestimmtem 31 2.1 Grundlagen der Wahrscheinlichkeitsrechnung Ausgang. Die einzelnen dabei möglichen Ausgänge bilden Ereignisse. Spezielle Ereignisse sind das unmögliche Ereignis ∅ und das sichere Ereignis Ω. Zwei Ereignisse A und B werden als unvereinbar oder disjunkt bezeichnet, wenn das Eintreten von A jenes von B ausschließt und umgekehrt. Die Wahrscheinlichkeit P(A) eines Ereignisses A ist für ein Zufallsexperiment mit endlich vielen gleichwahrscheinlichen Ausgängen nach der klassischen Wahrscheinlichkeitsdefinition gegeben als das Verhältnis der Anzahl der für A günstigen zur Anzahl der insgesamt möglichen Ausgänge. Bei der praktischen Bestimmung unbekannter Wahrscheinlichkeiten wird man in vielen Fällen auf die relative Häufigkeit von Ereignissen zurückgreifen. Auch der axiomatische Wahrscheinlichkeitsbegriff orientiert sich am Begriff der relativen Häufigkeit und wird durch die Axiome von Kolmogoroff begründet. Für das praktische Rechnen mit Wahrscheinlichkeiten sind u.a. folgende Rechenregeln von Nutzen: P( A ) = 1 − P(A) Wahrscheinlichkeit des komplementären Ereignisses P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Additionssatz für zwei beliebige Ereignisse P(A ∩ B) = P(AB) P(B) = P(A) P(BA) Multiplikationssatz für zwei Ereignisse Dabei bezeichnet P(AB) die bedingte Wahrscheinlichkeit für das Eintreten von A unter der Bedingung B. Für unabhängige Ereignisse A und B gilt speziell P(A ∩ B) = P(A) P(B). Weitere wichtige Sätze zur Ermittlung von Wahrscheinlichkeiten sind der Satz von der totalen Wahrscheinlichkeit n P(A) = ∑ P(A | Bi )P(Bi ) i =1 und die Bayes’sche Formel P(Bi | A) = P(A | Bi )P(Bi ) n ∑ P(A | B )P(B ) j=1 j , j mit deren Hilfe man von den a priori Wahrscheinlichkeiten P(Bi) nach Eintreten eines Ereignisses A auf die a posteriori Wahrscheinlichkeiten P(BiA) schließen kann. 2.2 Diskrete Verteilungen Wir beschränken uns jetzt auf Experimente, deren Ausgänge durch einzelne Zahlen beschrieben werden können. Beispielsweise ist jedes mögliche Ergebnis beim Ausspielen eines Würfels in eindeutiger Weise durch die Augenzahl bestimmt. Diese Größe hängt natürlich vom Zufall, genauer vom Ergebnis des Zufallsexperiments, ab. Man nennt sie deshalb auch Zufallsvariable. Gewöhnlich werden Zufallsvariablen durch Großbuchstaben, etwa X, Y, Z symbolisiert. Schreibt man also X für die Augenzahl eines Würfels, dann kann man das Ereignis „Die Augenzahl des ausgespielten Würfels beträgt 4“ kurz durch „X = 4“ ausdrücken, das Ereignis „Die Augenzahl ist größer oder gleich 3“ durch „X ≥ 3“, usw. Entsprechend schreibt man für die Wahrscheinlichkeiten der genannten Ereignisse kurz P(X = 4) bzw. P(X ≥ 3). Die Zufallsvariable X kann nur endlich viele Zahlenwerte (mit positiver 32 2.2 Diskrete Verteilungen Wahrscheinlichkeit) annehmen; eine solche Variable wird diskrete Zufallsvariable genannt und ihre Verteilung als diskrete Verteilung bezeichnet. Allgemeiner ist eine diskrete Zufallsvariable dadurch definiert, dass sie nur bestimmte vorgegebene (höchstens abzählbar viele) Werte x1, x2, x3, ... mit positiven Wahrscheinlichkeiten P(X = x1) = p1, P(X = x2) = p2, P(X = x3) = p3, ... annimmt. Die durch p f ( x ) = P(X = x ) = i 0 x = xi sonst erklärte Funktion f heißt Wahrscheinlichkeitsfunktion der Zufallsvariablen X. Ferner nennt man die Funktion F( x ) = P(X ≤ x ) = ∑p xi ≤ x i − also die Wahrscheinlichkeit dafür, dass die Variable X irgendeinen Wert annimmt, der kleiner oder gleich x ist − die Verteilungsfunktion von X. Zufallsvariable können als theoretisches Gegenstück zu den Merkmalen der deskriptiven Statistik angesehen werden. Zwischen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion einer Zufallsvariablen X besteht dann derselbe Zusammenhang, wie er schon früher für die relative Häufigkeit und relative Summenhäufigkeit eines Merkmals festgestellt wurde. Beispiel: Bezeichnet X die Augenzahl beim Würfeln, dann besitzt die Zufallsvariable X die möglichen Werte x = 1, 2, 3, 4, 5 und 6 mit den Wahrscheinlichkeiten f(1) = P(X = 1) = 1/6, f(2) = … = f(6) = 1/6 bzw. F(1) = P(X ≤ 1) = 1/6, F(2) = P(X ≤ 2 ) = 2/6, usw. Wahrscheinlichkeitsfunktion f(x) und Verteilungsfunktion F(x) sind in der folgenden Abbildung dargestellt. Wahrscheinlichkeitsfunktion f(x) (links) und Verteilungsfunktion F(x) (rechts) von X Durch die Wahrscheinlichkeits- bzw. Verteilungsfunktion ist eine Zufallsvariable vollständig bestimmt. Oft genügt aber auch, wie bei der Beschreibung von Stichproben, eine gröbere Charakterisierung durch geeignete Maßzahlen. Von diesen sind der Mittelwert sowie die Varianz wohl am bedeutsamsten. Der Mittelwert µ (oder auch Erwartungswert E(X)) einer diskreten Zufallsvariablen X mit den möglichen Werten x1, x2, x3, ... und der Wahrscheinlichkeitsfunktion f ist gegeben durch µ = E(X) = ∑ x i f ( x i ) i und stellt das theoretische Gegenstück zum arithmetischen Mittel einer empirischen Verteilung dar. Analog ist die Varianz σ2 (oder auch Var(X)) definiert durch 33 2.2 Diskrete Verteilungen σ 2 = Var (X) = ∑ ( x i − µ) 2 f ( x i ) i = E(X − µ) 2 = E(X 2 ) − µ 2 . Die Wurzel aus der Varianz bezeichnet man wieder als die Standardabweichung σ. Für das Würfeln beispielsweise gilt E(X) = (1 + 2 + 3 + 4 + 5 + 6) 1/6 = 3,5, Var(X) = E(X2) − µ2 = (12 + 22 + 32 + 42 + 52 + 62) 1/6 − 3,52 = 15,17 − 12,25 = 2,92. Somit beträgt die theoretisch erwartete Augenzahl µ = 3,5 und ihre Standardabweichung σ = 1,71. Ganz allgemein gelten für den Erwartungswert und die Varianz von Zufallsvariablen folgende Rechenregeln: E(X + Y) = E(X) + E(Y) E(aX + b) = aE(X) + b E(XY) = E(X) E(Y), falls X, Y unabhängig sind Var(aX + b) = a2 Var(X) Var(X + Y) = Var(X) + Var(Y), falls X, Y unabhängig sind Binomialverteilung Ein wichtiges Beispiel für die Verteilung einer diskreten Zufallsvariablen ist die sogenannte Binomialverteilung. Wir betrachten ein Zufallsexperiment und interessieren uns dafür, ob ein bestimmtes Ereignis A eintritt oder nicht. Das Experiment wird n-mal durchgeführt und dabei die Anzahl X des Eintretens von A registriert. Entsprechend der Tatsache, dass das Ereignis A insgesamt nur 0-mal, 1-mal, ... oder n-mal eintreten kann, besitzt die Zufallsvariable X die möglichen Werte k = 0,1,2,...,n. Wenn bei jeder Versuchsausführung das Ereignis A mit der Wahrscheinlichkeit p bzw. das sogenannte komplementäre Ereignis A (d.i. das Ereignis „nicht A“) mit der Wahrscheinlichkeit q = 1 − p eintritt, so kann man zeigen, dass allgemein die Wahrscheinlichkeit für ein k-maliges Eintreten des Ereignisses A gegeben ist durch n f (k ) = P(X = k ) = p k q n −k , k = 0,1,..., n . k Eine Zufallsvariable mit einer solchen Wahrscheinlichkeitsfunktion heißt binomialverteilt mit den Parametern n und p, wir schreiben dafür kurz B(n,p). Für die Werte f(k) gilt stets n f (k ) ≥ 0 für alle k sowie ∑ f (k ) = 1 . k =0 Die nachstehende Abbildung zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung für die Parameter n = 8 und p = 0,2, p = 0,5 bzw. p = 0,8. 34 2.2 Diskrete Verteilungen Beispiel: Wie groß ist die Wahrscheinlichkeit, bei dreimaligem Ausspielen eines Würfels mindestens einmal einen Sechser zu würfeln? Die Anzahl X der Sechser unter drei Würfen ist eine binomialverteilte Zufallsvariable mit den Parametern n = 3 und p = 1/6. Die möglichen Werte für X sind daher k = 0,1,2,3, und die entsprechenden Wahrscheinlichkeiten sind 0 3 3 1 5 P(X = 0) = f (0) = = 0,5787 0 6 6 1 2 3 1 5 P(X = 1) = f (1) = = 0,3472 1 6 6 2 1 3 1 5 P(X = 2) = f (2) = = 0,0694 2 6 6 3 0 3 1 5 P(X = 3) = f (3) = = 0,0046. 3 6 6 Demnach beträgt die gesuchte Wahrscheinlichkeit P(X ≥ 1) = f(1) + f(2) + f(3) oder einfacher P(X ≥ 1) = 1 − f (0) = 1 − 0,5787 = 0,4213 ≈ 42%. 35 2.2 Diskrete Verteilungen Für den Erwartungswert und die Varianz einer Binomialverteilung B(n,p) gelten allgemein die beiden Formeln µ = np und σ2 = npq. Damit beträgt der Erwartungswert für die Anzahl der Sechser unter drei Würfen (siehe obiges Beispiel) µ = 3⋅(1/6) = 0,5 und die Varianz σ2 = 3⋅(1/6)⋅(5/6) = 0,4166, also σ = 0,65. Poissonverteilung Für eine binomialverteilte Zufallsvariable X ist die Berechnung der Wahrscheinlichkeiten f(k) für großes n recht mühsam. Ist n sehr groß, p aber gleichzeitig nahe bei Null, dann ist in guter Näherung f(k) ≈ (λk/k!)e−λ mit λ = np und k = 0,1,...,n. Als Faustregel für die Brauchbarkeit dieser Approximation gilt n ≥ 30 und p ≤ 0,1. Man bezeichnet eine Zufallsvariable mit der Wahrscheinlichkeitsfunktion f (k ) = P(X = k ) = λk − λ e für k = 0,1,2,... k! als Poisson-verteilt mit dem Parameter λ, und schreibt dafür kurz P(λ). Wie die Binomialverteilung ist auch die Poissonverteilung eine diskrete Verteilung und spielt über die Tatsache hinaus, dass sie als eine „Grenzverteilung“ für die Binomialverteilung fungiert, auch als „Verteilung der seltenen Ereignisse“ eine eigenständige Rolle in den Anwendungen: Beispielsweise folgt die Anzahl der pro Woche in einer Stadt gemeldeten Verkehrsunfälle einer Poissonverteilung. Der Erwartungswert und die Varianz einer Poissonverteilung P(λ) betragen – wie man zeigen kann – µ = λ und σ2 = λ, d.h., Erwartungswert und Varianz sind hier gleich groß. Beispiel: Ein Hobby-Angler macht die Erfahrung, dass im Mittel drei Fische pro Stunde anbeißen. Wie groß ist dann die Wahrscheinlichkeit, dass er nach einer Stunde weniger als drei Fische gefangen hat? Mit µ = λ = 3 ergibt sich für die gesuchte Wahrscheinlichkeit 3 0 31 3 2 −3 17 −3 P(X < 3) = f (0) + f (1) + f (2) = ( + + )e = e = 0,4232 ≈ 42% . 0! 1! 2! 2 Zusammenfassung Zufallsexperimente mit quantifizierbaren Ausgängen werden durch Zufallsvariable beschrieben. Eine diskrete Zufallsvariable X kann nur bestimmte Werte xl, x2, ... mit positiver Wahrscheinlichkeit annehmen. Sie ist charakterisiert durch ihre Wahrscheinlichkeitsfunktion f mit f(x) = P(X = x) bzw. durch ihre Verteilungsfunktion F, definiert durch F(x) = P(X ≤ x). Die diskrete Zufallsvariable X besitzt den Erwartungswert µ = E(X) = Σxif(xi) und die Varianz σ2 = Var(X) = Σ(xi − µ)2f(xi), das theoretische Gegenstück zu Mittelwert x und Varianz s2 einer empirischen Verteilung. 36 2.2 Diskrete Verteilungen Der Binomialverteilung liegt das Bernoullische Versuchsschema zugrunde: Ein Zufallsexperiment wird n-mal wiederholt, bei jeder dieser Wiederholungen tritt ein Ereignis A mit der Wahrscheinlichkeit p ein. Dann ist die Anzahl X der Versuche, bei denen A eintritt, binomial verteilt mit den Parametern n und p, d.h., die Wahrscheinlichkeit, dass X einen Wert k = 0,l,...,n annimmt, ist gegeben durch n f (k ) = p k (1 − p) n − k , k = 0,1,..., n . k Der Mittelwert und die Varianz einer binomial verteilten Zufallsvariablen hängen von den Parametern n und p gemäß µ = np und σ2 = np(1−p) ab. Für n ≥ 30 und p ≤ 0.1 empfiehlt es sich, die Binomialverteilung durch die Poisson-Verteilung zu approximieren. 2.3 Stetige Verteilungen Viele Zufallsexperimente lassen sich nur unvollständig durch diskrete Zufallsvariable beschreiben. Beispielsweise kann man bezüglich des Merkmals „Körpergröße einer erwachsenen Person“ eine Einteilung in „klein“, „mittel“ bzw. „groß“" treffen und diesen Ereignissen gewisse Größenindizes, etwa 0, 1 bzw. 2 zuordnen. Man hätte damit die Körpergröße durch eine diskrete Zufallsvariable mit drei möglichen Werten − allerdings nur sehr grob beschrieben. Daran ändert auch eine Verfeinerung der Einteilung im Prinzip nichts, denn die Körpergröße ist von stetiger Natur, d.h., sie kann jeden beliebigen Wert eines bestimmten Intervalls annehmen. Es ist daher naheliegend, sie durch eine entsprechende Zufallsvariable X zu beschreiben, für die alle Werte des betrachteten Intervalls auch mögliche Werte darstellen. Das Ereignis „175 < X < 180“ beispielsweise bedeutet, dass X irgendeinen Wert aus dem Intervall (175, 180) annimmt. Das Ereignis „X = 180“ hingegen besagt, dass die Variable X den Wert 180 exakt annimmt, und besitzt im Fall einer stetigen Zufallsvariablen stets die Wahrscheinlichkeit 0. Wir können in diesem Fall nur für Ereignisse, die dadurch charakterisiert sind, dass X in ein vorgegebenes Intervall fällt, eine positive Wahrscheinlichkeit angeben. An die Stelle der Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen tritt nun die so genannte Wahrscheinlichkeitsdichte (oder kurz Dichte) f der stetigen Variablen X. Dabei ordnet die Funktion f jedem Wert x eine Zahl f(x) derart zu, dass zu beliebig vorgegebenen Werten a und b für die Wahrscheinlichkeit P(a < X < b) gilt b P(a < X < b) = ∫ f ( x ) dx . a Die Wahrscheinlichkeit des Ereignisses „a < X < b“ kann also durch die Fläche ausgedrückt werden, die von der Kurve der Wahrscheinlichkeitsdichte und der x-Achse zwischen x = a und x = b eingeschlossen ist (vgl. nachstehende Abbildung). Die Zufallsvariable X wird als stetige Zufallsvariable bezeichnet und wir sprechen in diesem Fall von einer stetigen Verteilung der Variablen X. 37 2.3 Stetige Verteilungen Zwischen der Verteilungsfunktion F, definiert durch x F( x ) = P(X ≤ x ) = ∫ f ( t) dt , −∞ und der Wahrscheinlichkeitsdichte f einer stetigen Zufallsvariablen X besteht der folgende Zusammenhang: Der Wert F(a) = P(X ≤ a) stimmt mit der Fläche überein, die zwischen der Kurve von f und der x-Achse links von der Stelle x = a liegt. Ferner gilt P(a < X < b) = F(b) − F(a), wobei auf der linken Seite der Gleichung ebenso P(a ≤ X < b), P(a < X ≤ b) oder P (a ≤ X ≤ b) stehen kann. Im Zusammenhang mit der Interpretation der Wahrscheinlichkeitsdichte f sei betont, dass die Werte von f nicht als Wahrscheinlichkeiten angesehen werden können; f muss daher auch keineswegs überall kleiner als 1 sein. Wahrscheinlichkeiten werden lediglich durch Flächen unter der Dichtekurve f dargestellt. Offensichtlich ist die Gesamtfläche unter der Dichtekurve von f gleich 1, der Wahrscheinlichkeit des sicheren Ereignisses. Normalverteilung Von den in der Praxis vorkommenden stetigen Verteilungen ist die so genannte Normalverteilung die wichtigste. Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X ist durch die Formel f (x) = 1 σ 2π e 1 x −µ − 2 σ 2 gegeben; dabei bedeuten die Parameter µ bzw. σ den Mittelwert bzw. die Standardabweichung von X. Die Normalverteilung wird kurz mit N(µ, σ) bezeichnet. Der Verlauf von f ist in folgender Abbildung für einige Werte von µ und σ dargestellt. Besonders auffallend ist das glockenförmige Aussehen dieser Kurven und die Symmetrie bezüglich x = µ. 38 2.3 Stetige Verteilungen Eine Veränderung von µ bewirkt lediglich eine Verschiebung der betrachteten Glockenkurve längs der x-Achse. Dagegen beeinflusst der zweite Parameter σ wesentlich die Steilheit der Kurve; je größer σ, desto kleiner ist das Maximum von f und desto flacher der Abfall nach beiden Seiten. Im Sonderfall µ = 0, σ = 1 spricht man von der Standardnormalverteilung, kurz mit N(0, 1) bezeichnet. Für jede Normalverteilung N(µ, σ) gilt zunächst ∞ ∫ f ( x ) dx = 1 . −∞ Für den Erwartungswert E(X) und die Varianz Var(X) erhält man gerade ∞ E(X) = ∫ x f (x ) dx = µ und −∞ ∞ Var (X) = ∫ ( x − µ) 2 f ( x ) dx = σ 2 . −∞ Es sei X eine N(µ,σ)-verteilte Zufallsvariable und F ihre Verteilungsfunktion. Für viele Zwecke ist es nützlich, die Variable X in eine standardnormalverteilte Zufallsvariable Z zu transformieren. Dies erreicht man, indem man die sogenannte standardisierte Variable Z= X−µ σ bildet, d.h., indem man jedem Wert x von X den entsprechenden Wert z = (x − µ)/σ von Z zuordnet. Diesen Vorgang bezeichnet man als Standardisierung von X. Die Zufallsvariable Z ist nun standardnormalverteilt, für ihre Verteilungsfunktion schreibt man speziell Φ(z). Diese Funktion ist für z ≥ 0 im Anhang tabelliert. Werte für negative Argumente erhält man daraus sofort mit Hilfe von Φ(−z) = 1 − Φ(z). Zwischen der Verteilungsfunktion F der N(µ,σ)-verteilten Zufallsvariablen X und der Verteilungsfunktion Φ der standardisierten Zufallsvariablen Z = (X − µ)/σ besteht der Zusammenhang 39 2.3 Stetige Verteilungen F( x ) = Φ ( x −µ ). σ Damit ist es möglich, die Werte der Verteilungsfunktion einer beliebigen normalverteilten Zufallsvariablen mit Hilfe der Tabelle für Φ(z) zu bestimmen. Beispiel: Sei X eine normalverteilte Zufallsvariable mit den Parametern µ = 15 und σ = 4. Man bestimme die Wahrscheinlichkeiten (a) P(X < 10), (b) P(X > 10), (c) P(16 < X < 20). Es ist unter Verwendung der oben angeführten Formeln im Fall (a) P(X < 10) = F(l0) = Φ(−l,25) = 1 − Φ(l,25) = 0,1056. Die Frage (b) kann unmittelbar auf (a) zurückgeführt werden: P(X > 10) = 1 − P(X ≤ 10) = 1 − F(l0) = 0,8944. Schließlich ist im Fall (c) P(16 < X < 20) = F(20) − F(l6) = Φ(1,25) − Φ(0,25) = 0,2957. Für eine normalverteilte Zufallsvariable X mit den Parametern µ und σ gilt näherungsweise P(µ − σ < X < µ + σ) = 68% P(µ − 2σ < X < µ + 2σ) = 95,5% , P(µ − 3σ < X < µ + 3σ) = 99,7% denn P(µ − σ < X < µ + σ) = F(µ + σ) − F(µ − σ) = Φ (1) − Φ (−1) = 2Φ(1) − 1 = 0,6826 , usw. Dieses Ergebnis lässt sich folgendermaßen interpretieren: Bei genügend großer Anzahl von Beobachtungswerten einer normalverteilten Größe liegen ca. 2/3 aller Werte innerhalb der einfachen, ca. 95% innerhalb der zweifachen und 99,7% innerhalb der dreifachen Standardabweichung um den Mittelwert herum. Praktisch liegen also fast alle Beobachtungswerte einer normalverteilten Zufallsvariablen innerhalb der 3σ-Grenzen (Drei-Sigma-Regel). Wir haben die Binomialverteilung unter bestimmten Voraussetzungen durch die PoissonVerteilung angenähert. Die Binomialverteilung kann auch in guter Näherung durch die Normalverteilung approximiert werden, falls n genügend groß ist. Satz (Grenzwertsatz von Moivre und Laplace): Ist X eine binomialverteilte Zufallsvariable mit den Parametern n und p und gilt np(1−p) ≥ 9, dann folgt die Verteilung von X näherungsweise einer Normalverteilung mit µ = np und σ2 = np(1−p), d.h. P(a ≤ X ≤ b) ≈ Φ (β) − Φ (α ) mit α= a − 0,5 − np np(1 − p) und β = b + 0,5 − np np(1 − p) . Es ist bekannt, dass in der Praxis zahlreiche Größen annähernd normalverteilt sind oder sich in normalverteilte Zufallsgrößen transformieren lassen. Es können, wie der letzte Satz zeigt, unter bestimmten Voraussetzungen auch verschiedene andere Verteilungen durch die 40 2.3 Stetige Verteilungen Normalverteilung angenähert werden. Diese Sonderstellung der Normalverteilung wird durch den Zentralen Grenzwertsatz zum Ausdruck gebracht. Nach diesem ist eine Summe von n Zufallsvariablen bei großem n annähernd normalverteilt (wenn die Zufallsvariablen voneinander unabhängig und gleichartig verteilt sind). Diese Tatsache ist der Grund dafür, dass in der Praxis so oft annähernd normalverteilte Zufallsvariable beobachtet werden, was meist seine Ursache in einem additiven Zusammenwirken von vielen voneinander unabhängigen Einflüssen hat. Weitere stetige Verteilungen sind etwa die stetige Gleichverteilung (zur Simulation von Zufallsprozessen) oder die Exponential- sowie die Weibull-Verteilung (zur Beschreibung von Lebensdauern). Eng mit der Normalverteilung hängen die so genannten Testverteilungen (z.B. t-Verteilung, χ2-Verteilung) zusammen, von denen später noch die Rede sein wird. Zusammenfassung Eine stetige Zufallsvariable X kann beliebige Werte (in einem vorgegebenen Intervall) annehmen und wird durch ihre Wahrscheinlichkeitsdichte f beschrieben. Dabei ist die Wahrscheinlichkeit P(a < X < b) für beliebige Werte a und b durch die Fläche unter der Kurve der Dichte f zwischen x = a und x = b gegeben. Weiters gilt P(a < X < b) = F(b) − F(a), wo F die Verteilungsfunktion von X ist, sowie P(X > c) = 1 − P(X ≤ c). Wichtigstes Beispiel einer stetigen Verteilung ist die Normalverteilung. Ihre Dichte f (x) = 1 σ 2π e 1 x −µ − 2 σ 2 ist durch zwei Parameter bestimmt, nämlich den Mittelwert µ und die Standardabweichung σ. Durch die Transformation Z = (X − µ)/σ wird jeder normalverteilten Zufallsvariablen X die standardnormalverteilte Zufallsvariable Z mit µ = 0 und σ = 1 zugeordnet. Die Werte der Verteilungsfunktion Φ(z) von Z sind tabelliert, und es gilt Φ(−z) = 1 − Φ(z). Zwischen der Verteilungsfunktion F der Zufallsvariablen X und der Verteilungsfunktion Φ der Standardnormalverteilung besteht der Zusammenhang F(x) = Φ((X − µ)/σ). Die Normalverteilung stellt auch eine gute Näherung für die Binomialverteilung dar, wenn np(1 − p) ≥ 9 gilt. Diese Approximation wird durch den Grenzwertsatz von Moivre und Laplace beschrieben.