Kapitel 7 Wahrscheinlichkeitsrechnung 7.1 Kombinatorik Def. 7.1.1:a) Für eine beliebige natürliche Zahl m bezeichnet man das Produkt aus den Zahlen von 1 bis m mit m Fakultät: m! := 1 · 2 · 3 · · · m, 0! := 1 . b) Für zwei beliebige ganze Zahlen n und k mit 0 ≤ k ≤ n ist durch n k ! := n! k! · (n − k)! der Binomialkoeffizient “n über k” definiert. Für diesen Binomialkoeffizienten gilt für 1 ≤ k ≤ n: (7.1.1) n k ! = n · (n − 1) · · · (n − k + 1) . 1 · 2···k Diese Darstellung ist für die zahlenmäßige Auswertung oft günstiger als die Formel, durch die der Binomialkoeffizient definiert ist. Darüberhinaus liefert die formale Anwendung von (7.1.1) die sinnvolle Definition: (7.1.1’) (7.1.2) ! n := 0 für k, n ∈ ZZ, 0 ≤ n < k. k (m + 1)! = m! · (m + 1). Satz 7.1.1 (Binomischer Lehrsatz): Für a, b ∈ IR und n ∈ ZZ, n ≥ 0 gilt: n (a + b) = n X k=o ! n · ak · bn−k . k Dabei setzt man x0 := 1, wobei die Funktion von x gemeint ist. 00 für sich genommen bleibt undefiniert. 37 Urnenmodell: Urne mit n Kugeln; k Kugeln werden nacheinander aus der Urne ”gezogen” und in einer Stichprobe zusammengestellt. I) Regeln des Ziehens a) Ohne Zurücklegen (Abk.: o.Z.) Jede gezogene Kugel wird nicht wieder in die Urne zurückgelegt, sondern kommt in die Stichprobe. b) Mit Zurücklegen (Abk.: m.Z.) Jede gezogene Kugel wird in der Stichprobe ”registriert” und wieder in die Urne zurückgelegt. Modell für das ”Registrieren”: Ein Duplikat der gezogenen Kugel kommt in die Stichprobe. II) Regel des Zusammenstellens a) Ohne Berücksichtigung der Anordnung (Abk.: o.B.d.A) Jede gezogene Kugel bzw. ihr Duplikat kommt in eine Stichprobenurne. Die Reihenfolge der Ziehungen ist also nachher nicht mehr feststellbar. b) Mit Berücksichtigung der Anordnung (Abk.: m.B.d.A) Jede gezogene Kugel bzw. ihr Duplikat kommt in dasjenige Fach eines Stichprobenfächerbretts, das die Nummer der Ziehung trägt. Bem.: ”m. bzw. o. Wiederholung” = ”m. bzw. o. Z.” n verschiedene Kugeln in der Urne, k Kugel in die Stichprobe: Kombination k-ter Ordnung aus n (verschiedenen) Elementen (ergänzt durch Regeln aus I) und II), z.B. m.Z.o.B.d.A.) Kk (n) := Anzahl aller möglichen verschiedenen Kombinationen der jeweils beschriebenen Art. Kk (n) m.B.d.A. m.Z. nk (k ∈ IN bel.) o.Z. o.B.d.A. = (n+k−1)·(n+k−2)···n 1·2···k n k n! (n−k)! (k ∈ IN und k ≤ n) = n · (n − 1) · · · (n − k + 1) n+k−1 k = n·(n−1)···(n−k+1) 1·2···k Sonderfall k = n bei der K.o.Z.m.B.d.A.: Permutation der Menge {1, 2, . . . , n} := Anordnung der Zahlen 1, 2, . . . , n in willkürlicher Reihenfolge. Anzahl: Pn := Kn (n)(o.Z.m.B.d.A.) = n! Bem.: Statt {1, 2, . . . , n} kann jede beliebige Menge mit n verschiedenen Elementen verwendet werden. 38 Satz 7.1.2 (Stirling–Formel): Für große natürliche Zahlen m ist die folgende Näherung verwendbar: m √ m 2πm m! ≈ e Für die Genauigkeit der Näherung gilt: m m ≥ 9 ⇒ |prozentualer Fehler| := | (m/e) m √ 2πm−m! m! · 100| ≤ 1(%) ≥ 85 ⇒ |prozentualer Fehler| ≤ 0.1(%) Bem. 7.1.5: a) Wir haben k gleichartige Mengen von je n Elementen. Ziehen wir aus jeder Menge je ein Element, so ist die Formel für Kombinationen m.Z. . . . k-ter Ordnung aus n Elementen anzuwenden. Ein Urnenmodell ist dazu nicht mehr nötig. b) Wenn es auf die Reihenfolge der Auswahl (oder Ziehung) ankommt, ist die Formel ”m.B.d.A” ist anzuwenden, und wenn nicht (z.B. wenn gezogene Zahlen in natürlicher Reihenfolge bekanntgegeben werden) die Formel ”o.B.d.A” . 7.2 Grundlagen der Wahrscheinlichkeitsrechnung Ein Ereignis heißt in Bezug auf einen Satz von Bedingungen zufällig, wenn es bei der Realisierung dieses Satzes eintreten kann, aber nicht unbedingt eintreten muss. Def. 7.2.1: Ein Experiment heißt ein Zufallsexperiment, falls folgende Bedingungen erfüllt sind: a) Es kann nicht mit Sicherheit gesagt werden, welches Ergebnis sich einstellen wird. b) Das Experiment soll (wenigstens theoretisch) beliebig oft unter den gleichen Bedingungen wiederholt werden können. c) Sämtliche überhaupt möglichen Ergebnisse sollen vor der Durchführung des Experiments angegeben werden können. Def. 7.2.2: Die Menge aller überhaupt möglichen Ergebnisse eines Zufallsexperiments heißt die Ergebnismenge Ω. Def. 7.2.3: Ein Ereignis ist eine Teilmenge der Ergebnismenge. Bem.: Bei überabzählbaren Ergebnismengen bezeichnet man nur Teilmengen aus einer gewissen Klasse als Ereignisse. Def. 7.2.4: Jedes Ereignis {ω} mit ω ∈ Ω heißt Elementarereignis. ∅ ist das unmögliche Ereignis, Ω das sichere Ereignis. 39 Def. 7.2.5 (Klassische Definition der Wahrscheinlichkeit): Eine Ergebnismenge Ω erfülle folgende zwei Bedingungen: a) Ω ist eine endliche Menge b) Alle Elementarereignisse sind gleichwahrscheinlich. A sei ein beliebiges Ereignis, d.h. A ⊂ Ω. Dann heißt P (A) := card A Anzahl der für das Ereignis A günstigen Ergebnisse = card Ω Anzahl der möglichen Ergebnisse mit card M := Anzahl der Elemente von M die Wahrscheinlichkeit Sonderfall: 1 P ({ω}) = card Ω Def.7.2.6 (Statistische Definition der Wahrscheinlichkeit): Ω sei eine Ergebnismenge, A ⊂ Ω ein Ereignis und n die Zahl der Wiederholungen des Zufallsexperiments a) Die absolute bzw. relative Häufigkeit von A bei n Wiederholungen ist definiert durch: fn (A) := Anzahl der Wiederholungen, bei denen A eintritt, bzw. hn (A) := fnn(A) b) P (A) :=′′ lim′′n→∞ hn (A) (vergl. Satz 7.9.3b). Beispiel 7.2.1 Zufallsexperiment: Werfen eine Reißnagels Mögliche Ergebnisse: K (:= Kopf): Ergebnis einer Versuchsreihe: n 5 10 15 40 fn ({K}) 2 6 10 25 hn ({K}) 0.4 0.6 0.667 0.625 ; Ω := {K,S } ; S (:= Spitze): 60 40 0.667 160 100 0.625 180 110 0.611 200 125 0.625 P ({K}) =′′ lim′′n→∞ hn ({K}) ≈ 0.625, analog P ({S}) ≈ 0.375 Def. 7.2.7 (Axiomatische Definition der Wahrscheinlichkeit): Wird jedem Ereignis A ⊂ Ω eine reelle Zahl P (A) zugeordnet, so heißt P (A) Wahrscheinlichkeit von A, wenn folgende Bedingungen erfüllt sind: a) P (A) ≥ 0 b) P (Ω) = 1 (sicheres Ereignis) c) P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅ ist (A, B disjunkt) Bem.: a) Bei unendlichen Ergebnismengen Ω müsste c) durch eine allgemeinere Bedingung ersetzt werden. b) Die axiomatische Definition umfasst die klassische und die statistische Definition der Wahrscheinlichkeit 40 Bsp. 7.2.2: Auf einem Rad mit fester Achse vom Umfang 1 m (d.h. Radius = wird eine Maßskala für die Bogenlängen angebracht: @ @ 0.25 0 1I u 0.75 1 2π m = 0.159m) feste Marke @ @ 0.5 Das Zufallsexperiment besteht nun darin, das Rad mit hoher Drehzahl zu drehen und plötzlich zu stoppen. Die Bogenlängen auf der Maßskala, die dann bei der festen Marke stehenbleibt, wird als Ergebnis des Zufallexperiments registriert. Die Ergebnismenge besteht also aus allen möglichen Werten auf der Maßskala, d.h. es ist zunächst Ω = [0, 1[. Alle Ergebnisse sind ”gleichberechtigt” oder anders ausgedrückt - kein Ergebnis ist vor dem anderen bevorzugt. Um nun bei den folgenden Überlegungen zusätzliche formale Schwierigkeiten zu vermeiden, ändern wir die Ergebnismenge geringfügig ab: Ω = [0, 1]. Aufgrund der ”Gleichberechtigung” der Ergebnisse erhalten wir für die Wahrscheinlichkeit von Teilintervallen [a, b] ⊂ [0, 1]: a 0 Länge von P ([a, b]) = Länge von 1 b [a,b] [0,1] = b−a 1 Für die Wahrscheinlichkeit von Vereinigungen von Teilintervallen [a, b], [c, d] ⊂ [0, 1] erhalten wir folgende Regeln, wobei wir zwei Fälle unterscheiden müssen: a 0 c b d Fall 1: [a, b] ∩ [c, d] = ∅ 1 P ([a, b] ∪ [c, d]) = Anteil von [a, b] ∪ [c, d] an der Gesamtlänge = b − a + d − c = P ([a, b]) + P ([c, d]) (vergl. Def. 7.2.7c) a b 0 c d 1 Fall 2: [a, b] ∩ [c, d] 6= ∅ Gilt entsprechend der Skizze speziell 0 ≤ a ≤ b ≤ c ≤ d ≤ 1, so erhält man: [a, b] ∪ [c, d] = [a, d], [a, b] ∩ [c, d] = [c, b] und damit P ([a, b] ∪ [c, d]) − P ([a, b]) − P ([c, d]) = (d − a) − (b − a) − (d − c) = c − b = −(b − c) = −P ([c, b]) | {z =[a,d] } = −P ([a, b] ∩ [c, d]) ⇒ P ([a, b] ∪ [c, d]) = P ([a, b]) + P ([c, d]) − P ([a, b] ∩ [c, d]) (vergl. Satz 7.2.2) Spezialfälle (vergl. die nachstehende Def. 7.2.8): P ({ω}) = P ([ω, ω]) = ω − ω = 0, d.h. {ω} ist fast unmöglich für jedes ω ∈ Ω. ]0, 1[ ist fast sicher; denn P (]0, 1[) = P (Ω) − P ({0}) − P ({1}) = 1 41 Satz 7.2.1: Folgerungen aus den Bedingungen a) b) und c) von Def. 7.2.7: i) P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak ), falls Ai ∩ Aj = ∅ f. a. i 6= j ii) A ⊂ B ⇒ P (B − A) = P (B) − P (A) iii) A ⊂ B ⇒ P (A) ≤ P (B) iv) 0 ≤ P (A) ≤ 1 v) P (A) = 1 − P (A) vi) P (∅) = 0, (unmögliches Ereignis) Beweis: i) folgt direkt aus Bedingung c), was durch vollst. Induktion zu beweisen ist ii) und iii) Es sei A ⊂ B. Rand von B B−A A Dann kann man B auf folgende Art als Vereinigung zweier disjunkter Mengen darstellen: B = A ∪ (B − A) ∧ A ∩ (B − A) = ∅ ⇒ (nach Bed. c)) P (B) = P (A) + P (B − A) ≥ P (A) ⇒ P (B − A) = P (B) − P (A) | {z } ≥0 nach Bed. a) iv) A ⊂ Ω ⇒ 0 Bed. a) ≤ iii) P (A) ≤ P (Ω) Bed. b) ii) v) P (A) = P (Ω − A) = P (Ω) − P (A) = 1 Bed. b) = 1 − P (A) v) vi) ∅ = Ω ⇒ P (∅) = 1 − P (Ω) = 0 Def. 7.2.8: Ein Ereignis A ⊂ Ω heißt a) fast unmöglich (Abk.: f. u.), wenn P (A) = 0 ist, b) fast sicher (Abk.: f. s.), wenn P (A) = 1 ist. Satz 7.2.2: Für zwei Ereignisse A, B ⊂ Ω, die nicht disjunkt zu sein brauchen, gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 42 Satz 7.2.3: k Kugeln werden zufällig aus einer Urne gezogen und in einer Stichprobe gesammelt. ”Zufällig” bedeutet dabei: Bei jeder der k Ziehungen hat jede Kugel, die sich (noch) in der Urne befindet, die gleiche Chance, gezogen zu werden. Dann gilt . . . a) im Falle der Kombinationen m. Z. m. B. d. A., o. Z. m. B. d. A. und o. Z. o. B. d. A.: Jede Kombination hat die Wahrsch. = Kk1(n) b) im Falle der Kombinationen m. Z. o. B. d. A.: Die Kombinationen haben i.a. verschiedene Wahrscheinlichkeiten, insbesondere ist i.a. die Wahrsch. 6= Kk1(n) Bem.: Damit man den Kombinationen überhaupt Wahrscheinlichkeiten im Sinne von Def. 7.2.7 zuordnen kann, muss man sie als Elementarereignisse oder allgemeinere Ereignisse in einer geeigneten Ergebnismengen auffassen. Dasselbe gilt auch für die Wahrscheinlichkeiten in der folgenden Erläuterung zu Satz 7.2.3, wobei einige Wahrscheinlichkeiten außerdem günstiger als bedingte Wahrscheinlichkeiten (vergl. 7.3) aufzufassen sind. Erläuterung zu Satz 7.2.3: Urne mit n Kugeln, Stichprobenbrett mit k Fächern bei ”m. B. d. A” i) Bei der Vorschrift ”m. Z. m. B. d. A.” ist die Wahrscheinlichkeit bei dem 1. Fach für jede Kugel : dem 2. Fach für jede Kugel : 1 n 1 n .. . dem k–ten Fach für jede Kugel : 1 n Jede Kombination m. Z. m. B. d. A. hat damit die Wahrscheinlichkeit ( n1 )k = 1 Kk (n) ii) Bei der Vorschrift ”o. Z. m. B. d. A” ist die Wahrscheinlichkeit bei dem 1. Fach für jede Kugel : dem 2. Fach für jede (restliche) Kugel : .. . dem k–ten Fach für jede (restliche) Kugel : 1 n 1 n−1 1 n−k+1 Jede Kombination o. Z. m. B. d. A. hat damit die Wahrscheinlichkeit 1 n (n−1)...(n−k+1) = 1 Kk (n) iii) Je k! verschiedene Kombinationen o. Z. m. B. d. A. entsprechen einer Kombination o. Z. o. B. d. A. Damit hat jede Kombination o. Z. o. B. d. A. die Wahrscheinlichkeit k! n(n−1)...(n−k+1) = 1 Kk (n) iv) Im Gegensatz zu iii) ist die Anzahl der verschiedenen Kombinationen m. Z. m. B. d. A., die einer Kombination m. Z. o. B. d. A. entsprechen, abhängig von dem Ziehungsergebnis. 43 Ein Beispiel dazu: 2 Würfe mit einer idealen Münze: Kombination m. Z. o. B. d. A. Kombination m. Z. m. B. d. A. zweimal ”W” = ˆ ”W” beim 1. Wurf und ”W” beim 2. Wurf zweimal ”Z” = ˆ ”Z” beim 1. Wurf und ”Z” beim 2. Wurf einmal ”W”, einmal ”Z” = ˆ ”W” beim 1. Wurf und ”Z” beim 2. Wurf oder ”Z” beim 1. Wurf und ”W” beim 2. Wurf Da nun diese Kombination m. Z. m. B. d. A. nach i) alle die Wahrscheinlichkeit 14 haben, hat das Ereignis ”einmal ’W’, einmal ’Z’ ” die Wahrscheinlichkeit 42 = 21 und nicht die Wahrscheilichkeit 31 Bem.: Bei Wahrscheinlichkeitsuntersuchungen gilt: 1 Wurf mit 2 Münzen = ˆ 2 Würfen mit 1 Münze Dasselbe gilt auch für mehrere Münzen oder für zwei oder mehr Würfel. Dieser Sachverhalt beruht darauf, dass man Münzen, Würfel oder dergleichen unterscheiden kann z.B. durch verschiedene Farben. Werden etwa ein blauer und ein roter Würfel gleichzeitig geworfen, so kann man das Wurfergebnis beim blauen Würfel als Wurfergebnis des 1. Wurfes bei einem Würfel auffassen und das des roten als Wurfergebnis des 2. Wurfes. 7.3 Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die totale Wahrsch., Formel von Bayes Def. 7.3.1: Es seien A, B ⊂ Ω zwei Ereignisse mit P (A) > 0. Dann heißt: P (B/A) := die bedingte Wahrscheinlichkeit von B unter der Bedingung A P (B∩A) P (A) Def. 7.3.2: Zwei Ereignisse mit A, B ⊂ Ω heißen (stochastisch) unabhängig, wenn gilt: P (A ∩ B) = P (A) · P (B) Satz 7.3.1: Für bedingte Wahrscheinlichkeiten bzgl. eines festen Ereignises gelten die Regeln in Def. 7.2.7 u. d. Sätzen 7.2.1,2) z.B. P (B/A) = 1 − P (B/A) Satz 7.3.2 (Multiplikationssatz): A, B ⊂ Ω seien zwei Ereignisse mit P (A) > 0 . Dann gilt: P (B ∩ A) = P (B/A) · P (A) Def. 7.3.3: Die Ereignisse A1 , A2 , . . . An bilden ein vollständiges System, wenn gilt: a) A1 ∪ A2 ∪ . . . ∪ An = Ω (sicheres Ereignis) b) Ai ∩ Aj = ∅ für alle i 6= j (paarweise disjunkt) Satz 7.3.3: A1 , A2 , . . . , An bilden ein vollständiges System von Ereignissen, und B sei ein weiteres Ereignis. Weiterhin gelte P (Ai ) > 0 für alle i = 1, 2, . . . , n. Dann gilt die Formel für die totale Wahrscheinlichkeit: P (B) = n P i=1 P (B/Ai ) · P (Ai ) 44 . Satz 7.3.4: Es gelten die Voraussetzungen von Satz 7.3.3 und P (B/Ai ) > 0 für mindestens ein i. Dann gilt die Formel von Bayes: P (Ai /B) = P (B/Ai )·P (Ai ) P (B) (P (B) vergl. Satz 7.3.3). Def. 7.3.4: Die Ereignisse A1 , A2 , . . . , An ⊂ Ω heißen: a) paarweise unabhängig, wenn gilt: P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) für alle i 6= j b) (insgesamt) unabhängig, wenn für jedes k ≤ n und für jede Kombination von Zahlen 1 ≤ j1 < j2 < . . . < jk ≤ n gilt: P (Aj 1 ∩ Aj 2 ∩ . . . ∩ Aj k ) = P (Aj 1 ) · P (Aj 2 ) · · · P (Aj k ) Bem.: b) ⇒ a) aber a) 6⇒ b) 7.4 Zufallsvariable, Wahrscheinlichkeitsverteilungen Def. 7.4.1: Eine Zufallsvariable (Abk.: ZV) ist eine Größe X (oder Y, Z, Xi usw.), die bei der Durchführung eines Zufallsexperiments (oder bei einem vergleichbaren Vorgang) irgendeinen reellen Wert x annimmt. x heißt dann eine Realisierung von X. Bei einer weiteren Durchführung des Zufallsexperiments erhält man i. a. eine andere Realisierung x′ von X Analogien: X= ˆ Messvorschrift, X= ˆ Merkmal, x= ˆ Messergebnis x= ˆ Merkmalsausprägung Bem.: Häufig wird die ZV auch so definiert: Ω Ergebnismenge ω ∈ Ω 7→ X(ω) ∈ IR X: (”messbare” Abbildung) Bem.: ”X = x”,”X < x” usw. sind für x ∈ IR zufällige Ereignisse. Def. 7.4.2: Kann eine Zufallsvariable X höchstens abzählbar viele Werte annehmen, also nur die Werte (0, )1, 2, . . . , n oder (0, )1, 2, . . . (oder allgemeiner x0 , x1 , . . . , xn oder x0 , x1 , x2 , . . .), so nennt man sie eine diskrete ZV. Def. 7.4.3: X sei eine diskrete ZV. Sind die Wahrscheinlichkeiten pk := P (X = k) oder allgemeiner pk := P (X = xk ) für alle k bekannt, so spricht man von einer Wahrscheinlichkeitsverteilung von X. Andere Ausdrucksweise: X = k bzw. xk mit Wahrscheinlichkeit pk Satz 7.4.1: Für jede Wahrscheinlichkeitsverteilung einer diskreten ZV gilt: a) 0 ≤ pk ≤ 1 für alle k b) n P k=0 pk = 1 bzw. ∞ P k=0 pk (:= limm→∞ m P k=0 pk ) = 1. Def. 7.4.4: Es sei X eine beliebige ZV. Dann nennt man die Funktion F (x) := P (X ≤ x) mit x ∈ IR die Verteilungsfunktion von X. 45 Satz 7.4.2: Für die Verteilungsfunktion F (x) einer ZV gilt: a) 0 ≤ F (x) ≤ 1 b) F (x) ↑ (nicht immer streng ↑) auf IR, c) limx→−∞ F (x) = 0 ∧ limx→+∞ F (x) = 1 Bsp. 7.4.1: i) Eine ZV X sei Poisson-verteilt mit λ = 2 (vergl. 7.6.2): k pk := P (X = k) = e−2 2k! , p0 = 0.14, p1 = 0.27, p2 = 0.27, p3 = 0.18, . . . Ausrechnungsbsp. für einen Wert der Verteilungsfunktion F (x): F (3.5) := P (X ≤ 3.5) Xdiskret = P (X = 0 ∨ X = 1 ∨ . . . ∨ X = 3) = 1 - - 3(≤3.5) P k=0 pk = 0.86 - F(x) - - 0 1 2 3 4 5 x ii) Für ein Bsp. für eine Verteilungsfunktion stetiger ZV vergl. (7.6.3) Mit Hilfe der Verteilungsfunktion lässt sich leicht die Wahrscheinlichkeit dafür beschreiben, dass X in einem bestimmten halboffenen Intervall liegt: Es sei a < b. Dann gilt: P (a < X ≤ b) = P (X ≤ b ∧ X > a) = P (X ≤ b ∧ (X ≤ a)) a<b, Satz7.2.1ii) = P (X ≤ b) − P (X ≤ a) =F (b) − F (a) Ist speziell F auf IR stetig differenzierbar, so können wir diese Differenz durch ein bestimmtes Integral ausdrücken: F (b) − F (a) = Rb a F ′ (x) dx = Speziell folgt aus Satz 7.4.2 c) in diesem Fall: Rb mit f (x) := F ′ (x) f (x) dx a F (b) = lima→−∞ (F (b) − F (a)) = 1 = limb→∞ F (b) = 46 ∞ R −∞ Rb f (x) dx, −∞ f (x) dx . Def. 7.4.5: ZV, bei denen die Verteilungsfunktion F (x) stetig differenzierbar oder wenigstens durch (7.4.1) F (x) = Rx −∞ f (u) du mit einer geeigneten Funktion f (u) darstellbar ist, heißen stetige ZV. f (x) := F ′ (x) oder im allgemeineren Fall die Funktion f (u) aus (7.4.1) heißt die Verteilungsdichte oder Wahrscheinlichkeitsdichte der ZV. Bem.: Die Eigenschaften ”stetig” und ”diskret” schließen bei ZV einander aus. Darüberhinaus gibt es ZV, die weder diskret noch stetig sind. Satz 7.4.3: Für die Verteilungsdichte einer stetigen ZV gilt: a) f (x) ≥ 0 für alle x ∈ IR b) ∞ R f (x) dx = 1 −∞ Bem.: f (x) ≤ 1 gilt i.a. nicht, da f (x) nicht als Wahrscheinlichkeit zu interpretieren ist. Satz 7.4.4: Für eine stetige ZV gilt: a) P (X = x) = Rx f (u) du = 0, x b) P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = Bem.: Rb a f (u) du a) Bei einer stetigen ZV ist also die Wahrscheinlichkeit, dass X einen ganz bestimmten Wert annimmt, = 0. Das ist ein weiterer Grund dafür, dass f (x) nicht als Wahrsch. zu interpretieren ist. b) Bei einer stetigen ZV ist es also gleichgültig, ob die Intervallgrenzen eingeschlossen sind oder nicht. Bei nicht–stetigen ZV gilt das i.a. nicht. Satz 7.4.5: Für eine diskrete ZV X gilt (im Gegensatz zu oben): P (a ≤ X ≤ b) = n(od.∞) P P (a < X ≤ b) = pk , k=0 a ≤ xk ≤ b Für die übrigen Intervalle gilt analoges 47 n(od.∞) P k=0 a < xk ≤ b pk Beispiel 7.4.2 i) 6 f (u) - u b Schraffierte Fläche = Rb −∞ f (u) du = F (b) = P (X ≤ b)(= P (−∞ < X ≤ b)) ii) 6 f (u) - a 1. Fläche = iii) Rb a b a’ f (u) du = P (a ≤ X ≤ b) b’ 2. Fläche = R b′ a′ f (u) du = P (a′ ≤ X ≤ b′ ) 6 f (u) a b - u f (u) ist keine Wahrsch.dichte, da Bedingung a) in Satz 7.4.3 verletzt ist, was in diesem R Bsp. zur Folge hat, dass ab f (u) du < 0 ist, also keine Wahrscheinlichkeit sein kann. iv) Eine ZV X habe eine Exponentialverteilung, d.h. f (x) := ( 0 λ e−λ x für x < 0, für x ≥ 0, wobei λ eine feste reelle Zahl > 0 ist, sei die Verteilungsdichte von X. Zunächst lässt sich leicht überprüfen, dass die Bedingungen von Satz 7.4.3 erfüllt sind: a) f (x) ≥ 0 für alle x ∈ IR, 48 u b) R∞ −∞ f (x) dx = Rb 0 f (x) dx = Z | 0 f (x) dx + −∞ | {z } :=0 {z =0 Rb −λ x dx λ e 0 } R∞ 0 f (x) dx = 1, denn: −λb + 1 −→ 0 + 1 für b → ∞ = [−e−λ x ]x=b x=0 = −e Für die Verteilungsfunktion erhält man: Rx f (u) du = 0 −∞ | {z } :=0 Z 0 R Rx F (x) = f (u) du + 0x f (u) du f (u) du = −∞ −∞ | {z } :=0 | {z } für x < 0 vergl.o. = 1 − e−λ x für x ≥ 0 =0 Für die Wahrscheinlichkeit, dass X zwischen 1 und 2 liegt, erhält man: R = e−λ − e−2λ P (1 ≤ X ≤ 2) = 12 λe−λ x dx = [−e−λ x ]x=2 x=1 = P (1 < X ≤ 2) = P (1 ≤ X < 2) = P (1 < X < 2) Skizzen mit λ = 1.2: 1 F (x) f (x) - 1 1 2 P (1 ≤ X ≤ 2) = e−1.2 − e−2.4 = 0.210 v) Poisson-Verteilung mit λ = 2: pk = e−2 · 2k k! , k = 0, 1, 2, . . . P (2 ≤ X < 4) = P (X = 2 ∨ X = 3) = P (X = 2) + P (X = 3) = p2 + p3 = 0.45 P (2 ≤ X ≤ 4) = P (X = 2 ∨ X = 3 ∨ X = 4) = p2 + p3 + p4 = 0.54 P (2 < X < 4) = P (X = 3) = p3 = 0.18 49 x 7.5 Erwartungswert, Varianz Def. 7.5.1: a) X sei eine diskrete ZV, die bei unendl. vielen Werten xk folgende Zusatzbedingung erfüllt: ∞ P k=0 |xk | pk < ∞. Dann heißt: E(X) := n P k=0 der Erwartungswert von X xk pk bzw. E(X) := ∞ P k=0 xk pk b) Es sei X eine stetige ZV mit der Verteilungsdichte f (x), die die folgenden ZusatzbedinR∞ gungen erfüllt: −∞ |x| f (x) dx < ∞. Dann heißt E(X) := Bem.: R∞ −∞ x f (x) dx der Erwartungswert von X a) Im Folgenden seien die Zusatzbedingungen für alle behandelten ZV erfüllt. b) Es kann vorkommen, dass E(X) von der ZV X gar nicht angenommen wird. E(X) ist i.a. nicht der wahrscheinlichste Wert von X. c) E(X) ist als ”Durchschnittswert” von X zu interpretieren Satz 7.5.1: Für die Bildung des Erwartungswerts einer Funktion einer ZV gilt: E(g(X)) = n P k=0 Def. 7.5.2: g(xk ) pk bzw. = ∞ P k=0 g(xk ) pk bzw. = R∞ −∞ g(x) f (x) dx a) V (X) := E[(X − E(X))2 ] heißt Varianz von X. p b) σ(X) := + V (X) heißt Standardabweichung von X. Satz 7.5.2: a) E(a + bX) = a + b E(X), E(X + Y ) = E(X) + E(Y )(vergl.(7.8.1) b) V (a + bX) = b2 V (X) c) V (X) = E(X 2 ) − (E(X))2 d) V (X) = 0 ⇐⇒ X = E(X) (fast sicher) e) Für jedes beliebige a ∈ IR gilt: V (X) ≤ E[(X − a)2 ] Bem.: Aus c) und d) folgt: E(X 2 ) 6= (E(X))2 i. a. Beweis von Satz 7.5.2 (teilweise): a) X sei eine ZV, die nur die Werte 0,1,2, . . . , n annehmen kann (für andere ZV verläuft der Beweis analog): E(a + b X) = n P k=0 (a + b k)pk = a n X pk + b n X k=0 k=0 k pk = a · 1 + b E(X) | {z } | {z } =1 E(X) 50 (pk := P (X = k)) a) b) V (a + b X) = E[(a + b X − E(a + b X))2 ] = E[(a + b X − a − b E(X))2 ] a) = E[b2 (X − E(X))2 ] = b2 E[(X − E(X))2 ] = b2 V (X) c) V (X) := E[(X − E(X))2 ] = E[X 2 − 2X · E(X) + (E(X))2 ] a) = E(X 2 ) − 2 E(X) E(X) + (E(X))2 = E(X 2 ) − (E(X))2 h i h e) E (X − a)2 = E (X − E(X) + E(X) − a)2 h i = E (X − E(X))2 − 2(X − E(X)) (E(X) − a) + (E(X) − a)2 a) = V (X) − 2(E(X) − a) E(X − E(X)) + (E(X) − a)2 ≥ V (X) | 7.6 7.6.1 {z =0 } | {z ≥0 i } Spezielle Verteilungen Binomialverteilung Def. 7.6.1: Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse, die wir mit ”Erfolg” oder ”Fehlschlag” bezeichnen. Die Wahrsch. für einen Erfolg sei p und für einen Fehlschlag sei q = 1 − p. Wird dieses Zufallsexperiment unter den gleichen Bedingungen n-mal wiederholt, so nennt man das ganze BernoulliExperiment. Satz 7.6.1: X sei die ZV, die die Anzahl von Erfolgen bei einem Bernoulli-Experiment beschreibt. Dann besitzt X eine Binomialverteilung mit den Parametern p und n, d.h. (7.6.1) P (X = k) = n k n−k k p q (k = 0, 1, . . .) (⇒ P (X = k) = 0 für k ≥ n + 1) Satz 7.6.2: Für eine binomialverteilte ZV X mit den Parametern n und p gilt: a) E(X) = n · p b) V (X) = n · p · q (⇒ σ(X) = √ n · p · q) Anwendungsbeispiel: Lieferung von N Stück, M davon defekt (N, M keine ZV), n Ziehungen eines Stücks mit Zurücklegen. Bernoulli-Experiment: Jede Ziehung ist ein Zufallsexperiment mit der Wahrscheinlichkeit p = M/N für einen ”Erfolg”(= Ziehung eines defekten Stückes) und q := 1−p für einen ”Fehlschlag” (= Ziehung eines nicht defekten Stückes). Durch ”m. Z.” werden nach jeder Ziehung die alten Bedingungen wiederhergestellt. Die ZV ”Anzahl der Ziehungen von defekten Stücken” ist also binomialverteilt mit p = M/N und n = Anzahl der Ziehungen insgesamt. 7.6.2 Poisson-Verteilung Def. 7.6.2: Eine diskrete ZV X heißt Poisson-verteilt mit dem Parameter λ > 0, wenn gilt: k P (X = k) = e−λ λk! , k = 0, 1, 2, . . . Satz 7.6.3: Für eine Poisson-verteilte ZV mit dem Parameter λ gilt: a) E(X) = λ b) V (X) = λ (⇒ σ(X) = √ λ) 51 Satz 7.6.4: Es sei X eine binomialverteilte ZV mit den Parametern p, n. Dann gilt: k P (X = k) ≈ e−λ λk! λ = np Dabei sollten folgende Bedingungen erfüllt sein: n ≥ 50 und λ = n p ≤ 5 Bem.: Bei der Binomialverteilung sollte der Versuchsausgang mit “ Erfolg” bezeichnet werden, der die deutlich kleinere Wahrscheinlichkeit hat, insbesondere dann, wenn die Poisson–Näherung angewendet werden soll. Sind die Wahrscheinlichkeiten für beide Versuchsausgänge nahe bei 1/2, können die Bezeichnungen “Erfolg” oder “Fehlschlag” beliebig vergeben werden. 7.6.3 Normalverteilung oder Gauß-Verteilung Def. 7.6.3: a) Eine ZV heißt normalverteilt mit dem Mittelwert µ und der Varianz σ 2 (Abk. N (µ, σ)verteilt), wenn sie folgende Verteilungsdichte besitzt (exp x := ex ): f (x) := √1 2 πσ 2 exp (− 21 ( x−µ σ ) ), b) Eine ZV X mit der Verteilungsdichte ϕ(x) := standard-normalverteilt oder N (0, 1)-verteilt. Φ(x) := Rx −∞ ϕ(u) √1 2π x ∈ IR exp (− 21 x2 ) bezeichnet man als du ist die zugehörige Verteilungsfunktion. Bem.: Φ(x) ist eine höhere transzendente Funktion. Daher sind Tabellen nötig. Skizzen: 6 1 6 1 Φ(x) ϕ(x) - Vert.dichte zur N(1.5,2)-Vert.: x 1 - x Vert.dichte zur N(3,0.5)-Vert.: 61 1 6 f(x) f(x) - x 1.5 Satz 7.6.5: Für eine N (µ, σ) - verteilte ZV X gilt: a) E(X) = µ b) V (X) = σ 2 (⇒ σ(X) = σ) 52 3 - x Satz 7.6.6: a) Für jede N (0, 1) - vert. ZV Z gilt: (−Z) ist auch N (0, 1) - vert. b) Φ(−x) = 1 − Φ(x) (Anwendung: Berechnung von Φ(x) für x < 0) c) Für eine N (µ, σ) - vert. ZV X gilt (F (x): Verteilungsfkt, f (x): Vert.dichte): i) X−µ σ ist x−µ 1 σ ϕ( σ ) a−µ P (a ≤ X ≤ b) = Φ( b−µ σ ) − Φ( σ ) P (X < a) = P (X ≤ a) = Φ( a−µ σ ), ii) F (x) = iii) iv) N (0, 1) - verteilt Φ( x−µ σ ), f (x) = P (X > a) = P (X ≥ a) = 1 − Φ( a−µ σ ) v) P (|X − µ| ≤ t · σ) = Φ(t) − Φ(−t) = 2 Φ(t) − 1 (t ≥ 0) insbesondere = 0.683 für t = 1, = 0.995 für t = 2, = 0.997 für t = 3 Beweis: Es wird ohne Beweis verwendet, dass mit X auch die ZV α X + β, normalverteilt ist. a) P (−Z ≤ x) = P (Z ≥ −x) = R∞ −x ϕ(u)du u = −z = − R −∞ ϕ(−z) x dz = | {z } = ϕ(z)(geradeF unktion) P (Z ≤ x) a) b) Φ(−x) = P (Z ≤ −x) = P (−Z ≥ x) = P (Z ≥ x) = 1 − P (Z < x) 1 − Φ(x) c) α 6= 0, β ∈ IR, Z stet.ZV Satz 7.5.2 a) b) 1 = σ (E(X) − µ) = 0 (nach Satz 7.6.5) X−µ Satz 6.5.2 a) b) 1 = V (X) = 1 (nach Satz 7.6.5) V( σ ) σ2 Damit ist auf Grund der o. g. allgemeinen Eigenschaft X−µ σ = Rx −∞ ϕ(z)d z 1 − P (Z ≤ x) = i) E( X−µ σ ) ii) F (x) = P (X ≤ x) = P f (x) = F ′ (x) X −µ σ } | {z N (0,1)−vert. nach i) 1 ′ x−µ = σ Φ ( σ ) = σ1 ϕ( x−µ σ ) ii) X stet.ZV iii) P (a ≤ X ≤ b) = ii) ≤ x−µ σ N (0, 1)-vert. = Φ( x−µ σ ) ii) a−µ P (a < X ≤ b) = F (b) − F (a) = Φ( b−µ σ ) − Φ( σ ) iv) P (X ≤ a) = F (a) = Φ( a−µ σ ), ) 1 − Φ( a−µ σ P (X ≥ a) = 1 − P (X < a) iii) X stet. ZV = 1 − P (X ≤ a) = b) v) P (|X − µ| ≤ t σ) = P (µ − t σ ≤ X ≤ µ + t σ) = Φ(t) − Φ(−t) = 2 · Φ(t) − 1 Bem.: a) Es gilt auch allgemein: E(X) = µ ∧ V (X) = σ 2 X−µ =⇒ E( X−µ V ( X−µ ist eine standardisierte ZV σ ) = 0, σ ) = 1; σ b) Die Aussage in Satz 7.6.6 c) v) gilt für allgemeine ZV höchstens näherungsweise. Eine exakte, aber z. T. wesentlich schlechtere Abschätzung liefert Satz 6.9.1 53 = Satz 7.6.7: X sei eine binomialvert. ZV mit den Parametern p und n. Dann gilt für 0 ≤ k1 ≤ k2 ≤ n: P (k1 ≤ X ≤ k2 ) ≈ Φ( k√2n−np qp ) − Φ( k√1n−np qp ) (7.6.2) (vergl. Satz 7.10.1) oder mit höherer Genauigkeit, wenn k1 und k2 ganze Zahlen sind: (7.6.3) k1 −0.5−n p p √ √ P (k1 ≤ X ≤ k2 ) ≈ Φ( k2 +0.5−n n p q ) − Φ( npq ) Dabei sollten folgende Bedingungen erfüllt sein: n ≥ 50 ∧ n p ≥ 5 ∧ n q ≥ 5. Bem.: a) Unter den Voraussetzungen von Satz 7.6.7 sind auch die folgenden Wahrscheinlichkeiten mit Hilfe von (7.6.2) oder (7.6.3) zu bestimmen: P (X ≥ k0 ) = P (k0 ≤ X ≤ n), P (X ≤ k0 ) = P (0 ≤ X ≤ k0 ) (k0 = 0, 1, 2 . . . , n) b) Wird der Bereich der Argumentwerte von Φ in einer Tabelle wie etwa der ausgegebenen überschritten, so kann man z.B. folgende Eigenschaften benutzen: Für x ≥ 3.90 gilt 0 < 1 − Φ(x) < 0.5 · 10−4 und damit Φ(x) = 1.0000 auf 4 Stellen nach dem Dezimalpunkt genau, für x ≤ −3.90 gilt 0 < Φ(x) < 0.5 · 10−4 und damit Φ(x) = 0.0000 auf 4 Stellen nach dem Dezimalpunkt genau. 7.6.4 Hypergeometrische Verteilung Ausgangsproblem: Lieferung von N Stück, M davon defekt (N, M keine ZV); zufällige Auswahl einer Stichprobe von n Stücken und deren Untersuchung (o. Z. o. B. d. A.); Wahrscheinlichkeit, das m Stücke in der Stichprobe defekt sind, =?. Bem.: Dieses Verfahren ist günstiger als das Verfahren in 7.6.1. Für die ZV ”X := Anzahl der defekten Stücke in der Stichprobe” gilt: (7.6.4) P (X = m) = N−M ( n )( N−n ) (M m )( n−m ) = m NM −m N (n) (M ) Def. 7.6.4: Die in (7.6.4) beschriebene Verteilung heißt hypergeometrische Verteilung mit den Parametern N, M, n. Bedingungen: N, M, n, m ∈ Z, 0 ≤ n ≤ N, 0 ≤ m ≤ M ≤ N, 0 ≤ n−m ≤ N −M (⇒ m ≤ n) Herleitung von Formel (7.6.4): Nach Satz 7.2.3 a) haben alle Kombinationen o. Z. o. B. d. N A. von n aus N Stücken die Wahrscheinlichkeit 1/ n . Das Ereignis ”X = m” erfasst dann alle Kombinationen, bei denen genau m defekte und damit (n − m) nicht defekte Stücke ausgewählt werden. Die Anzahl der Möglichkeiten, m defekte Stücke für die Stichprobe aus M defekten Stücken der Lieferungen auszuwählen, beträgt M , da dabei wie oben nach der Vorschrift ”o. Z. m o. B. d. A.” vorgegangen wird. Bei jeder solchen Auswahl muss dann die Stichprobe mit (n − m) −M aus den (N − M ) nicht defekten Stücken der Lieferung aufgefüllt werden. Dafür gibt es Nn−m 54 Möglichkeiten, und zwar bei jeder Auswahl vom m defekten Stücken. Damit gibt es insgesamt M N −M Möglichkeiten für die Auswahl (o. Z. o. B. d. A.) von m defekten und (n − m) nicht m n−m defekten Stücken. Dies ist also die Anzahl der Kombinationen o. Z. o. B. d. A., die von dem Ergebnis ”X = m” erfasst werden, die dann nur mit der Wahrscheinlichkeit 1/ N für jede dieser n Kombinationen multipliziert zu werden braucht. Bem.: Eine ähnlich Herleitung für der Bin.-Vert. ist nicht möglich (vergl. Satz 7.2.3 b)) Satz 7.6.8: Es sei X eine hypergeometrisch vert. ZV mit den Parametern N, M, n und Y eine binomialverteilte ZV mit den Parametern p = M N und n. Dann gilt: P (X = m) ≈ P (Y = m) = n m m p (1 − p)n−m n ≤ 0.1. Dabei sollten folgende Bedingungen erfüllt sein: N ≥ 1000 ∧ N Zur Näherung der Binominalverteilung vergl. die Sätze 7.6.4/7 Satz 7.6.9 Für die ZV X aus Satz 7.6.8 gilt: E(X) = n M N, 7.7 N −M N −n V (X) = n M N N N −1 Gemeinsame Verteilung mehrerer Zufallvariabler Def. 7.7.1: Es seien X1 , X2 , . . . , Xn beliebige ZV. Dann heißt: F (x1 , x2 , . . . , xn ) := P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn ) die gemeinsame Verteilungsfunktion der ZV X1 , X2 , . . . , Xn . Sie ist eine mögliche Beschreibung der gemeinsamen Verteilung der ZV. Def. 7.7.2: X sei eine diskrete ZV, die die Werte x0 < x1 < . . . , < xn annehmen kann und Y eine diskrete ZV, die die Werte y0 < y1 < . . . < ym annehmen kann. Dann beschreiben die Wahrscheinlichkeiten pi,j := P (X = xi ∧ Y = yj ) ebenfalls die gemeinsame Verteilung von X und Y . Satz 7.7.1: Für die Werte pi,j aus Def. 7.7.2 gilt: a) 0 ≤ pi,j ≤ 1 für i = 0, 1, . . . , n; j = 0, 1, . . . , m b) P (X = xi ) = m P j=0 pi,j =: pi,∗ , P (y = yj ) = n P i=0 pi,j =: p∗,j Diese Größen beschreiben die Randverteilungen. Für diese Randverteilungen gilt: n P i=0 pi,∗ = 1 ∧ Schema: n P j=0 p∗,j = 1 ↓ X| Y → x0 x1 .. . y0 p0,0 p1,0 .. . y1 p0,1 p1,1 .. . y2 p0,2 p1,2 .. . ... ... ... ym p0,m p1,m .. . xn pn,0 p∗,0 pn,1 p∗,1 pn,2 p∗,2 ... ... pn,m p∗,m p0,∗ p1,∗ .. . pn,∗ 1 Def. 7.7.3: F (x1 , x2 , . . . , xn ) sei die gemeinsame Verteilungsfunktion der ZV X1 , X2 , . . . , Xn und Fi (xi ) seien die Verteilungsfunktionen der einzelnen ZV Xi . Dann heißen X1 , X2 , . . . , Xn 55 (stochastisch) unabhängig, wenn für alle x1 , x2 , . . . , xn ∈ IR gilt: F (x1 , x2 , . . . , xn ) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn ) (7.7.1) Bem.: Diese Definition ist konsistent mit der Def. 7.3.4 b) (Unabhängigkeit von n Ereignissen) Satz 7.7.2: Zwei diskrete ZV X, Y (aus Def. 7.7.2) sind genau dann unabhängig, wenn für alle i = 0, 1, . . . , n und j = 0, 1, . . . , m gilt: P (X = xi ∧ Y = yj ) = P (X = xi ) · P (Y = yj ) pi,j = pi,∗ · p∗,j d.h. 7.8 (Definition vergl. Satz 7.7.1) Kovarianz und Korrelation (7.8.1) E(X + Y ) = E(X) + E(Y ) Satz 7.8.1: V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y) Cov(X, Y) := E(X · Y) − E(X) · E(Y) heißt die Kovarianz von X und Y . Satz 7.8.2: Für X, Y aus Def. 7.7.2 gilt: E(X · Y ) = Satz 7.8.3: X, Y unabhängig ⇒ 6 ⇐ n P m P ( i=0 j=0 xi yj pi,j ) Cov(X, Y) = 0 ZV X, Y mit Cov(X, Y )=0 heißen unkorreliert Satz 7.8.4: Die ZV X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt: a) E(X1 + X2 + . . . + Xn ) = n · µ b) Im Fall der Unabhängigkeit der ZV: V (X1 + X2 + . . . + Xn ) = n · σ 2 Def. 7.8.1: Es seien X und Y zwei beliebige ZV mit V (X), V (Y ) > 0. Dann heißt √ ̺(X, Y ) := √ Cov(X,Y) V (X) V (Y ) der Korrelationskoeffizient von X und Y . DerpKorrelationskoeffizient ist also die (dann dimensionslose) Kovarianz der ”normierten” ZV p X/ V (X) und Y / V (Y ) und als Maß für den linearen Zusammenhang von X und Y zu interpretieren. Satz 7.8.5: X, Y seien ZV aus Def. 7.8.1. Dann gilt: a) |̺(X, Y )| ≤ 1; dabei nennt man X und Y unkorreliert, schwach korreliert, stark korreliert, positiv korreliert, negativ korreliert, falls falls falls falls falls ̺(X, Y ) = 0 ist, (vergl. o.) |̺(X, Y )| nahe bei 0 aber > 0 ist, |̺(X, Y )| nahe bei 1 ist, ̺(X, Y ) > 0 ist, ̺(X, Y ) < 0 ist b) ̺(X, Y ) = +1 (bzw. -1) ⇐⇒ Y = a + bX (fast sicher) für geeignete Konstante a ∈ IR und b > 0 (bzw. b < 0) 56 Fasst man die Messwertpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) als Realisierung von einem Paar (X, Y ) von ZV auf, so ist (vergl. (6.1.6)) b1 · b2 = (xy − x · y)2 , (x2 − x2 )(y 2 − y 2 ) wobei b1 (b2 ) die Steigung der ersten (zweiten) Regressionsgerade ist, ein Schätzwert für (̺(X, Y ))2 . Damit wäre folgender Ausdruck ein Schätzwert für ̺(X, Y ): n · (n · xy) − (n · x) · (n · y) xy − x · y = r (7.8.2) ̺ˆ := q q r 2 2 2 2 2 2 x −x · y −y n · (n · x ) − (n · x) · n · (n · y 2 ) − (n · y)2 Es gilt also: Beide Regressionsgeraden sind gleich ⇔ b2 = 1/b1 ⇔ |ˆ ̺| = 1. Außerdem gilt analog zu Satz 7.8.5b) nach (6.1.6): (7.8.3) |ˆ ̺| = 1 ⇔ b1 · b2 = 1 ⇔ Alle Punkte (xi , yi ) liegen (exakt) auf einer Geraden. Allgemein gilt: (7.8.4) |ˆ ̺| ≤ 1. 7.9 Gesetz der großen Zahl Def. 7.9.1: Eine unendliche Folge von ZV X1 , X2 , . . . , heißen eine Folge unabhängiger ZV, wenn je endlich viele der ZV unabhängig sind. Satz 7.9.1 (Tschebyscheff-Ungleichung): P (|X − E(X)| ≥ t σ(X)) ≤ 1 t2 Satz 7.9.2 (Folgerung): Unter den Voraussetzungen von Satz 7.8.4 b) gilt: X1 + X2 + . . . + Xn σ2 − µ ≥ α ≤ 2 P n α n (n ∈ IN, α > 0) Satz 7.9.3 (Starkes Gesetz der großen Zahl): a) Es sei X1 , X2 , . . . eine Folge unabhängiger ZV, die alle die gleiche Verteilung, den gleichen Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt: X1 + X2 + . . . + Xn → µ für n → ∞ (fast sicher) n b) A ⊂ Ω sei ein Ereignis bei einem Zufallsexperiment, das beliebig oft wiederholt wird, und P (A) sei eine Wahrscheinlichkeit. Dann gilt für die rel. Häufigkeiten (vergl. Def. 7.2.6) hn (A) → P (A) für n → ∞ (fast sicher) 57 7.10 Zentraler Grenzwertsatz Satz 7.10.1: Unter den Voraussetzungen von Satz 7.9.3 a) gilt: P a≤ X1 + X2 + . . . + Xn − n · µ √ ≤b nσ → Φ(b) − Φ(a) für n → ∞, d.h. ≈ Φ(b) − Φ(a) für ”große” n Bem. : Häufige Anwendung von Satz 7.10.1: Annahme, dass eine unbekannte Verteilung durch eine Normalverteilung angenähert werden kann. Diese Anmahme ist nicht immer gerechtfertigt. 57 Kapitel 8 Parameterschätzung 8.1 Schätzfunktionen Def. 8.1.1: Es seien X1 , X2 , . . . , Xn unabhängige ZV, die alle die gleiche Verteilung besitzen. θ sei ein unbekannter Parameter dieser Verteilung. X1 , . . . , Xn ist als eine (Beobachtungs- oder) Messreihe zur Bestimmung von θ mit n Einzelmessungen aufzufassen. Xi entspricht also der i–ten Messung. Deren Messergebnis xi ist eine Realisierung von Xi . Aus dem Satz x1 , . . . , xn von Messwerten, den man als Stichprobe vom Umfang n bezeichnet, bestimmt man einen Schätzwert θ̂ für θ, von dem man ”normalerweise” annimmt, dass er ”nahe bei” θ liegt. Die Zuordnung von x1 , . . . , xn zu θ̂ bezeichnet man als Schätzfunktion: θ̂ = g(x1 , . . . , xn ). 8.2 Maximum–Likelihood–Methode Bestimme θ̂ so, dass P (X1 = x1 ∧ X2 = x2 ∧ . . . ∧ Xn = xn ) (bzw. die gemeinsame Verteilungsdichte von X1 , X2 , . . . , Xn an der Stelle (x1 , . . . , xn ) im Falle einer stetigen ZV X) maximal wäre, wenn θ = θ̂ wäre. Ergebnisse bei einigen Verteilungen (Siehe Tab8-1): Tabelle 8-1 Verteilung ( bekannte Param. unbek. Param. Schätzfkten (nach der M-L-Meth.) Eigenschaften aus 8.3 1 m.Wahrsch. p 0 m. W.(1-p) (nX ist binomialverteilt) Poissonverteilung Exponentialverteilung N (µ, σ) – p p̂ = x konsistent, erwart.treu – – σ2 λ λ µ λ̂ = x λ̂ = x1 µ̂ = x konsistent, erwart.treu konsistent, nicht erw.treu konsistent, erwart.treu N (µ, σ) µ σ2 c2 = σ 1 n c2 = σ 1 n Xi = N (µ, σ) – µ, σ 2 µ̂ = x n P (xi − µ)2 n P konsistent, erwart.treu (xi − x)2 konsistent, nicht erw.treu i=1 Bem.: Die Schätzfunktion (nach der M–L–Meth.) für σ ist σ̂ = bekanntes noch für unbekanntes µ erwartungstreu. 58 konsistent, erwart.treu i=1 q c2 . Sie ist aber weder für σ