Statistik für Ingenieure Vorlesung von Univ.Prof.Dr. Kurt Marti UniBw München LATEX-Satz: Elisabeth Lößl Neubiberg/München, Januar 2000 Überarbeitete Fassungen: Januar 2002, Januar 2004 ................................. [email protected] http://www.stoch.net 2 Inhaltsverzeichnis 1 Ereignisse und Wahrscheinlichkeiten 1.1 Zufallsvariablen und Ereignisse . . . . . . . . . . . . . . . . . 1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten 1.1.2 Elementare Definition von Wahrscheinlichkeiten . . . . 1.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen . . . . . . . . 1.3.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . 1.3.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . 1.4 Masszahlen von Verteilungen . . . . . . . . . . . . . . . . . . . 1.4.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.3 Momente von X bzw. PX . . . . . . . . . . . . . . . . 1.4.4 Schiefe einer Verteilung . . . . . . . . . . . . . . . . . . 1.5 Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . . 1.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . 1.5.2 Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . 1.5.3 Erwartungswert, Momente von Y = ϕ(X) . . . . . . . 1.6 Mehrdimensionale Zufallsgrössen . . . . . . . . . . . . . . . . 1.6.1 Verteilungstypen . . . . . . . . . . . . . . . . . . . . . 1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen . . . . . . 1.6.3 Funktionen mehrdimensionaler Zufallsgrössen . . . . . 1.7 Regression (der Grundgesamtheit) . . . . . . . . . . . . . . . . 1.7.1 Regression einer Stichprobe von (X, Y) . . . . . . . . . 1.8 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.1 Mediane . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.2 Quantile (der Ordnung α) . . . . . . . . . . . . . . . . 2 Statistische Methoden 2.1 Praktische Berechnung von Wahrscheinlichkeiten . . 2.1.1 Klassische Definition der Wahrscheinlichkeit 2.2 Approximation von Wahrscheinlichkeiten . . . . . . 2.2.1 Stichproben . . . . . . . . . . . . . . . . . . 2.2.2 Relative Häufigkeiten . . . . . . . . . . . . . 2.3 Approximative Bestimmung der Verteilung . . . . . 2.3.1 Empirische Verteilungsfunktion . . . . . . . 2.3.2 Empirische Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 10 16 17 19 19 21 28 28 28 29 31 35 36 37 39 41 43 46 47 52 54 54 54 55 . . . . . . . . 57 57 57 58 58 58 61 61 62 3 Inhaltsverzeichnis 2.4 2.5 2.6 2.7 2.8 2.9 2.10 Index 4 2.3.3 Schätzung von µ = EX durch x . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Abschätzung der Abweichung zwischen X und µ . . . . . . . . . . . . . Konfidenzintervalle (Vertrauensintervalle) . . . . . . . . . . . . . . . . . . . . . 2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer Normalverteilung mit bekannter Varianz . . . . . . . . . . . . . . . . . . . 2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2 . . . . . . . . . . . . . Vertrauensintervalle/Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . Vertrauensintervalle für Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konfidenzintervalle bei beliebigen Verteilungen . . . . . . . . . . . . . . . . . . Testen (Prüfen) von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . Parameter-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10.1 Gütekriterien für Schätzfunktionen . . . . . . . . . . . . . . . . . . . . 2.10.2 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10.3 Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . 63 65 67 69 72 73 75 76 78 79 84 85 87 90 92 1 Ereignisse und Wahrscheinlichkeiten 1.1 Zufallsvariablen (zufällige oder stochastische Größen) und Ereignisse Die Stochastik, also die Wahrscheinlichkeitstheorie und Statistik, befasst sich mit Gesetzmäßigkeiten und Methoden zur Beschreibung, Untersuchung und Beeinflussung zufälliger Ereignisse und Prozesse. Grundlegend dazu sind Experimente E mit zufälligem Ausgang, die (prinzipiell) beliebig oft wiederholbar seien: E1 , E2 , . . . , Ej , . . . bezeichnet also eine Folge von Wiederholungen (räumlich oder zeitlich) ein- und desselben Experiments E. Der Ausgang, das Ergebnis oder das Resultat eines Experiments E lässt sich eigentlich immer beschreiben durch eine oder mehrere reellwertige Größen X, Y, Z, . . . ; zu Beginn dieses Kapitels nehmen wir an, dass zur Beschreibung des Ausgangs des Experiments E eine reellwertige Größe X ausreicht. In vielen praktischen Situationen stellt man nun Folgendes fest: A) die möglichen Werte x von X liegen in einem bestimmten, gegebenen Bereich Ω der reellen Zahlen ; R B) der einzelne Wert X = x, den die Größe X bei einer bestimmten Durchführung des Experiments E annimmt (zeigt, aufweist, etc.), ist ungewiss, lässt sich also nicht mit Bestimmtheit (Sicherheit) vorhersagen oder ausrechnen, da dies von unkontrollierbaren, zufälligen Einflüssen abhängt; C) angeben lässt sich hingegen die Wahrscheinlichkeit P (I) = PX (I) = P (X ∈ I), (1.1a) d.h. eine Masszahl 0 ≤ PX (I) ≤ 1 für den Grad der Sicherheit mit dem X irgendeinen Wert x in einem gegebenen Intervall I ⊂ annimmt. R Definition 1.1.1 (vorläufige Definition) Treffen die obigen Eigenschaften (A), (B) und (C) zu, so heißt X eine Zufallsvariable oder stochastische Variable. Die Abbildung PX : I → PX (I) = P (X ∈ I), I ⊂ R, I Intervall (1.1b) heißt die (Wahrscheinlichkeits-) Verteilung der Zufallsvariablen X (vorläufige Definition der Verteilung). Beispiele 5 1 Ereignisse und Wahrscheinlichkeiten Experiment E - Werfen eines Würfels - Werfen einer Münze - Messen physikalischer, chemischer Größen - Radioaktiver Zerfall - Qualitätskontrolle von Autoreifen - Abgaskontrolle - Erhebung medizinischer Daten (mehrere Merkmale) Zufallsvariable X, Y, Z, . . . X = Augenzahl, Ω = {1, 2, 3, 4, 5, 6} Y = 1, wenn Kopf, Y = 0, wenn Zahl, Ω = {0, 1} Z = Messwert der betr. physikalischen, chemischen Größe, Ω Intervall N = Anzahl der untersuchten Teilchen, die pro Zeiteinheit ausgesendet werden, Ω = T = Laufzeit eines Reifens einer bestimmten Sorte, Ω = [0, +∞) p = CO-Konzentration im Abgas eines bestimmten Ölbrenners (Marke, Typ gegeben), Ω = [0, 1] N X1 , X2 , . . . , Xr : Alter, Geschlecht, Gewicht, Blutdruck, etc. eines Mitgliedes einer bestimmten Bevölkerungsgruppe in einem bestimmten Zeitpunkt. Im Folgenden bezeichne I : a < x < b, a ≤ x < b, a < x ≤ b, a ≤ x ≤ b ein beliebiges endliches oder unendliches Intervall, also auch a = −∞ oder b = +∞. Wir betrachten dann das Ereignis [X ∈ I], d.h. [a < X < b] oder [a ≤ X ≤ b], . . . , (1.1c) dass die zufällige Größe X irgendeinen Wert x im Intervall I annimmt. Während man nicht mit Sicherheit vorhersagen kann, welchen Wert X annehmen wird, verlangt man also nach Definition 1.1.1, dass die Wahrscheinlichkeit P (X ∈ I) oder P (a < X < b), P (a ≤ X < b), . . . , (1.1d) dass X irgendeinen Wert in I annimmt, definiert ist, wobei 0 ≤ P (X ∈ I) ≤ 1. Spezialfälle: a) I = [a, b], b = a ⇒ P (X ∈ I) = P (X = a) = Wahrscheinlichkeit, dass X den Wert a annimmt b) I = (−∞, b] ⇒ P (X ∈ I) = P (X ≤ b) = Wahrscheinlichkeit, dass X einen Wert x annimmt, der nicht größer als b ist. c) I = (−∞, +∞) ⇒ P (X ∈ I) = P (−∞ < X < +∞) = Wahrscheinlichkeit, dass X irgend eine reelle Zahl x annimmt. Da X nach Voraussetzung nur reelle Zahl annehmen kann, ist [−∞ < X +∞] ein sicheres Ereignis. Man setzt deshalb P (−∞ < X < +∞) := 1. d) I = (a, b), a = b ⇒ P (X ∈ I) = P (a < X < a). Da a < X < a ein unmögliches Ereignis ist, setzt man P (a < X < a) := 0. Axiome über die Verteilung PX : I → P (X ∈ I) von X Man verlangt nun, dass die Verteilung PX von X folgende Eigenschaften haben soll: 6 1.1 Zufallsvariablen und Ereignisse A1) 0 ≤ P (X ∈ I) ≤ 1 für alle Intervalle I ⊂ R A2) P (X ∈ Ω) = P (sicheres Ereignis) := 1 P (X ∈ ∅) = P (unmögliches Ereignis) := 0 A3) Sind I1 , I2 zwei disjunkte Intervalle und I ein Intervall, so das I := I1 ∪ I2 , dann gilt das Additionsgesetz P (X ∈ I) = P (X ∈ I1 ∪ I2 ) = P (X ∈ I1 ) + P (X ∈ I2 ). Folgerung aus den Axiomen (A1) - (A3) i) Wegen Ω ⊂ R ist [X ∈ R] ebenfalls ein sicheres Ereignis. Also gilt P (X ∈ R) = 1. ii) Sei c eine beliebige Zahl. Dann S gilt = (−∞, +∞) = (−∞, c] (c, +∞) disjunkte Vereinigung von R R. Aus (A2), (A3) folgt 1 = P (X ∈ R) = P (X ≤ c) + P (X > c) (1.2) und damit P (X > c) = 1 − P (X ≤ c). iii) Sei I1 ⊂ I2 . Dann gilt das Monotoniegesetz P (X ∈ I1 ) ≤ P (X ∈ I2 ) (1.3) Beweis: Sei z.B. a < c < d < b und I1 = [c, d], I2 = (a, b]. S S Dann ist I2 = (a, d] (d, b], (a, d] = (a, c) I1 . Daraus folgt P (X ∈ I2 ) = P (X ∈ (a, d]) + P (X ∈ (d, b]) (wegen (A3)) = P (X ∈ (a, c)) +P (X ∈ I1 ) + P (X ∈ (d, b]) (wegen (A3)) {z } | {z } | ≥0 ≥0 und damit P (X ∈ I2 ) ≥ P (X ∈ I1 ). Ausdehnung der Verteilung PX : I → P (X ∈ I) auf allgemeinere Zahlenmengen B bzw. Ereignisse [X ∈ B] 7 1 Ereignisse und Wahrscheinlichkeiten Beispiel 1.1.1 Gegeben sei B = {x : |x| > c}. Gesucht ist also die Wahrscheinlichkeit P (|X| > c). B ist kein Intervall, aber B = I1 [ I2 , I1 = (−∞, c), I2 = (c, +∞), ist eine Vereinigung disjunkter Intervalle. Man definiert daher P (X ∈ B) := P (X ∈ I1 ) + P (X ∈ I2 ). Wegen (A2), (A3) folgt hier noch: P (X ∈ B) = P (|X| > c) = 1 − P (|X| ≤ c). (1.4) Allgemeiner Fall: Definition 1.1.2 B sei die Vereinigung B = N [ Ij von endlich (N < +∞) oder höchstens j=1 abzählbar unendlich (N = ∞) vielen disjunkten Intervallen Ij . Man definiert dann P (X ∈ N X B) := P (X ∈ Ij ). j=1 Damit die Definition 1.1.2 konsistent ist, benötigt man noch ein weiteres Axiom: A4) Für jede beliebige Folge I1 , I2 , . . . , Ij , . . . disjunkter Intervalle Ij , j ≥ 1, ist ∞ X P (X ∈ Ij ) j=1 eine konvergente Reihe und stellt die Wahrscheinlichkeit dar, dass X einen Wert x in ∞ [ Ij annimmt. j=1 8 1.1 Zufallsvariablen und Ereignisse Beispiel 1.1.2 X sei die beim Wurf eines homogenen Würfels erzielte Zahl n. Die Ereignisse [X = n], n = 1, 2, . . . , 6, heißen hier auch Elementarereignisse. Für sie gilt 1 P (X = n) = , n = 1, 2, . . . , 6. 6 Daraus folgt z.B. 1 1 P (1 < X < 2) = 0, P (1 ≤ X < 2) = , P (1 ≤ X ≤ 2) = 6 3 5 1 P (1 ≤ X < 6) = , P (X = gerade) = P (X = ungerade) = 6 2 5 1 1 3 <X< = , P (X < 2.4) = . P 2 2 6 3 Komplementäre Ereignisse: Sei B eine endliche oder abzählbar unendliche Vereinigung disjunkter Intervalle. Das Komplement von B R B := \B = {x : x ∈ / B} ist wieder eine endliche oder abzählbar unendliche Vereinigung disjunkter Intervalle. Somit ist auch P (X ∈ B) definiert! Beispiel 1.1.3 B = {x : |x| > c} ⇒ B = {x : |x| ≤ c}. Für eine Zufallsvariable X heißen die Ereignisse [X ∈ B] und [X ∈ B] komplementäre Ereignisse. Eigenschaften von PX : B → P (X ∈ B) Aus den Axiomen (A1)-(A4) ergibt sich nun das folgende grundlegende Resultat: Satz 1.1.1 Seien B, B1 , B2 beliebige Vereinigungen von höchstens abzählbar unendlich vielen disjunkten Intervallen. Dann gilt a) 0 ≤ P (X ∈ B) ≤ 1 (1.5a) B1 ⊂ B2 ⇒ P (X ∈ B1 ) ≤ P (X ∈ B2 ) (1.5b) P (X ∈ B) = 1 − P (X ∈ B) (1.5c) b) c) d) P (X ∈ B1 [ B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ), wenn B1 \ B2 = ∅ (1.5d) 9 1 Ereignisse und Wahrscheinlichkeiten e) P (X ∈ B1 ∪ B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ) − P (X ∈ B1 ∩ B2 ) (1.5e) f) Sei Bn ⊂ Bn+1 bzw. Bn ⊃ Bn+1 eine Folge geschachtelter Mengen, so dass jedes Bn Vereinigung höchstens abzählbar unendlich vieler disjunkter Intervalle ist. Dann gilt lim P (X ∈ Bn ) = P (X ∈ n→∞ bzw. lim P (X ∈ Bn ) = P (X ∈ n→∞ ∞ [ Bn ) (1.6a) Bn ) (1.6b) n=1 ∞ \ n=1 Bemerkung 1.1.1 Mittels (A1)-(A4) kann die gesamte Wahrscheinlichkeitstheorie und Statistik axiomatisch begründet werden. Bemerkung 1.1.2 Für eine gegebene Zufallsvariable X wird das Ereignis [X ∈ B] auch kurz mit B bezeichnet, und anstelle von P (X ∈ B) schreibt man auch kurz P (B). 1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten R Neben Ereignissen [X ∈ B], die mit Hilfe von Zufallsvariablen X und Teilmengen B ⊂ beschrieben werden, betrachtet man auch allgemeinere und zunächst oft nur verbal definierte Ereignisse A, B, A1 , A2 , . . . und ihre Wahrscheinlichkeiten P (A), P (B), P (A1 ), P (A2 ), . . . . Typische Beispiele sind: - Wahrscheinlichkeit der Wetterentwicklung (Regen, Sonne, Schnee, etc.) am nächsten Tag bzw. in den nächsten Tagen; - Wahrscheinlichkeit des Erfolgs (Verbesserung des momentanen Zustandes, Heilung) einer bestimmten medizinischen Behandlung; - Wahrscheinlichkeit des Ausgangs einer Wahl bzw. einer Abstimmung über eine bestimmte Vorlage. Im Folgenden wird nun die Wahrscheinlichkeitsfunktion P = P (A) näher untersucht. A) Operationen mit Ereignissen Für allgemeine Ereignisse A, B definiert man folgende Operationen: 10 1.1 Zufallsvariablen und Ereignisse Definition 1.1.3 Seien A, B Ereignisse, die in einer bestimmten Ungewissheitssituation auftreten können. Ferner bezeichne ∅ das unmögliche und Ω das sichere Ereignis. Dann setzt man A ∪ B (oder A + B) Ereignis, dass A oder B auftritt A ∩ B (oder AB) Ereignis, dass A und B gleichzeitig auftreten Ā (oder Ac ) komplementäres Ereignis zu A, also das Ereignis, das eintritt, wenn A nicht eintritt A\B (oder AB̄) Ereignis, dass A, nicht aber B auftritt B\A (oder B Ā) Ereignis, dass B, nicht aber A auftritt. Ferner bedeutet B ⊃ A (oder A ⊂ B) Ereignis A impliziert Ereignis B, d.h., immer wenn A auftritt, tritt auch B auf. Beispiel 1.1.4 Würfelexperiment A = [Augenzahl durch 3 teilbar] B = [Augenzahl ungerade] C = [Augenzahl = 5] Hier ist C⊂B A∩B = [Augenzahl = 3] A ∪ B = D̄, D = [Augenzahl ist Potenz von 2 (Exp. ≥ 1)] B̄ = [Augenzahl gerade] B\A = [Augenzahl ist 1 oder 5] B) Wahrscheinlichkeit von Ereignissen Das Eintreten eines bestimmten Ereignisses, z.B. A = [am nächsten Tag ist sonniges Wetter] kann man i.a. nicht mit Bestimmtheit (Sicherheit) voraussagen. Man versucht daher wenigstens die “Wahrscheinlichkeit” A −→ P (A) ∈ [0, 1] des Ereignisses anzugeben, d.h. ein Maß, einen Grad P (A) für die Erwartung des Eintretens von A. Ganz analog zur Wahrscheinlichkeitsfunktion I −→ P (X ∈ I) auf Intervallen I bzw. auf Vereinigungen endlich oder abzählbar unendlich vieler Intervalle, siehe Definition 1.1.2, verlangt man, dass die Wahrscheinlichkeit P (A) von Ereignissen A folgende Eigenschaften (“Axiome”) hat: Definition 1.1.4 (Wahrscheinlichkeitsaxiome) Sei A die Menge der Ereignisse A einer bestimmten Ungewissheitssituation, eines bestimmten Experiments mit ungewissem Ausgang, etc.. Von der Wahrscheinlichkeit P (A), A ∈ A, des Eintreffens eines Ereignisses A ∈ A verlangt man dann folgende Eigenschaften (“Axiome”): A1) 0 ≤ P (A) ≤ 1 für alle A ∈ A 11 1 Ereignisse und Wahrscheinlichkeiten A2) P (Ω) = P (sicheres Ereignis) = 1 P (∅) = P (unmögliches Ereignis) = 0 A3) Additionstheorem: Sind Ai ∈ A, i = 1, 2, . . . , n, paarweise unvereinbare oder disjunkte Ereignisse, d.h. Ai ∩ Aj = ∅ für i 6= j (für i 6= j können also Ai und Aj nicht beide gleichzeitig eintreten), so gilt P (A1 ∪ A2 ∪ . . . An ) (=Wahrscheinlichkeit, dass irgendeines der Ereignisse A1 , . . . , An eintritt) = n X P (Ak ) k=1 A4) Erweitertes Additionstheorem: Ist A1 , A2 , . . . Ai , . . . eine Folge paarweise disjunkter Ereignisse, gilt also Ai ∩ Aj = ∅, i 6= j, so ist P( ∞ [ Ai ) (= Wahrscheinlichkeit, dass irgendeines der i=1 Ereignisse A1 , A2 , . . . eintritt) ∞ X = P (Ai ). i=1 Bemerkung 1.1.3 Das erweiterte Additionstheorem A4) ist äquivalent mit dem folgenden Axiom: A4’) Stetigkeitsaxiom: Sei (Ai ) eine Folge von Ereignissen, so dass i) A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ An+1 ⊃ . . . (das Ereignis An+1 impliziert also das vorangehende Ereignis An ) ∞ T ii) Ai = ∅ (sämtliche Ereignisse Ai , 0 = 1, 2, . . ., können nicht gleichzeitig eini=1 treten). Dann ist P (Ai ) ↓ 0 für n → ∞. Eine analoge Eigenschaft wurde offensichtlich auch in (1.6b) verlangt! C) Bedingte Wahrscheinlichkeiten Verfügt man in einer Ungewissheitssituation, bei einem Experiment mit ungewissem Ausgang über zusätzliche Informationen, so sollte dies auch die Wahrscheinlichkeit des Eintreffens eines bestimmten Ereignisses beeinflussen. Dies führt zur folgenden Definition der bedingten Wahrscheinlichkeit: Definition 1.1.5 (Bedingte Wahrscheinlichkeit.) Es sei bekannt, dass ein bestimmtes Ereignis A eingetreten ist. Die bedingte Wahrscheinlichkeit P (B|A) irgendeines anderen Ereignisses B ∈ A ist dann definiert durch P (B|A) := P (A ∩ B) P (B ∩ A) = . P (A) P (A) (1.7) P (B|A) ist also der %–Satz der “Wahrscheinlichkeitsmasse” von A, die auch in B liegt. 12 1.1 Zufallsvariablen und Ereignisse Beispiele a) P (B|A) = 1 für B = A. b) Gilt A ⊂ B, wird also das Ereignis B von A impliziert, so ist B ∩ A = A und damit P (B|A) = P (A) P (B ∩ A) = = 1. P (A) P (A) c) Ist B ∩ A = ∅, sind also A und B disjunkte Ereignisse, so gilt P (B|A) = P (B ∩ A) P (∅) = = 0. P (A) P (A) Das Eintreffen von A besagt (impliziert) also, dass B nicht eingetreten ist. d) Würfelexperiment. Man betrachte folgende Ereignisse beim Werfen eines homogenen Würfels: A1 = [gerade Augenzahl], A2 = [ungerade Augenzahl], B = [Augenzahl =2]. Dann gilt: 1 1 , P (A1 ) = P (A2 ) = und 6 2 1 1 P (B ∩ A1 ) P (Augenzahl = 2) 6 = 1 = P (B|A1 ) = = 1 P (A1 ) 3 2 2 0 P (Augenzahl = 2 und Augenzahl ungerade) = 1 = 0. P (B|A2 ) = 1 P (B) = 2 2 Für eine weitere Eigenschaft bedingter Wahrscheinlichkeiten benötigen wir folgende allgemeine Eigenschaft von Wahrscheinlichkeiten. Lemma 1.1.1 Ist A ⊂ B, d.h. impliziert A das Ereignis B, so gilt P (A) ≤ P (B). Beweis. Folgt sofort aus den Axiomen (A1)–(A4); siehe auch (1.3). 2 Betrachtet man nun die Definition 1.1.5, so stellt man fest, dass B ∩ A ⊂ A und A ∩ B ⊂ B. Mit der Formel (1.7) ergibt sich dann sofort P (A) P (B ∩ A) ≤ = 1, P (A) P (A) P (A ∩ B) P (B) P (A|B) = ≤ = 1. P (B) P (B) P (B|A) = Im Zusammenhang mit der bedingten Wahrscheinlichkeit P (B|A), P (A|B) von Ereignissen A, B steht der sehr wichtige Begriff der Unabhängigkeit von A, B. D) Unabhängigkeit von Ereignissen Wir betrachten zuerst zwei beliebige Ereignisse A, B: 13 1 Ereignisse und Wahrscheinlichkeiten Definition 1.1.6 Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls P (B|A) = P (B) oder P (A|B) = P (A), (1.8) d.h. die Kenntnis des Eintreffens des einen Ereignisses ändert nichts an der Wahrscheinlichkeit des Eintreffens des anderen Ereignisses. Mit der Definition (1.7) der bedingten Wahrscheinlichkeit lässt sich die Unabhängigkeit zweier Ereignisse auch so definieren: Definition 1.1.6’ Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls P (A ∩ B) = P (A) · P (B). (1.9a) Analog wird dann die (stochastische) Unabhängigkeit von n Ereignissen A1 , . . . , An definiert: Definition 1.1.7 Die Ereignisse A1 , A2 , . . . , An heißen (stochastisch) unabhängig, falls P (A1 ∩ A2 ∩ . . . ∩ An ) = n Y P (Ai ) (1.9b) i=1 Beispiele a) Würfelexperimente mit einem homogenen Würfel Es sei A = [gerade Augenzahl], B = [ungerade Augenzahl]. 1 Offensichtlich gilt P (A) = P (B) = und P (A ∩ B) = P (∅) = 0 und damit 2 P (A ∩ B) = 0 < 1 1 1 = · = P (A) · P (B). 4 2 2 Die beiden Ereignisse A und B sind also nicht unabhängig. Tatsächlich, es gilt B = Ā, d.h. B tritt genau dann ein, wenn A nicht eintritt. b) Würfelexperiment mit zwei homogenen Würfeln W1 , W2 Wir setzen Ai = [W1 –Augenzahl = i], i = 1, . . . 6, Bj = [ W2 –Augenzahl = j], j = 1, . . . , 6. Erfolgt das Werfen der beiden Würfel W1 , W2 völlig getrennt, so sind für jedes i, j = 1, . . . , 6 Ai und Bj stochastisch unabhängige Ereignisse. Damit muss gelten: P (W1 –Augenzahl = i und W2 –Augenzahl = j) = P (Ai ∩ Bj ) = P (Ai ) · P (Bj ) = für alle i, j = 1, . . . , 6. 14 1 1 1 · = 6 6 36 1.1 Zufallsvariablen und Ereignisse E) Schließen (Inferenz) mit Wahrscheinlichkeit Es sei bekannt, dass ein bestimmtes Ereignis A0 eingetreten ist, z.B. der Befund A0 der Inspektion eines technischen Gerätes oder einer medizinischen Untersuchung. Die bedingte Wahrscheinlichkeit PA0 (B) := P (B ∩ A0 ) P (A0 ) (1.7’) ist dann wieder eine Wahrscheinlichkeitsfunktion B → PA0 (B), B ∈ A, die alle Axiome (A1)–(A4) erfüllt. Wegen PA0 (A0 ) = 1 spielt dabei das eingetretene Ereignis A0 die Rolle eines sicheren Ereignisses. Somit kann man PA0 (B) auch wie folgt interpretieren: P (B ∩ A0 ) gibt die P (A0 ) Wahrscheinlichkeit an mit der man vom Eintreten oder von der Beobachtung des Ereignisses A0 auf das Eintreten eines anderen (z.B. nicht direkt beobachtbaren) Ereignisses B schließen kann. Die bedingte Wahrscheinlichkeit PA0 (B) = Beispiel a) Technische Inspektion mit Befund A0 P (B ∩ A0 ) PA0 (B) = = Wahrscheinlichkeit, dass (im Inneren P (A0 ) des Gerätes) ein Defekt B vorliegt. b) Medizinische Untersuchung mit Befund A0 P (B ∩ A0 ) PA0 (B) = = Wahrscheinlichkeit, dass eine Krankheit P (A0 ) B vorliegt. Bemerkung 1.1.4 Expertensysteme Bedingte Wahrscheinlichkeiten spielen auch eine zentrale Rolle bei den sog. “Expertensystemen”. Das sind Programmsysteme, die das Expertenwissen bestimmter Bereiche aus Medizin, Technik, etc., enthalten und z.B. für Diagnosezwecke zur Verfügung stellen. Bekannte Beispiele sind medizinische Expertensysteme zur Diagnose und Therapie bestimmter Krankheiten oder technische Expertensysteme zur Diagnose und Reparatur von Schäden/Defekten technischer Geräte oder Prozesse. Mit Hilfe bedingter Wahrscheinlichkeiten wird dann eine sog. “Inferenzmaschine” aufgebaut. Diese stellt das Expertenwissen (z.T. auch kontrovers!) in Form von Wahrscheinlichkeitsrelationen zwischen bestimmten Aussagen bereit: 15 1 Ereignisse und Wahrscheinlichkeiten Aussage A (Prämisse), z.B. Krankheitssymptome, Untersuchungsergebnis Aussage B (Schluss), z.B. Diagnose Liegt also der Befund A vor, dann trifft die Diagnose, der Schluss mit der Wahrscheinlichkeit PA (B) zu. Man nimmt dann an, dass die Diagnose B ∗ am ehesten zutrifft, die die höchste Wahrscheinlichkeit hat: PA (B ∗ ) = max PA (B). B∈A 1.1.2 Elementare Definition von Wahrscheinlichkeiten A) Relative Häufigkeit Ein Experiment E, bei dem ein Ereignis A eintreten kann oder nicht, werde n mal hintereinander ausgeführt. Die natürliche Zahl mn = mn (A) (1.10a) bezeichne dann die Anzahl der Versuche oder Fälle, in denen das Ereignis A eingetreten ist. Es sei dann mn (A) (1.10b) hn = hn (A) := n die relative Häufigkeit des Ereignisses A in den n Versuchen. Da man in der Praxis häufig eine Stabilisierung der Werte der relativen Häufigkeit hn mit wachsender Versuchsanzahl n beobachtet, definiert man in diesem Fall die Wahrscheinlichkeit P (A) von A wie folgt: Definition 1.1.8 Statistische Definition der Wahrscheinlichkeit P (A) := lim hn (A), n→∞ (1.10c) falls dieser Grenzwert in einem gewissen wahrscheinlichkeitstheoretischen Sinne existiert. B) Gleichwahrscheinliche Elementarereignisse Hier setzt man voraus, dass sich die Ereignisse A ∈ A in eine endliche Anzahl gleichwahrscheinlicher und sich gegenseitig ausschließender sogenannter Elementarereignisse E1 , E2 , . . . , Ek , . . . , Er zerlegen lassen. Das Ereignis A = Ek1 ∪ Ek2 ∪ · · · ∪ Eks (1.11a) tritt also genau dann ein, wenn eines der ”für A günstigen” Elementarereignisse Ekj , j = 1, 2, . . . , s, eintritt. Dies führt zu folgender Definition: 16 1.2 Verteilungsfunktion Definition 1.1.9 a) Für jedes Elementarereignis Ek , k = 1, . . . , r, setzt man 1 P (Ek ) := , k = 1, 2, . . . , r. r (1.11b) b) Für ein Ereignis A gemäss (1.11a) definiert man P (A) := Anzahl der für A günstigen Fälle s = . r Anzahl der möglichen Fälle (1.11c) C) Subjektive Wahrscheinlichkeiten (personal probability) Einige nicht technische Problemstellungen lassen sich mit Hilfe wahrscheinlichkeitstheoretischer Methoden behandeln, wenn man die Wahrscheinlichkeit eines Ereignisses A aus dem Bereich wirtschaftswissenschaftlicher, sozialwissenschaftlicher Vorgänge und Prozesse, etc., wie folgt definiert: P (A) := Grad der Überzeugung einer Person (1.12) (einer Personengruppe), dass das Ereignis A eintreten wird. Bemerkung 1.1.5 Auch in diesem Fall verlangt man, dass die Funktion A → P (A), A ∈ A, die Axiome (A1)–(A4) gemäss Definition 1.1.4 erfüllt. 1.2 Verteilungsfunktion Die Verteilungsfunktion dient zur einfacheren Beschreibung der Verteilung PX : B → P (X ∈ B) einer Zufallsvariablen X mit Hilfe einer Funktion F von in das Intervall [0, 1]. R Definition 1.2.1 Die Funktion F (x) := P (X ≤ x), x ∈ R (1.13) heißt die Verteilungsfunktion von X. Man schreibt auch F = FX . Eine andere Möglichkeit ist die Definition Fe(x) := P (X < x), die hier aber nicht verwendet wird. Erste Eigenschaften der Verteilungsfunktion zeigt der folgende Satz: Satz 1.2.1 a) 0 ≤ F (x) ≤ 1 für alle x ∈ R; b) x < y ⇒ F (x) ≤ F (y), F ist also monoton wachsend; c) lim F (x) = 0, lim F (x) = 1; x→−∞ x→+∞ d) F ist stetig von rechts, d.h. F (x) = xlim F (xn ) für jedes x ∈ →x n N, und xn → x, x → ∞. xn >x dass xn > x, n ∈ Beweis: (a) folgt aus (A1). R und jede Folge (xn), so (b) x < y ⇒ (−∞, x] ⊂ (−∞, y] ⇒ F (x) ≤ F (y) gemäss (1.5a-e). 17 1 Ereignisse und Wahrscheinlichkeiten (c) Sei (xn ) eine beliebige, streng monoton fallende Folge, so dass xn ↓ −∞ für n → ∞. Wir betrachten dann die Intervallfolge In := (−∞, xn ], n = 1, 2, . . . . Es ist In+1 ⊂ In ∞ \ und In = ∅. Aus Satz 1.1.1f folgt lim F (xn ) = lim P (X ≤ xn ) = lim P (X ∈ In ) = n=1 P (X ∈ n→∞ ∞ \ n→∞ n→∞ In ) = P (X ∈ ∅) = 0. Analog beweist man, dass lim F (x) = 1. x→+∞ n=1 (d) Sei xn ↓ x, d.h. xn ≥ x für alle n = 1, 2, . . . , und xn → x, n → ∞. Setze In := (−∞, xn ], n = 1, 2, . . . , I := (−∞, x]. Daraus folgt In+1 ⊂ In und I ⊂ In , I = ∞ \ In , n=1 also wieder mit Satz 1.1.1f P (X ≤ x) = P (X ∈ I) = P X∈ ∞ \ ! In n=1 = lim P (X ∈ In ) = lim P (X ≤ xn ) n→∞ n→∞ und damit F (x) = lim F (xn ). n→∞ Weitere Eigenschaften der Verteilungsfunktion Satz 1.2.2 i) P (X > x) = 1 − F (x); ii) P (a < X ≤ b) = F (b) − F (a). Beweis: i) Aus Satz 1.1.1c folgt P (X > x) = 1 − P (X ≤ x) = 1 − F (x). S ii) Wegen der disjunkten Vereinigung (−∞, b] = (−∞, a] (a, b] ergibt sich nach Satz (1.5d) P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) und damit P (a < X ≤ b) = P (X ≤ b) − (X ≤ a) = F (b) − F (a). 18 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen Bemerkung 1.2.1 i) Die Axiome (A1)-(A4) sind äquivalent zu den Eigenschaften (a)-(d) von Satz 1.2.1. ii) Ist F eine Funktion mit den Eigenschaften (a)-(d) von Satz 1.2.1, dann gibt es eine Zufallsvariable X, so dass F die Verteilungsfunktion von X ist. Beispiel 1.2.1 A) Stetige Verteilungen B) Diskrete Verteilungen 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen 1.3.1 Diskrete Verteilungen Ganz analog zu einer diskreten Massenverteilung in der Mechanik mit Massenpunkten m1 , m2 , . . . definiert man diskrete Wahrscheinlichkeitsverteilungen: Definition 1.3.1 Die Zufallsvariable X hat eine diskrete Verteilung PX , wenn X nur endlich oder abzählbar unendlich viele verschiedene Werte x01 , x02 , . . . , x0r bzw. x01 , x02 , . . . , x0j , . . . 19 1 Ereignisse und Wahrscheinlichkeiten annehmen kann, d.h. Ω = {x01 , . . . , x0r }, bzw. Ω = {x01 , x02 , . . . , x0j , . . . }. Es sei dann pj := P (X = x0j ), j = 1, . . . , r bzw. j = 1, 2, . . . die Wahrscheinlichkeit, dass X den Wert x0j annimmt. Somit gilt 0 ≤ pj ≤ 1, j = 1, . . . , r bzw. j = 1, 2, . . . ∞ r X X pj = 1 pj = P X ∈ {x01 , . . . , x0r } = 1 bzw. {z } | j=1 j=1 sicheres Ereignis Beispiel 1.3.1 a) X = Augenzahl beim Werfen eines homogenen Würfels Hier ist x0j = j, j = 1, . . . , 6 1 pj = , j = 1, . . . , 6 6 b) X = Augensumme beim Wurf zweier homogener Würfel x0j = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 2 3 4 5 6 5 4 3 2 1 1 , , , , , , , , , , pj = 36 36 36 36 36 36 36 36 36 36 36 Bemerkung 1.3.1 Die Ereignisse [X = x0j ] sind wie folgt darstellbar: [ [X = x0j ] = {Würfel 1 zeigt Augenzahl a1 und Würfel 2 zeigt Augenzahl a2 }. a1 +a2 =x0j Eine diskrete Verteilung von X kann offensichtlich durch das Schema 0 0 x1 x2 · · · x0j · · · x0r PX = mit r ∈ oder r = ∞ p1 p2 · · · pj · · · pr N 20 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen beschrieben werden. Die Verteilungsfunktion einer diskreten Verteilung: Gemäss Definition 1.2.1 ist X F (x) := P (X ≤ x) = pj , (1.14a) j:x0j ≤x also kurz F (x) = X pj . (1.14b) x0j ≤x Offensichtlich gilt der folgende Satz 1.3.1 F (x) ist eine Treppenfunktion. Speziell gilt hier i) x < inf x0j ⇒ F (x) = 0 j ii) x ≥ sup x0j ⇒ F (x) = 1 j iii) An jeder Stelle x = x0j erfolgt ein Sprung der Größe pj . 1.3.2 Stetige Verteilungen Wiederum analog zu einer stetigen Massenverteilung in der Mechanik mit einer Massendichte ρ = ρ(x) längs einer Geraden definiert man stetige Wahrscheinlichkeitsverteilungen: Definition 1.3.2 Die Zufallsvariable X hat eine stetige Verteilung PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) von X in Integralform Zx F (x) = f (t) dt (1.15) −∞ 21 1 Ereignisse und Wahrscheinlichkeiten dargestellt werden kann. Dabei ist die sogenannte Wahrscheinlichkeitsdichte f = f (t) der Verteilung PX von X (oder kurz von X) eine nichtnegative, integrierbare, beschränkte und bis auf höchstens endlich viele Punkte stetige Funktion. Charakteristische Eigenschaften einer Wahrscheinlichkeitsdichte f = f (t) sind demnach: a) f (t) ≥ 0 für alle t ∈ R; (1.16a) b) f ist stetig mit Ausnahme höchstens endlich vieler Stellen; (1.16b) Z+∞ f (t)dt = 1. (1.16c) c) −∞ Beweis: (a) folgt aus Definition 1.3.2. Zb (b) garantiert die Existenz des Riemann-Integrals f (t)dt für beliebige Intervalle [a, b], a < a b. Z+∞ Zx (c) f (t)dt = lim f (t)dt = lim F (x) = 1 nach Satz 1.2.1. −∞ x→+∞ −∞ x→+∞ Bemerkung 1.3.2 Während in der Mechanik die Gesamtmasse einen gewissen positiven Wert m0 > 0 hat, ist der Maximalwert der Wahrscheinlichkeit, also die “Gesamt–Wahrscheinlichkeitsmasse”, immer gleich 1. Eigenschaften stetiger Verteilungen: Satz 1.3.2 X habe eine stetige Verteilung. Dann gilt 22 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen a) F ist stetig (also stetig von rechts und von links); b) P (X = x0 ) = 0 für alle x0 ∈ R; c) P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) Zb = P (a ≤ X ≤ b) = F (b) − F (a) = f (t)dt; (1.17) a d) F 0 (x) = d F (x) = f (x), dx (1.18) wenn x eine Stetigkeitsstelle der Dichtefunktion f ist. Bemerkung 1.3.3 Auch bei einer kontinuierlichen Massenverteilung in der Mechanik hat ein einzelner Punkt die Masse Null. Beweis: 23 1 Ereignisse und Wahrscheinlichkeiten a) Zx0 Zx x0 < x : 0 ≤ F (x) − F (x0 ) = f (t)dt − −∞ Zx f (t)dt −∞ f (t)dt ≤ = x0 Zx0 x < x0 : 0 ≤ F (x0 ) − F (x) = max f (t) (x − x0 ), |x − x0 | < δ; max f (t) |x − x0 |, |x − x0 | < δ x0 ≤t≤x0 +δ f (t)dt ≤ x0 −δ≤t≤x0 x Daraus ergibt sich die Stetigkeit von f im Punkt x0 . b) Für a < b mit beliebigem, festem b gilt 0 ≤ P (X = b) ≤ P (a < X ≤ b) = F (b) − F (a) und damit 0 ≤ P (X = b) ≤ lim F (b) − F (a) = F (b) − F (b) = 0, also P (X = b) = 0. a→b a<b Folglich ist P (X = x0 ) = 0 für alle x0 ∈ R. c) Nach der vorherigen Aussage gilt für a ≤ b P (a ≤ X ≤ b) = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b). Weiter ist F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b) und Zb F (b) = Zb Za f (t)dt + f (t)dt = −∞ −∞ | Zb a {z F (a) f (t)dt, a ≤ b. f (t)dt = F (a) + a } Somit gilt Zb f (t)dt = F (b) − F (a) = P (a < X ≤ b), a ≤ b. a d) Folgt aus der Integraldarstellung (1.15) von F (x). Zur Berechnung der Dichte f mit Hilfe der Verteilung(sfunktion) Näherungsweise gilt an einer Stetigkeitsstelle x von f x+∆x Z f (t)dt ∼ = f (x) · ∆x, ∆P = P (x < X < x + ∆x) = (1.19a) x für ein kleines ∆x > 0. Daraus folgt 1 1 f (x) ∼ P (x < X < x + ∆x) = F (x + ∆x) − F (x) = ∆x ∆x (f (x) selbst ist keine Wahrscheinlichkeit!). 24 (1.19b) 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen Durch Grenzübergang ∆x ↓ 0 folgt wieder 1 1 P (x < X < x + ∆x) = lim F (x + ∆x) − F (x) = F 0 (x), f (x) = lim ∆x↓0 ∆x ∆x↓0 ∆x (1.19c) falls x eine Stetigkeitsstelle von F ist. Bemerkung 1.3.4 Neben den diskreten und stetigen Verteilungen gibt es noch einen dritten Verteilungstyp, die sog. singulären Verteilungen, die aber für die vorliegende Untersuchung keine große Bedeutung haben. Die allgemeinste Verteilung ergibt sich sodann als Mischung der drei Grundtypen. Beispiel 1.3.2 Modelle für Zufallsmechanismen Die Eigenschaften dieser Verteilungen werden in Kapitel II behandelt. A) Diskrete Verteilungen (a) Binomial- oder Bernoulliverteilung x0k = k, k = 0, 1, . . . , n (1.20a) pk := P (X = x0k ) = P (X = k) = n k pk q n−k , k = 0, 1, . . . , n, (1.20b) n! n , wobei q = 1 − p und 0 ≤ p ≤ 1 ein beliebiger, fester Wert mit := k k!(n − k)! im Intervall [0, 1] ist. Nach dem Binomischen Lehrsatz ist n n 1 = 1 = (p + q) = n X n k=0 k pk q n−k . (b) Poissonverteilung x0k = k, k = 0, 1, 2, . . . (X hat unendlich viele mögliche Werte) (1.21a) −λ k pk = P (X = k) := e λ , k = 0, 1, . . . ; k! (1.21b) dabei ist λ > 0 eine beliebige positive Zahl. Nach der Definition der Exponentialreihe ∞ X gilt pk = 1. k=0 B) Stetige Verteilungen (c) Gleichverteilung 1 wenn a ≤ x ≤ b b−a f (x) := wobei a < b beliebig gegebene Werte sind. 0, sonst (1.22) 25 1 Ereignisse und Wahrscheinlichkeiten Bemerkung 1.3.5 X nimmt außerhalb I0 = [a, b] f.s. keine Werte an: P (X ∈ I0 ) = 1. (d) Exponentialverteilung (einseitige) −αx αe , wenn x ≥ 0 f (x) := wobei α > 0 eine positive Konstante ist. (1.23) 0, sonst Bemerkung 1.3.6 P (X ≥ 0) = 1 (e) Normalverteilung f (x) := √ 1 x−µ 2 1 e− 2 ( σ ) , x ∈ 2πσ R, mit Parametern µ ∈ R, σ > 0 (1.24) Bemerkung 1.3.7 P (X ∈ I) > 0 für beliebige Intervalle I 6= [a, a] oder (a, a). (f) Cauchy-Verteilung: γ , x ∈ f (x) := π γ 2 + (x − a)2 R, mit Parametern a ∈ R, γ > 0 Praktische Anwendungen a) Binomialverteilung Beispiel: X = Anzahl der Treffer x = 0, 1, 2, . . . , 20 bei n = 20 voneinander unabhängigen Schüssen mit gleicher Trefferwahrscheinlichkeit p; allgemein: X = Anzahl des Eintretens eines bestimmten Ereignisses A in n voneinander unabhängigen Versuchen mit gleicher Wahrscheinlichkeit p, dass A eintritt (Bernoullisches Versuchsschema). b) Poissonverteilung Beispiel: X = Anzahl der Telefonanrufe, die in einem bestimmten Zeitintervall in einer Zentrale eintreffen; X = Anzahl der α-Teilchen, die von einer radioaktiven Substanz in einem bestimmten Zeitintervall emittiert werden. c) Gleichverteilung im Intervall [a, b] Beispiel: X = Zufällige Größe von der nur bekannt ist, dass sie im Intervall [a, b] variiert. Sonst stehen keine Informationen über X zur Verfügung. 26 (1.25) 1.3 Elementare (Wahrscheinlichkeits-) Verteilungen Grundlegende Eigenschaften der Gleichverteilung: a) Für ein Intervall I1 = [u1 , v1 ], mit v1 ≤ a gilt Zv1 P (X ∈ I1 ) = P (u1 ≤ X ≤ u2 ) = f (t)dt = 0, u1 da f (t) = 0, t < a. b) Für ein Intervall I2 = [u2 , v2 ] mit b ≤ u2 gilt auch P (X ∈ I2 ) = 0. c) Für ein Intervall I3 = [u3 , v3 ] mit a ≤ u3 < v3 ≤ b ist Zv3 P (X ∈ I3 ) = P (u3 ≤ X ≤ v3 ) = dt v3 − u3 = . b−a b−a u3 d) Exponentialverteilung X = zufällige Zeitdauer eines Telefongespräches; X = zufällige Zeit bis zum ersten Ausfall eines Bauteiles. e) Normalverteilung X = Beobachtungs- oder Messfehler; X = Abweichung der tatsächlichen Abmessung (z.B. Durchmesser) eines Werkstückes, von der vorgeschriebenen Soll-Abmessung. c) Cauchy-Verteilung Anwendungen in der Wirtschafts- und Finanzmathematik. Für |x| → +∞ konvergiert die Dichtefunktion der Cauchy-Verteilung weniger schnell gegen Null als die Dichte der Normalverteilung. Die Cauchy-Verteilung hat also ”dickere Schwänze” als die Normalverteilung! 27 1 Ereignisse und Wahrscheinlichkeiten 1.4 Masszahlen von Verteilungen Sei X eine Zufallsvariable mit Verteilung PX , wobei X eine diskrete Verteilung 0 0 0 0 x1 x2 · · · x0j · · · x1 x2 · · · x0r PX = oder PX = p1 p2 · · · pr p1 p2 · · · pj · · · bzw. eine stetige Verteilung PX mit der Dichte f (x) habe. 1.4.1 Erwartungswert Definition 1.4.1 Unter dem Erwartungswert von X oder von PX versteht man die Zahl P∞ Pr 0 0 X ist diskret verteilt j=1 pj xj bzw. j=1 pj xj , +∞ R (1.26) EX = µ := xf (x) dx, X ist stetig verteilt. −∞ Der Erwartungswert von X ist also eine eine Art ”Zentrum” oder ”Schwerpunkt” der Verteilung PX . Die entsprechende Größe in der Mechanik ist der Schwerpunkt eines Körpers. 1 2 3 4 5 6 Beispiel 1.4.1 a) homogener Würfel mit PX = 1/6 1/6 1/6 1/6 1/6 1/6 In diesem Fall ist 1 1 1 1 1 1 1 · 1 + · 2 + · 3 + · 4 + · 5 + · 6 = · 21 = 3.5. 6 6 6 6 6 6 6 1 , a≤x≤b b−a b) Rechtecksverteilung mit f (x) = 0, sonst. µ= Hier gilt Z+∞ Zb Zb µ = xf (x) dx = xf (x) dx = −∞ a x 1 x 2 b 1 b 2 − a2 dx = · | = b−a b−a 2 a 2 b−a a a+b = . 2 Z+∞ c) Die Cauchy Verteilung hat keinen Erwartungswert im Sinne von Definition 1.4.1: xf (x) dx −∞ existiert nicht. 1.4.2 Varianz Definition 1.4.2 Unter der Varianz von X oder von PX versteht man die Zahl r ∞ X X 0 2 (x − µ) p bzw. (x0j − µ)2 pj bei diskreter Verteilung j j j=1 j=1 V (X) = σ 2 := Z+∞ (x − µ)2 f (x) dx bei stetiger Verteilung. −∞ 28 (1.27) 1.4 Masszahlen von Verteilungen p σ = V (X) heißt dann die Standardabweichung von X (standard deviation). σ 2 = V (X) ist ein Mass für die Streuung von X um den Mittelwert µ: Mittlere quadratische Abweichung der Werte x von X vom Erwartungswert µ. Lemma 1.4.1 a) Stets gilt σ 2 ≥ 0. b) Die Gleichung σ 2 = 0 gilt genau dann, falls die Zufallsvariable X fast sicher (f.s.), d.h. mit Wahrscheinlichkeit 1, konstant ist. 0 1 Beispiel 1.4.2 a) Münzwurf: PX = 1 1 2 2 Hier gilt µ = 12 0 + 12 1 = 12 2 2 σ 2 = √0 − 12 12 + 1 − 12 21 = 12 · 41 + 14 = 14 , σ = σ 2 = 12 (= µ, was ein Spezialfall ist!). ( b) Rechtecksverteilung f (x) = 1 , a≤x≤b b−a 0 , sonst. In diesem Fall ist µ σ2 a+b , 2 2 2 Z+∞ Zb (b − a)2 dx a+b a+b = , = f (x) dx = x− x− 2 2 b−a 12 = −∞ also a |b − a| σ= √ . 2 3 Bemerkung 1.4.1 Für σ 2 = 0, also b = a, ist die Verteilung auf einen Punkt konzentriert! Dies ist dann aber keine eigentliche Rechtecksverteilung mehr, sondern eine spezielle diskrete Verteilung (Einpunktverteilung). 1.4.3 Momente von X bzw. PX Definition 1.4.3 Unter dem k-ten Moment mk , k = 0, 1, 2, . . . , von X oder von PX versteht man die Zahl r X (x0j )k pj bei diskreter Verteilung (r ∈ oder r = ∞) j=1 (1.28) mk := Z+∞ k x f (x) dx bei stetiger Verteilung. N −∞ Speziell ist m0 = 1 f ür k = 0 m1 = EX = µ (Erwartungswert) f ür k = 1. 29 1 Ereignisse und Wahrscheinlichkeiten Für k = 2 ergibt sich die folgende Darstellung der Varianz V (X) mit Hilfe von Momenten: a) X sei stetig verteilt. Dann gilt σ 2 Z+∞ Z+∞ 2 = V (X) = (x − µ) f (x) dx = (x2 − 2xµ + µ2 )f (x) dx −∞ −∞ Z+∞ Z+∞ Z+∞ 2 2 xf (x) dx +µ = x f (x) dx −2µ f (x) dx = m2 − 2µ2 + µ2 −∞ −∞ | {z =m2 2 } −∞ | {z =µ } | {z =1 } = m2 − µ = m2 − m21 . b) Hat X eine diskrete Verteilung, so gilt dieselbe Formel für σ 2 wie im obigen Fall. Somit hat man folgende Darstellung der Varianz: Satz 1.4.1 Für die Varianz einer Zufallsvariablen X gilt die Formel σ 2 = V (X) = m2 − m21 !2 r r X X (x0j )2 pj − x0j pj bei diskreter Verteilung (r ∈ j=1 j=1 +∞ 2 = Z Z+∞ x2 f (x) dx − xf (x) dx bei stetiger Verteilung (1.29) N oder r = ∞) −∞ −∞ Beispiel 1.4.3 Rechtecksverteilung b+a m1 = EX = 2 Z+∞ Zb 1 x3 b 1 dx 1 m2 = x2 f (x) dx = x2 = |a = · (b3 − a3 ) b−a b−a 3 b−a 3 −∞ 0 1 2 (b + ab + a2 ) 3 1 2 m21 = (b + 2ab + a2 ) 4 1 σ 2 = m2 − m21 = 4b2 + 4ab + 4a2 − 3b2 − 6ab − 3a2 12 1 (b − a)2 . = (b2 − 2ab + a2 ) = 12 12 (siehe Beispiel 1.4.1, 1.4.2) Ferner gilt für das k–te Moment: = mk Z+∞ Zb dx 1 bk+1 − ak+1 k = x f (x)dx = xk = b−a k+1 b−a −∞ a 1 = (bk + abk−1 + . . . + ak−1 b + ak ). k+1 30 1.4 Masszahlen von Verteilungen 1.4.4 Schiefe einer Verteilung Definition 1.4.4 Unter der Schiefe einer Verteilung PX versteht man die Zahl r 1 X 0 (xj − µ)3 pj diskrete Verteilung mit r ∈ oder r = ∞ σ 3 j=1 γ := Z+∞ 1 (x − µ)3 f (x) dx stetige Verteilung σ3 N (1.30) −∞ Bei stetiger Verteilung gilt +∞ Z Z+∞ Z+∞ Z+∞ 1 γ = x3 f (x) dx − 3µ x2 f (x) dx + 3µ2 xf (x) dx − µ3 f (x) dx 3 σ −∞ −∞ −∞ −∞ 1 = (m3 − 3m1 m2 + 3m31 − m31 ) 3 σ 1 = (m3 − 3m1 m2 + 2m31 ), 3 σ und für eine diskrete Verteilung ergibt sich dieselbe Darstellung: Satz 1.4.2 Für die Schiefe γ gilt die Formel 1 γ = 3 (m3 − 3m1 m2 + 2m31 ). σ Die Schiefe ist ein Mass für die Asymmetrie einer Verteilung bezüglich µ = EX. (1.31) Wir untersuchen dies für stetige Verteilungen. Definition 1.4.5 Die Zufallsvariable X habe eine stetige Verteilung mit der Dichte f = f (x). Die Verteilung PX heißt symmetrisch, falls eine Konstante c existiert, so dass f (c + t) = f (c − t) für alle t ∈ R. Eigenschaften symmetrischer Verteilung a) Bedeutung der Konstanten c Unter Annahme, dass der Erwartungswert von X existiert, gilt mit der Variablentransformation x = c + t, dx = dt die Darstellung Z+∞ Z+∞ µ = EX = x f (x)dx = (c + t)f (c + t)dt −∞ −∞ Z+∞ = c −∞ Z+∞ f (c + t)dt + t f (c + t)dt −∞ Z+∞ Z0 Z+∞ = c f (x)dx + t f (c + t)dt + t f (c + t)dt. −∞ −∞ 0 31 1 Ereignisse und Wahrscheinlichkeiten Z+∞ Wegen f (x)dx = 1 und mit der Substitution t = −s folgt dann −∞ Z0 µ = c+ Z+∞ (−s)f (c − s)(−ds) + t f (c + t)dt +∞ 0 Z+∞ Z+∞ = c− s f (c − s)dx + t f (c + t)dt 0 0 Z+∞ = c+ t −f (c − t) + f (c + t) dt = c, | {z } 0 =0 also µ = EX = c. b) Berechnung der Schiefe γ Mit genau denselben Substitutionen wie in a) zeigt man, dass Z+∞ Z+∞ 3 (x − µ) f (x)dx = (x − c)3 f (x)dx −∞ −∞ Z+∞ = t3 f (c + t)dt = 0. −∞ Mit (1.31) gilt dann γ = 0. Damit hat man folgendes Ergebnis: Satz 1.4.3 Die Zufallsvariable X habe eine symmetrische stetige Verteilung. Dann gilt EX = c und γ = 0, falls das dritte Moment existiert. 32 1.4 Masszahlen von Verteilungen Momenterzeugende und charakteristische Funktion Oft lassen sich Momente mk einfacher mit Hilfe einer geeigneten Hilfsfunktion berechnen. Definition 1.4.6 Unter der momenterzeugenden Funktion G versteht man die LaplaceTransformation von PX (bzw. von X), d.h. die Funktion r X 0 etxj pj , X diskret verteilt (r ∈ oder r = ∞) j=1 G = G(t) := (1.32) Z+∞ etx f (x) dx, X stetig verteilt N −∞ für t ∈ R, so dass die Reihe (für r = ∞) bzw. das Integral konvergiert. Definition 1.4.7 Unter der charakteristischen Funktion ϕ versteht man die √ FourierTransformation von PX (bzw. von X), d.h. die komplexwertige Funktion (i := −1) r r r X X X itx0j 0 e pj = pj cos txj + i pj sin tx0j , diskreteV erteilung j=1 j=1 j=1 ϕ = ϕ(t) = Z+∞ Z+∞ Z+∞ itx e f (x) dx = f (x) cos tx dx + i f (x) sin tx dx, stetigeV erteilung −∞ für alle t ∈ −∞ −∞ R, so dass die Reihen (für r = ∞) bzw. die Integrale konvergieren. (1.33) Satz 1.4.4 Für alle k = 0, 1, 2, . . . gilt mk = G(k) (0) 1 mk = k ϕ(k) (0), i sofern t = 0 im Innern des Definitionsbereichs von G bzw. ϕ liegt. Beweis. Durch wiederholte Differentiation von (1.32) bzw. (1.33) folgt: (1.34a) (1.34b) a) r X 0 (x0j )k etxj pj , PX diskret j=1 G(k) (t) = Z+∞ xk etx f (x) dx, PX stetig, −∞ also G(k) (0) = mk , k = 0, 1, . . . (nach Def. (1.4.3) von mk ). b) r X 0 PX diskret (ix0j )k eitxj pj , j=1 ϕ(k) (t) = Z+∞ (ix)k eitx f (x) dx, PX stetig, −∞ 33 1 Ereignisse und Wahrscheinlichkeiten und damit ϕ(k) (0) = ik mk (nach Def. (1.4.3) von mk ). Bemerkung 1.4.2 Im obigen Beweis wird natürlich vorausgesetztz, dass Differentiation und Reihensummation bwz. Integration vertauscht werden dürfen. Vorteil: Berechnung der Momente durch Differentiation der Funktion G(t) bzw. ϕ(t), die oft einfacher zu berechnen ist, falls G bzw. ϕ verfügbar ist. Speziell ist also 1 EX = µ = G0 (0) = ϕ0 (0). i Beispiel 1.4.4 Exponentialverteilung −αx αe ,x ≥ 0 f (x) = mit α > 0 0 , sonst a) Laplace-Transformation (Momenterzeugende Funktion) Z+∞ Z+∞ Z+∞ tx tx −αx G(t) = e f (x) dx = e αe dx = α e(t−α)x dx −∞ −∞ 0 1 (t−α)x +∞ α α = α· e |0 = − = , wenn t < α. t−α t−α α−t Daraus folgt G(0) = m0 = 1, α G0 (t) = (α − t)2 2α G00 (t) = (α − t)3 6α G000 (t) = (α − t)4 da 0 < α α 1 = 2 α α ⇒ m1 = EX = G0 (0) = 2α 2 = 2 3 α α 6 ⇒ m3 = 3 . α ⇒ m2 = Dies ergibt 2 1 2 1 σ = m2 − = 2− = 2, α α α γ = 2 (unsymmetrische Verteilung). 2 m21 b) Charakteristische Funktion der Exponentialverteilung (Fourier-Transformation) Z+∞ Z+∞ Z+∞ ϕ(t) = eitx f (x) dx = α eitx−αx dx = α ex(it−α) dx −∞ 0 Z+∞ 0 |0 e−αx (cos tx + i sin tx) dx = α = α 2 = 34 0 Z+∞ Z+∞ e−αx cos tx dx +α i e−αx sin tx dx α αt α + 2 i= 2 (α + it). 2 2 +t α +t α + t2 α2 {z } |0 {z } 1.5 Funktionen von Zufallsvariablen Dies ergibt (α2 + t2 )α − αt · 2t −α2 2t + i (α2 + t2 )2 (α2 + t2 )2 α3 i ϕ0 (0) = 0 + i 4 = α α 1 1 0 ϕ (0) = . m1 = i α ϕ0 (t) = 1.5 Funktionen von Zufallsvariablen Oft ist eine Zufallsvariable Y nicht direkt durch ihre Verteilungsfunktion FY = FY (y) definiert, sondern indirekt als Funktion Y := ϕ(X) (1.35) einer anderen Zufallsvariablen X, deren Verteilungsfunktion FX = FX (x) man kennt. Das Problem ist dann die Bestimmung der Verteilungsfunktion FY (allgemein der Verteilung PY ) aus den gegebenen Informationen über die Verteilungsfunktion FX (Verteilung PX ) von X und der Funktion y = ϕ(x). Beispiel 1.5.1 a) Skalentransformation: y = ax + b mit Konstanten a 6= 0, b ∈ R Zu bestimmen ist in diesem Fall die Verteilung von Y = aX + b aus der Verteilung von X und mit den beiden Konstanten a, b. Diese Aufgabe wird später komplett gelöst. b) Ohmsches Gesetz: I = U R b1) Spannung U stochastisch variabel, Widerstand R = R0 fest. Zu bestimmen ist die U Verteilung der stochastisch schwankenden Stromstärke I = aus R0 und der R0 Verteilung von U . 35 1 Ereignisse und Wahrscheinlichkeiten b2) Spannung U = U0 fest, Widerstand R stochastisch variabel (Materialgrösse). GeU0 aus der festen Spannung U0 und sucht ist hier ebenfalls die Verteilung von I = R der Verteilung von R. c) Dynamische Systeme Der Zustand z = z(t) des Systems zur Zeit t ≥ t0 ist gegeben durch die DGL (bzw. das DGL–System) ż(t) = f t, z(t), a , z(t0 ) = z0 , t0 ≤ t ≤ tf , mit dem Anfangszustand z0 . Dabei ist a ein Modellparameter bzw. Vektor von Modellparametern (“dynamische Parameter”). Unsichere bzw. stochastisch variable Grössen sind hier oft der - stochastisch variable Anfangszustand z0 und der - stochastisch variabler Modellparametervektor a. Gesucht ist dann die Verteilung des stochastisch variablen Endzustands zf = zf (t0 , tf , z0 , a). Graphisch kann man diese Fälle durch das folgende Input–Output–System darstellen: Für eine gegebene Funktion y = ϕ(x) gilt dann input X output Y ist eine ist eine =⇒ Zufallsvariable Zufallsvariable 1.5.1 Verteilungsfunktion Im Folgenden bezeichnen F (x) = FX (x) bzw. G(y) = FY (y) die Verteilungsfunktion von X bzw. Y . Nach Definition 1.2.1 gilt G(y) = P (Y ≤ y) = P ϕ(X) ≤ y . (1.36) Fall 1: ϕ streng monoton wachsend: In diesem Falle gilt ϕ(X) ≤ y ⇔ X ≤ ϕ−1 (y) 36 (ϕ−1 inverse Funktion von ϕ), 1.5 Funktionen von Zufallsvariablen also −1 G(y) = P X ≤ ϕ (y) = F ϕ (y) . −1 (1.37) Beispiel 1.5.2 Lineare Transformation von X (streng monoton wachsend) Ergibt sich Y = aX + b durch eine lineare Transformation aus X, so folgt ϕ(x) = ax + b, a > 0 y−b , ϕ−1 (y) = a also G(y) = F y−b a . (1.38) Fall 2: ϕ streng monoton fallend: Hier ist ϕ−1 streng monoton fallend, also ϕ(X) ≤ y ⇔ X ≥ ϕ−1 (y), und damit G(y) = P ϕ(X) ≤ y −1 = P X ≥ ϕ (y) = 1 − P X < ϕ (y) = 1 − F ϕ−1 (y) + P X = ϕ−1 (y) . −1 Für eine stetig verteilte Zufallsvariable X folgt dann nach Satz 1.3.2 −1 G(y) = 1 − FX ϕ (y) (1.39) Beispiel 1.5.3 Lineare Transformation von X (streng monoton fallend) Im Fall ϕ(x) = ax + b, a < 0, ergibt sich wegen ϕ−1 (y) = y−b a G(y) = 1 − F y−b a +P y−b X= a . (1.40a) Für eine stetige Verteilung PX hat man G(y) = 1 − F y−b a (1.40b) 1.5.2 Dichtefunktion Die Zufallsvariable X habe eine stetige Verteilung PX mit Dichte f (x) = fX (x). Dann lässt sich die Dichte g = g(y) von Y nach Satz 1.3.2 darstellen durch g(y) = d G(y), dy 37 1 Ereignisse und Wahrscheinlichkeiten sofern G differenzierbar ist. Fall 1: ϕ streng monoton wachsend und differenzierbar: Hier ergibt sich 1 d −1 , wobei ϕ0 > 0, ϕ (y) = dy ϕ0 ϕ−1 (y) und g(y) = d d d G(y) = F ϕ−1 (y) = f ϕ−1 (y) · ϕ−1 (y). dy dy dy Somit gilt −1 f ϕ (y) f ϕ (y) = g(y) = 0 −1 ϕ0 ϕ−1 (y) ϕ ϕ (y) −1 (1.41) Beispiel 1.5.4 ϕ(y) = ax + b, a > 0, also ϕ0 = a. Aus (1.41) folgt 1 y−b . g(y) = · f a a Fall 2: ϕ streng monoton fallend und differenzierbar: 1 d −1 , ϕ0 < 0. Nach (1.39) gilt ϕ (y) = Hier ist dy ϕ0 ϕ−1 (y) (1.42) d d −1 −1 g(y) = 1 − F ϕ (y) = −f ϕ (y) ϕ−1 (y) dy dy −1 −1 f ϕ (y) f ϕ (y) = . g(y) = − 0 −1 ϕ0 ϕ−1 (y) ϕ ϕ (y) (1.43) Beispiel 1.5.5 ϕ(y) = ax + b, a < 0. Aus (1.43) ergibt sich 1 g(y) = ·f |a| Zusammenfassend hat man folgendes Ergebnis: y−b a (1.44) Satz 1.5.1 a) Sei ϕ streng monoton und differenzierbar. Hat X eine stetige Verteilung, so ist auch Y stetig verteilt, und die Dichte fY von Y lässt sich darstellen durch −1 fX ϕ (y) . (1.45a) fY (y) = 0 −1 ϕ ϕ (y) b) Im Fall ϕ = ax + b, a 6= 0, gilt 1 fY (y) = fX |a| 38 y−b a . (1.45b) 1.5 Funktionen von Zufallsvariablen 1.5.3 Erwartungswert, Momente von Y = ϕ(X) a) Erwartungswert von Y = ϕ(X) (mit ϕ : R → R) Der Erwartungswert EY von Y = ϕ(X) lässt sich wie folgt bestimmen: Satz 1.5.2 r 0 X x1 · · · x0r 0 ϕ(xj )pj , wenn PX = p1 · · · pr j=1 EY = Eϕ(X) = Z+∞ ϕ(x)fX (x) dx, wenn PX eine Dichte fX hat. (1.46a) (1.46b) −∞ Beweis: i) Hat X eine diskrete Verteilung 0 0 x1 x2 · · · x0r PX = , p1 p2 pr so folgt für Y = ϕ(X) die diskrete Verteilung ϕ(x01 ) ϕ(x02 ) · · · ϕ(x0r ) . PY = p1 p2 pr Bemerkung 1.5.1 Falls zwei X-Realisierungen x0j 6= x0k dasselbe Bild ϕ(x0j ) = ϕ(x0k ) haben, addieren sich einfach die zugehörigen Wahrscheinlichkeiten pj und pk . Nach Definition 1.4.1 folgt dann EY = r X ϕ(x0j )pj . j=1 ii) Hat X eine stetige Verteilung mit Dichte f (x), so lässt sich X durch eine Folge (Xn ) diskret verteilter Zufallsvariablen approximieren. Es gilt dann EY = Eϕ(X) = lim Eϕ(Xn ) = lim n→∞ n→∞ rn X j=1 ϕ(x0nj ) f (x0nj )∆xnj | {z pnj } Z+∞ = ϕ(x) f (x) dx. −∞ Beispiel 1.5.6 Lineare Transformation Z+∞ Im Fall ϕ(x) = ax+b, also für Y = aX +b, gilt EY = E(aX +b) = (ax+b)f (x) dx = −∞ Z+∞ Z+∞ f (x) dx. a xf (x) dx +b −∞ −∞ | {z =EX } | {z =1 } Da dies auch für diskrete Verteilungen gilt, ergibt sich folgende Regel: Satz 1.5.3 E(aX + b) = aEX + b f ür alle a, b ∈ R (1.47) 39 1 Ereignisse und Wahrscheinlichkeiten Beispiel 1.5.7 Darstellung der Momente Setzt man ϕ(x) = xk , k = 0, 1, . . . , so ist Y = X k und damit nach Satz 1.5.2 und mit Definition 1.4.3 r X 0 k (xj ) pj diskrete Verteilung j=1 k +∞ = mk (X) (k-tes Moment von X). EX = Z k x fX (x) dx stetige Verteilung −∞ (1.48) Es gilt also die folgende Darstellung für Momente: Satz 1.5.4 Das k-te Moment von X ist gegeben durch mk (X) = EX k . Speziell gilt m1 = EX, m2 = EX 2 . Korollar 1.5.1 Für die Varianz gilt die Darstellung V (X) = m2 − m21 = EX 2 − (EX)2 = E(X − EX)2 . (1.49) Beweis: Es ist nur noch die letzte Gleichung zu zeigen. Nach Definition 1.4.2 und Satz 1.5.2 gilt V (X) = E(X − EX)2 = Eϕ(X) mit ϕ(x) = (x − µ)2 . b) Momente von Y = ϕ(X) Nach Satz 1.5.4 gilt mit X → Y k mk (Y ) = EY k = E ϕ(X) = Eϕk (X). (1.50) Beispiel 1.5.8 Lineare Transformation (Fortsetzung von Beispiel 1.5.6) Setzt man ϕ(x) = ax + b, so ist Y = ϕ(X) = aX + b. Für k = 2 folgt ϕ2 (x) = (ax + b)2 = a2 x2 + 2abx + b2 , und für das zweite Moment von Y gilt 2 m2 (Y ) = Eϕ2 (X) = E ϕ(X) = E(aX + b)2 . Für eine stetig verteilte Zufallsvariable X ergibt sich dann mit Satz 1.5.2 Z+∞ Z+∞ 2 2 m2 (Y ) = E(aX + b) = (ax + b) f (x) dx = (a2 x2 + 2abx + b2 )f (x) dx −∞ = a = 2 Z+∞ 2 x f (x) dx + 2ab Z+∞ xf (x) dx + b f (x) dx −∞ −∞ 2 a m2 (X) +2ab m1 (X) +b2 | {z } EX 2 40 −∞ Z+∞ | {z } EX 2 −∞ 2 2 = a EX + 2abEX + b2 . 1.6 Mehrdimensionale Zufallsgrössen Nach Korollar 1.5.1 folgt dann mit X → Y V (Y ) = m2 (Y ) − m1 (Y )2 = a2 EX 2 + 2abEX + b2 − (aEX + b)2 = a2 EX 2 − a2 (EX) = a2 EX 2 − (EX)2 = a2 V (X), und dieselbe Formel erhält man auch für ein diskret verteiltes X. Zusammenfassend hat man folgendes Ergebnis: Satz 1.5.5 Für lineare Transformationen Y = aX + b gilt E(aX + b) = aEX + b für alle a, b ∈ V (aX + b) = a2 V (X) V (−X) = V (X). R In analoger Weise lassen sich folgende Formeln herleiten: i) E (aϕ(X) + bh(X)) = aEϕ(X) + bEh(X) (Linearität des Erwartungswertes) P P ii) E si=0 ai X i = si=0 ai EX i Bemerkung 1.5.2 Hat X diskrete Verteilung, so ist auch Y = ϕ(X) wieder eine Zufallsvariable mit diskreter Verteilung. Hat X eine stetige Verteilung, so ist Y = ϕ(X) nicht notwendigerweise wieder stetig verteilt. Gegenbeispiel: Ist ϕ eine Treppenfunktion, so hat Y = ϕ(X) eine diskrete Verteilung. 1.6 Mehrdimensionale Zufallsgrössen Zur mathematischen Beschreibung von Beobachtungen (Ereignissen) reicht oft nur eine Variable X nicht aus. Man benötigt dazu zwei und mehr Größen X, Y, Z, . . . , U oder X1 , X2 , . . . , Xm : Beispiel 1.6.1 a) Bevölkerungsstatistik X = Gewicht einer Person, die zufällig aus einer bestimmten Y = Größe Bevölkerungsgruppe herausgenommen wurde; Z = Blutdruck b) Eigenschaften einer Werkstoffprobe X1 = Kohlenstoffgehalt X2 = Zugfestigkeit einer Stahlprobe; X3 = Härte c) Augenzahlen X1 , . . . , Xm bei einem Würfelexperiment mit m homogenen Würfeln; d) Koordinaten (X, Y ) eines Treffers auf einer Zielscheibe. Dies führt zum Begriff der zwei- und mehrdimensionalen Zufallsvariablen: 41 1 Ereignisse und Wahrscheinlichkeiten Definition 1.6.1 Beobachtet man bei einem Zufallsexperiment E gleichzeitig n reelle Zufallsvariablen X1 , X2 , . . . , Xn , so heißt X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor, auch n-dimensionale Zufallsgröße oder -variable. Die Verteilung PX eines n-dimensionalen Zufallsvektors X ist genau dann definiert, wenn für beliebige endliche oder unendliche Intervalle I1 , I2 , . . . , In in die Wahrscheinlichkeit R P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) des Ereignisses A = [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] bekannt ist. Beispiel 1.6.2 P (X1 ∈ I1 , X2 ∈ I2 ) = Wahrscheinlichkeit, dass X in das Rechteck I = I1 × I2 fällt. Definition 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn heißen (stochastisch) unabhängig, wenn die Ereignisse [X1 ∈ I1 ], [X2 ∈ I2 ], . . . , [Xn ∈ In ] (stochastisch) unabhängig sind, d.h., P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) = P (X1 ∈ I1 ) · P (X2 ∈ I2 ) · · · · · P (Xn ∈ In ) n Y = P (Xj ∈ Ij ) für beliebige Intervalle I1 , I2 , . . . , In in . (1.51) R j=1 Die Verteilungsfunktion n-dimensionaler Zufallsvektoren X Definition 1.6.3 Die Verteilungsfunktion F = F (x), x ∈ Rn, von X ist definiert durch F (x) = F (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), x ∈ = P (X ≤ x) 42 R (1.52) n 1.6 Mehrdimensionale Zufallsgrössen Bemerkung 1.6.1 Die Ungleichung X ≤ x für Vektoren ist komponentenweise definiert. In Erweiterung von Satz 1.2.1 für reellwertige Zufallsvariablen X hat die Verteilungsfunktion F = F (x) eines Zufallsvektors X folgende Eigenschaften: Satz 1.6.1 a) 0 ≤ F (x) ≤ 1 für alle x ∈ Rn b) F (x) → 1, wenn xk → +∞ für alle k = 1, 2, . . . , n c) F (x) −→ 0, wenn xk → −∞ für mindestens ein k = 1, 2, . . . , n d) F (x) ist in Bezug auf jede Variable xk rechtsseitig stetig e) F (x1 , +∞, . . . , +∞) := lim xk →+∞ k=2,3,...,n F (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 ) =: F1 (x1 ) Analoge Formeln gelten für X2 , . . . , Xn : F (+∞, x2 , +∞, . . . , +∞) = P (X2 ≤ x2 ) = F2 (x2 ) .. . F (+∞, +∞, · · · + ∞, xn ) = P (Xn ≤ xn ) = Fn (xn ), wobei Fk = Fk (xk ) die Verteilungsfunktion der Zufallsvariablen Xk , k = 1, 2, . . . , n, bezeichnet. Bemerkung 1.6.2 Die Verteilung PXk der Komponenten Xk von X ergibt sich somit aus der Verteilung PX von X = (X1 , . . . , Xk , . . . , Xn ) : PX −→ PXk , k = 1, 2, . . . , n. Definition 1.6.4 Die Verteilungen PX1 , PX2 , . . . PXn der Komponenten X1 , X2 , . . . , Xn des Zufallsvektors X = (X1 , X2 , . . . , Xn )T heißen die Randverteilungen der Verteilung PX von X. Mit Hilfe der Verteilungsfunktionen F = F (x) und Fk = Fk (xk ), k = 1, . . . , n lässt sich die Unabhängigkeit von X1 , . . . , Xn wie folgt charakterisieren: Satz 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn n Y (1.53) F (X1 , X2 , . . . , XN ) = Fk (xk ) für alle x ∈ n . R k=1 1.6.1 Verteilungstypen Definition 1.6.5 Diskrete Verteilungen. Der Zufallsvektor X hat eine diskrete Verteilung PX , wenn nur endlich oder abzählbar unendlich viele Vektoren x01 , x02 , . . . , x0r und Wahrscheinlichkeiten p1 , p2 , . . . , pr existieren, so dass pj > 0, j = 1, 2, . . . , r N (r ∈ oder r = ∞) r X pj = 1 (1.54a) (1.54b) j=1 und P (X = x0j ) = P (X1 = x0j1 , X2 = x0j2 , . . . , Xn = x0jn ) = pj , j = 1, 2, . . . , r. (1.54c) 43 1 Ereignisse und Wahrscheinlichkeiten Die Verteilungsfunktion eines Zufallsvektors X mit diskreter Verteilung PX hat die Form F (x) = F (x1 , x2 , . . . , xn ) = X pj (1.55) x0j ≤x Nach Bemerkung 1.6.1 ist die Vektorungleichung x0j ≤ x, durch x0jk ≤ xk , k = 1, 2, . . . , n, definiert. Definition 1.6.6 Stetige Verteilungen. Die Zufallsvariable X hat eine stetige Verteilung PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) in der Form eines Bereichsintegrals (im n ) Z Z (1.56a) F (x1 , x2 , . . . , xn ) = · · · f (t)db R t≤x dargestellt werden kann, wobei f = f (x) die (Wahrscheinlichkeits-)Dichte von PX (von X) ist. Es gilt R f = f (t) ≥ 0 für alle t ∈ n Z Z Z+∞ Z+∞ ··· f (t) db = · · · f (x)db = 1. −∞ Rn −∞ Es gilt natürlich f (x1 , . . . , xn ) = ∂n F (x1 , x2 , . . . , xn ). ∂x1 ∂x2 . . . ∂xn (1.56b) Bemerkung 1.6.3 Die Verteilungsfunktion F lässt sich auch darstellen durch das Mehrfachintegral Zx1 Zxn ··· F (x1 , x2 , . . . , xn ) = −∞ f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn . (1.56a’) −∞ Satz 1.6.3 Hat X eine stetige Verteilung, so haben alle Komponenten X1 , X2 , . . . , Xn von X ebenfalls eine stetige Verteilung. Beweis: Nach Satz 1.6.1e gilt für X1 F1 (x1 ) = P (X1 ≤ x1 ) = F (x1 , +∞, . . . , +∞) Zx1 Z+∞ Z+∞ = ... f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn . −∞ −∞ Zx1 = −∞ 44 −∞ +∞ +∞ Z Z dt1 ... f (t1 , t2 , . . . , tn ) dt2 . . . dtn . −∞ −∞ 1.6 Mehrdimensionale Zufallsgrössen Somit ist X1 stetig verteilt und hat die (Rand-)Dichte Z+∞ Z+∞ f1 (x1 ) = ... f (x1 , t2 , . . . , tn ) dt2 . . . dtn . −∞ (1.57) −∞ Analog zeigt man die Behauptung für X2 , . . . , Xn . Unabhängigkeit bei stetiger Verteilung: Satz 1.6.4 X habe eine stetige Verteilung PX mit der Dichte f = f (x) und f1 (x1 ), . . . , fn (xn ) seien die Dichten der Komponenten X1 , . . . , Xn von X. Dann sind die Zufallsvariablen X1 , . . . , Xn genau dann unabhängig, wenn f (x1 , x2 , . . . , xn ) = n Y fk (xk ) für alle (x1 , . . . , xn )0 ∈ Rn . (1.58) k=1 Beweis: Der Beweis folgt aus der Darstellung F (x) = n Y Fj (xj ) für die Verteilungsfunktion j=1 bei unabhängigen Zufallsvariablen X1 , . . . , Xn . R Beispiel 1.6.3 Gleichverteilung im 2 Bei beliebigen Schüssen oder Würfen auf eine Zielscheibe B0 lässt sich die Wahrscheinlichkeit P (X ∈ B) eines Treffers X = (X, Y ) in einem bestimmten Teilbereich B der Scheibe B0 wie folgt approximativ darstellen: P (X ∈ B) = Fläche von B m(B) = . Fläche von B0 m(B0 ) Gibt es außerhalb von B0 keine Treffer, so hat dann X folgende Wahrscheinlichkeitsdichte: 1 , falls x ∈ B0 m(B0 ) f (x) = 0, falls x 6∈ B0 . 45 1 Ereignisse und Wahrscheinlichkeiten Im Fall einer rechteckigen Scheibe B0 mit B0 = {x ∈ R2 : a 1 ≤ x 1 ≤ a 2 , b 1 ≤ x 2 ≤ b 2 } gilt 1 , m(B0 ) x ∈ B0 f (x1 , x2 ) = = 0, sonst = f1 (x1 ) · f (x2 ). Dabei ist 1 , (a2 −a1 )(b2 −b1 ) 0, x ∈ B0 sonst 1 , a 1 ≤ x 1 ≤ a2 f1 (x1 ) = a2 − a1 0, sonst die W –Dichte von X1 und 1 , b 1 ≤ x 2 ≤ b2 f2 (x2 ) = b2 − b1 0, sonst die W –Dichte von X2 . In diesem Fall sind die Komponenten X1 , X2 von X stochastisch unabhängig. Beispiel 1.6.4 n-dimensionale Normalverteilung N (m, Q) Die n-dimensionale Normalverteilung N (m, Q) hat die Dichte 1 1 T −1 exp − (x − m) Q (x − m) , x ∈ f = f (x) = (2π)n/2 (det Q)1/2 2 wobei m ∈ Rn , (1.59) Rn ein fester n-Vektor und Q eine positiv definite, symmetrische n × n Matrix ist. T Bemerkung 1.6.4 Ein normalverteilter Zufallsvektor X = (X1 , . . . , Xn ) hat genau dann σ12 0 2 σ2 unabhängige Komponenten X1 , X2 , . . . , Xn , wenn Q = eine Diagonal. . . 0 2 σn 2 matrix mit positiven Diagonalelementen σk , k = 1, . . . , n, ist. Jede Komponente Xk von X hat dann eine Normalverteilung N (mk , σk2 ) mit Erwartungswert mk und Varianz σk2 , k = 1, . . . , n. 1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen Definition 1.6.7 Erwartungswert. Unter dem Erwartungswert µ = EX des n-dimensionale Zufallsvektors X versteht man den n-Vektor µ = (µ1 , µ2 , . . . , µn )T = (EX1 , EX2 , . . . , EXn )T := EX (1.60) der Erwartungswerte EXk der Komponenten Xk von X. 46 1.6 Mehrdimensionale Zufallsgrössen Beispiel 1.6.5 Hat X eine N (m, Q)-Normalverteilung, so gilt µ = EX = m. Sei X = (X1 , X2 , . . . , Xn )T eine n-dimensionale Zufallsgröße. Dann sind natürlich auch die Produkte (Xi − EXi )(Xj − EXj ), i, j = 1, . . . , n wieder (reelle) Zufallsvariablen. Definition 1.6.8 cov(Xi , Xj ) := E(Xi − EXi )(Xj − EXj ) heißt die Kovarianz der Zufallsvariablen Xi , Xj . Spezialfall: Ist i = j, so gilt nach Korollar 1.5.1 cov(Xi , Xi ) = E(Xi − EXi )(Xi − EXi ) = E(Xi − EXi )2 = V (Xi ) (Varianz von Xi ). Definition 1.6.9 Die Matrix aller Kovarianzen/Varianzen V (X1 ) cov(X1 , X2 ) · · · cov(X1 , Xn ) cov(X2 , X1 ) V (X2 ) · · · cov(X2 , Xn ) Λ = cov(Xi , Xj ) = .. .. .. i,j=1,...,n . . . cov(Xn , X1 ) cov(Xn , X2 ) · · · V (Xn ) (1.61) (1.62) heißt die Kovarianzmatrix von X Bemerkung 1.6.5 Wegen cov (Xi , Xj ) = cov(Xj , Xi ) ist Λ symmetrisch. Ferner ist Λ positiv (semi–)definit. Beispiel 1.6.6 Hat X eine n-dimensionale Normalverteilung N (m, Q), dann ist Λ = Q. Somit ist die n-dimensionale Normalverteilung eindeutig bestimmt durch Mittelwert µ und Kovarianzmatrix Λ, also N (m, Q) = N (µ, Λ). 1.6.3 Funktionen mehrdimensionaler Zufallsgrössen Wie aus den Definitionen 1.6.7 und 1.6.8 ersichtlich ist, werden Erwartungswert und Kovarianzen von X durch Erwartungswerte EY gewisser Funktionen Y = ϕ(X) definiert. So ist z.B. EXk = Eϕi (X) mit ϕk (x) := xk , k = 1, . . . , n, cov(Xi , Xj ) = Eϕij (X) mit ϕij (x) := (xi − EXi )(xj − EXj ), i, j = 1, . . . , n. Analoges gilt auch für andere Masszahlen von X. Funktionen Y = ϕ(X) von vektorwertigen Zufallsvariablen treten aber auch in sehr viel anderen Anwendungen auf, siehe z.B. die bereits in Abschnitt 1.5 erwähnten Beispiele: Ohmsches Gesetz, dynamische Systeme mit stochastisch variablen Inputgrößen. Man hat also oft die folgende Situation: 47 1 Ereignisse und Wahrscheinlichkeiten Damit ist dann Y = ϕ(X) = ϕ(X1 , X2 , . . . , Xn ) eine reellwertige Zufallsvariable. Beispiel 1.6.7 Messung einer physikalischen Größe X, z.B. Elastizitätsmodul X = E einer Materialprobe in einem Zugversuch. Führt man n Versuche hintereinander oder parallel durch, so beschreibt die Zufallsvariable Xk die stochastisch variablen Messergebnisse von X = E mit möglichen Werten Xk = xk beim k–ten Versuch, k = 1, . . . , n. Der Zufallsvektor X := (X1 , . . . , Xn )T beschreibt dann die Gesamtheit der n stochastisch variablen Messergebnisse bei den n Messungen mit den möglichen Werten X = x = (x1 , . . . , xn )T . Wählt man nun z.B. die Funktion n 1X xk , y = ϕ(x) = ϕ(x1 , . . . , xn ) := n k=1 so beschreibt die Zufallsvariable Y := ϕ(X) = 1 (X1 + X2 + . . . + Xn ) n die bei je n Messungen des Elastizitätsmoduls E auftretenden Mittelwerte n y= 1X xk . n k=1 Dieser Wert wird auch mit x bezeichnet, also n 1X xk . x := n k=1 48 1.6 Mehrdimensionale Zufallsgrössen Erwartungswert von Funktionen mehrdimensionaler Zufallsvariablen Sei X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor und ϕ = ϕ(x) = ϕ(x1 , x2 , . . . , xn ) eine reellwertige Funktion von x = (x1 , x2 , . . . , xn )T . Der Erwartungswert EY der Zufallsvariablen Y := ϕ(X) = ϕ(X1 , X2 , . . . , Xn ) (1.63a) lässt sich wie folgt berechnen: Satz 1.6.5 Pr 0 X hat eine diskrete Verteilung j=1 ϕ(xj )pj , +∞ +∞ R R ϕ(x1 , . . . , xn )f (x1 , . . . , xn ) dx1 dx2 . . . dxn , ··· EY = Eϕ(X1 , X2 , . . . , Xn ) = −∞ −∞ X hat eine stetige Verteilung mit der Dichte f (x) Beweis: Wie Satz 1.5.2. Das Bisherige lässt sich ohne Weiteres auf vektorwertige Funktionen von Zufallsvektoren übertragen: Der Zufallsvektor Y sei als Vektorfunktion von X wie folgt definiert: ϕ1 (X) Y1 ϕ2 (X) Y2 Y = .. := (1.63b) .. . . Yn ϕm (X) mit gegebenen Funktionen yL = ϕk (x), k = 1, . . . , n. Den Erwartungswert EY definiert man dann wieder komponentenweise durch EY := (EY1 , EY2 , . . . , EYm )T , wobei die Erwartungswerte EYi = Eϕi (X), i = 1, . . . , m, mit Satz 1.6.5 berechnet werden können. 1.6.3.1 Erwartungswerte spezieller Funktionen von X Ist X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor, so benötigt man sehr oft Eigenschaften der Zufallsvariablen S= s X Xk = X1 , X2 + · · · + Xn , T = k=1 Satz 1.6.6 n Y Xk = X1 · X2 · · · · · Xn . (1.64) k=1 a) Für beliebige Zufallsvariablen Xk , k = 1, . . . , n, gilt E n X k=1 Xk = n X EXk , (1.65a) k=1 49 1 Ereignisse und Wahrscheinlichkeiten b) Sind X1 , X2 , . . . , Xn unabhängige Zufallsvariable, dann gilt ! n n n n Y Y X X E Xk = EXk und V Xk = V (Xk ). k=1 k=1 k=1 (1.65b) k=1 Beweis: a) E n X Xk = k=1 n X EXk k=1 Setzt man zum Beweis dieser Gleichung ϕ(x) = x1 + x2 + · · · + xn , so folgt für stetig verteilte Zufallsvariablen (für diskrete Verteilungen geht alles analog): E n X ! Z+∞ Z+∞ X n Xk = Eϕ(X1 , . . . , XN ) = ··· xk f (x) dx, k=1 −∞ k=1 −∞ +∞ = n Z X Z+∞ ··· xk f (x) dx k=1 −∞ = n X −∞ Z+∞ Z+∞ Z+∞ Y dxk xk ··· f (x1 , . . . , xk−1 , xk , xk+1 , . . . xn ) dxj k=1 −∞ −∞ | j6=k −∞ fk (xk )= Dichte {z von PXk (gemäss Satz 1.6.3) } +∞ = n Z X Z+∞ n X EXk . ··· xk fk (xk ) dxk = k=1 −∞ k=1 −∞ b) Seien X1 , . . . , Xn unabhängige, stetig verteilte Zufallsvariablen. Nach Satz 1.6.4 besteht dann zwischen der Dichte f (x) von X und den Dichten fk (xk ), k = 1, . . . , n, folgende Beziehung: f (x) = f1 (x1 ) · fx (x2 ) · · · · · fn (xn ). b1) Zum Beweis von E n Y Xk = k=1 n Y EXk setzen wir ϕ(x1 , . . . , xn ) = k=1 n Y xk . k=1 Es gilt dann E n Y k=1 XK ! ! n Z+∞ Z+∞ Y Z+∞ Z+∞ Y n n Y = xk f (x) dx = ··· xK fk (xk ) dx ··· −∞ −∞ k=1 −∞ −∞ k=1 k=1 +∞ Z+∞ Z+∞Y n n Z n Y Y = ··· xk fk (xk ) dxk = xk fk (xk ) dxk = EXk . −∞ −∞ k=1 k=1−∞ b2) Zu zeigen ist die Gleichung: V (X1 + · · · + Xn ) = n X k=1 50 k=1 V (Xk ) 1.6 Mehrdimensionale Zufallsgrössen Nach Korollar 1.5.1 gilt zunächst fürs beliebige Zufallsvariablen X1 , . . . , Xn : V n X ! Xk n X = E k=1 Xk − E k=1 = n X n X !2 Xk =E k=1 n X !2 (Xk − EXk ) = k=1 n X E (Xk − EXk )(Xl − EXl ) = cov(Xk , Xl ), k,l=1 k,l=1 siehe Definition1.6.8. Wir halten also zunächst folgendes Zwischenergebnis fest: Satz 1.6.7 Für beliebige Zufallsvariablen X1 , X2 , . . . , Xn gilt: V n X k=1 ! Xk = n X cov(Xk , Xl ) = k,l=1 n X V (Xk ) + 2 k=1 X cov (Xk , Xl ). (1.66a) k<l Nach Satz 1.6.6a, b1 und Satz 1.5.5 gilt cov(Xk , Xj ) = E(Xk − EXk )(Xj − EXj ) = E (Xk Xj − Xk EXj − Xj EXk + (EXk )(EXj )) = EXk Xj − E(Xk EXj ) − E(Xj EXk ) + (EXk )(EXj ) = EXk Xj − (EXk )(EXj ). (1.66b) Der Rest des Beweises von Satz 1.6.6b ergibt sich jetzt wie folgt: Sind X1 , X2 , . . . , Xn nun unabhängige Zufallsvariablen, so gilt nach Satz 1.6.6,(b1) die Gleichung EXk Ej = EXk EXj für alle k 6= j. Daraus folgt jetzt cov(Xk , Xl ) = 0 für k 6= l, also ! n n X X V Xk = V (Xk ). k=1 k=1 Bemerkung 1.6.6 Sind X1 , X2 unabhängig, so gilt EX1 X2 = EX1 EX2 . Wegen cov (X1 , X2 ) = EX1 · X2 − EX1 · EX2 hat man die Beziehung EX1 · X2 = EX1 · EX2 ⇔ cov(X1 , X2 ) = 0. (1.67a) Sind X1 , X2 stochastisch unabhängig, so gilt also cov (X1 , X2 ) = 0. Man definiert daher: Definition 1.6.10 X1 , X2 heißen unkorreliert, wenn cov (X1 , X2 ) = 0, also EX1 · X2 = EX1 · EX2 . (1.67b) Bemerkung 1.6.7 Unabhängige Zufallsvariablen X1 , X2 sind stets unkorreliert, die Umkehrung gilt i.a. aber nicht. 51 1 Ereignisse und Wahrscheinlichkeiten 1.7 Regression (der Grundgesamtheit) Bei der Regression geht es um die Untersuchung der Beziehung zwischen verschiedenen Zufallsvariablen. Im Folgenden betrachten wir zwei Zufallsvariablen X und Y . Beispiel 1.7.1 a) X = Größe des Vaters, Y = Größe des Sohnes b) X = Blutdruck, Y = Herzgewicht c) X = Eisengehalt eines Erzes, Y = Dichte des Erzes Trägt man nun eine gewisse Anzahl n von Realisierungen xykk , k = 1, . . . , n, von kartesischen Koordinatensystem auf, so ergibt sich oft folgendes Bild: X Y in einem Dieser Befund führt nun sofern zur Vermutung, dass zwischen X und Y eine lineare Beziehung bestehen muss, die von einer gewissen stochastischen Störung ε überlagert wird: Y = aX + b + ε. Für die einzelnen Realisierungen xk yk (1.68a) , k = 1, . . . , n, gilt entsprechend: yk = axk + b + εk , k = 1, . . . , n. (1.68b) Dabei sind a, b unbekannte, feste Koeffizienten, und ε ist eine stochastische Störgröße mit nicht beobachtbaren Realisierungen εk , k = 1, 2, . . . , n. Bestimmung der Regressionsgeraden Das Problem ist nun die Bestimmung der unbekannten Koeffizienten a, b, d.h., die Bestimmung der sogenannten Regressionsgeraden y = ax + b. (1.69) Nach der sehr häufig verwendeten Methode der kleinsten Quadrate (Least Square Method (LSQ)) betrachtet man dazu (Fall der Regression der Grundgesamtheit) den erwarteten quadratischen Fehler: Q := Eε2 = E(Y − aX − b)2 = Q(a, b). (1.70) 52 1.7 Regression (der Grundgesamtheit) Die unbekannten Koeffizienten a, b werden dann bestimmt durch Minimierung von Q = Q(a, b), also durch die Lösung des konvexen, quadratischen Optimierungsproblems min Q(a, b). a,b∈ R (1.71) Nun ist nach (1.70) und früheren Definitionen/Eigenschaften 2 2 2 Q(a, b) = E Y + (aX) + b − 2aXY − 2Y b + 2abX = EY 2 + a2 EX 2 + b2 − 2aEXY − 2bEY + 2abEX. Die notwendigen und hinreichenden Bedingungen für die optimalen Koeffizienten a∗ , b∗ lauten dann: ∂Q = 2aEX 2 + 2bEX − 2EXY ∂a ∂Q 0 = = 2aEX + 2b − 2EY. ∂b 0 = (1.72a) (1.72b) Somit hat man für a∗ , b∗ das LGS aEX 2 + bEX = EXY aEX + b = EY. Mit der Cramerschen Regel ergibt sich jetzt EXY EX EY 1 EXY − EX · EY cov(X, Y ) = = a∗ = 2 2 EX − (EX) V (X) V (X) und EX 2 EXY EX EY b∗ = V (X) = EX 2 · EY − EX · EXY . V (X) (1.73a) (1.73b) (1.74a) (1.74b) Setzt man EX 2 = V (X) + (EX)2 in (1.74b) ein, so gilt auch V (X) + (EX)2 · EY − EX · EXY EX b∗ = = EY − (EXY − EX · EY ) V (X) V (X) cov(X, Y ) = EY − EX = EY − a∗ EX. (1.75) V (X) Somit hat man die Regressionsgerade y = a∗ x + b∗ = a∗ x + EY − EXa∗ cov(X, Y ) = EY + a∗ (x − EX) = EY + (x − EX). V (X) (1.76) 53 1 Ereignisse und Wahrscheinlichkeiten 1.7.1 Regression einer Stichprobe von (X, Y) Stützt man sich bei der Bestimmung der Regressionsgeraden y = ax+b nur auf eine Stichprobe von (X, Y ), d.h. auf eine gewisse Anzahl n von Realisierungen oder Beobachtungen (x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn ) von (X, Y ), so wird zur Bestimmung von a, b der erwartete quadratische Fehler Q = Q(a, b) einfach ersetzt durch den mittleren quadratischen Fehler n 1X (yk − axk − b)2 . Qn (a, b) := n i=1 (1.70’) Die Bestimmung von a∗ = a∗n und b∗ = b∗n verläuft dann wie vorher. 1.8 Quantile 1.8.1 Mediane Mediane oder Zentralwerte einer reellwertigen Zufallsvariablen X sind wie folgt definiert: Definition 1.8.1 Ein Median oder Zentralwert an einer Zufallsvariablen X ist eine Masszahl m von PX , die die folgende Ungleichung erfüllt: lim F (x) ≤ x→m x<m 1 ≤ F (m). 2 (1.77a) Im Falle stetiger Verteilungen ist ein Median m eine Lösung der Gleichung 1 F (m) = , 2 wobei F = FX die Verteilungsfunktion von X ist. Beispiel 1.8.1 Ist X eine N (µ, σ 2 )–Verteilung, dann gilt m = µ = EX. 54 (1.77b) 1.8 Quantile 1.8.2 Quantile (der Ordnung α) Die sogenannten α–Quantile werden analog zu (1.77a) definiert: Definition 1.8.2 Sei α ein gegebener, fester Wert mit 0 < α < 1. Ein α–Quantil xα ist eine Masszahl von PX , die folgende Ungleichung erfüllt: lim F (x) ≤ α ≤ F (xα ). x→xα x<xα (1.78a) Im Falle stetiger Verteilungen erfüllt ein α–Quantil xα die Gleichung F (xα ) = α, (1.78b) wobei F = FX die Verteilungsfunktion von X ist. 55 1 Ereignisse und Wahrscheinlichkeiten 56 2 Statistische Methoden 2.1 Praktische Berechnung von Wahrscheinlichkeiten 2.1.1 Klassische Definition der Wahrscheinlichkeit Experimentelle Situation: Viele praktische Ungewissheitssituationen kann man mit Hilfe von Experimenten E folgender Art beschreiben: Es gibt eine endliche Anzahl n gleichmöglicher (gleichwahrscheinlicher) sogenannter Elementarereignisse (E.E.) E1 , E2 , . . . , Ej , . . . , En , die sich gegenseitig ausschließen, so dass gilt: Zu jedem anderen Ereignis E, das im Experiment E vorkommen kann, gibt es eine Menge {Ej : j ∈ JE }, JE ⊂ {1, 2, . . . , n}, von Elementarereignissen, so dass E genau dann eintritt, wenn eines der Elementarereignisse Ej , j ∈ JE , eintritt. Man schreibt dann auch X [ E= Ej oder E = Ej (2.1a) j∈JE j∈JE Die Ereignisse Ej , j ∈ JE , heißen dann die für E günstigen Elementarereignisse. Für irgend ein Ereignis sei m(E) := |JE | = Anzahl der Elemente von JE = Anzahl der für E günstigen Elementarereignisse. (2.1b) Nach Voraussetzung ist n die Gesamtzahl der Elementarereignisse, d.h. die Anzahl der möglichen Elementarereignisse. Dies führt nun zu folgender Definition 2.1.1 Klassische Definition der Wahrscheinlichkeit, Definition nach Laplace m(E) oder P (E) (= Wahrscheinlichkeit von E):= n P (E) = Anzahl der für E günstigen Elementarereignisse Anzahl der günstigen Fälle = . Anzahl der möglichen Elementarereignisse Anzahl der möglichen Fälle (2.1c) Bemerkung 2.1.1 P (Ej ) = nisse). 1 n für jedes j = 1, . . . , n (gleichwahrscheinliche Elementarereig- 57 2 Statistische Methoden Beispiel 2.1.1 Seien X, Y die Augenzahlen beim Würfeln mit 2 homogenen Würfeln. Elementarereignisse: Ej = (xj , yj ), 1 ≤ xj , yj ≤ 6, also n = 36. Für das Ereignis E = [X = gerade, Y = gerade ] hat man die folgenden ”günstigen Fälle”: (2,2), (2,4), (2,6),(4,2), (4,4), (4,6), (6,2), (6,4), (6,6). Somit ist m(E) = 9 und damit nach Definition 2.1.1 9 1 m(E) = = . P (E) = n 36 4 2.2 Approximation von Wahrscheinlichkeiten durch relative Häufigkeiten 2.2.1 Stichproben Sei E ein Experiment und X eine Zufallsvariable, die die möglichen Resultate (inkl. Wahrscheinlichkeiten) des Experiments E beschreibt. Das Experiment E werde nun n mal hintereinander ausgeführt, wobei die einzelnen Versuche voneinander unabhängig seien. Es ergibt sich somit folgendes Versuchsprotokoll: 1 2 3 ··· k ··· n Versuchs-Nr. k Resultat = Realisation xk x1 x2 x3 · · · xk · · · xn von X im k-ten Versuch Definition 2.2.1 Die n unabhängigen Realisationen x1 , x2 , . . . , xn von X im Experiment E heißen eine Stichprobe x = (x1 , x2 , . . . , xn ) von X mit dem Stichprobenumfang n. Bemerkung 2.2.1 Eine Stichprobe x = (x1 , . . . , xn ) kann ebenfalls aufgefasst werden als eine Realisation des Zufallsvektors X = X (n) = (X1 , X2 , . . . , Xn ), (2.2) wobei X1 , X2 , . . . , Xn unabhängige Zufallsvariablen sind, so dass PX1 = PX2 = · · · = PXn = PX . Xj beschreibt dann die möglichen Resultate und Wahrscheinlichkeiten des Experiments Ej , wobei E1 , . . . , En unabhängige Wiederholungen desselben Experiments E sind. 2.2.2 Relative Häufigkeiten Gegeben sei eine Stichprobe x = (x1 , x2 , . . . , xn ) von X. Ferner sei E ein Ereignis, z.B. E = [X ∈ B] mit einer Teilmenge B ⊂ . R 58 2.2 Approximation von Wahrscheinlichkeiten 59 Abbildung 2.1: Erzeugung von Stichproben 2 Statistische Methoden Definition 2.2.2 Unter der relativen Häufigkeit hn (E) eines Ereignisses E in n Versuchen versteht man hn (E) = 1 · Anzahl der Versuche, in denen E eingetreten ist. n (2.3a) Speziell ist 1 · Anzahl der Stichprobenwerte xj , die in B liegen n n 1X = 1B (xj ), n j=1 hn (X ∈ B) = wobei 1B (x) = 0, x 6∈ B Indikatorfunktion von B 1, x ∈ B (2.3b) (2.3c) die sogenannte Indikatorfunktion von B ist. Abbildung 2.2: Indikatorfunktion Experimenteller Befund: Für ”große” Stichprobenumfänge n ist die relative Häufigkeit hn (E) von E oft nahezu konstant: Stabilität der relativen Häufigkeit von E für große n. Dies führt zu folgender Wahrscheinlichkeitsdefinition: Definition 2.2.3 Statistische Definition der Wahrscheinlichkeit P (E) ≈ hn (E) für genügend großes n oder P (E) = ”lim” hn (E), n→∞ wobei der Grenzwert ” lim ” in einem gewissen wahrscheinlichkeitstheoretischen Sinn definiert n→∞ wird. Anwendung: Approximative Bestimmung von Wahrscheinlichkeitsverteilungen 60 2.3 Approximative Bestimmung der Verteilung a) X hat eine diskrete Verteilung PX x01 , . . . , x0r .. = ... . p1 , . . . , pr In diesem Fall gilt xj ∈ {x01 , . . . , x0r } für beliebige j ∈ pk = P (X = x0k ) ≈ hn (X = x0k ) = N und somit 1 · Anzahl der Stichprobenwerte xj mit xj = x0k . n (2.4a) b) PX hat eine stetige Verteilung mit der Dichte f (x) Nach (1.19a-c) gilt f (x) ≈ 1 1 P (x < X ≤ x + ∆x) ≈ hn (x < X ≤ x + ∆x) (2.4b) ∆x ∆x 1 1 = · · Anzahl der Werte xj , ∆x n die ins Intervall (x, x + ∆x] fallen. 2.3 Approximative Bestimmung der Verteilung Gegeben sei eine beliebige Zufallsvariable X. Oft ist eine Stichprobe x = (x1 , . . . , xn ) von X die einzige Information über die Verteilung PX von X. 2.3.1 Empirische Verteilungsfunktion Approximiert man in der Verteilungsfunktion F (x) einer Zufallsvariablen X, siehe Definition 1.2.1, die Wahrscheinlichkeiten durch relative Häufigkeiten n 1X 1(−∞,x] (xj ), F (x) := P (X ≤ x) ≈ hn (X ≤ x) = n j=1 so erhält man die empirische Verteilungsfunktion von X: Definition 2.3.1 Empirische Verteilungsfunktion Fn (x) n 1X Fn (x) := hn (X ≤ x) = 1(−∞,x] (xj ). n j=1 (2.5) Es gilt: a) 0 ≤ Fn (x) ≤ 1 b) Fn ist eine Treppenfunktion c) x < y ⇒ Fn (x) ≤ Fn (y) d) Fn ist stetig von rechts e) x < min1≤j≤n xj ⇒ Fn (x) = 0, x ≥ max1≤j≤n xj ⇒ Fn (x) = 1. 61 2 Statistische Methoden 2.3.2 Empirische Momente Sei x = (x1 , . . . , xn ) eine Stichprobe einer Zufallsvariablen X. a) X hat eine diskrete Verteilung PX = x01 x02 · · · x0r p1 p2 · · · pr . Es gilt also xj ∈ {x01 , . . . , x0r }, j = 1, 2, . . . , n. Nach Definition 1.4.3 und mit (2.4a) folgt mk = r X (x0s )k ps ≈ s=1 r X (x0s )k hn (X = x0s ) s=1 1 = n = r X s=1 r X X s=1 xkj xj =x0s 1 (x0s )k · Anzahl xj mit xj = x0s | {z } n | {z } n 1X = (xj )k . n j=1 b) X hat eine stetige Verteilung mit Dichte f (x) Mit Definition 1.4.3 und (2.4b) ergibt sich in diesem Fall Z+∞ T T X X (x∗t )k P (x∗t < X ≤ x∗t+1 ) (x∗t )k f (x∗t )∆x ∼ mk = xk f (x) dx ≈ = | {z } t=1 t=1 −∞ T X ≈ (x∗t )k hn (x∗t < X ≤ x∗t + ∆x). t=1 Dabei sind x∗t , t = 1, . . . , T + 1, äquidistante Punkte mit x∗t+1 − x∗t = ∆x. Daraus folgt mk ≈ T X k x∗t · t=1 1 · Anzahl xj mit x∗t < xj ≤ x∗t + ∆ n T = 1 X ∗k (x · Anzahl xj mit x∗t < xj ≤ x∗t + ∆) {z } n t=1 | t ≈ T X 1X xk n t=1 x∗ <x ≤x∗ +∆ j j t = 1 n n X t xkj . j=1 Als Näherungswert für das k-te Moment mk ergibt sich somit in beiden Fällen n 1X k x =: k − tes empirisches Moment mk ≈ n j=1 j = arithmetisches Mittel von xk1 , . . . , xkn . 62 (2.6a) 2.3 Approximative Bestimmung der Verteilung Speziell ist n µ = m1 1X xj = Mittelwert der Stichprobe ≈ x := n j=1 (2.6b) n m2 1X 2 x. ≈ n j=1 j (2.6c) Eine Folgerung: Näherungswert für die Varianz σ 2 = E(X − EX)2 = m2 − m21 1. Möglichkeit Ersetzt man m1 , m2 durch die empirischen Momente n 1X 2 m1 ≈ x, m2 ∼ x, = n j=1 j so ergibt sich n n 1X 2 1X σ ≈ xj − (x)2 = (xj − x)2 . n j=1 n j=1 2 (2.7) Diese Näherungsformel weist gewisse Nachteile auf, die später ersichtlich werden. Sie wird deshalb meistens ersetzt durch die nächste Näherungsformel. 2. Möglichkeit n σ 2 ≈ s2 := 1 X (xj − x)2 =: Varianz der Stichprobe. n − 1 j=1 Die Standardabweichung der Stichprobe ist dann definiert durch v u n u 1 X s := t (xj − x)2 . n − 1 j=1 (2.8a) (2.8b) Im Folgenden untersuchen wir nun die Genauigkeit der oben definierten Näherungswerte für Momente. 2.3.3 Schätzung von µ = EX durch x Gegeben sei im Folgenden eine Stichprobe x = (x1 , x2 , . . . , xn ) einer Zufallsvariablen X mit µ = EX. Nach Bemerkung 2.2.1, siehe auch Figur 2.2.1, ist dann x = (x1 , . . . , xn ) auch eine Realisation von X = (X1 , X2 , . . . , Xn ), wobei X1 , . . . , Xn unabhängige Zufallsvariable mit PXj = PX , j = 1, . . . , n, (also identisch verteilte Zufallsvariable) sind. Als sog. Schätzfunktion für den Erwartungswert µ = EX von X hat man dann gemäss (2.6b) das arithmetische Mittel n 1X x = x(x1 , . . . , xn ) := xj . n j=1 (2.9) Offensichtlich gilt: 63 2 Statistische Methoden Der Schätzwert x = fallsvariablen 1 n Pn j=1 xj ist eine Realisation des Schätzers, d.h. der Zun 1X X := Xj . n j=1 (2.10) P Zu untersuchen ist somit die Zufallsvariable X = n1 nj=1 Xj , denn PX beschreibt die Verteilung der Schätzwerte x von µ. Insbesondere ist der Erwartungswert EX und die Varianz σ 2 (X) des Schätzers X zu bestimmen. Nach den Sätzen 1.5.3 und 1.6.6 gelten für beliebige Zufallsvariable U, V und a, b ∈ die Gleichungen R a) E(aU + b) = aEU + b b) E(U + V ) = EU + EV c) EU · V = EU · EV , falls U, V unabhängig sind. Bemerkung 2.3.1 Mittels vollständiger Induktion lassen sich diese Formeln ohne weiteres ausdehnen auf beliebig viele Zufallsvariablen U1 , U2 , . . . , Un . Im Folgenden berechnen wir nun Erwartungswert und Varianz von X: a) Der Erwartungswert von X n 1X Nach dem Vorangehenden erhält man für den Schätzer X = Xj folgende Bezien j=1 hungen n n n 1X 1X 1 X Xj = EX = E Xj = E EXj . n j=1 n j=1 n j=1 Wegen PXj = PX für alle j = 1, . . . , n, hat man EXj = EX = µ, j = 1, . . . , n, also folgendes Ergebnis: Satz 2.3.1 a Erwartungswert von X EX = µ = EX, (2.11) d.h. im Mittel trifft der Schätzer X den richtigen Wert µ. Man sagt deshalb auch, n X X oder die Schätzfunktion x = n1 xj sei erwartungstreu. j=1 b) Die Varianz von X Mit Korollar 1.5.1 und der obigen Gleichung (2.11) gilt 2 2 σ 2 (X) = E(X − EX)2 = EX − (EX)2 = EX − µ2 . 64 2.3 Approximative Bestimmung der Verteilung Nun ist n 2 X = 1X Xj n j=1 !2 n 1 X = 2 Xi Xj , n i,j=1 also folgt mit Satz 1.5.3, Satz 1.6.6 und der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn EX 2 = 1 n2 n X n n 1 X 1 X 2 EXi Xj = 2 EXj + 2 E(Xi Xj ) n j=1 n i,j=1 i,j=1 i6=j = 1 n2 n X n 1 X EXj2 + 2 EXi EXj . n i,j=1 j=1 i6=j Wegen PXj = PX , j = 1, . . . , n, gilt EXj2 = EX 2 , EXj = EX = µ, j = 1, . . . , n. Somit ist (n2 − n) 2 1 (n − 1) 2 1 2 EX = 2 nEX 2 + µ = EX 2 + µ, 2 n n n n also 2 µ2 − µ2 = n1 EX 2 − n1 µ2 σ 2 (X) = EX − µ2 = n1 EX 2 + n−1 n = n1 (EX 2 − (EX)2 ) = n1 σ 2 (X). Satz 2.3.1b Varianz von X σ 2 (X) = 1 2 σ (X). n (2.12) Bemerkung 2.3.2 Nach (2.12) gilt σ 2 (X) → 0, n → ∞. Je größer also der Stichprobenumfang n ist, umso näher liegen die Schätzwerte x, d.h. die Realisationen x von X beim richtigen Wert µ. 2.3.4 Abschätzung der Abweichung zwischen X und µ Ein entscheidendes Hilfsmittel zur Untersuchung der Abweichung X −µ zwischen dem Schätzer X und dem Erwartungswert µ ist die Ungleichung von Tscheby-scheff: Satz 2.3.2 Sei U eine beliebige Zufallsvariable mit endlichem 2. Moment und c ∈ beliebige Zahl. Dann gilt für jedes > 0 die Tschebyscheffsche Ungleichung P (|U − c| ≥ ) ≤ 1 E(U − c)2 2 R eine (2.13a) Im Spezialfall c = EU folgt dann P (|U − EU | ≥ ) ≤ σ 2 (U ) . 2 (2.13b) 65 2 Statistische Methoden Korollar 2.3.1 Unter den Voraussetzungen von Satz 2.3.2 gilt auch 1 E(U − c)2 2 σ 2 (U ) . P (|U − EU | < ) = 1 − P (|U − EU | ≥ ) ≥ 1 − 2 P (|U − c| < ) = 1 − P (|U − c| ≥ ) ≥1− (2.13c) (2.13d) Beweis von Satz 2.3.2: Hat die Zufallsvariable U eine Dichte fU , so findet man 2 E(U − c) Z+∞ = (u − c)2 fU (u) du = −∞ Z ≥ Z 2 Z (u − c)2 fU (u) du (u − c) fU (u) du + |u−c|≥ |u−c|< 2 fU (u) du = 2 P (|U − c| ≥ ). |u−c|≥ Ganz analog zeigt man diese Ungleichung für diskret verteilte Zufallsvariablen U . Anwendung auf U = X = 1 n n X Xj j=1 Aus Satz 2.3.2 und mit Satz 2.3.1a,b folgt mit σX := σ(X) : P (|X − µ| ≥ ) ≤ 2 1 σX σ 2 (X) = , 2 n 2 also P (|X − µ| < ) ≥ 1 − (2.14) 2 1 σX . n 2 (2.15) Korollar 2.3.2 Für den Schätzer X von µ gilt lim P (|X − µ| < ) = 1 für jedes > 0. n→∞ Wenn also n genügend groß ist, dann liegt µ mit großer Wahrscheinlichkeit W () im Intervall (X − , X + ). Man sagt dann auch, X sei ein konsistenter Schätzer für µ oder x sei eine konsistente Schätzfunktion für µ. Beispiel 2.3.1 Schärfe der Tschebyscheffschen Ungleichung Gegeben sei eine Zufallsvariable X mit der diskreten Verteilung PX = a > 0 ein gegebener Parameter ist. 66 −a 0 a 1 8 3 4 1 8 , wobei 2.4 Konfidenzintervalle (Vertrauensintervalle) Daraus folgt 2 EX = 0, σX = a2 a , σX = . 4 2 Wählt man := 43 a, so folgt in diesem Fall P 3 1 |X| ≥ a = P (X = −a) + P (X = +a) = = 0, 25. 4 4 Aus (2.13b) folgt P 3 |X| ≥ a 4 σ2 a2 ≤ X · = 2 4 4 3a 2 = 4 = 0, 444 . . . , 9 also eine eher schlechte obere Schranke für die untersuchte Wahrscheinlichkeit. Die Schranken in (2.13a,b) können also sehr unscharf sein. 2.4 Konfidenzintervalle (Vertrauensintervalle) Gegeben ist hier eine Zufallsvariable X mit unbekanntem Erwartungswert µ = EX und bekannter Varianz σ 2 = σ 2 (X). Zur Untersuchung der Abweichung zwischen dem Mittelwert x einer Stichprobe x der Zufallsvariablen X und ihrem Erwartungswert µ = EX stellen wir x gemäss (2.10) als Realisation n X 1 der Zufallsvariablen X = n Xj dar. Dabei sind X1 , . . . , Xn unabhängige Zufallsvariablen, j=1 die dieselbe Verteilung wie X haben, also PXj = PX , j = 1, . . . , n, siehe Bemerkung 2.2.1 und Figur 2.2.1. Nach Formel (2.15) gilt dann 1 σx2 . P |X − µ| < = W ≥ 1 − n 2 Sei nun x ein Stichprobenmittel, d.h. eine Realisierung von X. Die obige Ungleichung besagt dann, dass die Ungleichung |x − µ| < oder|µ − x| < also x−<µ<x+ (2.16) 67 2 Statistische Methoden mit Wahrscheinlichkeit W , also in W · 100% der Fälle gilt, wobei W ≥1− Für irgendeine Realisierung x = 1 n n X 1 σx2 . n 2 (2.17) xj von X erhalten wir demnach folgende Aussage: j=1 σ2 Mit Wahrscheinlichkeit W ≥ 1 − n1 X2 liegt der unbekannte Erwartungswert µ im sogenannten Konfidenzintervall (x − , x + ) mit Radius . (2.18) Mittels Konfidenzintervallen lassen sich nun verschiedene Fragen beantworten: Frage 1: Gegeben seien a) eine sogenannte Konfidenzzahl γ, 0 < γ ≤ 1, z.B. γ = 0.95 oder γ = 0.99, und b) ein Radius > 0. Wie groß muss dann der Umfang n einer Stichprobe x1 , x2 , . . . , xn sein, damit µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall x − < µ < x + liegt? Antwort: Gemäss (2.17) hat man hier die Bedingung: W ≥1− 1 σ2 1 σ2 ≥ γ, also 1 − γ ≥ n 2 n 2 Daraus folgt für den Stichprobenumfang n sofort die Bedingung n ≥ n0 := Beispiel 2.4.1 Wählt man γ := 0.99, = n0 = σ2 . (1 − γ)2 (2.19) 1 , so ist 1 − γ = 0.01, 2 = (0.1)2 = 0.01 und damit 10 2 2 σX σX 2 = = 104 σX . (1 − γ)2 (0.01)2 Die Anzahl n der Stichproben kann also sehr hoch sein, was sehr hohe Kosten verursachen kann, wenn z.B. die Proben bei der Untersuchung zerstört werden. Frage 2: Gegeben seien a) eine Konfidenzzahl γ, 0 < γ ≤ 1, und b) eine Stichprobe x1 , x2 , . . . , xn . Wie groß muss der Radius > 0 sein, so dass µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall (2.18) liegt. Antwort: Nach (2.17) lässt sich die Forderung W ≥ γ wieder garantieren durch 2 1 σX ≥ γ. W ≥1− n 2 Daraus ergibt sich für den Radius die Bedingung ≥ 0 mit 0 := √ 68 σX √ . 1−γ n (2.20) 2.4 Konfidenzintervalle (Vertrauensintervalle) Beispiel 2.4.2 Wählt man n = 400, γ = 0.99, so ist 0 = √ √ n = 20, 1 − γ = 0.01 und damit σX σX σX √ = = . 0.1 · 20 2 1−γ n Bemerkung 2.4.1 Die Schranken in (2.19, 2.20) sind in vielen Fällen zu hoch, siehe Beispiel 2.3.1. 2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer Normalverteilung mit bekannter Varianz 2 Im Folgenden sei X normalverteilt mit unbekanntem Mittelwert µ und bekannter Varianz σX . Mit X1 , . . . , Xn bezeichnen wir wieder unabhängige Zufallsvariablen mit derselben Verteilung PXj = PX wie X. Für die durch (2.10) definierte Zufallsvariable X gilt dann der folgende Satz: 2 = Satz 2.4.1 X ist (wieder) normalverteilt mit Erwartungswert µ und Varianz V (X) = σX 2 σX . n Bemerkung 2.4.2 Nach Satz 2.3.1 gilt stets EX = µ, V (X) = 2 σX . n Daraus folgt zunächst: P (|X − µ| < ) = P (µ − < X < µ + ) = P (X < µ + ) − P (X ≤ µ − ) = FX (µ + ) − FX (µ − ), (2.21) wobei FX die Verteilungsfunktion von X ist. Satz 2.4.2 Sei Φ die Verteilungsfunktion der N (0, 1)-Normalverteilung. Ist X eine normalverteilte Zufallsvariable mit EX = µ und V (X) = σ 2 , dann gilt für die Verteilungsfunktion F von X die Darstellung x−µ für alle x ∈ . (2.22) F (x) = Φ σ R Wichtige Eigenschaften der Funktion Φ sind: a) 1 Φ(x) = √ 2π Zx 1 2 e− 2 x dx (2.23a) −∞ b) Φ(0) = 1 2 (2.23b) c) Φ(−x) = 1 − Φ(x) (2.23c) 69 2 Statistische Methoden d) Φ ist streng monoton wachsend, 0 < Φ(x) < 1 für alle x ∈ R. Das Integral in (2.23a) muss numerisch ausgewertet werden, die Werte von Φ(x) müssen also Tabellen entnommen werden. Weitere Darstellungen von Φ(x) erhält man durch Reihenentwicklung. So gilt z.B. 1 − 1 x2 1 2 − S1 , x > 0, Φ(x) = 1 − √ e (2.24) x 2π wobei 0 < S1 < Daraus folgt 1 x3 für x > 0. 1 1 − 1 x2 Φ(x) > 1 − √ e 2 für x > 0 2π x 1 1 − 1 x2 e 2 für große x > 0. Φ(x) ≈ 1 − √ 2π x Nach diesen Vorbereitungen folgt nun aus (2.21) und (2.23c) µ+−µ µ−−µ −Φ P (|X − µ| < ) = FX (µ + ) − FX (µ − ) = Φ σX σ X − = Φ −Φ =Φ − 1−Φ σ σX σX σX X − 1. (2.25) = 2Φ σX Gegeben sei nun eine Realisation x von X, also der Mittelwert x = 1 n n X xj einer Stichprobe j=1 x1 , . . . , xn von X. Wegen (2.25) gilt dann: Mit Wahrscheinlichkeit W = 2Φ −1 σX 70 (2.26) 2.4 Konfidenzintervalle (Vertrauensintervalle) liegt der unbekannte Erwartungswert µ = EX im Konfidenzintervall (x − , x + ). (2.27) Die obigen Fragen 1 und 2 lassen sich nun exakt beantworten: Problem 1: Gegeben seien a) Konfidenzzahl γ, b) Radius > 0. Gesucht ist dann der Stichprobenumfang n einer Stichprobe x1 , . . . , xn , so dass µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall (2.27) liegt. Lösung: Mit ( 2.26) hat man in diesem Fall die Bedingung − 1 ≥ γ. W = 2Φ σX Daraus folgt Φ σX 1 ≥ (1 + γ) 2 oder 1 −1 ≥Φ 1+γ =: c ( Definition von c). (2.28) σX 2 1 Es gilt auch Φ(c) = (1 + γ). Wegen (2.12) ist nun σX = √σn . Damit liefert aber (2.28) die 2 Ungleichung √ · n ≥ c. σ Für den Stichprobenumfang n hat man somit die exakte Bedingung n ≥ n0 := c2 σ 2 . 2 (2.29) Bemerkung 2.4.3 Ohne Verwendung der Information, dass X normalverteilt 2 ist, hat man σ2 2 −1 1 nach (2.19) für n die Bedingung n ≥ n0 := (1−γ)2 , d.h. c = Φ (1 + γ) wird ersetzt 2 1 durch 1−γ . Beispiel 2.4.3 Sei γ = 0.95, = 12 , σ = 2 Aus Gleichung (2.29) folgt unter Verwendung von Tabellen für Φ−1 c2 4 = 16 c2 (1/2)2 1 −1 c = Φ (1 + 0.95) = Φ−1 (0.975) = 1.960 2 n ≥ 16 · (1.96)2 ∼ = 61. n ≥ Aus Ungleichung (2.19), d.h. mit der Tschebyscheffschen Ungleichung, folgt: n≥ 4 16 = = 320 ≈ 5 · 61. 2 (1 − 0.95)(1/2) 0.05 Bemerkung 2.4.4 Durch Verwendung der Information über die Verteilung ergibt sich somit eine ganz erhebliche Reduktion des Stichprobenumfangs n. 71 2 Statistische Methoden Problem 2: Gegeben seien a) Konfidenzzahl γ, b) Stichprobe x1 , . . . , xn Gesucht: Radius , so dass µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall (2.27) liegt. Lösung: Aus Gleichung (2.26) folgt: − 1 ≥ γ. W = 2Φ σX Damit ist √ n 1 −1 ≥ c := Φ (1 + γ) , σ 2 also c ≥ 0 := σX √ . n (2.30) Bemerkung 2.4.5 Ohne die Information, dass X normalverteilt ist, gilt nach (2.20) c 1 . ≥ 0 := σX √ mit c := √ n 1−γ Beispiel 2.4.4 Im Fall γ = 0.95 ist 1 1 =√ ≈4 1− 0.05 γ 1 c (gemäß (2.30), Normalverteilung) = Φ−1 (1 + γ) 2 = Φ−1 (0.975) ∼ = 1.09 ≈ 2. c (gemäß (2.20), Tschebyscheff ) =√ Somit folgt σx 0 (Tschebyscheff ) ∼ = 4· √ n σ x 0 (Normalverteilung) ∼ = 2· √ . n 2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2 Ersetze σ 2 durch die Schätzung s2 = 1 n−1 n X (xj − x)2 . j=1 Aus (2.29) bzw. (2.30) folgt dann n≥ s·c c 2 s2 bzw. ≈ √ . 2 n Dies sind aber i.a. keine guten Näherungen, denn c = Φ−1 ebenfalls ersetzt werden! (2.31) 1 (1 2 + γ) muss in diesem Fall Bemerkung 2.4.6 Offensichtlich ist s2 eine Realisierung von S 2 = 1 n−1 n X j=1 diese Zufallsvariable gilt der folgende 72 (Xj − X)2 . Für 2.5 Vertrauensintervalle/Erwartungswert Satz 2.4.3 S 2 ist ein erwartungstreuer Schätzer für σ 2 , d.h. ES 2 = σ 2 . Beweis: Es gilt, siehe Abschnitt 2.3.3, n ES 2 1 1 X = E (Xj − X)2 = n − 1 j=1 n−1 1 = n−1 n X E n X Xj2 j=1 − 2EX n X ! Xj + nEX 2 j=1 ! 2 EXj2 − 2nEX + nEX 2 j=1 1 1 n − 1 2 1 2 2 2 2 = (nEX − nEX ) = nEX − n EX + µ n−1 n−1 n n 1 = (n − 1)EX 2 − (n − 1)µ2 = EX 2 − µ2 = σ 2 . n−1 Der Faktor 1 ist also erforderlich, damit S 2 erwartungstreu ist! n−1 2.5 Vertrauensintervalle für den Erwartungswert µ = EX einer normalverteilten Zufallsvariablen X mit 2 unbekannter Varianz σX Im Folgenden sei X eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert µ = EX und unbekannter Varianz σx2 = V (X). Ferner sei x das Stichprobenmittel einer Stichprobe x = (x1 , . . . , xn )T von X. Schliesslich bezeichne n s2 := 1 X (xj − x)2 n − 1 j=1 die empirische Varianz der Stichprobe x. Nach Bemerkung 2.4.4 und Satz 2.4.3 ist s2 eine Realisierung des erwartungstreuen Varianzschätzers n S 2 := 1 X (Xj − X)2 . n − 1 j=1 Für eine gegeben Konfidenzzahl γ, 0 < γ < 1, lässt sich (nach Formel (2.31)) der Radius 0 des gesuchten Konfidenzintervalls x − 0 < µ < x + 0 approximieren durch s · c̃ 0 ∼ = √ mit einer noch zu bestimmenden Konstanten c̃ = c̃(γ). n Im Folgenden untersuchen wir daher die Eigenschaften des Intervalls sc̃ sc̃ x− √ <µ<x+ √ n n (2.32) 73 2 Statistische Methoden mit einer noch zu bestimmenden Konstanten c̃. Da x bzw. s eine Realisierung der Zufallsvariablen X bzw. S ist, betrachten wir die folgende Wahrscheinlichkeit: Sc̃ Sc̃ W =P X−√ <µ<X+√ . n n Es gilt auch W = = = = Sc̃ Sc̃ P −√ < µ − X < √ n n Sc̃ Sc̃ P −√ < X − µ < √ n n √ X −µ < c̃ P −c̃ < n S P (−c̃ < T < c̃) mit der Zufallsvariablen T := (2.33) √ X −µ . n S (2.34) Definition 2.5.1 Die Verteilung PT von T heißt (Student-)t-Verteilung mit n − 1 Freiheitsgraden (n ist der Stichprobenumfang). Die Verteilungsfunktion FT = FT (t) ist tabelliert, und T, FT haben folgende Eigenschaften: Satz 2.5.1 a) ET = 0 b) T hat eine symmetrische, stetige Verteilung c) Analog zu Φ = Φ(t) gilt R. (2.35) W = P (−c̃ < T < c̃) = FT (c̃) − FT (−c̃) = FT (c̃) − 1 − FT (c̃ = 2FT (c̃) − 1. (2.36) FT (−c̃) = 1 − FT (c̃) für jedes c̃ ∈ Aus (2.33), (2.34) und (2.35) folgt dann mit Satz 2.5.1 Zur Bestimmung der noch unbekannten Konstanten c̃ = c̃(r) im Radius des Konfidenzintervalls (2.32) stellen wir nun die Qualitätsforderung W = γ. (2.37a) Aus (2.36),(2.37a) folgt dann 2FT (c̃) − 1 = γ und damit analog zu (2.28) c̃ := FT−1 1 (1 + γ) . 2 Aus dem Obigen ergibt sich nun das folgende Resultat: 74 (2.37b) 2.6 Vertrauensintervalle für Varianz Satz 2.5.2 X sei eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert µ und 2 unbekannter Varianz σX . Gegeben sei eine Stichprobe x mit Stichprobenumfang n sowie eine Konfidenzzahl γ. Mit Wahrscheinlichkeit W = γ liegt dann der unbekannte Erwartungswert µ im Konfidenzintervall sc̃ sc̃ (2.38) x− √ <µ<x+ √ . n n Dabei ist s die empirische Standardabweichung von x und die Konstante c̃ = c̃(γ) ist durch (2.37b) gegeben. Bemerkung 2.5.1 Das Konfidenzintervall (2.38) hat dieselbe Gestalt wie das Konfidenzin2 tervall für den Erwartungswert µ einer Normalverteilung mit bekannter Varianz σX , siehe (2.27) – (2.29). 2.6 Vertrauensintervalle für die Varianz einer Normalverteilung Zur Herleitung eines Konfidenzintervalls für die unbekannte Varianz einer Normalverteilung N (µ, σ 2 ) betrachten wir eine Stichprobe x1 , x2 , . . . , xn einer N (µ, σ 2 )-verteilten Zufallsvariablen. Die Stichprobenwerte xj , j = 1, . . . , n, lassen sich wiederum interpretieren als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . , Xn mit derselben Verteilung PXj = PX , 1 ≤ j ≤ n, wie X. Schätzwert für σ 2 : Aus Abschnitt 2.2 folgt: n 1 X (xj − x)2 . σ ≈ s := n − 1 j=1 2 2 Da s2 also eine Realisation von n 1 X S = (Xj − X)2 n − 1 j=1 2 ist, muss die Zufallsvariable S 2 genauer untersucht werden. Für n S2 1 X Y := (n − 1) 2 = 2 (Xj − X)2 σ σ j=1 (2.39) hat man das folgende Ergebnis: Satz 2.6.1 Y hat eine sogenannte Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden. Definition 2.6.1 Chi-Quadrat-Verteilung: Die Chi-Quadrat-Verteilung mit m Freiheitsgraden hat die Wahrscheinlichkeitsdichte gm (x) = 1 2m/2 Γ m 2 x m−2 2 x e− 2 , x > 0 (m = Anzahl der Freiheitsgrade). 75 2 Statistische Methoden Bestimmung eines Konfidenzintervalls für σ 2 Sei F die Verteilungsfunktion der Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden. Aus Satz 2.6.1 folgt P (Y ≤ c) = F (c). Für eine gegebene Konfidenzzahlγ, 0 < γ ≤ 1, bestimme man dann Zahlen c1 , c2 so, dass P (Y ≤ c1 ) = F (c1 ) = 12 (1 − γ) ⇒ c1 < c 2 . P (Y ≤ c2 ) = F (c2 ) = 12 (1 + γ) Daraus folgt P (c1 ≤ Y ≤ c2 ) = P (Y ≤ c2 ) −P (Y ≤ c1 ) = 21 (1 + γ) − 12 (1 − γ) = γ. 2 Für Y = (n − 1) Sσ2 ergibt sich dann P 2 Wegen c1 ≤ (n − 1) Sσ2 ≤ c2 oder P S2 c1 ≤ (n − 1) 2 ≤ c2 σ n−1 2 S c2 ≤ σ2 ≤ n−1 2 S c1 = γ. hat man n−1 2 n−1 2 S ≤ σ2 ≤ S c2 c1 = γ. Für eine Realisation s2 von S 2 folgt nun der Satz 2.6.2 Konfidenzintervall für σ 2 zur Konfidenzzahl γ. Mit Wahrscheinlichkeit W = γ gilt n−1 2 n−1 2 s ≤ σ2 ≤ s. (2.40) c2 c1 Bemerkung 2.6.1 Der Erwartungswert µ wird nicht benötigt! 2.7 Vertrauensintervalle für unbekannte Wahrscheinlichkeiten einzelner Ereignisse E Wir betrachten ein Ereignis E, das bei einem Experiment E eintreten kann oder nicht. Ferner bezeichne p = P (E) die unbekannte Wahrscheinlichkeit von E. Aus Abschnitt 2.2 folgt: p ≈ hn (E), wobei hn (E) die relative Häufigkeit von E in n unabhängigen Versuchen E1 , E2 , . . . , En ist. Zur Bestimmung eines Vertrauensintervalls p1 ≤ p ≤ p2 zur Konfidenzzahl γ benötigen wir folgende Zufallsvariable X: Definition 2.7.1 X bezeichne die Anzahl des Eintreffens von E in den n Versuchen, also X ∈ {0, 1, 2, . . . , n}. Die Wahrscheinlichkeitsverteilung von X lässt sich wie folgt angeben: 76 2.7 Vertrauensintervalle Satz 2.7.1 X hat eine Binomialverteilung, d.h. n k P (X = k) = p (1 − p)n−k , k = 0, 1, 2, . . . , n. k Es gilt EX = np, V (X) = np(1 − p). Bemerkung 2.7.1 k = 0 (E tritt nie ein) : P (X = 0) = (1 − p)n k = n (E tritt immer ein) : P (X = n) = pn . Für große n gilt: X − np hat näherungsweise eine NormalverSatz 2.7.2 Die Zufallsvariable Z = Zn := p np(1 − p) teilung mit Mittelwert 0 und Varianz 1. Da Zn näherungsweise eine N (0, 1)-normalverteilte Zufallsvariable ist, so gilt demnach approximativ P (−c ≤ Zn ≤ c) ≈ P (−c ≤ Z0 ≤ c) = Φ(c) − Φ(−c) = 2Φ(c) − 1, wobei Z0 eine N (0, 1)-verteilte Zufallsvariable ist. Bestimmt man für eine gegebene Wahrscheinlichkeit γ > 0 somit ein c, so dass 1 −1 2Φ(c) − 1 = γ, d.h. c = Φ (1 + γ) , 2 so gilt näherungsweise P (−c ≤ Z ≤ c) ≈ γ, also auch P X − np −c ≤ p ≤c np(1 − p) ! ≈ γ. (2.41) Sei nun X = k die Anzahl des Eintreffens von E in n Versuchen; k ist also eine Realisierung von X. Aus Gleichung (2.41) folgt jetzt: Mit Wahrscheinlichkeit W ≈ γ gilt k − np −c ≤ p np(1 − p) ≤ +c für eine Realisierung k von X. Daraus folgt k − np ≤c⇔ p np(1 − p) k − np p np(1 − p) !2 ≤ c2 und damit (k − np)2 n2 (h − p)2 ≤ c2 ≤ c2 . ⇐⇒ z }| { np(1 − p) np(1 − p) k h = hn (E) = n Für p hat man somit die quadratische Bedingung (h − p)2 ≤ n1 c2 p(1 − p), die zwei Schranken p1 , p2 für p festlegt. Die Bedingung für p = p1 , p2 ergibt sich aus folgender ”Vertrauensellipse”: 77 2 Statistische Methoden Satz 2.7.3 Die Vertrauensgrenzen p1 , p2 für p und somit das Vertrauensintervall p1 ≤ p ≤ p2 zur Konf idenzzahl γ (2.42a) sind bestimmt als Lösungen der quadratischen Gleichung 1 (2.42b) (h − p)2 = c2 p(1 − p). n Näherungsweise Bestimmung von p1 , p2 : Sind n, k, n − k große Zahlen, wobei k die Anzahl der Beobachtungen von E in n Versuchen bezeichnet, so erhält man näherungsweise r k c2 h(1 − h). (2.42c) p1 ≈ h − a, p2 ≈ h + a mit h := und a := n n 2.8 Konfidenzintervalle für den Erwartungswert µ bei beliebigen Verteilungen Zur Entwicklung von Näherungsmethoden bei großem Stichprobenumfang n benötigen wir den Zentralen Grenzwertsatz: Satz 2.8.1 (Zentraler Grenzwertsatz) X1 , X2 , . . . , Xn seien unabhängige Zufallsvariablen, die alle genau dieselbe Verteilungsfunktion, also auch denselben Mittelwert µ und dieselbe Varianz σ 2 besitzen. Dann ist die Zufallsvariable n X Zn := 78 j=1 Xj − nµ √ σ n 2.9 Testen (Prüfen) von Hypothesen asymptotisch normalverteilt mit Mittelwert 0 und der Varianz 1, d.h. lim P (Zn ≤ z) = lim FZn (z) = Φ(z) f ür alle z ∈ n→∞ n→∞ R. Für großes n gilt somit Zn ≈ N (0, 1). Wegen n 1X σ X= Xj = µ + √ Zn n j=1 n folgt PX ≈ N µ, σ2 n für große n. (2.43) Approximative Konfidenzintervalle für den Erwartungswert µ ergeben sich dann wie in Abschnitt 2.4 und 2.5. Da die Stichprobenmittel x̄ Realisierungen des Schätzers X̄ sind, erhält man folgende approximative Konfidenzintervalle: a) Bekannte Varianz σ 2 . Nach Abschnitt 2.4.1 und mit (2.43) hat man für den Erwartungswert µ näherungsweise das Konfidenzintervall (x − , x + ) mit = σ √cn , c = Φ−1 1+γ , γ = Konfidenzzahl. 2 Gute Näherung erhält man auf diese Weise für n ≥ 30 b) Unbekannte Varianz σ 2 . Nach Abschnitt 2.5 und mit (2.43) findet man hier das sc −1 1 √ (1 + γ) , γ = approximative Konfidenzintervall (x − , x + ) mit = n , c = F 2 Konfidenzzahl, F = Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden. Gute Näherungen ergeben sich hier für n ≥ 100. 2.9 Testen (Prüfen) von Hypothesen Zu untersuchen ist eine normalverteilte Zufallsvariable X mit unbekanntem Erwartungswert EX = µ und bekannter Varianz σ 2 . Ferner bezeichne µ0 einen gegebenen maximalen bzw. minimalen Wert bzw. einen gegebenen Sollwert für µ = EX. Man hat zu prüfen oder zu testen, ob die folgende Beziehung erfüllt ist: (2.44) EX ≤ µ0 bzw. EX ≥ µ0 bzw. EX = µ0 . | {z } | {z } | {z } a) b) c) Beispiel 2.9.1 a) In einem Lebensmittel soll der Giftstoffanteil, z.B. der Konservierungsmittelanteil, Q (= Zufallsvariable) im Mittel unterhalb einem maximalen Giftstoffanteil µ0 liegen. b) Bei der Garnproduktion soll die Reissfestigkeit F (= Zufallsvariable) im Mittel oberhalb der minimalen Reissfestigkeit µ0 liegen. c) Bei der Produktion von Wellen soll der Durchmesser D (= Zufallsvariable) im Mittel mit dem verlangten Durchmesser µ0 übereinstimmen. Prüfung der Qualitätsforderung(2.44): Der sogenannten Nullhypothese H0 wird die Alternative H1 gegenübergestellt: 79 2 Statistische Methoden NULLHYPOTHESE H0 (erwünscht) a) µ ≤ µ0 b) µ ≥ µ0 c) µ = µ0 ALTERNATIVE H1 (unerwünscht) a) µ > µ0 b) µ < µ0 c) µ 6= µ0 Beispiel 2.9.1 - Fortsetzung Fall (a) H0 : µ = EQ ≤ µ0 (erwünscht) H1 : µ = EQ > µ0 (unerwünscht) Die Alternative H1 beschreibt also den unerwünschten Fall, dass der mittlere Giftstoffanteil µ = EQ zu groß ist. Fall (b) H0 : µ = EF ≥ µ0 H1 : µ = EF < µ0 (erwünscht) (unerwünscht) Die Alternative H1 beschreibt also den unerwünschten Fall, dass die mittlere Reissfestigkeit µ = EF zu klein ist. Fall (c) H0 : µ = ED = µ0 H1 : µ 6= µ0 (erwünscht) (unerwünscht) Die Alternative H1 beschreibt hier den unerwünschten Fall, dass der mittlere Durchmesser µ = ED nach unten oder nach oben vom verlangten Sollwert µ0 abweicht. Gegeben sei nun eine Stichprobe x1 , . . . , xn der Zufallsvariablen X mit einer Normalverteilung PX = N (µ, σ 2 ) mit unbekanntem µ = EX und bekanntem σ 2 . Gesucht ist ein Verfahren zum Testen (Prüfen) der Nullhypothese H0 gegen die unerwünschte Alternative H1 . Nach (2.6b) ist das Stichprobenmittel x eine Schätzung für den Erwartungswert µ von X: µ≈x= 1 (x1 + · · · + xn ) (Realisierung von X). n Im Folgenden betrachten wir nun den Fall (a): H0 : µ ≤ µ0 , Qualitätsanforderung erfüllt H1 : µ > µ0 , Qualitätsanforderung verletzt. Die anderen beiden Fälle werden ganz analog behandelt. H0 verwerfen und H1 annehmen? bzw. Problem: Wann soll man H0 akzeptieren und H1 verwerfen? Wegen µ = EX ≈ x liegt es nahe, die Hypothese H0 dann zu verwerfen und die Alternative H1 anzunehmen, wenn x deutlich rechts von µ0 liegt.“ ” 80 2.9 Testen (Prüfen) von Hypothesen Dazu benötigt man einen Wert, eine Schwelle c ∈ dungsregel: R zur Formulierung folgender Entschei- Verwerfe H0 (und akzeptiere H1 ), wenn x > c(> µ0 ) Akzeptiere H0 (und verwerfe H1 ), wenn x ≤ c. (2.45) Bestimmung der Schwelle c Bei der Verwerfung bzw. Annahme der Hypothese H0 treten zwei charakteristische Fehler auf: Fehler 1. Art: H0 wird verworfen, obwohl H0 zutrifft (d.h. µ ≤ µ0 ) Definition 2.9.1 Es sei p1 die maximale Wahrscheinlichkeit eines Fehlers 1. Art, also p1 := max P (H0 wird verworfen, d.h. x̄ > c, obwohl H0 zutrifft, d.h. µ ≤ µ0 ). Nach (2.45) ist p1 = max P (X > c)|EX=µ = 1 − min P (X ≤ c)|EX=µ (2.46) µ≤µ0 µ≤µ0 Für eine gegebene sog. Signifikanzzahl α, z.B. α = 0.05, α = 0.01, bestimmt man dann die Schwelle c in (2.45), so dass p1 = α (kleiner Fehler 1. Art). (2.47) Mit Gleichung (2.46) folgt die Bedingung 1 − min P (X ≤ c)|EX=µ = α µ≤µ0 oder min P (X ≤ c)|EX=µ = 1 − α. µ≤µ0 (2.48) 81 2 Statistische Methoden Gemäss Satz 2.4.1 hat X eine N σ2 µ, -Normalverteilung. Somit lässt sich die Gleichung n (2.48) wie folgt darstellen: 1 − α = min Φ µ≤µ0 da Φ streng monoton wachsend ist. Daraus folgt c − µ0 √σ n also c−µ √σ n ! =Φ c − µ0 ! √σ n , = Φ−1 (1 − α), σ c = µ0 + √ Φ−1 (1 − α). n (2.49) Satz 2.9.1 Im Test H0: µ ≤ µ0 gegen H1: µ > µ0 zur Signifikanzzahl α bestimme man c gemäss (2.49). Damit kann ein Fehler 1. Art höchstens mit der Wahrscheinlichkeit p1 = α eintreten. Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist (d.h. µ > µ0 ) Definition 2.9.2 Es sei p2 die Wahrscheinlichkeit eines Fehlers 2. Art, also p2 = P (H0 wird akzeptiert, d.h., x̄ ≤ c, obwohl H0 falsch ist, d.h. µ > µ0 ). Nach (2.45) gilt p2 (µ) = P (X ≤ c)|EX=µ , wobei µ > µ0 . σ2 Mit Satz 2.4.1 gilt X ist N µ, − verteilt n ! c−µ p2 (µ) = Φ für µ > µ0 . σ √ (2.50a) (2.50b) n Offensichtlich sollte auch der Fehler 2. Art p2 = p2 (µ) klein sein. Da c aber bereits fixiert ist durch die Wahl der Signifikanzzahl α, lässt sich p2 (µ) nur noch über den Stichprobenumfang n beeinflussen. Beispiel 2.9.2 Wir betrachten eine normalverteilte Zufallsvariable X mit Varianz σ 2 = 9. Für die Signifikanzzahl α = 0.05 gilt dann 1 − α = 0.95 und damit (siehe Tabellenwerke) Φ−1 (1 − α) = 1.645. 82 2.9 Testen (Prüfen) von Hypothesen Wir wählen dann µ0 = 24. Nach ( 2.49) ist 3 3 1.645 = 24.5 für n = 100. c = 24 + √ 1.645 = 25.56 für n = 10 bzw. c = 24 + √ 10 100 Für die maximale Wahrscheinlichkeit p1 eines Fehlers 1. Art gilt demnach p1 = α = 0.05, und für die Wahrscheinlichkeit p2 = p2 (µ) eines Fehlers 2. Art folgt 25.56 − µ √ , µ > 24, für n = 10 p2 (µ) = Φ 0.9 24.5 − µ p2 (µ) = Φ , µ > 24, für n = 100. 0.3 Bemerkung 2.9.1 Die Funktion β(µ) := 1 − p2 (µ), µ > µ0 , (2.51) heißt Macht des Tests. β(µ) ist die Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden. 83 2 Statistische Methoden 2.10 Parameter-Schätzung Problem: Die Verteilung PX einer Zufallsvariablen X hängt meistens von gewissen reellen Parametern θ1 , θ2 , · · · , θr , r ≥ 1, ab, die unbekannt sind. Sei θ = (θ1 , θ2 , . . . , θr )T . Für eine gegebene Stichprobe x = (x1 , x2 , . . . , xn ) von X ist dann eine Schätzung θ̂ = g(x), der unbekannten Parameter gesucht, d.h. θ̂1 = g1 (x1 , x2 , . . . , xn ) θ̂2 = g2 (x1 , x2 , . . . , xn ) .. . (2.52) θ̂r = gr (x1 , x2 , . . . , xn ). Definition 2.10.1 Die Funktion x −→ θ̂ = g(x) heißt Schätzfunktion für den Parametervektor θ. Statt θ̂ = g(x) schreibt man auch kurz θ̂ = θ̂(x). Beispiel 2.10.1 1) Für eine N (µ, σ 2 )-normalverteilte Zufallsvariable X ist θ1 = µ(∈ R), θ2 = σ2(> 0), ferner ist die Dichte f (x) von X gegeben durch 1 1 2 exp − 2 (x − µ) , x ∈ f (x) = f (x|µ, σ ) = (2πσ 2 )1/2 2σ 2 R. 2) Die Dichte einer 1-seitigen Exponentialverteilung ist definiert durch α exp(−αx) , x ≥ 0 f (x) = f (x|α) = 0 , sonst, (2.53a) (2.53b) also θ1 = α(> 0). 3) Eine γ-Verteilung hat die Dichte ( f (x) = f (x|α, β) = exp − βx ,x > 0 0 , sonst 1 xα−1 β α Γ(α) (2.53c) mit den Parametern θ1 = α > 0, θ2 = β > 0. 4) Die Wahrscheinlichkeitsfunktion (nicht Dichte) einer einfachen Binomialverteilung ist gegeben durch 1 − p ,k = 0 f (k|p) = (2.53d) p ,k = 1 mit dem Parameter θ1 = p, 0 ≤ p ≤ 1. 84 2.10 Parameter-Schätzung 5) Für eine Poisson-Verteilung gilt pk = P (X = k) = f (k|λ), k = 0, 1, 2, . . . , e−λ λk f (k|λ) = , k = 0, 1, 2, . . . k! (2.53e) mit dem Parameter θ1 = λ > 0. 6) Allgemeine Binomialverteilung. Hier ist pk = P (X = k) = f (k|p), k = 0, 1, . . . , m, m k f (k|p) = p (1 − p)m−k , k = 0, 1, . . . , m k (2.53f) mit dem Parameter θ1 = p, 0 ≤ p ≤ 1. 2.10.1 Gütekriterien für Schätzfunktionen Gegeben sei eine Zufallsvariable X mit den unbekannten Parametern θ = (θ1 , . . . , θr )T . Zur Schätzung von θ betrachten wir eine - Stichprobe sowie eine - Schätzfunktion x = (x1 , . . . , xn )T von X. Nach Abschnitt 2.2.1 ist x eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , XN ), wobei X1 , X2 , . . . , XN unabhängige und wie X verteilte Zufallsvariable sind, θ̂ = g(x) für θ Die Schätzwerte θ̂ werden erzeugt durch die Zufallsvariable G = g(X). Eigenschaften von Schätzfunktionen a) Erwartungstreue Definition 2.10.2 Die Schätzfunktion θ̂ = g(x) für θ heißt erwartungstreu, wenn Eg(X) = E θ̂(X) = Eg1 (X), Eg2 (X), . . . , Eg r (X) = θ. (2.54) 85 2 Statistische Methoden Beispiel 2.10.2 Normalverteilung N (µ, σ 2 ), also θ1 = µ, θ2 = σ 2 Wählt man n θ̂1 1X = g1 (x) := x = xk n k=1 θ̂2 1 X = g2 (x) := s = (xk − x)2 , n − 1 k=1 (2.55a) n 2 (2.55b) so folgt mit Satz 2.3.1a und Satz 2.4.3, dass θ̂ = g(x) = (x, s2 ) eine erwartungstreue Schätzungsfunktion für θ = (µ, σ 2 ) ist. b) Konsistenz von Schätzfunktionen Definition 2.10.3 Eine Schätzfunktion θ̂ = g(x) für θ heißt konsistent, wenn lim P |gj (X) − θj | < = 1 für beliebiges > 0, n→∞ (2.58) d.h. θ̂j (X) → θj , n → ∞ für jedes j = 1, 2, . . . , r. Beispiel 2.10.3 Sei θ1 = µ = EX der zu schätzende Parameter einer Zufallsvariablen X mit endlicher Varianz σ 2 , z.B. der Erwartungswert µ = EX einer normalverteilten Zufallsvariablen X mit Varianz σ 2 . Aus Korollar 2.3.2 folgt: lim P (|X − µ| < ) = 1 für alle > 0. n→∞ Mit Satz 2.3.1a folgt daraus Satz 2.10.1 µ̂ = g(x) = x ist eine konsistente und erwartungstreue Schätzungsfunktion für den Erwartungswert µ einer Zufallsvariablen X mit endlicher Varianz. c) Effizienz einer Schätzfunktion Definition 2.10.4 Eine erwartungstreue Schätzfunktion θ̂ = h(x) für θ heißt effizient, wenn für alle j = 1, 2, . . . , r gilt 2 Var gj (X) = E (gj (X) − θj )2 ≥ E hj (X) − θj = Var hj (X) (2.59) für alle anderen erwartungstreuen Schätzer θ̂ = g(x) für θ. Eine effiziente Schätzfunktion hat, also eine minimale mittlere quadratische Abweichung von θ. 86 2.10 Parameter-Schätzung 2.10.2 Die Momentenmethode Gesucht: Schätzfunktion θ̂ = g(x) für die unbekannten Parameter θ1 , θ2 , . . . , θr einer Zufallsvariablen X. Gegeben: Stichprobe x = (x1 , . . . , xn ) von X, wobei x wieder als eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , Xn ) gemäss Abschnitt 2.2.1, Formel (2.2), betrachtet werden kann. Zur Definition einer Schätzfunktion θ̂ = g(x) für θ verfährt man hier wie folgt: a) Man betrachtet zunächst die Momente m1 , m2 , . . . , mr von X. Aus Satz 1.5.4 folgt: +∞ Z xj f (x|θ) dx, X hat eine Dichte f (x|θ) −∞ ρ X j (x◦i )j f (xi |θ), X ist diskret verteilt mit der mj = EX = i=1 Wahrscheinlichkeitsfunktion f (x◦i |θ) = P (X = x◦i ), i = 1, 2, . . . , ρ (aus oder ρ = ∞). N Man beachte, dass die Dichte f (x|θ) bzw. die W-Funktion f (xi |θ) vom Parametervektor θ abhängt, siehe (2.55a-f). Somit ergibt sich folgendes Gleichungssystem m1 = EX = m1 (θ1 , θ2 , . . . , θr ) m2 = EX 2 = m2 (θ1 , θ2 , . . . , θr ) .. .. .. . . . mr = EX r = mr (θ1 , θ2 , . . . , θr ) (2.60) Offensichtlich lässt sich nun (2.60) bei gegebenen Momenten m1 , m2 , . . . , mr von X interpretieren als ein Gleichungssystem mit r Gleichungen für die r unbekannten Momente θ1 , θ2 , . . . , θr . b) Die Auflösung von (2.60) nach θ ergibt θ = T (m1 , m2 , . . . , mr ). (2.61) c) Schätzfunktion für θ: Eine Schätzfunktion für θ erhält man sofort, indem nun die Momente m1 , m2 , . . . , mr durch Schätzwerte m̂1 , m̂2 , . . . , m̂r ersetzt werden: θ̂ = T (m̂1 , m̂2 , . . . , m̂r ). (2.62) d) Schätzwerte für die Momente mk , k = 1, . . . , r Nach (2.6a) ist das j-te empirische Moment m̂j für eine Stichprobe (x1 , . . . , xk , . . . , xn ) von X definiert durch n 1X m̂j = m̂j (x) = (xk )j , j = 1, 2, . . . , r. n k=1 (2.63) 87 2 Statistische Methoden Für diese Momentenschätzer hat man den folgenden Satz 2.10.2 Haben die Zufallsvariablen X i , i = 1, . . . , r, eine endliche Varianz, dann sind m̂i (x), i = 1, 2, . . . , r, erwartungstreue und konsistente Schätzungsfunktionen für die Momente mi , i = 1, 2, . . . , r. Folgerung für die Schätzfunktion θ̂: Nach (2.62) ist θ̂ = g(x) = T (m̂1 , m̂2 , . . . , m̂r ) = T m̂1 (x), m̂r (x), . . . , m̂r (x) P P P = T n1 nk=1 xk , n1 nk=1 x2k , . . . , n1 nk=1 xrk (2.64) Zur Untersuchung dieser Schätzfunktion benötigt man folgendes Hilfsmittel: Satz 2.10.3 Das Gesetz der großen Zahlen. Sei Z1 , Z2 , . . . eine Folge unabhängiger und identisch verteilter Zufallsvariablen. Ist dann a = EZi der Erwartungswert dieser Zufallsvariablen, dann gilt n 1X Zk = a mit Wahrscheinlichkeit 1. (2.65) lim n→∞ n k=1 Folgerung aus Satz 2.10.3: Sei X1 , X2 , . . . , Xk , . . . eine Folge von unabhängigen Zufallsvariablen, die dieselbe Verteilung wie X haben. Für jedes i = 1, 2, . . . , r ist dann X1i , X2i , X3i , . . . , Xni , . . . wieder eine Folge unabhängiger und identisch verteilter Zufallsvariablen, wobei EXki = EX i = mi (i-tes Moment von X), i = 1, 2, . . . , r. Setzt man deshalb für ein festes i, 1 ≤ i ≤ r, Zk := Xki , so folgt aus Satz 2.10.3 n 1X i Xk −→ EX i = mi , n → ∞ mit Wahrscheinlichkeit = 1. n k=1 Damit gilt der folgende P P Satz 2.10.4 Konsistenz der Schätzfunktion θ̂ = T n1 nk=1 xk , . . . , n1 rk=1 xrk . Die Funktion θ = T (m1 , . . . , mr ) sei stetig. Dann gilt mit Wahrscheinlichkeit 1 ! n n n 1X 1X 2 1X r −→ θ für n → ∞. θ̂ = T Xk , X ,..., X n k=1 n k=1 k n k=1 k Beispiel 2.10.4 X sei N (µ, σ 2 )-verteilt. Gesucht: θ = (µ, σ 2 ) 88 2.10 Parameter-Schätzung Die Momentengleichung (2.60) lautet dann m1 = m1 (µ, σ 2 ) = EX = µ m2 = m2 (µ, σ 2 ) = EX 2 = σ 2 + µ2 . Die Auflösung nach µ, σ 2 liefert µ = m1 und σ 2 = m2 − µ2 = m2 − m21 . Für die Funktion T in (2.61) erhält man somit m1 , T (m1 , m2 ) = m2 − m21 wobei T offensichtlich stetig ist. Nach (2.62) hat man dann für θ = (µ, σ 2 ) die Schätzfunktion n X 1 xk n m̂1 k=1 θ̂ = T (m̂1 , m̂2 ) = = n X m̂2 − (m̂1 )2 2 2 1 x − ( m̂ ) 1 k n k=1 = x 1 n n X 2 (xk − x) k=1 n 1X mit x = m̂1 = xk n k=1 (2.66) Eigenschaften der Schätzfunktion (2.66) a) Da T stetig, folgt nach Satz 2.10.4, dass θ̂ = T (m̂1 , m̂2 ) eine konsistente Schätzfunktion für θ ist. b) EX = µ n X n−1 2 (Xk − X)2 = σ 6= σ 2 (siehe Satz 2.4.3) E n1 n k=1 Die Schätzfunktion ist also nur asymptotisch erwartungstreu, d.h. für n → ∞. Beispiel 2.10.5 X hat eine γ-Verteilung mit Parametern θ = (α, β), α, β > 0 Momente von X: m1 = EX = α · β m2 = EX 2 = α(α + 1)β 2 Auflösung nach α, β: α= β= m21 m2 −m21 m2 −m21 m21 θ = T (m1 , m2 ) = ) m21 m2 −m21 m2 −m21 m21 ! Da T stetig ist, folgt wieder die Konsistenz der Schätzfunktion, Erwartungstreue ist aber auch hier nicht gegeben. 89 2 Statistische Methoden 2.10.3 Die Maximum-Likelihood-Methode Sei X eine Zufallsvariable, deren Verteilung PX von Parametern θ1 , θ2 , . . . , θr abhängt. Im folgenden besitze X eine stetige Verteilung mit der Dichtefunktion f (x|θ1 , θ2 , . . . , θr ). Definition 2.10.5 Die Likelihood-Funktion Ist x1 , x2 , . . . , xn eine Stichprobe von X, dann heißt l(θ1 , θ2 , . . . , θr ) = n Y f (xk |θ1 , θ2 , . . . , θr ) = l(θ|x) (2.67) k=1 die Likelihood-Funktion. Definition 2.10.6 Maximum-Likelihood-Schätzfunktion. Ist θ̂ = θ̂(x) eine Maximalstelle von l(θ|x), gilt also (2.68) l(θ̂|x) ≥ l(θ|x) für alle Parameter θ, so heißt θ̂ = θ̂(x) eine Maximum-Likelihood-Schätzfunktion. Für eine gegebene Stichprobe x von X ist also das Maximierungsproblem max l(θ|x), θ (2.69a) zu lösen, das äquivalent ist mit dem Optimierungsproblem max ln l(θ|x). θ (2.69b) Definition 2.10.7 θ −→ ln l(θ|x) heißt log-Likelihood-Funktion. Notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂ d.h. ∇θ l(θ|x) = 0, (2.70a) ∂ l(θ|x) = 0, j = 1, 2, . . . , r. ∂θj (2.70b) Äquivalent dazu ist die notwendige Bedingung d.h. ∇θ ln l(θ|x) = 0, (2.71a) ∂ ln l(θ|x) = 0, j = 1, 2, . . . , r ∂θj (2.71b) Beispiel 2.10.6 X sei N (µ, σ 2 )-verteilt. X hat also die W-Dichte 2 ! 1 1 x − µ f (x|µ, σ 2 ) = √ exp − . 2 σ 2πσ 2 90 2.10 Parameter-Schätzung Somit ist l(θ|x) = n Y −n 2 f (xk |µ, σ 2 ) = (2πσ 2 ) k=1 n 1 X exp − 2 (xk − µ)2 2σ k=1 ! , (2.72a) und für die log-likelihood-Funktion gilt n 1 X n 2 (xk − µ)2 . ln l(θ|x) = − ln 2πσ − 2 2 2σ k=1 (2.72b) Als notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂ = (µ̂, σˆ2 ) erhält man in diesem Fall n X ∂ 1 0 = ∂µ ln l(θ|x) = σˆ2 (xk − µ̂) k=1 0= ∂ ∂σ 2 ln l(θ|x) = − n2 σ1ˆ2 + 1 1 2 σˆ4 n X (xk − µ̂)2 . k=1 Daraus folgt für den Maximum Likelihood-Schätzer für θ = (µ, σ 2 ) sofort die Darstellung µ̂ = 1 n n X xk = x k=1 σˆ2 = 1 n n X (2.73) 2 (xk − x) k=1 Offensichtlich gilt der folgende Satz 2.10.5 Der Maximum-Likelihood-Schätzer ist asymptotisch erwartungstreu. 91 2 Statistische Methoden 92 Index Additionsgesetz, 7 Additionstheorem, 12 Alternative, 79 asymptotisch verteilt, 79 Axiome, 11 Bedingte Wahrscheinlichkeit, 12 Bernoulliverteilung, 25 Binomialverteilung, 25 Cauchy-Verteilung, 26 charakteristische Funktion, 33 Chi-Quadrat Verteilung, 75 Dichte, 37, 38 Dichtefunktion, 23 diskrete Verteilung, 19, 43 Dynamische Systeme, 36 Gleichverteilung, 25 gleichwahrscheinlich, 16 Häufigkeit relative, 16 homogen, 9 Indikatorfunktion, 60 Inferenz, 15 Inferenzmaschine, 15 Komplement, 9 Konfidenzintervall, 68 Konfidenzzahl, 68 konsistent, 86 konsistenter Schätzer, 66 Kovarianz, 47 Kovarianzmatrix, 47 effizient, 86 Einpunktverteilung, 29 Elementarereignis, 57 empirische Verteilungsfunktion, 61 empirisches Moment, 62 Ereignis, 6, 10 komplementär, 9 sicheres, 7, 12 unmögliches, 7, 12 erwartungstreu, 64, 85 Erwartungswert, 28, 39, 49 Experiment, 5 Expertensysteme, 15 Exponentialverteilung, 26 Laplace, 57 Likelihood-Funktion, 90 Fehler 1. Art, 81 Fehler 2. Art, 82 Poissonverteilung, 25 Gesetz der großen Zahlen, 88 Macht des Tests, 83 Maximierungsproblem, 90 Maximum-Likelihood-Schätzfunktion, 90 Median, 54 Moment, 29, 40 empirisches, 62 momenterzeugende Funktion, 33 Monotoniegesetz, 7 Normalverteilung, 26, 69 Nullhypothese, 79 Qualitätsforderung, 74 Quantil, 55 93 Index Randdichte, 45 Randverteilung, 43 Realisation des Schätzers, 64 Rechtecksverteilung, 28 Regressionsgerade, 52 relative Häufigkeit, 16 Schätzfunktion, 63, 84 Schiefe einer Verteilung, 31 Schließen mit Wahrscheinlichkeit, 15 Signifikanzzahl, 81 singuläre Verteilung, 25 Skalentransformation, 35 standard deviation, 29 Standardabweichung, 29, 63 stetige Verteilung, 19, 21, 44 Stetigkeitsaxiom, 12 Stichprobe, 58 stochastisch unabhängig, 14, 42, 43 stochastische Variable, 5 Streuung, 29 Student-Verteilung, 74 Treppenfunktion, 21 Tschebyscheffsche Ungleichung, 65 unabhängig, 14, 42, 43 unkorreliert, 51 Varianz, 28, 30, 40 Versuchsprotokoll, 58 Verteilung Chi-Quadrat, 75 diskrete, 19, 43 singuläre, 25 stetige, 21, 44 Student-, 74 symmetrisch, 31 Verteilungsfunktion, 17, 44 empirische, 61 Vertrauensellipse, 77 Würfelexperiment, 11, 13 Wahrscheinlichkeit bedingte, 12 subjektive, 17 Wahrscheinlichkeitsaxiome, 11 Wahrscheinlichkeitsdichte, 22, 44 94 Wahrscheinlichkeitsverteilung, 5 Zentraler Grenzwertsatz, 78 Zentralwert, 54 Zufallsgröße, 42 Zufallsvariable, 5 Zufallsvektor, 42, 58