Eine Auswahl des Stoes der Vorlesung Statistik für Wirtschaftswissenschaftler Kurs 2008/09 10. Juli 2009 Inhaltsverzeichnis 5 Zeitreihenanalyse 5.1 Einführung der Zeitreihen 5.2 Komponenten einer Zeitreihe 5.3 Schätzung des Trends 5.4 6 7 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 5.3.1 Die Methode der gleitenden Durchschnitte . . . . . . . . . . . . . . 6 5.3.2 Die Methode der exponentiellen Glättung . . . . . . . . . . . . . . 6 5.3.3 Drei Funktionsansätze für die Trendschätzung . . . . . . . . . . . . 7 5.3.4 Die Freihandmethode . . . . . . . . . . . . . . . . . . . . . . . . . 7 5.3.5 Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . 7 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5.4.1 Ein Verfahren bei additiver Verknüpfung . . . . . . . . . . . . . . . 10 5.4.2 Ein Verfahren bei multiplikativer Verknüpfung 11 . . . . . . . . . . . Lineare Regression 12 6.1 Einfache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.2 Zweifache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Wahrscheinlichkeitsrechnung 15 7.1 Kombinatorik 15 7.2 Grundlagen der Wahrscheinlichkeitsrechnung 7.3 Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . . . . . 22 7.4 Zufallsvariable, Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 23 7.5 Erwartungswert, Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 7.6 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7.6.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7.6.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 7.6.3 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . 35 7.6.4 Die gleichmäÿige Verteilung . . . . . . . . . . . . . . . . . . . . . . 37 7.6.5 Normalverteilung oder Gauÿ-Verteilung 38 2 . . . . . . . . . . . . . . . INHALTSVERZEICHNIS 8 3 7.6.6 Die log-normale Verteilung . . . . . . . . . . . . . . . . . . . . . . 44 7.6.7 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.6.8 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . 45 7.6.9 Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.6.10 Die Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.7 Gemeinsame Verteilung mehrerer Zufallsvariablen . . . . . . . . . . . . . . 49 7.8 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 7.9 Gesetz der groÿen Zahlen und Grenzwertsätze . . . . . . . . . . . . . . . . 59 7.9.1 Das Gesetz der groÿen Zahlen und der Hauptsatz der Statistik . . 59 7.9.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 61 Parameterschätzung 63 8.1 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 8.2 MaximumLikelihoodMethode . . . . . . . . . . . . . . . . . . . . . . . . 64 8.3 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . 66 8.4 Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 8.4.1 Bestimmung eines Kondenzintervalls für µ bei bekanntem 8.4.2 Bestimmung eines Kondenzintervalls für µ bei unbekanntem σ . . 69 8.4.3 Bestimmung eines Kondenzintervalls für σ bei unbekanntem µ . . 71 8.4.4 Bestimmung eines Kondenzintervalls für den Parameter Binomialverteilung 9 Bi(n, p) σ p . . . 68 einer . . . . . . . . . . . . . . . . . . . . . . 72 Testen statistischer Hypothesen 74 9.1 74 9.2 Einfühurung, Signikanztest . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Signikanztest für µ bei der Normalverteilung bei bekanntem σ 9.1.2 Signikanztest für µ bei der Normalverteilung bei unbekanntem . . 75 σ . 78 Einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 9.2.1 Ein einseitiger Test bei der Binomialverteilung . . . . . . . . . . . 84 9.2.2 Ein einseitiger Test bei der hypergeometrischen Verteilung . . . . . 86 Kapitel 5 Zeitreihenanalyse 5.1 Einführung der Zeitreihen Unter einer Zeitreihe versteht man die Entwicklung einer bestimmten Gröÿe, deren Wer- te im Zeitablauf zu bestimmten Zeitpunkten oder für bestimmte Zeitintervalle erfasst und dargestellt werden. Beispiel 5.1.1 (für Zeitreihen von zeitpunktbezogenen Merkmalen): s(t) = g2 t2 sei die in der Zeit t zurückgelegte Fallstrecke. Misst man t in Sekunden und s(t) in Metern, so gilt an der Erdoberäche −2 . für die Erdbeschleunigung g ≈ 9.81m sec a) Weg-Zeit-Funktion beim freien Fall: Devisenkurse für US $ (Kassa Geld) Tag 15.11.04 16.11.04 17.11.04 18.11.04 19.11.04 $ für 1 Euro 1.2914 1.2931 1.3000 1.3003 1.2993 b) Für eine Analyse dieser Zeitreihe, wie sie dann in diesem Kapitel behandelt wird, y(t). wäre eine kompakte Darstellung wie in Teil a) zweckmäÿig, also t in Tagen zu messen, und zwar an Besten so, dass y(i) Dabei wäre der Kurswert am i-te angegebene Tag ist, also: i y(i) 1 2 3 4 5 1.2914 1.2931 1.3000 1.3003 1.2993 Die Funktion y(t) ist aber oensichtlich ohne weitere Informationen nur für die angegebenen Werte von t, nämlich 1, 2, 3, 4, 5 deniert. Allerdings wäre z.B. y(2.5) sinnvoll, wenn noch genaue Uhrzeiten angegeben wären und der 12 Stunden später als y(2) abgefragte Kurswert bekannt wäre. Die Zeitskala lieÿe sich also prinzipiell beliebig verfeinern. Bsp. 5.1.2 (für eine Zeitreihe eines zeitintervallbezogenen Merkmals): Jahr i := Nummer des Zeitintervalls Umsatz yi (in Mio. Euro) Jahr i yi 1988 1 4.8 1993 6 5.6 1989 2 5.2 1994 7 5.8 1990 3 5.6 1995 8 6.4 1991 4 4.9 1996 9 5.9 1992 5 6.2 × × × Eine Funktion y(t) ist bei Bsp 5.1.2 nur für 4 t = 1, 2, . . . , sinnvoll zu interpretieren. 5.2. KOMPONENTEN EINER ZEITREIHE Nicht sinnvoll ist z.B. 5 y(1.5). Um sich aber z.B. einen besseren Überblick über den Verlauf der Zeitreihe zu verschaen, ist es zweckmäÿig, die Zeitreihe in einer Kurve darzustellen (Siehe die untenstehende Fig. 5-1). Dabei ist zu beachten, dass Werte von y t y(t) nur für bestimmte sinnvoll zu interpretieren ist. (Umsatz in Mio. Euro) 6 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 -t Fig. 5-1 5.2 Komponenten einer Zeitreihe Bei langen Zeitreihen (etwa über mehrere Jahrzehnte) ist eine Aufteilung in folgende 4 Komponenten sinnvoll: a) Trend b) Zyklische Komponente T (t): Grundrichtung, langfristige Entwicklung. Z(t): mitttelfristige Entwicklung, z.B. Einüsse von Kon- junkturschwankungen. c) Saisonkomponente S(t): kurzfristige Entwicklung innerhalb der einzelnen Jahre durch saisonbedingte Schwankungen. d) Restkomponente R(t): einmalige oder seltene Einüsse und Zufallsschwankungen. KAPITEL 5. ZEITREIHENANALYSE 6 Bei kurzen Zeitreihen ist eine Trennung zwischen Trend und zyklischer Komponente nicht mehr sinnvoll. Es bleibt eine Aufteilung in 3 Komponenten: a) Trend T (t): Grundrichtung, b) S(t) vergl. o., c) R(t) vergl. o. In diesem Kapitel werden nur solche Zeitreihen behandelt. Additive Verknüpfung der Komponenten: y(t) = T (t) + S(t) + R(t) (5.2.1) Multiplikative Verknüpfung der Komponenten: y(t) = T (t) · S(t) · R(t) (5.2.2) Reduktion auf additiver Verknüpfung durch Logarithmeren (z.B. mit Basis e) ln y(t) = ln T (t) + ln S(t) + ln R(t) (5.2.3) 5.3 Schätzung des Trends 5.3.1 Die Methode der gleitenden Durchschnitte Gleitender Durchschnitt über eine ungerade Anzahl von Werten T (i) ≈ D2m+1 (i) := (5.3.1) yi−m +yi−m+1 +...+yi +yi+1 +...+yi+m 2m+1 Rekursionsformel: D2m+1 (i) = D2m+1 (i − 1) + (5.3.2) yi+m −yi−m−1 2m+1 Eine Mittelbildung über eine gerade Anzahl von Werten würde eine Trendschätzung an einem nicht sinnvollen Wert von t liefern. Wäre (wie etwa bei Monatswerten) doch eine Art Mittelbildung über eine gerade Anzahl wünschenswert, so kann man folgende Modikation des gleitenden Durchschnitts verwenden: T (i) ≈ D2m (i) := (5.3.3) 0.5yi−m +yi−m+1 +...+yi+m−1 +0.5yi+m 2m Rekursionsformel: (5.3.4) D2m (i) = D2m (i − 1) + (yi+m +yi+m−1 )−(yi−m +yi−m−1 ) 4m Nachteil des gleitenden Durchschnitts: keine Trendschätzung für die ersten und letzten Werte von i. 5.3.2 Die Methode der exponentiellen Glättung Rekursive Berechnung von T ∗ (i) als Schätzung für T (i) nach der Methode der exponen- tiellen Glättung: (5.3.5) Die T ∗ (1) = y(1), Glättungskonstante T ∗ (i) = α y(i) + (1 − α) T ∗ (i − 1) α ist dabei eine vorher festzusetzende Zahl mit (i ≥ 2) 0 ≤ α ≤ 1. 5.3. SCHÄTZUNG DES TRENDS 7 α Man erhält eine starke Glättung, wenn wenn α nahe bei 1 nahe bei 0 ist, und eine schwache Glättung, ist. Die Bezeichnung exponentielle Glättung kommt daher, dass man aus (5.3.5) folgende Formel herleiten kann: T ∗ (i) = α (5.3.5 a) i−2 P (1 − α)j y (i − j) + (1 − α)i−1 y(1) (i ≥ 2) j=0 Für die praktische Berechnung ist aber (5.3.5) vorzuziehen. 5.3.3 Drei Funktionsansätze für die Trendschätzung Linearer Ansatz: T (t) ≈ a + bt Parabolischer Ansatz: T (t) ≈ a + bt + ct2 Exponentieller Ansatz: T (t) ≈ a bt (a, b ≥ 0) Reduktion des exponentiellen auf den linearen Ansatz: ln T (t) ≈ ln a + t ln b =: a∗ + t b∗ (5.3.6) 5.3.4 Die Freihandmethode Anpassung einer Trendgerade (also linearer Ansatz) nach Augenmaÿ an die graphische Darstellung der Zeitreihe 5.3.5 Die Methode der kleinsten Quadrate Vorbemerkung zur Schreibweise: Um bei den in diesem Abschnitt eingeführten arithmetischen Mitteln den Zusammenhang mit der Zeitvariablen zum Ausdruck zu bringen, verwenden wir für die Bezeichnung der Zeitpunkte oder Zeitintervalle die Bezeichnung ti statt einach i, auch wenn meist (aber nicht immer) ti = i ist. a) Linearer Ansatz: Bestimme a und b so, dass 1 n (5.3.7) n P i=1 d2i mit di := (a + b ti ) − yi ein Minimum wird. Diese Forderung ist erfüllt, wenn a und b die folgenden Nor- malengleichungen erfüllen: a + tb = y (5.3.8) t a + t2 b = yt Dabei bedeuten z.B.: t := 1 n n P i=1 ti , t2 := 1 n n P i=1 ti 2 2 (> t i.Allg.), y t := 1 n n P yi t i (= ty 6= y t i.Allg.) i=1 Zur Herleitung und zum Verständnis der Normalengleichungen ist es nützlich, (5.3.7) ausführlich zu schreiben: KAPITEL 5. ZEITREIHENANALYSE 8 n n 1X 2 di = n 1X (a + bti − yi )2 n i=1 i=1 n 1X 2 (a + b2 t2i + yi2 + 2abti − 2ayi − 2bti yi ) n = i=1 2 = a + b2 t2 + y 2 + 2abt − 2ay − 2bty Bezeichnen wir diesen Ausdruck mit g(a, b), so müssen nach den u.a. in der Mathematik IIVorlesung bereitgestellten Verfahren folgende notwendige Bedingungen erfüllt sein, damit g(a, b) ∂g(a,b) ∂a minimal wird. ! ∂g(a,b) ∂b = 2a + 2bt − 2y = 0, ! = 2bt2 + 2at − 2ty = 0 Das führt auf das System (5.3.8) der Normalengleichungen, das seinerseits immer eindeutig lösbar ist auÿer in dem Sonderfall t2 2 ⇔ alle ti ⇔ n=1 =t sind gleich (wegen t1 < t2 < . . . ) Die Lösung des Systems (5.3.8) der Normalengleichungen lautet: t y−t y 2 , t2 −t b= (5.3.9) Dass die Werte für a und b a = y − bt. aus (5.3.9) wie gefordert die Funktion g(a, b) tat- sächlich minimieren, muss noch gezeigt werden. Dabei genügt es i.Allg. nicht, die HesseMatrix zu untersuchen, da dies eine Aussage über relative Extrema liefert. Da aber g(a, b) durch lineare Substitutionen in eine quadratische Form umgewandelt werden kann, genügt die Untersuchung der HesseMatrix doch: H(a, b) := ∂ 2 g(a,b) ∂a2 ∂ 2 g(a,b) ∂a∂b ∂ 2 g(a,b) ∂a∂b ∂ 2 g(a,b) ∂b2 ! = 2 2t 2t 2t2 2 n ≥ 2 die Determinante dieser HesseMatrix = 2 · 2t2 − (2t)2 = 4(t2 − t ) > 0 ∂ 2 g(a,b) und = 2 > 0 ist, besitzt g(a, b) für die Werte aus (5.3.9) nach Satz 11.6 ∂a2 Da für ist b) der MathematikIIVorlesung ein relatives Minimum. Das ist aber gleichzeitig ein absolutes Minimum, da g(a, b) durch lineare Substitutionen in eine quadratische Form umgewandelt werden kann. Die bei der Mittelbildung notwendigen Divisionen durch rechnung von b n kann man bei der Be- vermeiden, indem man den Bruch in (5.3.9) mit erhält so die Alternativformeln: (5.3.9a) b= n·(n·t y )−(n·t) (n·y) 2 n·(n·t2 )−(n·t) b) Parabolischer Ansatz: Bestimme a, b, c , so, dass a = y − bt. n2 erweitert und 5.3. SCHÄTZUNG DES TRENDS n P 1 n (5.3.10) i=1 9 d2i di := (a + bti + ct2i ) − yi mit ein Minimum wird. Diese Forderung ist erfüllt, wenn a, b und c die folgende Nor- malengleichungen erfüllen: a + t b + t2 c = y (5.3.11) t a + t2 b + t3 c = yt t2 a + t3 b + t4 c = yt2 Dabei bedeuten z.B.: tk := 1 n n P ti k , , y tk := i=1 1 n n P ti k yi . i=1 Die bei der Mittelbildung notwendigen Divisionen durch indem man alle Gleichungen mit n n kann man vermeiden, durchmultipliziert: n · a + n · t b + n · t2 c = (n · y) n · t a + n · t2 b + n · t3 c = n · yt n · t2 a + n · t3 b + n · t4 c = n · yt2 (5.3.11a) Dieses System der Normalengleichungen ist eindeutig lösbar bis auf die für die Praxis belanglosen Sonderfälle n=1 und n = 2. c) Exponentieller Ansatz: Statt analog zu a) und b) mit di = a bti − yi zu arbeiten, ist es zweckmäÿiger, auf den linearen Ansatz (vergl. (5.3.6)) zu reduzieren. Man erhält so: t ln y−t ln y , 2 t2 −t b∗ = (5.3.12) a∗ = ln y − b∗ t ∗ a = ea , ∗ b = eb Dabei bedeuten z.B.: ln y := a∗ , b∗ 1 n n P ln yi , , t ln y := i=1 1 n n P ti ln yi . i=1 sind also die Koezienten bei dem linearen Ansatz für die Trendschätzung bei der Zeitreihe ln yi statt yi . Häug ist es zweckmäÿig, bei dieser Trendschätzung zu bleiben und auf die Umrechnung in (5.3.13) a und b zu verzichten: ∗ (t) = a∗ + b∗ t ln T (t) ≈ Tln y (Trendschätzung für ln yi ). Statt ln kann man z.B. auch log10 verwenden. Man erhält dann die Umrechnungsformeln ∗ a = 10a , b = 10b ∗ . Die bei der Mittelbildung notwendigen Divisionen durch rechnung von b∗ n kann man bei der Be- vermeiden, indem man den Bruch in (5.3.12) mit erhält so die Alternativformeln: n2 erweitert und KAPITEL 5. ZEITREIHENANALYSE 10 b∗ = (5.3.12a) n·(n·t ln y )−(n·t) (n·ln y ) 2 n·(n·t2 )−(n·t) ∗ a = ea , a∗ = ln y − b∗ t. , b = eb ∗ Allg. Bem. zu 5.3: In der Praxis sollte bei den Trendschätzungsverfahren n etwa ≥ 30 sein. 5.4 Saisonbereinigung 5.4.1 Ein Verfahren bei additiver Verknüpfung yi Es seien Zeitreihenwerte in monatlichen Daten vorgegeben. Bei andere Aufteilung des Jahres sind die Einzelschritte entsprechend zu modizieren. • 1. Schritt: Trendschätzung durch gleit. Durchschnitte: T (i) ≈ D12 (i) (5.4.1) • 2. Schritt: ( ti durch i ersetzt) Trendbereingung: Bestimmung von di := yi − D12 (i) (5.4.2) als Schätzung für yi − T (i) = S(i) + R(i). Annahme 1: Der Wert der Saisonkomponente S(i) ist nur von dem Monat und nicht von dem Jahr abhängig. In allen Jahren soll die Saisonbewegung gleich sein. Damit bestimmen 12 Werte von S(i), die den Monaten zugeordnet sind, die ganze Saisonkomponente: (SI , SII , . . . , SXII ) Dieser Satz von 12 Zahlen heiÿt Saisonnormale. Die Verbindung zur Saisonkom- ponente ist dann in folgender Weise gegeben: (5.4.3) SI , SII , S(i)(≡ Si ) = .. falls der Monat mit der Nummer falls der Monat mit der Nummer i ein Januar ist. i ein Februar ist. . . . . Die Schätzung der Saisonnormale ist das Ziel der nächsten Schritte. • 3. Schritt: Bildung der arthm. Mittel aller Werte di , die zu jeweils einen Monat gehören. Wir bezeichnen diese arithmetischen Mittel mit: dI , dII , . . . , dXII . dII ist z.B. das arithmetische Mittel aller Werte di , die zum Februar gehören. Annahme 2: Der Jahresdurchschnitt aller saisonbedingter schwindet, d.h. (5.4.4) 1 12 (SI + SII + · · · + SXII ) = 0 Abweichungen ver- 5.4. SAISONBEREINIGUNG • 4. Schritt: 11 Bestimmung von dI +dII +···+dXII 12 (5.4.5) d := als Korrektur zu den Werten dI , dII , . . . , dXII . Damit ist eine Schätzung für die Saisonnormale wie folgt zu bestimmen: ∗ , . . . , S∗ ) (SI∗ , SII XII (5.4.6) • 5. Schritt: mit ∗ := dXII − d. SI∗ := dI − d, . . . , SXII Bestimmung von Bi∗ := yi − Si∗ (5.4.7) ∗ SI , ∗ , ∗ ∗ SII S (i)(≡ Si ) = .. falls der Monat mit der Nummer falls der Monat mit der Nummer Die Werte Bi∗ • 6. Schritt: yi − S(i) = T (i) + R(i) bilden also eine Schätzung für die saisonbereinigte Zeitreihe. Bestimmung von Ri∗ := Bi∗ − D12 (i) (5.4.8) als Schätzung für die Restkomponente: Bem.: di und i ein Januar ist, i ein Februar ist, . . . . als Schätzung für mit (vergl. (5.4.3)) Ri∗ können nicht für alle R(i) = yi − S(i) − T (i). i der Zeitreihe berechnet werden, da die gleitenden Durchschnitte dabei werwendet werden. Beispiele zur Saisonbereinigung nden Sie in den in diesem Verzeichnis abgelegten Files kap5erg1.pdf und kap5erg2.pdf . 5.4.2 Ein Verfahren bei multiplikativer Verknüpfung Durch Logarithmieren (vergl. (5.2.3)) lässt sich die Untersuchung auf den Fall der additiven Verknüpfung reduzieren. Es ist also das Verfahren aus 5.4.1 auf die Zeitreihe ln yi anzuwenden. Es ist dann zweckmäÿig, die logarithmische Darstellung beizubehalten und erst bei der Auswertung einzelner Zahlenergebnisse die Logarithmierung wieder rückgängig zu machen. Kapitel 6 Lineare Regression 6.1 Einfache Regression Problemstellung : Zwei (oder auch mehr) quantitative Merkmale werden an jedem einzelnen statistischen Element geprüft, z. B. Werbungskosten und Absatz in einem bestimmten Betrieb im iten Jahr (i = 1, 2, . . . , n). Wir nehmen an, dass zwischen den Messgröÿen ein linearer Zusammenhang besteht und suchen nach geeigneten näherungsweisen Darstellung dieses Zusammenhangs. Bestimmung der Regressionsgeraden : Messwerte (= beobachtete Merkmalsausprä- gungen) an einem statistischen Element i: xi yi für das 1.Merkmal für das 2.Merkmal 1. Regressionsgerade: linearer Ansatz: y = a1 + b1 x Die Forderung: n P ! (a1 + b1 xi − yi )2 = (6.1.1) Min. liefert (vergl. (??): i=1 b1 = n · (n · x y) − (n · x) (n · y) , n · n · x2 − (n · x)2 ! a1 = y − b1 x , (x2 − x2 6=0). (6.1.2) n 1X x y := x i yi n (= y x 6= y x i.Allg.) i=1 2. Regressionsgerade: linearer Ansatz: x = a2 + b2 y Die Forderung: n P ! (a2 + b2 yi − xi )2 = (6.1.3) Min. liefert: i=1 b2 = n · (n · x y) − (n · x) (n · y) , n · n · y 2 − (n · y)2 ! a2 = x − b2 y , 12 (y 2 − y 2 6=0). (6.1.4) 6.2. ZWEIFACHE REGRESSION Der Punkt xy 13 liegt auf beiden Regressionsgeraden. (6.1.5) Es gilt allgemein: 0 ≤ b1 · b2 ≤ 1 (6.1.6) In vielen Anwendungen ist aber nur die erste Regressionsgerade sinnvoll zu interpretieren, und zwar dann, wenn aus dem Zusammenhang klar ist, dass das erste Merkmal 'x' das zweite Merkmal 'y ' beeinusst, aber nicht umgekehrt. 'x' heiÿt dann 'y ' Einussgröÿe und Zielgröÿe. Beide Regressionsgeraden sind i.Allg. verschieden. Sie sind genau dann gleich, wenn folgendes gilt: b1 · b2 = (xy − x · y)2 =1 (6.1.7) liegen (exakt) auf einer Geraden. (6.1.8) (x2 − x2 )(y 2 − y 2 ) Ausserdem gilt: b1 · b2 = 1 ⇔ 6.2 Alle Punkte (xi , yi ) Zweifache Regression Wir haben jetzt drei Merkmale an jedem statistischen Element zu prüfen. Die Merkmalsausprägungen oder Messwerte bezeichnen wir wieder mit: xi für das 1. Merkmal yi für das 2. Merkmal zi für das 3. Merkmal Wir bestimmen eine Regressionsebene mit einem linearen Ansatz: z = a1 + b1 x + c1 y n P Die Forderung: (6.2.9) ! (a1 +b1 xi +c1 yi −zi )2 = Min. liefert die Normalengleichungen (vergl.(??), i=1 (??) und (??)): n · a1 + (n · x) · b1 + (n · y) · c1 (n · x) · a1 + n · x2 · b1 + (n · xy) · c1 (n · y) · a1 + (n · xy) · b1 + n · y 2 · c1 = n·z = n · xz (6.2.10) = n · yz Diese Normalengleichungen sind genau dann eindeutig nach den Parametern a1 , b1 , c1 aufzulösen, wenn folgende Bedingungen erfüllt sind: x2 − x2 6= 0 und y 2 − y 2 6= 0 (xy − x · y)2 6= 1. (x2 − x2 )(y 2 − y 2 ) Die Bedingung (6.2.11) ist genau dann erfüllt, wenn mindestens eines der mindestens eines der yi von y (6.2.11) (6.2.12) xi von x und verschieden ist. Das trit fast immer zu. Die Bedingung KAPITEL 6. LINEARE REGRESSION 14 (6.2.12) ist nach (6.1.6) und (6.1.5) genau dann erfüllt, wenn die Messwertpaare (xi , yi ) nicht alle (exakt) auf einer Geraden liegen. Auch das ist in der Regel erfüllt. Ähnlich wie im Falle der einfachen Regression kann man zwei weitere Regressionsebenen aus den Daten für xi , yi und zi bestimmen, und zwar mit den Ansätzen: x = a2 + b2 y + c2 z y = a3 + b3 x + c3 z wobei für a2 , b2 , c2 bzw. a3 , b3 , c3 wieder Normalengleichungen aufzustellen sind: n · a2 + (n · y) · b2 + (n · z) · c2 (n · y) · a2 + n · y 2 · b2 + (n · yz) · c2 (n · z) · a2 + (n · yz) · b2 + n · z 2 · c2 = n·x n · a3 + (n · x) · b3 + (n · z) · c3 (n · x) · a3 + n · x2 · b3 + (n · xz) · c3 (n · z) · a3 + (n · xz) · b3 + n · z 2 · c3 = n·y = n · yx = n · zx bzw. = n · xy = n · zy Diese beiden Regressionsebenen sind aber nur dann sinnvoll zu interpretieren, wenn nicht aus dem Zusammenhang klar ist, dass die beiden ersten Merkmale 'x' und 'y ' Einussgröÿen sind und das dritte Merkmal 'z ' die Zielgröÿe ist. Kapitel 7 Wahrscheinlichkeitsrechnung 7.1 Kombinatorik Denition 7.1.1 (a) Für eine beliebige natürliche Zahl aus den Zahlen von 1 bis m mit m m! := 1 · 2 · 3 · · · m, 0! := 1 . n und k mit 0 ≤ k ≤ n n n! := k k! · (n − k)! (b) Für zwei beliebige ganze Zahlen der bezeichnet man das Produkt m Fakultät: ist durch Binomialkoezient n über k deniert. Für diesen Binomialkoezienten gilt für 1 ≤ k ≤ n: n · (n − 1) · · · (n − k + 1) n = . k 1 · 2···k (7.1.1) Diese Darstellung ist für die zahlenmäÿige Auswertung oft günstiger als die Formel, durch die der Binomialkoezient deniert ist. Darüber hinaus liefert die formale Anwendung von (7.1.1) die sinnvolle Denition: n := 0 k für k, n ∈ Z, 0 ≤ n < k. (7.1.2) (m + 1)! = m! · (m + 1). Satz 7.1.2 (Binomischer Lehrsatz) Für n (a + b) = a, b ∈ R n X n k=0 Dabei setzt man x0 := 1, k und 15 gilt: · ak · bn−k . wobei die Funktion von bleibt undeniert. n ∈ Z, n ≥ 0 (7.1.3) x gemeint ist. 00 für sich genommen KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 16 Urnenmodell: Urne mit n Kugeln; k Kugeln werden nacheinander aus der Urne gezo- gen und in einer Stichprobe zusammengestellt. (I) Regeln des Ziehens (a) Ohne Zurücklegen (Abkürzung: o.Z.) Jede gezogene Kugel wird nicht wieder in die Urne zurückgelegt, sondern kommt in die Stichprobe. (b) Mit Zurücklegen (Abkürzung: m.Z.) Jede gezogene Kugel wird in der Stichprobe registriert und wieder in die Urne zurückgelegt. Modell für das Registrieren: Ein Duplikat der gezogenen Kugel kommt in die Stichprobe. (II) Regel des Zusammenstellens (a) Ohne Berücksichtigung der Anordnung (Abkürzung: o.B.d.A) Jede gezogene Kugel bzw. ihr Duplikat kommt in eine Stichprobenurne. Die Reihenfolge der Ziehungen ist also nachher nicht mehr feststellbar. (b) Mit Berücksichtigung der Anordnung (Abkürzung: m.B.d.A) Jede gezogene Kugel bzw. ihr Duplikat kommt in dasjenige Fach eines Stichprobenfächerbretts, das die Nummer der Ziehung trägt. Bemerkung.: m. bzw. o. Wiederholung = m. bzw. o. Z. n verschiedene Kugeln in der Urne, nung aus n k Kugel in die Stichprobe: Kombination k-ter Ord- (verschiedenen) Elementen (ergänzt durch Regeln aus (I) und (II), z.B. m.Z.o.B.d.A.) Kk (n) := Anzahl aller möglichen verschiedenen Kombinationen der jeweils beschriebenen Art. Kk (n) m.B.d.A. o.B.d.A. m.Z. nk n+k−1 k (k ∈ N bel.) = (k ∈ N und k ≤ n) = n · (n − 1) · · · (n − k + 1) k=n (n+k−1)·(n+k−2)···n 1·2···k n k n! (n−k)! o.Z. Sonderfall = n·(n−1)···(n−k+1) 1·2···k bei der K.o.Z.m.B.d.A.: Permutation der Menge {1, 2, . . . , n} := Anordnung der Zahlen 1, 2, . . . , n in willkürlicher Reihenfolge. Anzahl: Pn := Kn (n)(o.Z.m.B.d.A.) = n! Bemerkung.: Statt {1, 2, . . . , n} kann jede beliebige Menge mit n verschiedenen Elemen- ten verwendet werden. 7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG Satz 7.1.3 (StirlingFormel) Für groÿe natürliche Zahlen verwendbar: m! ≈ m m √ e m 17 ist die folgende Näherung 2πm Für die Genauigkeit der Näherung gilt: √ (m/e)m 2πm − m! m ≥ 9 ⇒ |prozentualer Fehler| := | · 100| ≤ 1(%) m! m ≥ 85 ⇒ |prozentualer Fehler| ≤ 0.1(%) Bemerkung. (a) Wir haben k gleichartige Mengen von je n Elementen. Ziehen wir aus jeder Menge je ein Element, so ist die Formel für Kombinationen m.Z. . . . k -ter Ordnung aus n Elementen anzuwenden. Ein Urnenmodell ist dazu nicht mehr nötig. (b) Wenn es auf die Reihenfolge der Auswahl (oder Ziehung) ankommt, ist die Formel m.B.d.A ist anzuwenden, und wenn nicht (z.B. wenn gezogene Zahlen in natürlicher Reihenfolge bekanntgegeben werden) die Formel o.B.d.A . 7.2 Grundlagen der Wahrscheinlichkeitsrechnung Ein Ereignis heiÿt in Bezug auf einen Satz von Bedingungen zufällig, wenn es bei der Realisierung dieses Satzes eintreten kann, aber nicht unbedingt eintreten muss. Denition 7.2.1 Ein Experiment heiÿt ein Zufallsexperiment, falls folgende Bedingungen erfüllt sind: (a) Es kann nicht mit Sicherheit gesagt werden, welches Ergebnis sich einstellen wird. (b) Das Experiment soll (wenigstens theoretisch) beliebig oft unter den gleichen Bedingungen wiederholt werden können. (c) Sämtliche überhaupt möglichen Ergebnisse sollen vor der Durchführung des Experiments angegeben werden können. Denition 7.2.2 Die Menge aller überhaupt möglichen Ergebnisse eines Zufallsexperiments heiÿt die Ergebnismenge Ω. Denition 7.2.3 Ein Ereignis ist eine Teilmenge der Ergebnismenge. Bemerkung. Bei überabzählbaren Ergebnismengen bezeichnet man nur Teilmengen aus einer gewissen Klasse als Ereignisse. Denition 7.2.4 Jedes Ereignis {ω } mit unmögliche Ereignis, Ω ω ∈ Ω heiÿt Elementarereignis. das sichere Ereignis. Denition 7.2.5 (Klassische Denition der Wahrscheinlichkeit) Eine Ergebnismenge Ω erfülle folgende zwei Bedingungen: ∅ ist das KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 18 (a) Ω ist eine endliche Menge (b) Alle Elementarereignisse sind gleichwahrscheinlich. A sei ein beliebiges Ereignis, d.h. A ⊂ Ω. Dann heiÿt P (A) := mit card M := A = Ω card card Anzahl der für das Ereignis A günstigen Ergebnisse Anzahl der möglichen Ergebnisse Anzahl der Elemente von M die Wahrscheinlichkeit. Sonderfall: P ({ω}) = 1 card Ω Denition 7.2.6 (Statistische Denition der Wahrscheinlichkeit) Ω sei eine Ergebnismenge, A⊂Ω ein Ereignis und n die Zahl der Wiederholungen des Zufallsexperiments (a) Die absolute bzw. relative Häugkeit von A bei n Wiederholungen ist deniert durch: fn (A) := (b) Anzahl der Wiederholungen, bei denen A eintritt, bzw. hn (A) := fn (A) n P (A) :=00 lim00n→∞ hn (A). Beispiel 7.2.7 Zufallsexperiment: Werfen eines Reiÿnagels. K (:= Kopf ): Mögliche Ergebnisse: ; S (:= Spitze): ; Ω := {K,S } Ergebnis einer Versuchsreihe: n fn ({K}) hn ({K}) 5 10 15 40 60 160 180 200 2 6 10 25 40 100 110 125 0.4 0.6 0.667 0.625 0.667 0.625 0.611 0.625 P ({K}) =00 lim00n→∞ hn ({K}) ≈ 0.625, analog P ({S}) ≈ 0.375 Denition 7.2.8 (Axiomatische Denition der Wahrscheinlichkeit) Wird jedem Ereignis scheinlichkeit von A ⊂ Ω A, eine reelle Zahl P (A) zugeordnet, so heiÿt P (A) Wahr- wenn folgende Bedingungen erfüllt sind: a) P (A) ≥ 0 b) P (Ω) = 1 c) P (A ∪ B) = P (A) + P (B), (sicheres Ereignis) falls A∩B =∅ ist (A, B disjunkt) Bemerkungen. (a) Bei unendlichen Ergebnismengen ersetzt werden. Ω müsste c) durch eine allgemeinere Bedingung 7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG 19 (b) Die axiomatische Denition umfasst die klassische und die statistische Denition der Wahrscheinlichkeit Beispiel 7.2.9 Auf einem Rad mit fester Achse vom Umfang 1 m (d.h. Radius = 21π 0.159 m) m = wird eine Maÿskala für die Bogenlängen angebracht: 0 @ @ 0.25 0.5 u I 1 0.75 feste Marke @ @ Das Zufallsexperiment besteht nun darin, das Rad mit hoher Drehzahl zu drehen und plötzlich zu stoppen. Die Bogenlängen auf der Maÿskala, die dann bei der festen Marke stehenbleibt, wird als Ergebnis des Zufallexperiments registriert. Die Ergebnismenge besteht also aus allen möglichen Werten auf der Maÿskala, d.h. es ist zunächst Ω = [0, 1[. Alle Ergebnisse sind gleichberechtigt oder anders ausgedrückt - kein Ergebnis ist vor dem anderen bevorzugt. Um nun bei den folgenden Überlegungen zusätzliche formale Schwierigkeiten zu vermeiden, ändern wir die Ergebnismenge geringfügig ab: Ω = [0, 1]. Aufgrund der Gleichberechtigung der Ergebnisse erhalten wir für die Wahrscheinlichkeit von Teilintervallen [a, b] ⊂ [0, 1]: P ([a, b]) = Länge von Länge von [a, b] b−a = [0, 1] 1 Für die Wahrscheinlichkeit von Vereinigungen von Teilintervallen [a, b], [c, d] ⊂ [0, 1] er- halten wir folgende Regeln, wobei wir zwei Fälle unterscheiden müssen: Fall 1: [a, b] ∩ [c, d] = ∅ P ([a, b] ∪ [c, d]) = Anteil von [a, b] ∪ [c, d] an der Gesamtlänge P ([b]) ∪ [d]) = b − a + d − c = P ([a, b]) + P ([c, d]) (vergl. Denition 7.2.8,c) Fall 2: [a, b] ∩ [c, d] 6= ∅ Gilt entsprechend der Skizze speziell 0 ≤ a ≤ b ≤ c ≤ d ≤ 1, [a, b] ∪ [c, d] = [a, d], so erhält man: [a, b] ∩ [c, d] = [c, b] und damit P ([a, b] ∪ [c, d]) − P ([a, b]) − P ([c, d]) = (d − a) − (b − a) − (d − c) = c − b | {z } =[a,d] = −(b − c) = −P ([c, b]) = −P ([a, b] ∩ [c, d]). Daraus folgt P ([a, b] ∪ [c, d]) = P ([a, b]) + P ([c, d]) − P ([a, b] ∩ [c, d]) (vergl. Satz 7.2.12). KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 20 Spezialfälle (vergl. die nachstehende Denition 7.2.11): P ({ω}) = P ([ω, ω]) = ω − ω = 0, d.h. {ω} ]0, 1[ ist fast unmöglich für jedes ist fast sicher; denn ω ∈ Ω. P (]0, 1[) = P (Ω) − P ({0}) − P ({1}) = 1 Satz 7.2.10 Folgerungen aus den Bedingungen (a), (b) und (c) von Denition 7.2.8: (i) (ii) P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak ), A ⊂ B ⇒ P (A) ≤ P (B) (iv) 0 ≤ P (A) ≤ 1 (vi) Ai ∩ Aj = ∅ f. a. i 6= j A ⊂ B ⇒ P (B − A) = P (B) − P (A) (iii) (v) falls P (A) = 1 − P (A) P (∅) = 0, (unmögliches Ereignis) Beweis: (i) folgt direkt aus Bedingung (c), was durch vollständige Induktion zu beweisen ist. (ii) und (iii) Es sei A ⊂ B. Rand von B B−A A Dann kann man B auf folgende Art als Vereinigung zweier disjunkter Mengen darstellen: B = A ∪ (B − A) ∧ A ∩ (B − A) = ∅ ⇒ (nach Bed. (c)) P (B) = P (A) + P (B − A) ≥ P (A) ⇒ P (B − A) = P (B) − P (A) | {z } ≥0 nach Bed. a) (iv) (v) (vi) A⊂Ω⇒0 Bed. a) iii) ≤ P (A) ≤ P (Ω) ii) Bed. b) P (A) = P (Ω − A) = P (Ω) − P (A) = 1 Bed. b) = 1 − P (A) v) ∅ = Ω ⇒ P (∅) = 1 − P (Ω) = 0 7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG Denition 7.2.11 Ein Ereignis A⊂Ω (a) fast unmöglich (Abk.: f. u.), wenn (b) fast sicher (Abk.: f. s.), wenn Satz 7.2.12 Für zwei Ereignisse 21 heiÿt P (A) = 0 P (A) = 1 A, B ⊂ Ω, ist, ist. die nicht disjunkt zu sein brauchen, gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Satz 7.2.13 k Kugeln werden zufällig aus einer Urne gezogen und in einer Stichprobe gesammelt. Zufällig bedeutet dabei: Bei jeder der k Ziehungen hat jede Kugel, die sich (noch) in der Urne bendet, die gleiche Chance, gezogen zu werden. Dann gilt . . . (a) im Falle der Kombinationen m. Z. m. B. d. A., o. Z. m. B. d. A. und o. Z. o. B. d. A.: Jede Kombination hat die Wahrsch. = 1 Kk (n) (b) im Falle der Kombinationen m. Z. o. B. d. A.: Die Kombinationen haben i.a. verschiedene Wahrscheinlichkeiten, insbesondere ist i.a. die Wahrscheinlichkeit 6= 1 Kk (n) . Bemerkung.: Damit man den Kombinationen überhaupt Wahrscheinlichkeiten im Sinne von Denition 7.2.8 zuordnen kann, muss man sie als Elementarereignisse oder allgemeinere Ereignisse in einer geeigneten Ergebnismengen auassen. Dasselbe gilt auch für die Wahrscheinlichkeiten in der folgenden Erläuterung zu Satz 7.2.3, wobei einige Wahrscheinlichkeiten auÿerdem günstiger als bedingte Wahrscheinlichkeiten (vergl. 7.3) aufzufassen sind. Erläuterung zu Satz 7.2.13: Urne mit n Kugeln, Stichprobenbrett mit k Fächern bei m. B. d. A (i) Bei der Vorschrift m. Z. m. B. d. A. ist die Wahrscheinlichkeit bei dem 1. Fach für jede Kugel : dem 2. Fach für jede Kugel : 1 n 1 n . . . 1 n : dem kten Fach für jede Kugel Jede Kombination m. Z. m. B. d. A. hat damit die Wahrscheinlichkeit ( n1 )k = 1 Kk (n) (ii) Bei der Vorschrift o. Z. m. B. d. A ist die Wahrscheinlichkeit bei dem 1. Fach für jede Kugel : 1 n dem 2. Fach für jede (restliche) Kugel : 1 n−1 : 1 n−k+1 . . . dem kten Fach für jede (restliche) Kugel Jede Kombination o. Z. m. B. d. A. hat damit die Wahrscheinlichkeit 1 Kk (n) . 1 n (n−1)...(n−k+1) = KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 22 (iii) Je k! verschiedene Kombinationen o. Z. m. B. d. A. entsprechen einer Kombination o. Z. o. B. d. A. Damit hat jede Kombination o. Z. o. B. d. A. die Wahrscheinlichkeit k! 1 = . n(n − 1) . . . (n − k + 1) Kk (n) (iv) Im Gegensatz zu (iii) ist die Anzahl der verschiedenen Kombinationen m. Z. m. B. d. A., die einer Kombination m. Z. o. B. d. A. entsprechen, abhängig von dem Ziehungsergebnis. Ein Beispiel dazu: 2 Würfe mit einer idealen Münze: Kombination m. Z. o. B. d. A. Kombination m. Z. m. B. d. A. zweimal W = ˆ W beim 1. Wurf und W beim 2. Wurf zweimal Z = ˆ Z beim 1. Wurf und Z beim 2. Wurf einmal W, einmal Z = ˆ W beim 1. Wurf und Z beim 2. Wurf oder Z beim 1. Wurf und W beim 2. Wurf 1 4 1 2 und Da nun diese Kombination m. Z. m. B. d. A. nach i) alle die Wahrscheinlichkeit 2 haben, hat das Ereignis einmal 'W', einmal 'Z' die Wahrscheinlichkeit 4 1 nicht die Wahrscheilichkeit 3 = Bemerkung.: Bei Wahrscheinlichkeitsuntersuchungen gilt: 1 Wurf mit 2 Münzen = ˆ 2 Würfen mit 1 Münze Dasselbe gilt auch für mehrere Münzen oder für zwei oder mehr Würfel. Dieser Sachverhalt beruht darauf, dass man Münzen, Würfel oder dergleichen unterscheiden kann z.B. durch verschiedene Farben. Werden etwa ein blauer und ein roter Würfel gleichzeitig geworfen, so kann man das Wurfergebnis beim blauen Würfel als Wurfergebnis des 1. Wurfes bei einem Würfel auassen und das des roten als Wurfergebnis des 2. Wurfes. 7.3 Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die totale Wahrscheinlichkeit, Formel von Bayes Denition 7.3.1 Es seien A, B ⊂ Ω zwei Ereignisse mit P (A) > 0. Dann heiÿt: P (B/A) := B unter der Bedingung A. P (B∩A) P (A) die bedingte Wahrscheinlichkeit von Denition 7.3.2 : Zwei Ereignisse mit A, B ⊂ Ω heiÿen (stochastisch) unabhängig, wenn gilt: P (A ∩ B) = P (A) · P (B). Satz 7.3.3 Für bedingte Wahrscheinlichkeiten bzgl. eines festen Ereignises gelten die Regeln in Def. 7.2.7 u. d. Sätzen 7.2.1,2) z.B. Satz 7.3.4 (Multiplikationssatz): A, B ⊂ Ω P (B/A) = 1 − P (B/A). seien zwei Ereignisse mit P (A) > 0 . Dann gilt: P (B ∩ A) = P (B/A) · P (A) . 7.4. ZUFALLSVARIABLE, WAHRSCHEINLICHKEITSVERTEILUNGEN Denition 7.3.5 Die Ereignisse A1 , A2 , . . . An bilden ein 23 vollständiges System, wenn gilt: a) A1 ∪ A2 ∪ . . . ∪ An = Ω b) Ai ∩ Aj = ∅ Satz 7.3.6 für alle (sicheres Ereignis) i 6= j A1 , A2 , . . . , An (paarweise disjunkt). bilden ein vollständiges System von Ereignissen, und weiteres Ereignis. Weiterhin gelte B sei ein P (Ai ) > 0 für alle i = 1, 2, . . . , n. Dann gilt die Formel für die totale Wahrscheinlichkeit: P (B) = n P P (B/Ai ) · P (Ai ). i=1 Satz 7.3.7 Es gelten die Voraussetzungen von Satz 7.3.3 und tens ein i. Dann gilt die P (B/Ai ) > 0 für mindes- Formel von Bayes: P (Ai /B) = P (B/Ai )·P (Ai ) P (B) Denition 7.3.8 Die Ereignisse (P (B) vergl. Satz 7.3.6). A1 , A2 , . . . , An ⊂ Ω heiÿen: paarweise unabhängig, wenn gilt: a) P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) b) (insgesamt) Zahlen unabhängig, wenn für jedes 1 ≤ j1 < j2 < . . . < jk ≤ n für alle k ≤ n i 6= j und für jede Kombination von gilt: P (Aj 1 ∩ Aj 2 ∩ . . . ∩ Aj k ) = P (Aj 1 ) · P (Aj 2 ) · · · P (Aj k ) Bemerkung.: 7.4 b) ⇒ a) aber a) 6⇒ b) Zufallsvariable, Wahrscheinlichkeitsverteilungen Denition 7.4.1 Eine Zufallsvariable (Abk.: Zufallsvariable) ist eine Gröÿe X (oder Y, Z, Xi usw.), die bei der Durchführung eines Zufallsexperiments (oder bei einem vergleich- baren Vorgang) irgendeinen reellen Wert x annimmt. x heiÿt dann eine Realisierung von X. Bei einer weiteren Durchführung des Zufallsexperiments erhält man i. a. eine andere Realisierung Analogien: x0 von X X= ˆ X= ˆ Messvorschrift, Merkmal, x= ˆ x= ˆ Messergebnis Merkmalsausprägung. Bemerkung.: Häug wird die Zufallsvariable auch so deniert: ω ∈ Ω 7→ X(ω) ∈ R X: Bemerkung.: X = x, X < x men, also nur die Werte oder x0 , x1 , x2 , . . .), (0, )1, 2, . . . , n oder so nennt man sie eine Ergebnismenge (messbare Abbildung) usw. sind für Denition 7.4.2 Kann eine Zufallsvariable Ω x∈R zufällige Ereignisse. X höchstens abzählbar viele Werte anneh(0, )1, 2, . . . (oder allgemeiner x0 , x1 , . . . , xn diskrete Zufallsvariable. KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 24 Denition 7.4.3 X sei eine diskrete Zufallsvariable. Sind die Wahrscheinlichkeiten pk := P (X = k) oder allgemeiner pk := P (X = xk ) für alle k bekannt, so spricht man von einer Wahrscheinlichkeitsverteilung von X. Andere Ausdrucksweise: X = k bzw. xk mit Wahrscheinlichkeit pk . Satz 7.4.4 Für jede Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable gilt: (a) (b) 0 ≤ pk ≤ 1 n P pk = 1 für alle bzw. k ∞ P pk ) = 1. k=0 k=0 k=0 m P pk (:= limm→∞ Denition 7.4.5 Es sei F (x) := P (X ≤ x) mit X eine beliebige Zufallsvariable. Dann nennt x ∈ R die Verteilungsfunktion von X . Satz 7.4.6 Für die Verteilungsfunktion F (x) (a) 0 ≤ F (x) ≤ 1 (b) F (x) ↑ (c) limx→−∞ F (x) = 0 ∧ limx→+∞ F (x) = 1 (nicht immer streng Beispiel 7.4.7 ↑) auf k einer Zufallsvariable gilt: R, (i) Eine Zufallsvariable pk := P (X = k) = e−2 2k! , X sei Poisson-verteilt mit Xdiskret = λ=2 (vergl. 7.6.9): p0 = 0.14, p1 = 0.27, p2 = 0.27, p3 = 0.18, . . . Ausrechnungsbsp. für einen Wert der Verteilungsfunktion F (3.5) := P (X ≤ 3.5) man die Funktion F (x): P (X = 0 ∨ X = 1 ∨ . . . ∨ X = 3) = 3(≤3.5) P pk = 0.86 k=0 (ii) Für ein Bsp. für eine Verteilungsfunktion stetiger Zufallsvariable vergl. (7.6.12) Mit Hilfe der Verteilungsfunktion lässt sich leicht die Wahrscheinlichkeit dafür beschreiben, dass X in einem bestimmten halboenen Intervall liegt: Es sei P (a < X ≤ b) = = F auf Dann gilt: P (X ≤ b ∧ X > a) = P (X ≤ b ∧ (X ≤ a)) a<b, Satz7.2.1ii) Ist speziell a < b. R P (X ≤ b) − P (X ≤ a) =F (b) − F (a) stetig dierenzierbar, so können wir diese Dierenz durch ein be- stimmtes Integral ausdrücken: F (b) − F (a) = Rb a F 0 (x) dx = Rb f (x) dx mit f (x) := F 0 (x) a Speziell folgt aus Satz 7.4.6, (c) in diesem Fall: F (b) = lima→−∞ (F (b) − F (a)) = Rb f (x) dx, −∞ 1 = limb→∞ F (b) = R∞ −∞ f (x) dx . 7.4. ZUFALLSVARIABLE, WAHRSCHEINLICHKEITSVERTEILUNGEN Denition 7.4.8 Zufallsvariablen, bei denen die Verteilungsfunktion F (x) 25 stetig die- renzierbar oder wenigstens durch Z x f (u) du F (x) = (7.4.4) −∞ mit einer geeigneten Funktion f (x) := F 0 (x) f (u) darstellbar ist, heiÿen oder - im allgemeineren Fall die Funktion f (u) stetige Zufallsvariablen. aus (7.4.4) heiÿt die Ver- teilungsdichte oder Wahrscheinlichkeitsdichte der Zufallsvariable. Bemerkung. Die Eigenschaften stetig und diskret schlieÿen bei Zufallsvariable einander aus. Darüberhinaus gibt es Zufallsvariable, die weder diskret noch stetig sind. Satz 7.4.9 Für die Verteilungsdichte einer stetigen Zufallsvariable gilt: (a) (b) f (x) ≥ 0 R∞ für alle x∈R f (x) dx = 1 −∞ Bemerkung.: f (x) ≤ 1 gilt i.a. nicht, da f (x) nicht als Wahrscheinlichkeit zu interpre- tieren ist. Satz 7.4.10 Für eine stetige Zufallsvariable gilt: (a) x R P (X = x) = f (u) du = 0, x (b) P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = Rb a f (u) du Bemerkung. (a) Bei einer stetigen Zufallsvariable ist also die Wahrscheinlichkeit, dass bestimmten Wert annimmt, X = 0. X einen ganz Das ist ein weiterer Grund dafür, dass f (x) nicht als Wahrscheinlichkeit zu interpretieren ist. (b) Bei einer stetigen Zufallsvariable ist es also gleichgültig, ob die Intervallgrenzen eingeschlossen sind oder nicht. Bei nichtstetigen Zufallsvariablen gilt das i.a. nicht. Satz 7.4.11 Für eine diskrete Zufallsvariable P (a ≤ X ≤ b) = n(od.∞) P pk , k=0 a ≤ xk ≤ b Für die übrigen Intervalle gilt analoges. X gilt (im Gegensatz zu oben): P (a < X ≤ b) = n(od.∞) P k=0 a < xk ≤ b pk KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 26 Beispiel 7.4.12 (i) 6 f (u) - u b Schraerte Fläche = Rb −∞ f (u) du = F (b) = P (X ≤ b)(= P (−∞ < X ≤ b)) (ii) 1. Fläche = b0 ) Rb a f (u) du = P (a ≤ X ≤ b) 2. Fläche = R b0 a0 f (u) du = P (a0 ≤ X ≤ (iii) f (u) ist keine Wahrsch.dichte, da Bedingung a) in Satz 7.4.9 verletzt ist, was in diesem Bsp. zur Folge hat, dass Rb a f (u) du < 0 ist, also keine Wahrscheinlichkeit sein kann. (iv) Eine Zufallsvariable X habe eine Exponentialverteilung, d.h. f (x) := wobei λ eine feste reelle Zahl > 0 0 λ e−λ x für für x < 0, x ≥ 0, ist, sei die Verteilungsdichte von X. Zunächst lässt sich leicht überprüfen, dass die Bedingungen von Satz 7.4.9 erfüllt sind: (a) (b) f (x) ≥ 0 für alle x ∈ R, Z 0 R∞ R∞ f (x) dx = f (x) dx + 0 f (x) dx = 1, denn: −∞ −∞ |{z} :=0 | {z } =0 R b −λ x Rb −λb + 1 −→ 0 + 1 dx = [−e−λ x ]x=b x=0 = −e 0 f (x) dx = 0 λ e für b→∞ Für die Verteilungsfunktion erhält man: Rx f (u) du = 0 −∞ |{z} :=0 Z 0 Rx Rx vergl.o. F (x) = f (u) du = f (u) du + 0 f (u) du = 1 − e−λ x −∞ −∞ |{z} :=0 | {z } für x<0 für x≥0 =0 Für die Wahrscheinlichkeit, dass R2 X zwischen 1 und 2 liegt, erhält man: P (1 ≤ X ≤ 2) = 1 λe−λ x dx = [−e−λ x ]x=2 = e−λ − e−2λ x=1 = P (1 < X ≤ 2) = P (1 ≤ X < 2) = P (1 < X < 2) 7.5. ERWARTUNGSWERT, VARIANZ 27 λ = 1.2: P (1 ≤ X ≤ 2) = e−1.2 − e−2.4 = 0.210 Skizzen mit (v) Poisson-Verteilung mit pk = e−2 · 2k k! , λ = 2: k = 0, 1, 2, . . . P (2 ≤ X < 4) = P (X = 2 ∨ X = 3) = P (X = 2) + P (X = 3) = p2 + p3 = 0.45 P (2 ≤ X ≤ 4) = P (X = 2 ∨ X = 3 ∨ X = 4) = p2 + p3 + p4 = 0.54 P (2 < X < 4) = P (X = 3) = p3 = 0.18 7.5 Erwartungswert, Varianz Denition 7.5.1 xk (a) X sei eine diskrete Zufallsvariable, die bei unendl. vielen Werten ∞ P folgende Zusatzbedingung erfüllt: |xk | pk < ∞. Dann heiÿt: k=0 E(X) := n X xk pk , bzw. E(X) := k=0 der Erwartungswert von (b) Es sei X ∞ X xk pk k=0 X. eine stetige Zufallsvariable mit der Verteilungsdichte R∞ Dann heiÿt E(X) := f (x), die die folgenden −∞ |x| f (x) dx < ∞. Zusatzbedingungen erfüllt: R∞ −∞ x f (x) dx der Erwartungswert von X. Bemerkung. (a) Im Folgenden seien die Zusatzbedingungen für alle behandelten Zufallsvariablen erfüllt. E(X) (b) Es kann vorkommen, dass wird. (c) E(X) E(X) von der Zufallsvariable ist i.a. nicht der wahrscheinlichste Wert von ist als Durchschnittswert von X X gar X. nicht angenommen zu interpretieren Satz 7.5.2 Für die Bildung des Erwartungswerts einer Funktion einer Zufallsvariable gilt: E(g(X)) = n P g(xk ) pk bzw. k=0 Denition 7.5.3 (b) (a) ∞ P g(xk ) pk bzw. = k=0 (a) Var(X) := E[(X − E(X))2 ] p σ(X) := + Var(X) Satz 7.5.4 = heiÿt heiÿt (b) Var(a + bX) = b2 Var(X) (c) Var(X) = E(X2 ) − (E(X))2 −∞ g(x) Varianz von Standardabweichung von E(a + bX) = a + b E(X), R∞ f (x) dx. X. X. E(X + Y ) = E(X) + E(Y ) (vergl. (7.8.23) KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 28 (d) Var(X) = 0 ⇐⇒ X = E(X) (e) Für jedes beliebige a∈R (fast sicher) gilt: Bemerkung. Aus (c) und (d) folgt: Var(X) ≤ E[(X − a)2 ] E(X 2 ) 6= (E(X))2 i. a. Beweis: (von Satz 7.5.4, teilweise) (a) X sei eine Zufallsvariable, die nur die Werte 0, 1, 2, . . . , n annehmen kann (für andere Zufallsvariablen verläuft der Beweis analog): E(a + b X) = n P (a + b k)pk = a k=0 n X pk + b n X k pk = a · 1 + b E(X) k=0 k=0 | {z } | {z } =1 (pk := E(X) P (X = k)) (b) a) Var(a + b X) = E[(a + b X − E(a + b X))2 ] = E[(a + b X − a − b E(X))2 ] a) = E[b2 (X − E(X))2 ] = b2 E[(X − E(X))2 ] = b2 Var(X) (c) Var(X) := E[(X − E(X))2 ] = E[X2 − 2X · E(X) + (E(X))2 ] a) (e) = E(X 2 ) − 2 E(X) E(X) + (E(X))2 = E(X 2 ) − (E(X))2 h i h i E (X − a)2 = E (X − E(X) + E(X) − a)2 h i = E (X − E(X))2 − 2(X − E(X)) (E(X) − a) + (E(X) − a)2 a) = Var(X) − 2(E(X) − a) E(X − E(X)) + (E(X) − a)2 ≥ Var(X) | {z } | {z } ≥0 =0 7.6 Spezielle Verteilungen In diesem Abschnitt lernen wir vier sehr wichtige Verteilungen kennen, die in der Praxis häug vorkommen. 7.6.1 Binomialverteilung Denition 7.6.1 (Binomialexperiment oder BernoulliExperiment) Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse, die wir mit Erfolg oder Fehlschlag bezeichnen. Die Wahrscheinlichkeit für einen Erfolg sei p das ganze q = 1 − p. Wird n-mal wiederholt, so nennt man und für einen Fehlschlag sei dieses Zufallsexperiment unter den gleichen Bedingungen Bernoulli-Experiment. Es gibt zahlreiche Zufallsexperimente mit zwei Ausgängen, aus denen man ein Bernoulli Experiment zusammensetzen kann. 7.6. SPEZIELLE VERTEILUNGEN 29 Beispiel 7.6.2 Werfen einer Münze: Wahrscheinlichkeit p= W Beispiel 7.6.3 Werfen eines Würfels: Wahrscheinlichkeit p= (Erfolg), Z (Fehlschlag). 1 2 bei idealer Münze, sonst unbekannt. 6 (Erfolg), bzw. nicht 6 (Fehlschlag). 1 6 bei idealem Würfel, sonst unbekannt. Beispiel 7.6.4 Auswahl und Prüfung eines Stückes: defekt (Erfolg, da man es entdeckt hat), bzw. nicht defekt (Fehlschlag). Wichtig für BernoulliExperiment als Modell: m.Z. (mit Zurücklegung), sonst Wiederho- lungsbedingung nicht erfüllt. Beispiel 7.6.5 (Meinungsumfrage) Eine zufällig ausgewählte Person wird befragt und die Antworte werden als dafür (Erfolg), bzw. dagegen (Fehlschlag) registriert. Auch hier wichtig für Bernoulli-Experiment als Modell: m.Z., d.h. Personen können im Prinzip mehrmals befragt werden. Ein BernoulliExperiment ist die n fache Wiederholung eines solchen Zufallsexperi- ments. Die Wahrscheinlichkeit p ist bis auf Sonderfälle i.a. unbekannt; um sie zu ermitteln benö- tigt es oft eines Schätzverfahrens. Eine wichtige praktische Anwendung ist die Qualitätskontrolle, die wir später behandeln werden. Zunächst wollen wir die Begrie an dem einfachsten Beispiel des Münzwurfes erläutern: Beispiel 7.6.6 (Beispiel 7.6.2 wiederholt) Betrachten wir n Würfe mit einer idealen Münze. Bei jedem einzelnen Wurf machen wir die Konvention W steht für Erfolg, während Dann ist die Wahrscheinlichkeit für den Erfolg: lichkeit für den Fehlschag: q =1−p= Z p= 1 2. für Fehlschlag. 1 2 und entsprechend die Wahrschein- Dies ist ein BernoulliExperiment, weil jeder Wurf unter den gleichen Bedingungen erfolgt (Das Würfelbeispiel ist analog). Anspruchvoller, aber auch ernsthafter ist das Beispiel der Qualitätskontrolle: Beispiel 7.6.7 Es werden N Stück geliefert, von denen Zufallsvariablen!). Daraus zieht man n-mal M defekt sind (N, M sind keine ein Stück mit Zurücklegen. Betrachtet man das zugehörige Bernoulli-Experiment, so ist jede Ziehung ein Zufallsexperiment mit der Wahrscheinlichkeit defekten Stückes), bzw. q := 1 − p p = M/N für einen Erfolg (d.h. Ziehung eines für einen Fehlschlag (Ziehung eines nicht defekten Stückes). Durch Zurücklegung werden nach jeder Ziehung die alten Bedingungen wiederhergestellt. Von groÿem Interesse ist die Bestimmung der Wahrscheinlichkeitsverteilung für die Zufallsvariable: Anzahl der Erfolge, z.B. `Anzahl der Ziehungen eines defekten Stückes bei n Ziehungen' KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 30 • Wenn p bekannt: Wahrscheinlichkeitsverteilung ausrechnen. • Wenn p unbekannt: Wahrscheinlichkeitsverteilung in schlüsse auf p p ausdrücken und dann Rück- ziehen Diese Zufallsvariable is binomial verteilt, wie der folgende Satz uns versichert. Satz 7.6.8 X sei die Zufallsvariable, welche die Anzahl von Erfolgen bei einem Bernoulli- X eine Binomialverteilung p und n, d.h. n k n−k P (X = k) = p q (k = 0, 1, . . . , n). k Experiment beschreibt. Dann besitzt (oder Bernoulli- Verteilung) mit den Parametern (7.6.5) Bemerkungen. Notation für Binomialverteilungen benutzt man oft die Schreibweise (i) Als Bi(n, p) und meint damit eine Zufallsvariable X: (ii) P (X = k) = 0 für 0 1 ··· q n npq n−1 · · · X X ∼ mit der Verteilungstabelle ··· k n k n−k p q · ·· k n pn . (7.6.6) k ≥ n + 1. Das folgt einmal aus der entsprechenden Eigenschaft des Binomialkoezienten, und andererseits muss diese Wahrscheinlichkeit auch deswegen Null sein, weil nicht mehr als n Ziehungen mit defekten Stücken bei n Ziehungen überhaupt auftreten können. (iii) Zur Erläuterung von Satz 7.6.8 betrachten wir den Sonderfall, wo die Zahl der Versuche n=3 ist. Wie groÿ ist die Wahrscheinlichkeit für X = 2, d.h. für zwei Erfolge? Mit der Konvention X=1 hat man bei X=2 für Erfolg, bzw. X=0 für Fehlschlag folgende Situationen: Ergebnis bei Wahrscheinlichkeit Einzelversuch Summe 1 2 3 1 1 0 1 0 1 0 1 1 2 2 2 Für den Faktor 3 vor 3= 3 2 wählen. p2 q p·p·q p·q·p q·p·p 3p2 q (wegen Unabhängigkeit) gilt: ist die Anzahl der Möglichkeiten, 2 Erfolge aus 3 Einzelversuchen auszu- 3 2 p2 q ist also die gesuchte Wahrscheinlichkeit für X = 2, d.h. für 2 Erfolge. 7.6. SPEZIELLE VERTEILUNGEN 31 (iv) Die Grundbedingungen für Wahrscheinlichkeitsverteilungen sind erfüllt: P (X = k) ≥ 0 n n X X n k n−k P (X = k) = p q . k k=0 k=0 Daraus folgt nach dem binomischen Lehrsatz n X P (X = k) = (p + q)n = 1. k=0 Auch diese Eigenschaften sind nur eine zusätzliche Kontrolle dafür, dass die Überlegungen richtig sind, die zu der Binomialverteilungen führten. Sie liefern jedoch keine neue Aussage. Immer wieder werden wir den Erwartungswert und Varianz einer binomialverteilten Zufallsvariable brauchen. Satz 7.6.9 Für eine binomialverteilte Zufallsvariable X mit den Parametern n und p gilt: (a) E(X) = n · p. (b) Var(X) = n · p · q (⇒ σ(X) = √ n · p · q). Beweis: Weil die Binomialverteilung so wichtig ist geben wir gleich zwei Beweisvarianten. X 1. Variante. Da eine diskrete Zufallsvariable ist, gilt E(X) = n X k=0 n X n k n−k k n k−1 n−k k· p q = np · p q . k n k k=1 Weiter gilt k k−1 · Cnk = Cn−1 n und daher E(X) = np n X n−1 k=1 k−1 pk−1 q n−k = np(p + q)n−1 = np. (7.6.7) Analog berechnen wir n n X X n k n−k k n k−1 n−k n − 1 k−1 n−k E(X ) = k · p q = np k · p q = np k p q k n k k−1 k=0 k=1 k=1 n n X X n − 1 k−1 n−k n − 1 k−1 n−k = np (k − 1) p q + np p q k−1 k−1 2 n X 2 k=1 k=1 = np(n − 1)p + np, weil die vorletzte Summe den Erwartungswert einer Bi(n−1, p) - verteilten Zufallsvariable darstellt, während für die letzte Summe n X n−1 k=1 k−1 pk−1 q n−k = (p + q)n−1 = 1 KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 32 gilt. Es folgt E(X 2 ) = np(n − 1)p + np und damit Var(X) = E(X2 ) − E2 (X) = npq. 2. Variante. Man kann auch die Technik der Polynomenableitungen benutzen: Wenn wir das Polynom L(x) = (px + q)n mit der üblichen Formel entwickeln erhalten wir n X n k k n−k L(x) = p x q , (∀)x ∈ R. k k=0 Daraus kann man leicht die Momente von X ausrechnen: dL |x=1 = E(X) dx und d dL x· |x=1 = E(X 2 ). dx dx Der Rest folgt wie bei der 1. Variante. Satz 7.6.10 Seien X1 , X2 zwei unabhängige, binomialverteilte Zufallsvariablen, mit X1 Bi(n1 , p) und X2 ∼ Bi(n2 , p). ∼ Dann gilt X1 + X2 ∼ Bi(n1 + n2 , p). Beweis: Mit Hilfe der Identität k X n1 n2 n1 + n2 · = j k−j k (7.6.8) j=0 folgt P (X1 + X2 = k) = k X P (X1 = j, X2 = k − j) j=0 k X n1 n2 n1 + n2 k n1 +n2 −k k n1 +n2 −k = ( · )p q = p q , j k−j k j=0 für alle k = 0, . . . n1 + n2 , woraus X1 + X2 ∼ Bi(n1 + n2 , p) folgt. Die Identität (7.6.8) kann man mit vollständiger Induktion oder durch Vergleich des Koezienten von xk aus den Entwicklungen (1 + x)n1 · (1 + x)n2 und (1 + x)n1 +n2 beweisen. 7.6. SPEZIELLE VERTEILUNGEN 33 Beispiel 7.6.11 (wieder Qualitätskontrolle) Lieferung von N = 1000 Stücken, M = 10 mit Zurücklegen. Es handelt sich also um ein BernoulliExperiment und Sei n = 20 Stücken M mit p = N = 0.01 davon defekt, Ziehungen von q = 0.99. X die Anzahl der Ziehungen von defekten Stücken. Die Wahrscheinlichkeit für genau 2 Ziehungen von defekten Stücken ist 20 20 · 19 P (X = 2) = · 0.012 · 0.9920−2 = · 10−4 · 0.9918 = 0.016. 2 1·2 Die Wahrscheinlichkeit für höchstens 2 Ziehungen von defekten Stücken ist P (X ≤ 2) = 2 X 20 k=0 k k 20−k · 0.01 · 0.99 20 = 0.99 2 X 20 0.01 k k=0 k 0.99 = 0.999. und die Wahrscheinlichkeit für keine Ziehung eines defekten Stückes ist 20 P (X = 0) = 0.010 · 0.9920 = 0.818. 0 Bemerkung. Wir haben hier von der Wahrscheinlichkeit für ein defektes Stück auf die Wahrscheinlichkeit für bestimmte Ereigenisse bei der Qualitätskontrolle geschlossen. Normalerweise ist genau das Umgekehrte notwendig, dass man nämlich von dem Ergebnis der Qualitätskontrolle auf den Prozentsatz der defekten Stücke schlieÿt. In unserem Beispiel kann man dann folgendes sagen: Wenn bei den 20 Ziehungen mehr als zweimal ein defektes Stück gezogen würde, so wäre dieses Ereignis sehr unwahrscheinlich. Die Richtigkeit der Information, dass nur 1% Prozent der Stücke defekt ist, ist in diesem Fall in hohem Grade fragwürdig. Mit Problemen dieser Art werden wir uns im Rahmen der Prüfung von statistischen Hyothesen beschäftigen. Dass X=0 erheblich wahrscheinlicher ist als X=2 sieht man auch am Erwartungswert und an der Varianz, welche man leicht bestimmen kann: E(X) = 20 · 0.01 = 0.2 Var(X) = 20 · 0.01 · 0.99 = 0.198, σ(X) = Allgemein: E(X) = n · M , N Var(X) = n · √ 0.198 = 0.445. M N−M · . N N (7.6.9) 7.6.2 Poisson-Verteilung Denition 7.6.12 Eine diskrete Zufallsvariable rameter λ > 0, heiÿt Poisson-verteilt mit dem Pa- wenn gilt: P (X = k) = e−λ Als X λk , k! k = 0, 1, 2, . . . . Notation benutzt man oft für eine solche Zufallsvariable die Schreibweise P oiss(λ). Die Poisson-Verteilung wird auch Gesetz der seltenen Ereignisse genannt. X ∼ KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 34 Bemerkung. Anders ausgedrückt ist X ∼ P oiss(λ) g.d.w. X n ··· λn −λ e ··· n! durch die Verteilungsta- belle 1 ··· λe−λ · · · 0 X e−λ (7.6.10) charakterisiert wird. Satz 7.6.13 Für eine Poisson-verteilte Zufallsvariable mit dem Parameter (a) E(X) = λ. (b) Var(X) = λ, σ(X) = √ λ gilt: λ. Beweis: E(X) = ∞ X ∞ e−λ X e−λ = k · λk k! k! k · λk k=0 ∞ X = λ k=1 λk−1 k=1 2 E(X ) = = = ∞ X k=0 ∞ X 2 k ·λ k λk k=1 ∞ X ke = k! ∞ X (k − 1)! = (k − 1)! (k − 2)! ∞ X λj j=0 (k − 1 + 1) λk +λ + ∞ X 1 · λk k=1 ∞ X λk−1 e−λ k=1 j! = λe−λ eλ = λ. e−λ k! k=1 e−λ ∞ X λk−2 e−λ = λe−λ k 2 λk k=1 ∞ X e−λ k=2 k=2 (k − 1)! −λ (k − 1) λk = λ2 e−λ (k − 1)! e−λ (k − 1)! e−λ (k − 1)! = λ2 e−λ ∞ X λj j=0 j! +λe−λ ∞ l X λ l=0 l! = λ2 + λ. Var(X) = E(X2 ) − (E(X))2 = λ. Beispiel 7.6.14 Eine Fernsprechvermittlung kann maximal mute herstellen. Pro Stunde erwartet man im Durchschnitt 10 Verbindungen 330 Anrufe. Wie pro Migroÿ ist Wahrscheinlichkeit für eine Überlastung in einer Minute? Sei X die Zahl der Anrufe innerhalb einer Minute. Wir wollen Annahme: X P (X > 10) berechnen. ist Poissonverteilt. Dann gilt λ Satz 7.6.13 = E(X) = 330 = 5.5, 60 P (X = k) = 5.5k −5.5 e . k! 7.6. SPEZIELLE VERTEILUNGEN 35 Die gesuchte Wahrscheinlichkeit rechnet man wie bei einigen früheren Beispielen über die Wahrscheinlichkeit des komplementären Ereignisses aus: P (X > 10) = 1 − P (X ≤ 10) 10 X 5.5k −5.5 = 1− e k! k=0 = 1−e −5.5 10 X 5.5k k! k=0 −3 = 1 − 4.09 · 10 Satz 7.6.15 Seien P oiss(λ2 ). X1 , X2 · 238.5 = 0.025 = 2.5%. unabhängige Zufallsvariablen mit X1 ∼ P oiss(λ1 ) und X2 ∼ Dann gilt X1 + X2 ∼ P oiss(λ1 + λ2 ). Beweis: Übungsaufgabe! Satz 7.6.16 (Approximation der Binomialverteilung durch die Poissonverteilung) Sei X eine binomialverteilte Zufallsvariable mit den Parametern P (X = k) ≈ e−λ λk , k! Dabei sollten folgende Bedingungen erfüllt sein: p , n. Dann gilt: λ = np. n ≥ 50 und λ = np ≤ 5. Beispiel 7.6.17 (nochmal Qualitätskontrolle) Es werden davon sind M = 100 N = 10000 Stücke geliefert, p = 0.01. Weiterhin werden n = 250 Ziehungen n = 250 ≥ 50, λ = n · p = 2.5 ≤ 5. defekt. Damit ist mit Zurücklegen durchgeführt, also Die Wahrscheinlichkeit, dabei höchstens 2 defekte Stücke zu ziehen, ist P (X ≤ 2) = 2 X P (X = k) ≈ e −2.5 k=0 2 X 2.5k k=0 k! = 0.0821 · 6.63 = 0.544. Zum Vergleich: Die Binomialverteilung liefert P (X ≤ 2) = 0.544. Bemerkung.: Bei der Binomialverteilung sollte jener Versuchsausgang mit Erfolg be- zeichnet werden, welcher die deutlich kleinere Wahrscheinlichkeit hat, insbesondere dann, wenn die PoissonNäherung angewendet werden soll. Sind die Wahrscheinlichkeiten für beide Versuchsausgänge nahe bei 1/2, können die Bezeichnungen Erfolg oder Fehlschlag beliebig vergeben werden. 7.6.3 Hypergeometrische Verteilung Ausgangsproblem (Qualitätskontrolle) In einer Lieferung von Stichprobe von n N Stück sind M davon defekt (N, M keine Zufallsvariablen). Eine Stücken wird gewählt und untersucht (o. Z. o. B. d. A.). Wie groÿ ist KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 36 die Wahrscheinlichkeit, das m Stücke in der Stichprobe defekt sind? Bemerkung.: Dieses Verfahren ist günstiger als der Zugang via Binomialverteilung. Sei X die Zufallsvariable, welche die Anzahl der defekten Stücke in der Stichprobe bezeichnet. Es gilt: P (X = m) = M m N −M n−m N n n m = N −n M −m N M . (7.6.11) Denition 7.6.18 Die in (7.6.11) beschriebene Verteilung heiÿt hypergeometrische N , M , n. Verteilung mit den Parametern Bedingungen: N, M, n, m ∈ N, 0 ≤ n ≤ N , 0 ≤ m ≤ M ≤ N , 0 ≤ n − m ≤ N − M . Herleitung von Formel (7.6.11) Nach Satz 7.2.13 (a) haben alle Kombinationen o. Z. o. B. d. A. von die Wahrscheinlichkeit denen genau m n aus N Stücken N n . Das Ereignis X = m erfasst dann alle Kombinationen, bei 1/ defekte und damit Anzahl der Möglichkeiten, m n−m nicht defekte Stücke ausgewählt werden. Die defekte Stücke für die Stichprobe aus der Lieferungen auszuwählen, beträgt M defekten Stücken M m , da dabei wie oben nach der Vorschrift o. Z. o. B. d. A. vorgegangen wird. Bei jeder solchen Auswahl muss dann die Stichprobe mit n − m aus den N − M es N −M n−m nicht defekten Stücken der Lieferung aufgefüllt werden. Dafür gibt Möglichkeiten, und zwar bei jeder Auswahl vom N −M n−m m defekten Stücken. Damit Möglichkeiten für die Auswahl (o. Z. o. B. d. A.) von m (n − m) nicht defekten Stücken. Dies ist also die Anzahl der Kombinationen gibt es insgesamt defekten und M m o. Z. o. B. d. A., die von dem Ergebnis X = m erfasst werden, die dann nur mit der Wahrscheinlichkeit 1/ N n für jede dieser Kombinationen multipliziert zu werden braucht. Bemerkung. Eine ähnliche Herleitung für die Binomialverteilung ist nicht möglich (vergl. Satz 7.2.13 (b)). Beispiel 7.6.19 In einer Lieferung von wählt man eine zufällige Stichprobe von N = 1000 Stück, sind M = 10 defekt. n = 20 Stück und bezeichnen mit X die Daraus Anzahl der defekten Stücke in der Stichprobe. • Die Wahrscheinlichkeit, in der Stichprobe genau 2 defekte Stücke zu nden ist 10 990 2 18 1000 20 P (X = 2) = • = 0.015 (m = 2). Die Wahrscheinlichkeit, in der Stichprobe höchstens 2 defekte Stücke zu nden ist P (X ≤ 2) = 2 X P (X = m) = m=0 • 2 X m=0 10 m 990 20−m 1000 20 = 0.999. Die Wahrscheinlichkeit, in der Stichprobe kein defektes Stück zu nden ist 10 990 0 20 1000 20 P (X = 0) = = 0.816. 7.6. SPEZIELLE VERTEILUNGEN 37 Vergleich mit Beispiel 7.6.11: Y ), welche binomial= 0.01, P (Y = 2) = 0.016, P (Y ≤ 2) = 0.999, Dort hatten wir dieselbe Zufallsvariable (nennen wir sie diesmal M N verteilt war, mit n = 20, p = P (Y = 0) = 0.818. Satz 7.6.20 Es sei N, M, n und Y X eine hypergeometrisch verteilte Zufallsvariable mit den Parametern eine binomialverteilte Zufallsvariable mit den Parametern p= M N und n. Dann gilt: n m P (X = m) ≈ P (Y = m) = p (1 − p)n−m . m N ≥ 1000 Dabei sollten folgende Bedingungen erfüllt sein: Satz 7.6.21 Für die Zufallsvariable E(X) = n X M , N und n N ≤ 0.1. aus Satz 7.6.20 gilt: Var(X) = n MN−MN−n . N N N−1 7.6.4 Die gleichmäÿige Verteilung Denition 7.6.22 Eine Zufallsvariable (a < b) X ist gleichmäÿig verteilt auf dem Intervall [a, b] wenn ihre Verteilungsdichte 1 1 (x) b − a [a,b] f (x) = ist. Dafür verwendet man die Notation X ∼ U (a, b). Proposition 7.6.23 (Standardisierung der gleichmäÿigen Verteilung) Sei X ∼ U (a, b). Dann gilt X−a b−a ∼ U (0, 1). Proposition 7.6.24 (Verteilungsfunktion) Sei X ∼ U (a, b). Für die Verteilungsfunktion F (x) = 0, x−a b−a , 1, F von X gilt: x≤a x ∈ (a, b] . x>b Beweis: Es gilt Zx F (x) = f (t)dt = −∞ 0, x R a b R a x≤a dt b−a , x ∈ (a, b] dt b−a , x>b = 0, x−a b−a , 1, x≤a x ∈ (a, b] . x>b Proposition 7.6.25 Für X ∼ U (a, b) E(X) = b+a 2 gilt und Var(X) = (b − a)2 . 12 KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 38 Beweis: Mit den üblichen Denitionen rechnen wir Zb E(X) = tdt b+a = , b−a 2 a Zb 2 E(X ) = b2 + ab + a2 t2 dt = , b−a 3 a also gilt Var(X) = E(X2 ) − (E(X))2 = (b−a)2 12 . 7.6.5 Normalverteilung oder Gauÿ-Verteilung Denition 7.6.26 (a) Eine Zufallsvariable heiÿt (kurz N (µ, σ)-verteilt), normalverteilt mit dem Mittelwert µ und der Varianz σ 2 wenn sie folgende Verteilungsdichte besitzt (exp(x) f (x) := √ (b) Eine Zufallsvariable X 1 1 x−µ 2 ) ), exp (− ( 2 σ 2 πσ := ex ): x∈R mit der Verteilungsdichte 1 1 ϕ(x) := √ exp (− x2 ) 2 2π bezeichnet man als standard-normalverteilt oder Z N (0, 1)-verteilt. x Φ(x) := ϕ(u) du −∞ ist die zugehörige Verteilungsfunktion. Bemerkung.: Φ(x) ist eine höhere transzendente Funktion. Daher sind Tabellen nötig. Skizzen: 6 1 6 1 ϕ(x) - x Φ(x) 1 x 7.6. SPEZIELLE VERTEILUNGEN 39 Vert.dichte zur N(1.5,2)-Vert.: Vert.dichte zur N(3,0.5)-Vert.: 61 1 6 f(x) f(x) Satz 7.6.27 Für eine (a) E(X) = µ. (b) Var(X) = σ 2 , x - 1.5 N (µ, σ) - 3 - verteilte Zufallsvariable X gilt: σ(X) = σ . Beweis: Wir beginnen mit einer Hilfsformel für die Verteilungsdichte der Standardnor- malverteilung: 2 2 x 1 x 2x d 1 √ exp − = √ exp − · − ϕ (x) = dx 2π 2 2 2 2π = −xϕ(x). 0 Für die Verteilungsdichte einer N (µ, σ)-verteilten 1 1 f (x) = √ exp − 2 2πσ Mit der Substitution x−µ σ Zufallsvariable erhalten wir: 2 (x − µ)/σ =: u, (1/σ) dx = du Z∞ E(X) = −∞ Z∞ = 1 x· ϕ σ x−µ σ dx = 1 = ϕ σ x−µ σ . folgt: 1 (x − µ + µ) ϕ σ x−µ σ dx −∞ x−µ ϕ σ x−µ σ −∞ Z∞ = Z∞ (7.6.12) Z∞ dx + µ 1 ϕ σ x−µ σ dx −∞ Z∞ u ϕ(u) du + µ −∞ ϕ(u) du −∞ = 0 + µ · 1 = µ. Dabei haben wir benutzt, • dass R∞ ϕ(u) du = 1, da ϕ(u) eine Verteilungsdichte ist −∞ • und dass der erste Summand ein Integral über ein symmetrisches Intevall und eine ungerade Funktion ist: (−u)ϕ(−u) = (−u)ϕ(u) = −uϕ(u). x KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 40 Mit der Substitution (x − µ)/σ =: u, (1/σ) dx = du, der Regel über die partielle Integra- tion und mit (7.6.12) erhalten wir: Var(X) = E (X − E(X))2 = E (X − µ)2 Z∞ (x − µ) = 21 σ ϕ x−µ σ Z∞ dx = −∞ −∞ = σ σ 2 u2 ϕ(u)du Zb 2 u · (uϕ(u)) du lim a→(−∞), b→∞ a Zb = σ2 lim u · (−ϕ0 (u))du a→(−∞), b→∞ a = σ2 lim a→(−∞), b→∞ [u · (−ϕ(u))]b − a Zb 1 · (−ϕ(u))du a Z∞ = σ 2 − lim b · ϕ(b) + b→∞ a · ϕ(a) + lim a→(−∞) ϕ(u) du = σ 2 , −∞ wobei wir bei den Grenzwertbestimmungen benutzt haben, dass für tion ϕ(x) schneller als jede Potenz von x x → ±∞ die Funk- gegen Null strebt. Satz 7.6.28 (Eigenschaften von normalverteilten Zufallsvariablen) (a) Für jede (b) N (0, 1)-verteilte Zufallsvariable Z gilt: (−Z) ist ebenfalls N (0, 1)-verteilt. Φ(−x) = 1 − Φ(x). (c) Für eine F (x) (i) N (µ, σ) X−µ ist σ X , deren Verteilungsfunktion f (x) bezeichnen, gilt: - verteilte Zufallsvariable und deren Verteilungsdichte wir mit N (0, 1)-verteilt. (ii) x−µ ) σ 1 x−µ ϕ( ). σ σ F (x) = Φ( f (x) = (iii) a−µ P (a ≤ X ≤ b) = Φ( b−µ σ ) − Φ( σ ). (iv) a−µ ) σ a−µ ). P (X > a) = P (X ≥ a) = 1 − Φ( σ P (X < a) = P (X ≤ a) = Φ( wir mit 7.6. SPEZIELLE VERTEILUNGEN (v) Für t≥0 41 gilt P (|X − µ| ≤ t · σ) = Φ(t) − Φ(−t) = 2Φ(t) − 1 0.683 (insbesondere ist diese Wahrscheinlichkeit 0.997 für Bemerkung. (b) ist für die Berechnung von Φ(x) α 6= 0, β ∈ R) x<0 für Beweis: Es wird ohne Beweis verwendet, dass mit (mit für t = 1, 0.995 für t=2 X sehr hilfreich. auch die Zufallsvariable αX + β normalverteilt ist. Zu (a): Z P (−Z ≤ x) = P (Z ≥ −x) ∞ u=−z Z −∞ ϕ(u)du = − = ϕ gerade −x Z x ϕ(−z)d z x ϕ(z) d z = P (Z ≤ x). = −∞ Zu (b): Φ(−x) = P (Z ≤ −x) P (−Z ≥ x) = (a) P (Z ≥ x) = 1 − P (Z < x) = Z stet. Zufallsvariable 1 − P (Z ≤ x) = 1 − Φ(x). = Zu (c, i): X −µ ) = σ X−µ Var( ) = σ E( Damit ist 1 (E(X) − µ) = 0 (nach Satz 7.6.27) σ 1 Var(X) = 1 (nach Satz 7.6.27). σ2 X−µ auf Grund der o. g. allgemeinen Eigenschaft σ N (0, 1)-verteilt. Zu (c, ii): F (x) = P (X ≤ x) = P X −µ σ } | {z ≤ x − µ = Φ( x − µ ) σ σ N (0,1),nach(i) f (x) = F 0 (x) = 1 0 x−µ 1 x−µ Φ( ) = ϕ( ). σ σ σ σ Zu (c, iii): P (a ≤ X ≤ b) und t = 3). X stet.Zuf allsvariable = P (a < X ≤ b) (ii) = (ii) = F (b) − F (a) b−µ a−µ Φ( ) − Φ( ). σ σ Zu (c, iv): (ii) P (X ≤ a) = F (a) = Φ( a−µ ) σ P (X ≥ a) = 1 − P (X < a) X stet.Zuf allsvariable = 1 − P (X ≤ a) = 1 − Φ( a−µ ). σ KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 42 Zu (c, v): P (|X − µ| ≤ t σ) = (iii) = P (µ − t σ ≤ X ≤ µ + t σ) (b) Φ(t) − Φ(−t) = 2 · Φ(t) − 1. Bemerkungen.: (a) Es gilt allgemein: X−µ E(X) = µ und Var(X) = σ 2 , also auch E( X−µ σ ) = 0, Var( σ ) = 1. X−µ ist eine standardisierte Zufallsvariable. σ (b) Die Aussage in Satz 7.6.28 (c, v) gilt für allgemeine Zufallsvariablen höchstens näherungsweise. Eine exakte, aber z. T. wesentlich schlechtere Abschätzung liefert Satz ??. Beispiel 7.6.29 Eine Firma stellt Luftpostumschläge her, deren Gewicht gemäÿ normalverteilt ist, mit dem Erwartungswert chung 2g als σ = 0.05g . µ = 1.95g X erfahrungs- und der Standardabwei- Wie groÿ ist die Wahrscheinlichkeit dafür, dass ein Briefumschlag mehr wiegt? P (X > 2) = 1 − Φ( 2 − 1.95 Tabelle ) = 1 − Φ(1) = 1 − 0.8413 = 0.1587. 0.05 Satz 7.6.30 Sei Dann gilt für X eine binomialverteilte 0 ≤ k1 ≤ k2 ≤ n: Zufallsvariable mit den Parametern p k2 − n p k1 − n p P (k1 ≤ X ≤ k2 ) ≈ Φ( √ ) − Φ( √ ) npq npq (vergleiche Satz ??), oder mit höherer Genauigkeit, wenn P (k1 ≤ X ≤ k2 ) ≈ Φ( k1 und k2 n ≥ 50, np ≥ 5 und ganze Zahlen sind: sei binomialverteilt mit Parametern Sei 0 ≤ k1 ≤ X ≤ k2 ≤ n. n, p, q . Dann ist E(X) = n · p, σ(X) = Dann gilt P (k1 ≤ X ≤ k2 ) = P ! X − np k2 − np k1 − np ≤√ ≤√ . √ n·p·q n·p·q n·p·q Für die dabei gebildete Zufallsvariable X − np X − E(X) Y := √ = n·p·q σ(X) gilt E(Y ) = 0, Y ist σ(Y ) = 1. also zwar nicht exakt, aber näherungsweise Wir erhalten so die Näherungsformel (7.6.13). N (0, 1)verteilt. (7.6.14) nq ≥ 5. Erläuterung zu Satz 7.6.30: X n. (7.6.13) k2 + 0.5 − n p k1 − 0.5 − n p ) − Φ( ). √ √ npq npq Dabei sollten folgende Bedingungen erfüllt sein: und √ n · p · q. 7.6. SPEZIELLE VERTEILUNGEN 43 Bemerkung.: (a) Zur Näherung der Binominalverteilung vergleiche die Sätze 7.6.16, 7.6.30 und 7.6.20. (b) Unter den Voraussetzungen von Satz 7.6.30 sind auch die folgenden Wahrscheinlichkeiten mit Hilfe von (7.6.13) oder (7.6.14) zu bestimmen: P (X ≥ k0 ) = P (k0 ≤ X ≤ n) P (X ≤ k0 ) = P (0 ≤ X ≤ k0 ) (k0 = 0, 1, 2 . . . , n). (c) Wird der Bereich der Argumentwerte von Φ in einer Tabelle wie etwa der ausgege- benen überschritten, so kann man u.U. wie im folgenden Beispiel verfahren. Beispiel 7.6.31 Ein Vertreter verkauft bei Erstbesuchen mit der Wahrscheinlichkeit 0.05. Er plant 200 p= Erstbesuche. Dies ist ein BernoulliExperiment, mit der Konvention Erfolg=Verkauf (mit Wahrscheinlichkeit Sei X p = 0.05), bzw. Fehlschlag=kein Verkauf (mit Wahrscheinlichkeit 200 Erstbesuchen. n = 200, p, q . die Anzahl der Verkäufe bei fallsvariable mit den Parametern Eine Anwendung von Satz 7.6.30 ist möglich, denn und q = 0.95). Dies ist eine binomialverteilte Zu- n = 200 ≥ 50, np = 200·0.05 = 10 ≥ 5 nq = 200 · 0.95 = 190 ≥ 5. 10 Für die gesuchte Wahrscheinlichkeit für höchstens gleich 200 Verkäufe oder mehr erhalten wir also, da X sein kann: P (X ≥ 10) = P (10 ≤ X ≤ 200) 200 + 0.5 − 10 10 − 0.5 − 10 √ ≈ Φ −Φ √ 10 · 0.95 10 · 0.95 = Φ(61.81) − Φ(−0.162) = 1.0000 − (1 − Φ(0.162)) = Φ(0.162). 61.81 ≥ 3.90 und deshalb stimmt wie unter der Tabelle angegeben Φ(61.81) mit 1.0000 auf 4 Stellen nach dem Dezimalpunkt überein. Wir haben folgende Tabellenwerte benutzt: Φ(0.16) = 0.5636, Φ(0.17) = 0.5675. Mit der Interpolationsformel y = y1 + x − x1 (y2 − y1 ) x2 − x1 (7.6.15) erhalten wir damit für die gesuchte Wahrscheinlichkeit: P (X ≥ 10) ≈ Φ(0.162) 0.162 − 0.16 Φ(0.17) − Φ(0.16) 0.17 − 0.16 = 0.5636 + 0.2 · (0.5675 − 0.5636), ≈ Φ(0.16) + also folgt P (X ≥ 10) ≈ 0.564. Zum Vergleich: Der exakte Wert ist • Für x ≥ 3.90 gilt P (X ≥ 10) = 0.545. 0 < 1 − Φ(x) < 0.5 · 10−4 Φ(x) = 1.0000 auf 4 Stellen Φ(x) = 0.0000 auf 4 Stellen und damit nach dem Dezimalpunkt genau; • für x ≤ −3.90 gilt 0 < Φ(x) < 0.5 · 10−4 nach dem Dezimalpunkt genau. und damit KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 44 7.6.6 Die log-normale Verteilung Oft sind Verteilungen von nichtnegativen Zufallsvariablen, etwa Lebensdauern, Wartezeiten oder Einkommen linkssteil. Eine einfache, aber nicht immer adäquate Möglichkeit zur Modellierung solcher Variablen bietet die Exponentialverteilung, welche wir in 7.6.8 kennenlernen werden. Eine andere Möglichkeit besteht darin, eine nichtnegative Zufallsvariable X mit linksstei- ler Verteilung zu transformieren, um eine Zufallsvariable mit symmetrischer Verteilung zu erhalten. Häug logarithmiert man X zu Y = ln(X) X ist log-normal verteilt mit Parametern und hot, dass Y zumindest annähernd normalverteilt ist. Denition 7.6.32 Die Zufallsvariable σ, falls X µ und die Verteilungsdichte f (x) = (ln x−µ)2 1 √ e− 2σ2 , x > 0 σx 2π besitzt. Als Notation werwendet man X ∼ LogN (µ, σ). µ = 0 und σ 2 = 0.25 µ = −0.4 (. . . ), µ = 0 Abbildung 7.1: Dichten der logarithmischen Normalverteilung fur 2 (. . . ) , σ (), 2 () und σ =1 sowie µ = 1.2 = 2.25 2 (- - -) links, bzw. σ =1 und (- - -) rechts. Proposition 7.6.33 (Zusammenhang mit der Normalverteilung) Sei Dann gilt ln X ∼ N (µ, σ). Proposition 7.6.34 Sei X ∼ LogN (µ, σ). Dann gilt: σ E(X) = eµ+ 2 , 2 2 Var(X) = e2µ+σ (eσ − 1). X ∼ LogN (µ, σ). 7.6. SPEZIELLE VERTEILUNGEN 45 7.6.7 Die Gamma-Verteilung Denition 7.6.35 Eine Zufallsvariable β (α > 0, β > 0), f (x) = wobei Γ(α) = R∞ X heiÿt gamma-verteilt mit Parametern α und falls ihre Verteilungsdichte folgende Form hat: x 1 −β e xα−1 · 1R+ (x), ∀x ∈ R β α · Γ(α) e−x xα−1 dx, ∀α > 0 die Eulerfunktion ist. 0 Als Schreibweise verwendet man X ∼ γ(α, β). Durch partielle Integration folgt die Rekurrenzeigenschaft der Gammafunktion: Γ(p) = (p − 1)Γ(p − 1), ∀p > 1. (7.6.16) Γ(n) = (n − 1)!, ∀n ∈ N∗ . (7.6.17) Daraus ergibt sich sofort Durch direkte Rechnung oder mit Hilfe der Eigenschaften der standard Normalverteilung erhält man folgende wichtige Eigenschaft der Γ-funktion: √ 1 Γ( ) = π. 2 Proposition 7.6.36 Sei X ∼ γ(α, β). (7.6.18) Dann gilt E(X) = αβ, Var(X) = αβ 2 , β r Γ(α + r) E(X r ) = , ∀r ∈ N. Γ(α) Satz 7.6.37 Seien X und Y unabhängige Zufallsvariablen, mit den Verteilungen γ(α1 , β), bzw. γ(α2 , β). Dann ist X + Y ∼ γ(α1 + α2 , β). 7.6.8 Die Exponentialverteilung Diese Verteilung wird zur Modellierung von Dauern angewandt, bei denen die Zeit zumindest approximativ - stetig gemessen wird, etwa die Lebensdauer von Produkten oder technischen Systemen, die Zeit bis zur nächsten Schadensmeldung bei einer Sachversicherung, die Bearbeitungszeit von Kundenaufträgen oder die Überlebenszeit nach einer Operation. Allerdings ist die Exponentialverteilung nur dann als Lebensdauerverteilung geeignet, wenn folgende Voraussetzung erfüllt ist: Für jeden Zeitpunkt noch verbleibende Lebensdauer nicht von der bereits bis t t hängt die verstrichenen Lebensdauer ab. Für ein technisches System heiÿt das etwa, daÿ dieses nicht altert, also die Ausfallwahrscheinlichkeit unabhängig vom Alter immer gleich groÿ ist. Man spricht deshalb auch von Gedächtnislosigkeit der Exponentialverteilung. Denition 7.6.38 Eine reelle Zufallsvariable X heiÿt exponentiell a (a > 0), falls ihre Verteilungsdichte f (x) = ist. Wir benutzen die Notation 0, x≤0 −ax ae , x > 0 X ∼ Exp(a). verteilt mit Parameter KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 46 Bemerkung. Die Verteilung Exp(a) stimmt mit γ(1, a1 ) überein, also kann man die Eigenschaften der Exponentialverteilung aus denen der Gammaverteilung herleiten. Proposition 7.6.39 Ist X ∼ Exp(a), dann gilt für die Verteilungfunktion F 0, x≤0 F (x) = . 1 − e−ax , x > 0 von X: Proposition 7.6.40 (Gedächtnislosigkeit der Exponentialverteilung) Falls X ∼ Exp(a), dann gilt P ({t < X < s}|{t < X}) = P (X < s − t), für alle 0 < t < s. Beweis: Übungsaufgabe! Bemerkung. Umgekehrt gilt: Falls (7.6.19) erfüllt, dann ist X Proposition 7.6.41 Für (7.6.19) X eine stetige, positive Zufallsvariable ist, welche exponentiell verteilt. X ∼ Exp(a) gilt E(X) = Var(X) = 1 , a 1 . a2 Beweis: In diesem Sonderfall der Gammaverteilung kann man sogar direkt rechnen. Durch partielle Integration erhält man Z∞ E(X) = xae−ax dx = 1 , a 0 Z∞ 2 2 −ax x e E(X ) = a −x2 e−ax |∞ 0 dx = Z∞ +2 0 = 2 a xe−ax dx 0 Z∞ 2 2 E(X) = 2 . a a xae−ax dx = 0 Damit folgt Var(X) = 2 1 1 − 2 = 2. 2 a a a 7.6.9 Die χ2 -Verteilung Denition 7.6.42 Eine Zufallsvariable X ist χ2 -verteilt mit n Freiheitsgraden wenn ihre Verteilungsdichte f (x) = ist. Wir notieren X ∼ χ2 (n). 1 2n/2 Γ( n2 ) x n e− 2 x 2 −1 1R+ (x), ∀x ∈ R. (7.6.20) 7.6. SPEZIELLE VERTEILUNGEN Bemerkung. Die χ2 (n)-Verteilung 47 stimmt mit der γ( n2 , 2) überein, also kann man ihre Eigenschaften aus denen der Gammaverteilung herleiten. Proposition 7.6.43 Sei X ∼ χ2 (n). Dann gilt E(X) = n, Var(X) = 2n, Γ( n + r) E(X r ) = 2r 2 n , ∀r ∈ N. Γ( 2 ) Satz 7.6.44 Seien gilt X +Y ∼ χ2 (m X ∼ χ2 (n) + n). Abbildung 7.2: Dichten von und n=7 und Y ∼ χ2 (m) χ2 -Verteilungen (7.6.21) zwei unabhängige Zufallsvariablen. Dann für n = 2 (. . . ) , n=3 (), n=5 (- - -) Freiheitsgrade. Sehr oft verwendet in der Statistik ist folgende Charakterisierung der Satz 7.6.45 Seien X1 , ..., Xn χ2 (n)-Verteilung: unabhängige, gleichverteilte Zufallsvariablen, mit Xi ∼ N (0, 1), ∀i = 1, . . . , n. Dann gilt n P i=1 Xi2 ∼ χ2 (n). Von dieser Eigenschaft ausgehend kommt man auf natürlicher Weise zur folgenden Denition 7.6.46 (Das dezentrierte Seien X1 , ..., Xn χ2 -Gesetz) unabhängige, gleichverteilte Zufallsvariablen Xi ∼ N (mi , 1), ∀i = 1, . . . , n. KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 48 n P Dann heiÿt die Verteilung der Zufallsvariable Freiheitsgraden und Exzentrizitätsparameter Xi2 χ2 -dezentrierte i=1 n P θ= i=1 Proposition 7.6.47 Falls X ∼ χ2 (n, θ), Verteilung mit n m2i . Sie wird mit χ2 (n, θ) bezeichnet. dann gilt E(X) = n + θ, Var(X) = 2(n + 2θ). 7.6.10 Die Student-Verteilung Diese Verteilung wird besonders bei Parametertests und bei Kondenzintervallen für Parameter gebraucht. Häug wird sie auch als Students t-Verteilung oder kurz t- Verteilung bezeichnet. Denition 7.6.48 Seien X ∼ N (0, 1) und Y ∼ χ2 (n) zwei unabhängige Zufallsvariablen. Dann heiÿt die Verteilung der Zufallsvariable X T =p Y /n t-Verteilung mit n Freiheitsgraden, kurz t(n)-Verteilung. Man benutzt die Notation T ∼ t(n). Satz 7.6.49 Es gilt E(T ) = 0 (m ≥ 2) Abbildung 7.3: Dichten von n = 20 Var(T) = und t-Verteilungen für n=1 n (n ≥ 3). n−2 (), n = 2 (. . . ), n = 5 (- - -) und Freiheitsgrade. Bemerkung. Die t-Verteilungen sind symmetrisch um null. Für kleinere Freiheitsgraden n besitzen sie im Vergleich zur Standardnormalverteilung breitere Enden, d.h. die Flä- chen unter der Dichtekurve für kleine und groÿe Werte von x sind gröÿer. Umgekehrt ist 7.7. GEMEINSAME VERTEILUNG MEHRERER ZUFALLSVARIABLEN weniger Wahrscheinlichkeitsmasse im Zentrum um t-Verteilung x=0 49 verteilt. Da- mit eignet sich die auch zur Modellierung von Daten, die - im Vergleich zur Normalverteilung - einen gröÿeren Anteil an extremen Werten enthalten. n → ∞ konvergiert die Dichtekurve gegen die Dichte 0 der n > 30 ist die Approximation bereits sehr gut, daher Werte nur bis 30 vertafelt. Für Standardnormal- vertei- lung. Ab sind die entsprechenden 7.7 Gemeinsame Verteilung mehrerer Zufallsvariablen Die simultane Behandlung mehrerer Zufallsvariablen ist aus zwei Gründen wichtig: Erstens betrachtet man bei Zufallsexperimenten oftmals mehrere Gröÿen gleichzeitig, und dann hat man es mit einer entsprechenden Anzahl von Zufallsvariablen zu tun. Beispielweise wird man bei einem Werksto mehrere Eigenschaften prüfen, so etwa den Kohlenstogehalt, die Zugfestigkeit und die Härte beim Stahl. Zweitens spielen Verteilungen mehrerer Zufallsvariablen bei der theoretischen Begründung statistischer Prüfverfahren, wie wir sie ab Kapitel 8 kennenlernen werden, eine Rolle. Da wir nun einen recht allgemeinen Wahrscheinlichkeitsbegri haben, lassen sich dann auch Wahrscheinlichkeiten bei mehreren Zufallsvariablen leicht erklären. Wie bei einzelnen Zufallsvariablen ist es aber zweckmäÿig eine Verteilungsfunktion einzuführen. Bei einer einzelnen Zufallsvariable hatten wir die Verteilungsfunktion durch folgende Denition eingeführt: F (x) := P (X ≤ x). Bei mehreren Zufallsvariablen ist die Verteilungsfunktion (genauer die gemeinsame Verteilungsfunktion) dann ganz analog deniert: Denition 7.7.1 Seien X1 , X2 , . . . , Xn beliebige Zufallsvariablen. Dann heiÿt: F (x1 , x2 , . . . , xn ) := P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn ) die gemeinsame Verteilungsfunktion der Zufallsvariablen X1 , X2 , . . . , Xn . Sie ist eine der möglichen Beschreibungen der gemeinsamen Verteilung von Zufallsvariablen. P (X1 ≤ x1 ∧X2 ≤ x2 ∧. . .∧Xn ≤ xn ) ist i.a. nicht in die Faktoren P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn ) zerlegbar, da man nicht weiÿ, ob die obigen Die Wahrscheinlichkeit Ereignisse unabhängig sind. Bei diskreten und bei stetigen Zufallsvariablen gibt es noch andere einfache Beschreibungsmöglichkeiten der gemeinsamen Verteilung von mehreren Zufallsvariablen. Bei den stetigen Zufallsvariablen ist das z.B. über eine gemeinsame Verteilungsdichte möglich. Nur erfordert das den Begri des mehrfachen Integrals, und deshalb werden wir auf eine allgemeine Einführung der gemeinsame Dichte verzichten. Bei diskreten Zufallsvariablen gibt es eine Beschreibung der gemeinsamen Wahrscheinlichkeitsverteilung, die genau die Verallgemeinerung der folgenden Beschreibung der Wahrscheinlichkeitsverteilung einer einzelnen Zufallsvariable ist: pk := P (X = xk ) k = 0, 1, 2, 3, · · · · · · . Wir beschränken uns bei der Verallgemeinerung exemplarisch auf zwei Zufallsvariablen, die nur endlich viele Werte annehmen können, um die Schreibweise etwas zu vereinfachen. KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 50 Denition 7.7.2 Sei annehmen kann und X Y x0 < x1 < . . . < xn y0 < y1 < . . . < ym := P (X = xi ∧ Y = yj ) eine diskrete Zufallsvariable, die die Werte eine diskrete Zufallsvariable, welche die Werte annehmen kann. Dann beschreiben die Wahrscheinlichkeiten X ebenfalls die gemeinsame Verteilung von Diese Denition kann man leicht auf n und pi,j Y. diskrete Zufallsvariablen mit endlich oder un- endlich vielen möglichen Werten übertragen, aber mit einem erhöhten Aufwand in der Bezeichnung, was hier nicht weiter verfolgt werden soll. pi,j Die Wahrscheinlichkeiten gibt man in der Regel in Form einer Tabelle vor, wie etwa in dem folgenden Beispiel. Beispiel 7.7.3 ↓X Y → x0 x1 y0 y1 y2 0.2 0.4 0.1 0.1 0 0.2 Die leere Randzeile und die leere Randspalte sind für die Randverteilungen reserviert, die pi,j sind an den p1,2 := P (X = x1 ∧Y = y2 ) = 0.2. wir nachher kennenlernen werden. Die Werte für die Wahrscheinlichkeiten entsprechenden Stellen in der Tabelle eingetragen, z.B.: Wie bei einer einzelnen diskreten Zufallsvariable ergeben sich aus der Denition der Werte pi,j gewisse Eigenschaften, die bei einer vorgegebenen Wahrscheinlichkeitsverteilung überprüft werden sollten. Hier empehlt es sich, Zwischengröÿen einzuführen, die die Randverteilungen beschreiben. Diese Eigenschaften sind im folgenden Satz formuliert: Satz 7.7.4 Für die Werte (a) 0 ≤ pi,j ≤ 1 (b) P (X = xi ) = für pi,j aus Denition 7.7.2 gilt: i = 0, 1, . . . , n; j = 0, 1, . . . , m m P pi,j =: pi,∗ , P (Y = yj ) = j=0 n P pi,j =: p∗,j . i=0 Diese Gröÿen beschreiben die Randverteilungen; für diese gilt: n X pi,∗ = 1 und n X p∗,j = 1. j=0 i=0 Folgendes Schema bietet eine Übersicht: ↓ X| Y → x0 x1 y0 p0,0 p1,0 y1 p0,1 p1,1 y2 p0,2 p1,2 . . . . . . . . . . . . xn pn,0 p∗,0 pn,1 p∗,1 pn,2 p∗,2 ... ... ... ... ... ym p0,m p1,m p0,∗ p1,∗ . . . . . . pn,m p∗,m pn,∗ 1 7.7. GEMEINSAME VERTEILUNG MEHRERER ZUFALLSVARIABLEN 51 Im Beispiel 7.7.3 oben lassen sich jetzt einfach die Randverteilungen einfügen: ↓X Y → x0 x1 y0 y1 y2 0.2 0.4 0.1 0.7 0.1 0 0.2 0.3 0.3 0.4 0.3 1.0 z.B. p∗,2 = 0.1 + 0.2 = 0.3. Die Randverteilungen sind also die Verteilungen für X Erwartungswert und Varianz von und Y X und für Y. Daraus können wir berechnen, was wir in einem späteren Beispiel durchführen werden. Bei vielen Anwendungen ist es wichtig, vorab zu klären, ob mehrere Zufallsvariablen stochastisch unabhängig sind oder nicht. Der Begri der stochastischen Unabhängigkeit ist bereits eingeführt worden. Er lässt sich leicht auf die stochastische Unabhängigkeit von Zufallsvariablen übertragen: Denition 7.7.5 Sei F (x1 , x2 , . . . , xn ) die gemeinsame Verteilungsfunktion der Zufallsvariablen X1 , X2 , . . . , Xn und Fi (xi ) seien die Verteilungsfunktionen der einzelnen Zufallsvariablen Xi . Dann heiÿen X1 , X2 , . . . , Xn (stochastisch) unabhängig, wenn für alle x1 , x2 , . . . , xn ∈ R gilt: F (x1 , x2 , . . . , xn ) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn ). (7.7.22) Bemerkung. Diese Denition ist konsistent mit der Denition 7.3.8 (b) (Unabhängigkeit von n Ereignissen). Häug kann man aus der Beschreibung eines Zufallsexperimentes direkt ablesen, ob die Zufallsvariablen unabhängig sind oder nicht. Einige Beispiele dazu folgen. Beispiel 7.7.6 wiederholt. (a) Ein Zufallsexperiment werde unter gleichen Xi beschreibe den Ausgang des X1 , X2 , · · · , Xn i-ten Bedingungen nmal Zufallsexperiments. Dann gilt: sind unabhängig. (b) Sonderfall von (a): Zufälliges Ziehen eines Stücks aus einer Lieferung m.Z.: Xi := X1 , X2 , · · · , Xn 1, 0, falls Stück bei i-ter Ziehung defekt sonst sind unabhängig (Bernoulli-Experiment). Wenn wir aber die Vor- schrift so abändern, dass wir die Stücke nicht zurücklegen, so sind die Zufallsvariablen nicht mehr unabhängig. (c) i-tes Zufallsexperiment: Zufälliges Ziehen eines Stücks aus einer Lieferung o.Z.: ist wie in (b) deniert, aber X1 , X2 , · · · , Xn sind nicht Xi unabhängig. (Grund: Zufalls- experiment wird wegen o.Z. nicht unter den gleichen Bedingungen wiederholt.) Die Vorkenntnis über die Unabhängigkeit von Zufallsvariablen ist eine Grundlage vieler statistischen Verfahren. Noch häuger aber interessiert man sich dafür, ob zwei Zufallsvariablen, für die man in der Regel nur Realisierungen kennt, unabhängig sind oder nicht. Beispiel dazu liefern die vieldiskutierten Fragen, ob zwischen Rauchen und Lungenkrebs oder Geschwindigkeitbeschränkung und Unfallhäugkeit, um nur zwei Beispiele zu nennen, ein Zusammenhang KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 52 besteht. Wir werden hierzu eventuell im letzten Teil des Kurses Verfahren kennenlernen, wie man aufgrund von empirischen Daten gewisse Informationen über Unabhängigkeit erhalten kann. In diesem Abschnitt wollen wir uns erst einmal mit dem Begri der Unabhängigkeit selbst beschäftigen. Wenn man weiÿ, dass Zufallsvariablen unabhängig sind und wenn die Verteilungen der einzelnen Zufallsvariablen bekannt sind, kann man leicht über Def. 7.7.5 deren gemeinsame Verteilungsfunktion bestimmen. Wir werden uns eventuell später einmal diese Tatsache zunutze machen. Für diskrete Zufallsvariablen mit nur endlich vielen Werten kann man leicht aus der Denition 7.7.5 eine andere Charakteristik der Unabhängigkeit zeigen. Satz 7.7.7 Zwei diskrete Zufallsvariablen unabhängig, wenn für alle i = 0, 1, . . . , n X, Y (aus Denition 7.7.2) j = 0, 1, . . . , m gilt: sind genau dann und P (X = xi ∧ Y = yj ) = P (X = xi ) · P (Y = yj ), d.h. pi,j = pi,∗ · p∗,j (vergleiche Denition 7.7.5 und Satz 7.7.4). Es ist oensichtlich, dass diese Bedingung erfüllt sein sollte, denn sie bedeutet gerade, dass die Ereignisse X = xi und Y = yj alle unabhängig sind. Wie man die Bedingung nachprüft illustrieren wir im folgenden Beispiel 7.7.8 (a) ↓X Y → 0 2 -1 0.02 0.18 0.2 1 0.08 0.72 0.8 0.1 0.9 1.0 0.1 · 0.2 = 0.02 0.1 · 0.8 = 0.08 0.9 · 0.2 = 0.18 0.9 · 0.8 = 0.72, (b) (c) also sind X, Y unabhängig. X, Y aus Beispiel 7.7.3 sind nicht unabhängig, p0,0 = 0.2, aber p0,∗ · p∗,0 = 0.7 · 0.3 = 0.21. ↓X Y → 2 3 4 0 0.2 0 0.2 0.4 1 0.3 0.2 0.1 0.6 0.5 0.2 0.3 1.0 0.5 · 0.4 = 0.2 0.5 · 0.6 = 0.3 0.2 · 0.4 6= 0, also sind X, Y denn es gilt z.B.: nicht unabhängig. Mit der Unabhängigkeit von Zufallsvariablen hängen eng die beiden Begrie der Kovarianz und der Korrelation zusammen. 7.8. KOVARIANZ UND KORRELATION 7.8 53 Kovarianz und Korrelation Wie der Name es schon ausdrückt ist die Kovarianz ein Verteilungsparameter, der die Beziehung zwischen zwei Zufallsvariablen ausdrückt. Später werden wir eine anschauliche Interpretation kennenlernen. Zunächst aber wollen wir sehen, wie man rechnerisch auf den Begri der Kovarianz kommt. Die Kovarianz ist wichtig, wenn man Erwartungswert und Varianz von Summen von Zufallsvariablen ausrechnen möchte. Beim Erwartungswert ist das sehr einfach: E(X + Y ) = E(X) + E(Y ). (7.8.23) Der Beweis ist mindestens für diskrete Zufallsvariablen mit bereits bekannten Mitteln durchzuführen, ähnlich wie bei E(aX + b) = aE(X) + b. Die entsprechende Aussage für Varianz kann man dem Satz 7.8.1 entnehmen. Die Herleitung ist zum Verständnis der Aussage nützlich, daher wird sie hier durchgeführt. Var(X + Y) = E (X + Y )2 − [E(X + Y )]2 = E X 2 + 2XY + Y 2 − [E(X) + E(Y )]2 = E(X 2 ) + 2E(X · Y ) + E(Y 2 ) − (E(X))2 − 2E(X) · E(Y ) − (E(Y ))2 = Var(X) + Var(Y) + 2 [E(X · Y ) − E(X) · E(Y )] . | {z } =:Cov(X,Y) Cov(X, Y) := E(X · Y) − E(X) · E(Y) heiÿt die Kovarianz von X und Y. Wir erhalten also: Satz 7.8.1 Seien X, Y, Z Zufallsvariablen mit endlichen Varianzen und a, b ∈ R zwei beliebige Konstanten. Dann gilt Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y). Cov(X, Y) := E(X · Y) − E(X) · E(Y) heiÿt die Kovarianz von X und (7.8.24) Y. Folgende Eigenschaften folgen sofort: Cov(X, X) = Var(X) ≥ 0, (7.8.25) Cov(X, Y) = Cov(Y, X) (7.8.26) Cov(aX + bY, Z) = a · Cov(X, Z) + b · Cov(Y, Z). (7.8.27) Bemerkung. Die Kovarianz besitzt alle Eigenschaften eines Skalarproduktes auf Die Formel (7.8.24) kann auf dem Fall von Proposition 7.8.2 Seien X1 , . . . , Xn n Zufallsvariablen verallgemeinert werden: Zufallsvariablen mit endlicher Varianz. Dann gilt n n X X Var( a i · Xi ) = a2i · Var(Xi ) + 2 · i=1 für alle a1 , . . . , an ∈ R. i=1 L2 . n X 1≤i<j≤n ai · aj · Cov(Xi , Xj ) (7.8.28) KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 54 Satz 7.8.3 Für X, Y aus Denition 7.7.2 gilt: n X m X E(X · Y ) = ( xi yj pi,j ). i=0 j=0 Dass diese Formel richtig ist, ist wohl unmittelbar einsichtig. Trotzdem müsste man sie streng beweisen, worauf wir hier aber verzichten. Ein Rechenbeispiel mit den Zufallsvariablen aus Beispiel 7.7.8(c): Beispiel 7.8.4 E(X ·Y ) = 0·2·0.2+0·3·0+0·4·0.2+1·2·0.3+1·3·0.2+1·4·0.1 = 1.6. Zur Bestimmung der Kovarianz braucht man dann nur noch die Erwartungswerte von und Y X auszurechnen: E(X) = 0 · 0.4 + 1 · 0.6 = 0.6 E(Y ) = 2 · 0.5 + 3 · 0.2 + 4 · 0.3 = 2.8. Damit folgt Cov(X, Y) := E(X · Y) − E(X) · E(Y) = 1.6 − 0.6 · 2.8 = −0.08. X+Y Wenn wir uns nochmal die Formel für die Varianz von Folgendes auf: Wenn die Kovarianz von X einfach die Summe aus den Varianzen von und X Y und gleich 0 anschauen, fällt sofort ist, ist die Varianz der Summe Y . Das gilt, wenn X und Y unabhängig sind. Satz 7.8.5 Seien X, Y unabhängig. Dann gilt Cov(X, Y) = 0. Umgekehrt nicht! Beweis: Übungsaufgabe! Die Zufallsvariablen X, Y mit Cov(X, Y) = 0 heiÿen unkorreliert. Die Aussagen über den Eigenwert und die Varianz von X+Y sind leicht auf Summen von endlich vielen Zufallsvariablen zu erweitern. Dabei beschränken wir uns auf solchen mit gleichem Erwartungswert und gleicher Varianz. Auÿerdem sollen die Zufallsvariablen bei der Berechnung der Varianz unabhängig sein. Satz 7.8.6 Die Zufallsvariablen µ X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert 2 und die gleiche Varianz σ besitzen. Dann gilt: (a) E(X1 + X2 + . . . + Xn ) = n · µ. (b) Im Fall der Unabhängigkeit der Zufallsvariablen gilt Var(X1 +X2 +. . .+Xn ) = n·σ 2 . Bemerkung. Die Unabhängigkeit in (b) ist entscheidend. Dadurch sind nach Satz 7.8.5 alle Kovarianzen null. Sonst müssten wir alle Kovarianzen berücksichtigen. Eine Standardisierung des Abhängigkeitsmaÿes zwischen zwei Zufallsvariablen erhält man mit Hilfe des Begris der Korrelation: Denition 7.8.7 Seien rianzen. Dann heiÿt der X und Y zwei beliebige Zufallsvariablen mit echt positiven Va- Cov(X, Y) p %(X, Y ) := p Var(X) Var(Y) Korrelationskoezient von X und Y. 7.8. KOVARIANZ UND KORRELATION Satz 7.8.8 (a) Seien X, Y 55 zwei Zufallsvariablen mit positiven und nichtnullen Varian- zen. Dann gilt −1 ≤ %(X, Y ) ≤ 1. (b) Falls Y = aX + b (a, b ∈ R, a 6= 0), dann gilt ρ(X, Y ) = Beweis: Es gilt Var(Y) = a2 · Var(X) 1 −1 falls falls a>0 a<0 (7.8.29) Cov(X, Y) = a · Var(X). a 1 falls a > 0 = %(X, Y ) = . −1 falls a < 0 |a| und Damit folgt (7.8.30) X, Y seien Zufallsvariablen wie in Denition 7.8.7. Man nennt unkorreliert, schwach korreliert, stark korreliert, positiv korreliert, negativ korreliert, falls falls falls falls falls X und Y %(X, Y ) = 0 ist, (vergl. o.) |%(X, Y )| nahe bei 0 aber > 0 |%(X, Y )| nahe bei 1 ist, %(X, Y ) > 0 ist, %(X, Y ) < 0 ist Abbildung 7.4: Korrelationskoezienten (qualitativ). r ist, ist hier dasselbe wie %. KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 56 Beispiel 7.8.9 ↓X Y → 0 1 2 0 0.20 0.15 0.15 0.50 1 0.07 0.10 0.08 0.25 2 0.08 0.08 0.09 0.25 0.35 0.33 0.32 (a) E(X) = 0.25 + 0.5 = 0.75, E(X 2 ) = 0.25 + 1.0 = 1.25 Var(X) = 0.6875 E(Y ) = 0.33 + 0.64 = 0.97, E(Y 2 ) = 0.33 + 1.28 = 1.61 Var(Y) = 0.6691 E(X · Y ) = 1 · 1 · 0.1 + 1 · 2 · 0.08 + 2 · 1 · 0.08 + 2 · 2 · 0.09 = 0.78 ⇒ Cov(X, Y) = 0.0525. Cov(X, Y) p ⇒ %(X, Y ) := p = 0.0774. Var(X) Var(Y) X, Y sind also schwach positiv korreliert. (b) ↓X Y → 1 0 1 2 E(X) = 1.1, 1.5 2 0.2 0 0 0.2 0 0.5 0 0.5 0 0 0.3 0.3 0.2 0.5 0.3 1.0 Var(X) = 0.49, E(Y) = 1.55, Var(Y) = 0.1225. Cov(X, Y) = 1 · 1.5 · 0.5 + 2 · 2 · 0.3 − 1.1 · 1.55 = 0.245. %(X, Y ) = also sind X und Y 0.245 = 1, 0.7 · 0.35 stark korreliert. Wir vermuten eine lineare Abhängigkeit der Form a und b noch zu bestimmen P (X = x und Y = y) > 0, also z.B. wobei X=0 X=1 und und Y =1 Y = 1.5 Wir erhalten also: Y = a + bX (b > 0) (fast sicher), sind. Dazu betrachten wir nur Kombinationen mit nicht X=0 und Y = 1.5: 1=a+b·0⇒a=1 1.5 = 1 + b · 1 ⇒ b = 0.5 Y = 1 + 0.5X (fast sicher). Die nicht verwendete Kombination mit P (X = x und Y = y) > 0 gibt uns eine Kontroll- möglichkeit: X=2 und Y =2 2 = 1 + 0.5 · 2. Beispiel 7.8.10 Wir tragen die Realisierungen (xi , yi ) von (X, Y ) (z.B. Wohnäche, Nettomiete) bei der wiederholten Durchführung eines Zufallsexperimentes als Punkte in ein Koordinatensystem ein, und erhalten das Streudiagramm in Abbildung 7.5a. 7.8. KOVARIANZ UND KORRELATION 57 (a) (b) Abbildung 7.5: Streudiagramm und Regressionsgerade für Wohnäche und Nettomiete. Bei positiver oder negativer Korrelation zeichnen wir eine Gerade ein (s. Abb. 7.5b), die die Abhängigkeit Y von X bis auf eine geringe Zufallsschwankung beschreibt. Ein Verfahren zur rechnerischen Bestimmung einer solchen Geraden haben wir in Kapitel 6 kennengelernt. Wir bezeichneten sie als Regressionsgerade. Was ist die Konsequenz für %(X, Y ), wenn alle Punkte exakt auf einer Geraden liegen? Zunächst können wir eine Aussage für den Schätzwert von oberen Grenze, also %̂ = +1 oder %̂ − 1, %(X, Y ) machen: |%̂| ist an der je nachdem, ob die Gerade steigend oder fallend ist. Was ist, wenn die Gerade die Steigung Y Varianz von gleich 0 0 hat? Dieser Fall scheidet aus, weil dann die ist, ebenso der Fall einer senkrechten Gerade. Zu den früheren Situationen macht folgender Satz eine Aussage: Satz 7.8.11 Konstanten %(X, Y ) = +1 (bzw. −1) ⇐⇒ Y = a + bX a ∈ R und b > 0 (bzw. b < 0). f.s. (fast sicher) für geeignete Der Zusatz f. s. ist für die mathematische Exaktheit der Aussage notwendig, in den Anwendungen meist unwesentlich. Beweis: ( ⇐ ohne f. s.) Sei Y = a + bX mit a ∈ R, b 6= 0, Var(X) > 0. E(Y ) = a + bE(X) Var(Y) = b2 Var(X) E(X, Y ) = E(aX + bX 2 ) = aE(X) + bE(X 2 ) E(X)E(Y ) = aE(X) + b(E(X))2 . Daraus folgt Cov(X, Y) := b(E(X2 ) − (E(X))2 ) = bVar(X), und damit Cov(X, Y) bVar(X) b p p %(X, Y ) := p =p = = |b| Var(X) Var(Y) Var(X) |b| Var(X) +1 −1 für für b > 0, . b < 0, KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 58 Wir hatten vorher den Zusammenhang zwischen X und Y durch Schaubilder veranschau- licht. Dies wollen wir noch mehr quantitativ erfassen und mit der Regressiosrechnung in Kapitel 6 in Verbindung bringen: Die Messwertpaare b1 (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) ist die Steigung der 1. Regressionsgerade und sind Realisierungen von b2 (X, Y ) ist die Steigung der 2. Regressionsge- rade. b1 · b2 = (xy − x · y) (xy − x · y) (xy − x · y)2 · = (x2 − x2 ) (y 2 − y 2 ) (x2 − x2 )(y 2 − y 2 ) (%(X, Y ))2 . xy − x · y q %̂ := p ist 2 2 2 2 x −x · y −y ist Schätzwert für Schätzwert für %(X, Y ) = Es gilt immer E(X · Y ) − E(X) · E(Y ) p p . Var(X) Var(Y) |%̂| ≤ 1. Extremfall: Alle Punkte (xi , yj ) liegen exakt auf einer Geraden, d.h. beide Regressionsge- raden sind gleich. Dann gilt b2 · b1 = 1 ⇔ %̂2 = 1 ⇔ |%̂| = 1 Die extremen Situationen sind b1 ·b2 senkrecht aufeinander) = 1 (selbe Gerade) und b1 ·b2 = 0 (Regressionsgeraden (0 ≤ b1 · b2 ≤ 1). Falls es keinen starken linearen Zusammenhang zwischen den Zufallsvariablen gibt, dann sollte man sie vor dem Vergleich normieren, damit der Vergleich von der Wahl z.B. der Maÿeinheiten unabhängig ist: e := p X X→X , Var(X) Y Y → Ye := p Var(Y) 2 e = p 1 Var(X) Var(X) = 1, Var(X) %(X, Y ) = = = % e = 1. Var(Y) E(X · Y ) − E(X) · E(Y ) p p Var(X) · Var(Y) p p p p E X/ Var(X) · Y / Var(Y) − E X/ Var(X) · E Y / Var(Y) 1·1 e e e e E(X · Y ) − E(X) · E(Y ) e Ye ). q q = %(X, e e Var(X) · Var(Y) ist also wirklich als Maÿ für den linearen Zusammenhang zu deuten. 7.9. GESETZ DER GROßEN ZAHLEN UND GRENZWERTSÄTZE 7.9 59 Gesetz der groÿen Zahlen und Grenzwertsätze 7.9.1 Das Gesetz der groÿen Zahlen und der Hauptsatz der Statistik Seien X1 , . . . , Xn Zufallsvariablen, welche unabhängig voneinander und identisch verteilt sind, mit dem jeweiligen Erwartungswert Das arithmetische Mittel µ und Varianz σ2. 1 (X1 + · · · + Xn ) n der Zufallsvariable X X̄n = gibt den durchschnittlichen Wert bei n Versuchen wieder. Nach Durchführung des Experiments wird x̄n = als Realisierung von Xn 1 (x1 + · · · + xn ) n beobachtet. Dann sind Erwartungswert und Varianz des arith- metischen Mittels E(X̄n ) = µ und Var(X̄n ) = σ2 . n Der Erwartungswert des arithmetischen Mittels ist also gleich dem von Varianz σ 2 /n ist für groÿes ist umgekehrt proportional zu n die Verteilung von Xn n und geht für stark um µ = E(X) n→∞ X selbst. Die gegen null. Damit konzentriert. Dies wird im folgenden Satz zusammengefaÿt: Satz 7.9.1 (Gesetz der groÿen Zahlen) Sei >0 beliebig klein. Dann gilt lim P (|X̄n − µ| ≤ ) = 1. n→∞ Man sagt: X̄n konvergiert in Wahrscheinlichkeit gegen µ und benutzt als Notation P X̄n → µ. Das Gesetz der groÿen Zahlen sagt also aus, daÿ die Wahrscheinlichkeit mit der das [µ − , µ + ] fällt, gegen 1 P (µ − < X̄n < µ + ) nahe bei arithmetische Mittel in ein beliebig vorgegebenes Intervall konvergiert, wenn n→∞ geht. Für groÿes n ist damit 1. Beispiel 7.9.2 Sei X ∼ Bi(1, p) und A = {X = 1}. Dann gilt P (A) = P (X = 1) = E(X) = p und 1 (X1 + · · · + Xn ) n Eintretens von A. Dann X̄n = ist die relative Häugkeit Hn des gilt Satz 7.9.3 (Satz von Bernoulli) Die relative Häugkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen eines Zufallsvorgangs eintritt, konvergiert in Wahrscheinlichkeit gegen P (A). KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 60 Das Theorem von Bernoulli laÿt sich direkt auf empirische Verteilungsfunktionen anwen- x ist die empirische Verteilungsfunktion Fn (x) die relative Häugkeit des Ereignisses {X ≤ x}. Wenn man die Daten x1 , . . . , xn als Realisierung der unabhängigen und identisch wie X verteilten Zufallsvariablen X1 , . . . , Xn auaÿt, dan folgt daÿ P Fn (x) → F (x) für jedes feste x und für n → ∞, wobei F (x) die Verteilungsfunktion von X bezeichnet. den: Für jedes feste Eine entsprechende Aussage gilt nicht nur für jedes feste für alle x, sondern global (gleichmäÿig) x ∈ R: Satz 7.9.4 (Hauptsatz der Statistik, Glivenko-Cantelli) Sei >0 beliebig klein und X eine Zufallsvariable mit Verteilungsfunktion gilt für die zu unabhängigen und identisch wie gebildete Verteilungsfunktion X verteilten Zufallsvariablen F (x). Dann X1 , . . . , Xn Fn (x) lim P (sup |Fn (x) − F (x)| ≤ ) = 1. n→∞ F (x) bezeichnet. Der Hauptsatz der Statistik zeigt also, daÿ für Zufallsstichproben, bei denen X1 , . . . , Xn Mit sup x∈R wird damit die maximale Abweichung zwischen unabhängig und identisch wie das interessierende Merkmal Verteilung F (x) von X Fn (x) X und verteilt sind, die unbekannte durch die empirische Verteilungsfunktion Fn (x) für n→∞ gut approximiert wird. Stimmen umgekehrt Fn (x) und eine theoretische Verteilung F (x) (etwa die Normalver- teilung), schlecht überein, so entstammen die Daten vermutlich einer anderen Verteilung. Sowohl das Gesetz der groÿen Zahlen als auch der Satz von Glivenko-Cantelli gelten übrigens auch unter schwächeren Annahmen, insbesondere läÿt sich die Voraussetzung der Unabhängigkeit der X1 , . . . , Xn Abbildung 7.6 zeigt anhand von abschwächen. 100 bzw. 1000 unabhängigen Wiederholungen einer stanX , daÿ die empirische Verteilungsfunktion umso nä- dardnormalverteilten Zufallsvariable her an der theoretischen Verteilungsfunktion liegt, je gröÿer die Anzahl der Wiederholungen n ist. Abbildung 7.6: Empirische Verteilungsfunktion () von 100 (links) und 1000 (rechts) stan- dardnormalverteilten Zufallszahlen im Vergleich mit der Verteilungsfunktion der Standardnormalverteilung (. . . ). 7.9. GESETZ DER GROßEN ZAHLEN UND GRENZWERTSÄTZE 61 7.9.2 Der zentrale Grenzwertsatz Bei der binomialverteilten Zufallsvariable haben wir gesehen, daÿ sich die Verteilung von X = X1 + · · · + Xn mit Xi ∼ Bi(1, p) für groÿes n gut durch die Normalverteilung approximieren lieÿ. Abbildung 7.7 zeigt, daÿ dies auch für andere Verteilungen gilt. Die durchgezogene Kurve in Abbildung 7.7a gibt die Dichte mit E(Xi ) = 0, Var(Xi ) = 1 an. Dazu ist die Dichte ϕ(x) f (x) einer Zufallsvariable Xi der Standardnormalverteilung gezeichnet. In den übrigen Abbildungen in 7.7 sieht man die standardisierten Dichten der Summen X1 +X2 , X1 +X2 +X3 X1 , . . . , X6 . und X1 +· · ·+X6 von unabhängigen nach f (x) verteilten Zufallsvariablen Abbildung 7.7: Dichten von Summen () und approximierende Normalverteilungsdichte ϕ(x) (. . . ). Tatsächlich gilt sehr allgemein, daÿ die Verteilung einer Summe fallsvariablen für n → ∞ X1 + · · · + Xn von Zu- gegen eine Normalverteilung konvergiert bzw. für groÿes n approximativ normalverteilt ist. Für unabhängige und identisch verteilte Zufallsvariablen X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ 2 sind dabei Erwartungswert und Varianz der Summe gegeben durch E(X1 + · · · + Xn ) = nµ, Var(X1 + · · · + Xn ) = nσ 2 . Für die Formulierung des Grenzwertsatzes ist es zweckmäÿig, zur standardisierten Summe überzugehen. Dabei steht a ∼ für approximativ (bei gröÿerem n) oder asymptotisch (für KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG 62 n → ∞) verteilt. Für die unstandardisierte Summe X1 +· · ·+Xn gilt in dieser Schreibweise √ a X1 + · · · + Xn ∼ N (nµ, nσ). n ist die Summe umso besser approximativ normalverteilt, je weniger asymmetrisch die Verteilung der Xi ist. Umgekehrt ist für deutlich asymmetrische Verteilungen ein gröÿeres n nötig, um eine ähnliche Approximationsgüte zu erreichen. Für endliches Typischerweise formuliert man den sogenannten Zentralen Grenzwertsatz jedoch nicht X1 + · · · + Xn selbst, sondern für die standardisierte Summe. Ein Grund ist, daÿ für √ n → ∞ die Verteilung N (nµ, nσ) unendlichen Erwartungswert und unendliche Varianz für besitzt. Satz 7.9.5 (Zentraler Grenzwertsatz) Seien teilte Zufallsvariablen mit E(Xi ) = µ und Dann konvergiert die Verteilungsfunktion X1 , . . . , Xn unabhängige Var(Xi ) = σ 2 . Fn (z) = P (Zn ≤ z) me und identisch ver- der standardisierten Sum- n 1 X Xi − µ X1 + · · · + Xn − nµ √ =√ σ σ n n Zn = i=1 für n→∞ an jeder Stelle z ∈R gegen die Verteilungsfunktion Φ(z) der Standardnor- malverteilung: Fn (z) → Φ(z). Als Notation benutzt man die Schreibweise a Zn ∼ N (0, 1). Der zentrale Grenzwertsatz gilt in noch wesentlich allgemeineren Varianten, wobei die X1 , . . . , Xn abhängig und verschieden verteilt sein dürfen. Entscheidend ist, daÿ keine der Zufallsvariablen Xi die restlichen deutlich dominiert. Damit liefern die zentralen Grenzwertsatze die theoretische Begründung dafür, daÿ eine Zufallsvariable X dann in guter Näherung normal verteilt ist, wenn sie durch das Zusammenwirken von vielen kleinen zufälligen Eekten entsteht. Wir haben bereits in 7.6.5 gesehen, wie die Binomialverteilung mit Hilfe der Normalverteilung approximiert wurde. Kapitel 8 Parameterschätzung 8.1 Schätzfunktionen Denition 8.1.1 Es seien X1 , X2 , . . . , Xn unabhängige Zufallsvariablen, die alle die gleiθ sei ein unbekannter Parameter dieser Verteilung. X1 , . . . , Xn ist (Beobachtungs- oder) Messreihe zur Bestimmung von θ mit n Einzelmessungen che Verteilung besitzen. als eine aufzufassen. Xi entspricht also der iten Messung. Deren Messergebnis Aus dem Satz x1 , . . . , x n von Messwerten, den man als bezeichnet, bestimmt man einen annimmt, dass er nahe bei Eine θ Schätzwert θ̂ für θ, xi ist eine Realisierung von Xi . Stichprobe vom Umfang n von dem man normalerweise liegt. Schätzfunktion oder Schätzstatistik für den Grundgesamtheitparameter θ ist eine Funktion g(X1 , . . . , Xn ) der Stichprobenvariablen X1 , . . . , Xn . Der aus den Realisierungen x1 , . . . , x n resultierende numerische Wert g(x1 , . . . , xn ) ist der zugehörige Schätzwert. Drei Annahmen: (a) Das Messergebnis ist bei jeder Messung unbeeinusst von den vorherigen Messergebnissen, d.h. die Zufallsvariablen X1 , X2 , . . . , Xn sind unabhängig. (b) Es gibt keine Veränderung der beeinussbaren Versuchsbedingungen, d.h. die Zufallsvariablen X1 , X2 , . . . , Xn haben alle die gleiche Verteilung, häug Normal- verteilung. (c) Es gibt keinen systematischen Fehler. Beispiel 8.1.2 Wir führen eine Messreihe von n Messungen (z.B. des elektrischen Wi- derstandes eines Gerätes) durch. Der i-te Messung entspricht eine Zufallsvariable 63 Xi . KAPITEL 8. PARAMETERSCHÄTZUNG 64 Das Messergebnis xi Realisierung der Zufallsvariable ist eine µ := E(Xi ) Der wahre Wert ist der gemeinsame Erwartungswert Ziel der Messungen ist es nun, Informationen über Xi . µ der Zufallsvariablen Xi . zu bekommen. Es werden dazu n Messungen tatsächlich durchgeführt, z.B. vier Widerstandsmessungen mit den Messergebnissen (in Ω): x1 = 10.1, x2 = 10.2, Dies ist eine Stichprobe vom Umfang x1 + x2 + · · · + xn x := xn := n Die Interpretation ist nicht die Vermutung, dass µ̂ (Schätzwert für x 4 x3 = 10.0, x4 = 10.1. (allgemein: vom Umfang n). 10.1 + 10.2 + 10.0 · · · + 10.1 = = 10.1 4 µ=x nahe bei µ) = x := und auch µ nicht µ ist sicher im Zahlenbeispiel nahe bei x, sondern nur liegt. x1 + · · · + xn (=: g(x1 , . . . , xn ) n bei diesem Beispiel). Aus Satz 7.9.1 folgt X := X n := X1 + X2 + · · · + Xn P −→ µ n für n→∞ (also fast sicher). Dies rechtfertigt die obige Vermutung. Interpretation/Nomenklatur: tion für den Erwartungswert X̄ = g(X1 , . . . , Xn ) = µ = E(X) verstehen. x̄ 1 n n P Xi läÿt sich als Schätzfunk- i=1 ist die zugehörige Realisierung oder das arithmetische Mittel der Stichprobe. 8.2 MaximumLikelihoodMethode P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) (bzw. die gemeinsame VerteiX1 , X2 , . . . , Xn an der Stelle (x1 , . . . , xn ) im Falle einer stetigen ZufallsX ) maximal wäre, wenn θ = θ̂ wäre. Bestimme θ̂ so, dass lungsdichte von variablen Beispiel 8.2.1 Eine Beobachtungsgröÿe sei Poisson-verteilt, wobei der Parameter bekannt sei (λ λ un> 0). Um Informationen über λ zu erhalten, machen wir drei Beobachtun- gen, d.h. wir ziehen eine Stichprobe vom Umfang 3. Die Beobachtungsergebnisse seien die Werte fallsvariablen X1 , X2 , X3 , 4, 1, 6. Diese sind Realisierungen von Zu- die unabhängig und Poisson-verteilt sind mit dem gleichem P (X1 = 4, X2 = 1, X3 = 6) = P (X1 = 4) · P (X2 = 1) · P (X3 = 6) λ4 λ1 λ6 = e−λ e−λ e−λ 4! 1! 6! 4+1+6 λ λ4+1+6 = e−3λ =: e−3λ =: h(λ) 4!1!6! 4!6! Diese Wahrscheinlichkeit nennt man auch Likelihood-Funktion h(λ). λ. . 8.2. MAXIMUMLIKELIHOODMETHODE 65 Anwendung des Maximum-Likelihood Prinzips: Die Wahrscheinlichkeit für das eingetretene Ereignis, also h(λ), sei maximal, wenn λ = λ̂ wäre. λ4+1+6 λ4+1+6−1 + e−3λ (4 + 1 + 6) 4!6! 4!6! 4+1+6−1 λ ! = 0, = [(−3) · λ + (4 + 1 + 6)] · e−3λ 4!6! (−3)λ + (4 + 1 + 6) = 0 oder λ = 0. Da aber λ > 0, folgt h0 (λ) = (−3)e−3λ also ist λ= Ausserdem gilt Damit ist h(λ̂) h(λ) → 0 das 4+1+6 . 3 λ → 0+ und für λ → ∞ und h(λ) > 0 für alle λ > 0. Maximum von h(λ) und der Maximum-Likelihood-Schätzwert (kurz: für M-L-Schätzwert) ist also: λ̂ = 4+1+6 11 = . 3 3 Bei stetigen Zufallsvariablen betrachtet man anstelle der Wahrscheinlichkeit eine stetige Dichte, z.B. bei der Normalverteilung N (µ, σ) die uns bereits gut bekannte Dichte (x−µ)2 1 f (x|µ, σ) = √ e− 2σ2 . σ 2π Allgemeiner kann ein Parameter θ auch höherdimensional sein. Unter derselben Annahme von unabhängigen Wiederholungen ergibt sich die (diskrete oder stetige) Dichte f (x1 , . . . , xn |θ) = f (x1 |θ) . . . f (xn |θ). Für feste Realisierungen x1 , . . . , x n läÿt sich diese Dichte als Funktion vom Parameter θ auassen: L(θ) = f (x1 , . . . , xn |θ). L heiÿt Likelihoodfunktion. Das Maximum-Likelihood Prinzip zur Konstruktion einer Schätzfunktion besteht darin, diese Likelihoodfunktion zu maximieren. Daraus ergibt sich folgende Formulierung des Maximum-Likelihood Prinzips: Wähle zu festen Realisierungen θ̂, x1 , . . . , x n als Parameterschätzung denjenigen Parameter für welchen die Likelihoodfunktion maximal ist, d.h. L(θ̂) = max L(θ) θ oder anders geschrieben f (x1 , . . . , xn |θ̂) = max f (x1 , . . . , xn |θ). θ Bemerkung 8.2.2 Für gewöhnlich bestimmt man die Extrema (also auch das Maximum) einer Funktion als Nullstellen deren Ableitung. Wegen der Produkte in L(θ) führt dies oft zu komplizierten Ausdrücken, welche den Rechner leicht überfordern können. Ein Ausweg besteht darin, statt der Likelihoodfunktion die Log-Likelihood zu maximieren. Für den Fall unabhängiger und identisch verteilter Wiederholungen ergibt sich dann die Log-Likelihood als ln L(θ) = n X i=1 ln f (xi |θ). KAPITEL 8. PARAMETERSCHÄTZUNG 66 8.3 Eigenschaften von Schätzfunktionen Bei der Schätzung von Parametern weis man, daÿ der Schätzer in den allermeisten Fällen nicht mit dem eigentlichen Parameter übereinstimmt. Kriterien für die Güte des Schätzverfahrens sind also notwendig. So erwartet man z.B. von einer Schätzstatistik, das sie tendenziell den richtigen Wert liefert, d.h. weder systematisch über- noch unterschätzt. Diese Eigenschaft heiÿt Erwar- tungstreue. Mathematischer (also präziser) ausgedrückt: Denition 8.3.1 Eine Schätzfunktion g für θ heiÿt erwartungstreu, wenn gilt: E(g(X1 , . . . , Xn )) = θ. Beispiel 8.3.2 Xn ist erwartungstreu: n E(X n ) = E 1X Xi n ! i=1 Denition 8.3.3 n n n i=1 i=1 1X 1X n = E(Xi ) = µ = µ = E(Xi ). n n n g sei variabel. Dann heiÿt eine Schätzfunktion Schätzfunktionen) für θ konsistent, (genauer: Folge von wenn gilt: P (|g(X1 , . . . , Xn ) − θ| ≤ ε) → 1 für n→∞ für alle Beispiel 8.3.4 ε > 0. Xn ist konsistent, denn es gilt nach Satz 7.9.1: P Xn −→ µ = E(Xi ) Satz 8.3.5 Es seien X1 , X2 , . . . , Xn für n→∞ (f.s.) unabhängige Zufallsvariablen, die alle die gleiche Verteilung besitzen und für die der Erwartungswert und die Varianz existieren. (a) X (b) 1 n−1 ist eine konsistente, erwartungstreue Schätzfunktion für n P (Xi − X)2 E(Xi ) =: µ. ist eine konsistente, erwartungstreue Schätzfunktion für i=1 Var(Xi ) =: σ 2 . E(Xi ) Var(Xi ) werden Xi aufgefasst. und variablen dabei als unbekannte Verteilungsparameter bei den Zufalls- Einige Beispiele sind in der Tabelle auf der nächsten Seite zusammengefasst. Zur 1. Verteilung: Die einzelne Zufallsvariable fallsvariablen X1 , X2 , . . . , Xn 1 Xi := 0 Xi kann nur 2 Werte annehmen und die Zu- sind unabhängig. Wir haben also ein Bernoulli-Experiment: Erfolg mit Wahrscheinlichkeit p Fehlschlag mit Wahrscheinlichkeit X1 + X2 + X3 + · · · + Xn = nXn = Anzahl der Erfolge bei Bei der statistischen Qualitätskontrolle m.Z. ist p n 1−p Versuchen. der Anteil der defekten Stücke in der Lieferung. n · xn ist die Anzahl der Ziehungen von defekten Stücken. xn ist damit der Anteil der defekten Stücke in der Stichprobe. Bemerkung.: Die Schätzfunktion (nach der MLMeth.) für weder für bekanntes noch für unbekanntes µ erwartungstreu. σ ist σ̂ = p c2 . Sie ist aber σ 8.4. KONFIDENZINTERVALLE Verteilung 67 bekannte unbek. Schätzwerte (nach Eigenschaften Param. Param. der M-L-Meth.) aus 8.3 p p̂ = x konsistent, erwart.treu Poissonverteilung λ λ̂ = x konsistent, erwart.treu Exponentialverteilung λ λ̂ = N (µ, σ) σ2 µ µ̂ = x N (µ, σ) µ σ2 c2 = σ 1 0 p 1−p Xi : N (µ, σ) µ, σ 2 1 x konsistent, erwart.treu 1 n n P (xi − µ)2 konsistent, erwart.treu i=1 µ̂ = x c2 = σ 8.4 konsistent, nicht erw.treu konsistent, erwart.treu 1 n n P (xi − x)2 konsistent, nicht erw.treu i=1 Kondenzintervalle Allgemeine Voraussetzung für diesen Abschnitt, mit Ausnahme von Satz 8.4.11: X1 , . . . , Xn sind unabhängige, N (µ, σ)verteilte Zufallsvariablen. Bei der Aufstellung von Kondenzintervallen braucht man die Verteilung der Zufallsvariablen g(X1 , X2 , . . . , Xn ), die also über die Schätzfunktion von den Zufallsvariablen der Schätzung des Erwartungswertes Zufallsvariablen X1 , X2 , . . . , Xn µ X1 , X2 , . . . , Xn abhängt. Bei einer Normalverteilung ist das eine Summe der die noch durch n dividiert wird. Wir brauchen also die Verteilung einer Summe von unabhägigen normalverteilten Zufallsvariablen, und dafür gilt folgendes Resultat, das wir bereits im vorigen Kapitel (in den Übungen) kennengelernt haben: Satz 8.4.1 (Linearkombination von Normalverteilungen) (a) Eine Summe von normalverteilten, unabhängigen Zufallsvariablen ist wieder normalverteilt. (b) X ist normalverteilt, also ist auch αX + β mit α, β ∈ R, α 6= 0 normalverteilt. Auch folgender Satz ist uns nicht ganz unbekannt (vergleiche mit Satz 7.9.5): Satz 8.4.2 Xn hat die Verteilung N (µ, √σn ). KAPITEL 8. PARAMETERSCHÄTZUNG 68 Wir nehmen nun an, dass bei einer Normalverteilung die Varianz Erwartungswert µ µ̂ = x, bekannt und der unbekannt ist. Wir werden also versuchen, Schätzung: σ2 wobei µ mit Hilfe einer Stichprobe zu schätzen. x1 , · · · , xn das Ergebnis einer Stichprobe vom Umfang Das Kondenzintervall gibt nun den Bereich um µ̂ = x an, für den µ darin liegt. n ist. wir mit ausreichender Sicherheit sagen können, dass der wahre Wert von Denition 8.4.3 Seien γ = 0.9, 0.95, 0.99 n, 0 < γ < 1 beliebig vorgegeben. (γ meist x ist eine Realisierung von X . Gilt dann P X − µ ≤ q 0 = P X − q 0 ≤ µ ≤ X + q 0 = γ, nahe bei 1, z. B. o. ä.). (8.4.1) so bezeichnet man das Intervall [x − q 0 , x + q 0 ] als γ γ Kondenzintervall heiÿt für µ. Vertrauenswahrscheinlichkeit (häug in % angegeben) und sollte zusammen mit dem Stichprobenumfang n vor der Untersuchung festgelegt werden. Korrekte Intepretation: µ liegt mit Wahrscheinlichkeit γ in dem Intervall [X − q 0 , X + q 0 ]. 8.4.1 Bestimmung eines Kondenzintervalls für µ bei bekanntem σ µ anbietet, ist das arithmeti√ X̄ ∼ N (µ, σ/ n). Damit die Verteilung des Schätzers nicht vom unbekannten Ein Schätzer, der sich für den unbekannten Erwartungswert sche Mittel Wert abhängt muss man diesen standardisieren: Satz 8.4.4 (Standardisierter Mittelwert) (a) Die folgende Zufallsvariable ist standard-normalverteilt: √ (X − µ) n Y := σ (b) Aus der Eigenschaft bei bekanntem σ P (|Y | ≤ q) = 2Φ(q) − 1 kann man Kondenzintervalle für Beispiel 8.4.5 Eine Messgröÿe (oder Beobachtungsgröÿe) sei unbekannt und σ = 1.8 n=9 µ, wähle also (d.h. 9 Messungen ). ! P (|Y | ≤ q) = 2Φ(q) − 1 = γ = 0.95 (vergl. Satz 8.4.4), d.h. ! Φ(q) = q heiÿt Quantil zu N (µ, σ)-verteilt, bekannt sei. Bestimme 0.95(oder 95%) Kondenzintervall für Lege fest: µ bestimmen. 1+γ 2 . 1+γ 1.95 = = 0.975 2 2 γ = 0.95. wobei µ 8.4. KONFIDENZINTERVALLE 69 Aus der Normalverteilungstabelle lesen wir ab 95% Kondenz): Aus den 9 q = 1.96. Damit erhalten wir (mit einer √ (X − µ) n ≤ 1.96. σ Messungen erhalten wir x = 3.5 und damit das Kondenzintervall: 1.96σ 1.96 · 1.8 √ |x − µ| = |µ − 3.5| ≤ √ = = 1.176 =: q 0 n 9 oder in expliziter Form: µ ∈ [x − q 0 , x + q 0 ] = [3.5 − 1.176, 3.5 + 1.176] = [2.324, 4.676]. Denition 8.4.6 Z F und c 0 < c < 1. Dann heiÿt q das cQuantil der Verteilung, wenn F (q) = c gilt. Insbesondere bezeichnen wir das cQuantil der StandardNormalverteilung mit qΦ (c). sei eine beliebige Zufallsvariable mit der Verteilungsfunktion eine beliebige reelle Zahl mit Bestimmung eines γ Kondenzintervalles für µ bei bekanntem σ : 1. Lege die Vertrauenswahrscheinlichkeit 2. Bestimme q>0 γ und den Stichprobenumfang fest. aus ! Φ(q) = also das n (1 + γ)/2Quantil 1+γ , 2 der StandardNormalverteilung. 3. Ziehe eine Stichprobe vom Umfang n. Dabei seien x1 , x2 , . . . , xn die gewonnenen N (µ, σ)verteilten Zufalls- Realisierungen (Mess oder Beobachtungsergebnisse) der variablen X1 , X2 , . . . , Xn . Das Konndenzintervall ist dann durch √ (x − µ) n ≤q σ oder in expliziter Form durch q·σ q·σ x− √ ≤µ≤x+ √ n n gegeben. 8.4.2 Bestimmung eines Kondenzintervalls für µ bei unbekanntem σ Die wesentliche Voraussetzung bei der Konstruktion der Kondenzintervalle in 8.4.1 war die Existenz einer Zufallsvariable, die den wahren Parameter enthielt und deren Verteilung bekannt und unabhängig vom unbekannten Parameter war. Im Fall, wo s S= n P σ unbekannt ist, ersetzt man σ durch seine (erwartungstreue) Schätzung (Xi −X̄)2 i=1 n−1 . Dann arbeitet man mit der Zufallsvariable X̄ − µ √ ∼ t(n − 1) S/ n KAPITEL 8. PARAMETERSCHÄTZUNG 70 (t-Verteilung mit n−1 Freiheitsgraden, s. Abschnitt 7.6.10). Dafür kann man wieder einen Bereich angeben, der mit der Wahrscheinlichkeit (Kondenz) γ angenommen wird: P (| wobei Ft X̄ − µ ! √ | ≤ q) = 2Ft (q) − 1 = γ, S/ n die zugehörige Verteilungsfunktion bezeichnet. Wir erinnern uns, daÿ die Verteilung symmetrisch ist. Für die Werte von Ft t- gibt es Tabellen mit Quantilen der t-Verteilung. Beispiel 8.4.7 Eine Messgröÿe (oder Beobachtungsgröÿe) sei und σ unbekannt seien. Bestimme 90% Kondenzintervall für Lege fest: n = 11 (d.h. 11 N (µ, σ)-verteilt, µ, also γ = 0.95. wobei µ Messungen ). 11 Eine Stichprobe vom Umfang µ̂ = x = 3 ergebe und n X 11 X (xi − x) = (xi − 3)2 = 20 2 i=1 i=1 ! (X − µ)√11 · 10 ! P s ≤ q = 2Ft (ε) − 1 = 0.90, P 11 (Xi − X)2 i=1 wobei Ft die Verteilungfunktion einer Suche dann q t-Verteilung mit (n − 1) = 10 Freiheitsgraden ist. mit ! Ft (q) = Die Zahl der Freiheitsgrade ist 1+γ 1.90 = = 0.95. 2 2 r = n − 1 = 10. Aus der Tabelle der Quantile der t− Verteilung lesen wir ab: q = 1.81. Damit erhalten wir als Kondenzintervall: √ (x − µ) 11 · 10 s ≤ 1.81, 11 P 2 (xi − x) i=1 also v u 11 √ X 1.81 · 20 1 u t 2 |x̄ − µ| ≤ 1.81 · √ (xi − x) = √ = 0.772 =: q 0 . 110 i=1 110 In expliziter Form erhalten wir also als (µ ∈ [x − q0, x + q0] 90%-Kondenzintervall für µ: = [3 − 0.772, 3 − 0.772] =) [2.228, 3.772]. Bestimmung eines γ Kondenzintervalles für µ bei unbekanntem σ : 1. Lege die Vertrauenswahrscheinlichkeit γ und den Stichprobenumfang n fest. 8.4. KONFIDENZINTERVALLE 2. Bestimme q>0 71 aus ! Ft (q) = also ein (1 + γ)/2Quantil der 1+γ , 2 tVerteilung n. 3. Ziehe eine Stichprobe vom Umfang mit Seien (n − 1) Freiheitsgraden. x1 , x2 , . . . , xn die dabei gewonnenen N (µ, σ)-verteilten Zufalls- Realisierungen (Mess- oder Beobachtungsergebnisse) der variablen X1 , X2 , . . . , Xn . Das Konndenzintervall ist dann durch p (x − µ) n(n − 1) s ≤q n P 2 (xi − x) i=1 oder in expliziter Form durch s q· s n P (xi − x) 2 i=1 x− q· (xi − x)2 i=1 ≤µ≤x+ p n(n − 1) n P p n(n − 1) gegeben. Satz 8.4.8 gilt: Ft,r sei die Verteilungsfunktion Ft,r → Φ für r → ∞. der Man kann also die t-Verteilung mit unendlich (r tVerteilung mit r Freiheitsgraden; dann = ∞) vielen Freiheitsgraden als N (0, 1)- Verteilung auassen. Anwendung: Bei Stichproben mit groÿem Umfang (etwa N (0, 1)Verteilung statt der tVerteilung ≥ 50) kann näherungsweise die benutzt werden. 8.4.3 Bestimmung eines Kondenzintervalls für σ bei unbekanntem µ Ein Kondenzintervall für Verteilung von von S2 eine S2 = 1 n−1 χ2 -Verteilung σ2 n P bei normalverteilter Grundgesamtheit läÿt sich aus der (Xi − X̄)2 konstruieren. So besitzt eine normierte Version i=1 mit n−1 Freiheitsgraden: n−1 2 S ∼ χ2 (n − 1). σ2 Satz 8.4.9 Aus der Eigenschaft P (q1 ≤ n−1 2 S σ2 Freiheitsgrade) kann man Kondenzintervalle Für die entsprechenden Quantile der ≤ q2 ) = Fχ2 (q2 )−Fχ2 (q1 ) (q1 ≤ q2 , (n−1) 2 für σ bei unbekanntem µ bestimmen. χ2 -Verteilung gibt es ebenfalls eine Tabelle. X1 , X2 seien unabhängig und N (µ, 1)−verteilt. Dann ist (X1 − µ)2 + 2 (X2 − µ) die Summe der Quadraten von zwei unabhängigen und normalverteilten Zu2 fallsvariablen, also χ − verteilt mit zwei Freiheitsgraden. Beispiel 8.4.10 KAPITEL 8. PARAMETERSCHÄTZUNG 72 X1 + X2 2 X1 + X2 2 (X1 − X)2 + (X2 − X)2 = X1 − + X2 − 2 2 X − X 2 X − X 2 X − X 2 2 1 1 1 2 √ 2 . + = = 2 2 2 Dies ist das Quadrat von nur einer normalverteilten Zufallsvariable und daher χ2 − verteilt mit einem Freiheitsgrad. 8.4.4 Bestimmung eines Kondenzintervalls für den Parameter p einer Binomialverteilung Bi(n, p) Satz 8.4.11 X sei eine binomialverteilte Zufallsvariable mit den Parametern folgenden Bedingungen erfüllen sollten: (a) Die Zufallsvariable Y := √X−np n ≥ 50, np ≥ 5, n(1 − p) ≥ 5 np(1−p) ist näherungsweise n, p, die die (vergl. Satz 7.6.30). N (0, 1)verteilt (vergl. Satz 7.6.30). (b) Aus P (|Y | ≤ q) ≈ 2Φ(q) − 1 kann man -wie unten beschrieben- unter gewissen Bedingungen Näherungen für Kondenzintervalle für p und damit auch 1−p p bestimmen. seien unbekannt, und wir suchen ein γ Kondenzintervall für p. Nach Satz 8.4.11 verwenden wir dazu die Beziehung ! γ = 2Φ(q) − 1 ≈ P (|Y | ≤ q) = P ! X − np p p ≤ q = P |X − np| ≤ q np(1 − p) . np(1 − p) 0 ≤ p ≤ 1 ⇒ p · (1 − p) = p · (1 − p) ≤ 1/4 (Beweis: Übungsaufgabe!). r n |X − np| ≤ q 4 q √ = P |X − np| ≤ · n . 2 p γ = 2Φ(q) − 1 ≈ P |X − np| ≤ q np(1 − p) ≤ P ! Die Wahrscheinlichkeit dafür, dass die Abweichung von X höchstens Wenn nun x q· √ n/2 beträgt, ist also näherungsweise X, eine Realisierung von np von der SchätzZufallsvariable ≥ γ. also z.B. die tatsächlich beobachtete Anzahl der Ziehungen von defekten Stücken ist, erhalten wir als Kondenzintervallnäherung: |x − np| ≤ also [p1 , p2 ] kann nun als werden, wenn np ≥ 5 und q √ q √ q √ · n ⇔ x − · n ≤ np ≤ x + · n, 2 2 2 √ √ x − q · n/2 x + q · n/2 p1 := ≤p≤ =: p2 n n Näherung für ein γ Kondenzintervallnäherung die Voraussetzungen von Satz 8.4.11 mindestens n(1 − p) ≥ 5 für alle p ∈ [p1 , p2 ] gilt. Daraus ergeben sich die Bedingungen ! np1 ≥ 5 ! und n(1 − p2 ) ≥ 5. Bestimmung eines Kondenzintervalls für p: für p genommen dann erfüllt sind, wenn 8.4. KONFIDENZINTERVALLE 1. Bestimme q>0 aus 73 ! 2Φ(q) − 1 = γ , 2. Bestimme dann ein Intervall also aus p1 ≤ p ≤ p2 Φ(q) = (1 + γ)/2. mit √ (x − q p1 = n 3. [p1 , p2 ] ist als Näherung für ein n 2 ) √ (x + q p2 = n , γ Kondenzintervall n ≥ 50, np1 ≥ 5 und n 2 ) (8.4.2) zu akzeptieren, wenn gilt: n(1 − p2 ) ≥ 5. Anderenfalls muss eine andere Methode als über Satz 8.4.11 gewählt werden. Beispiel 8.4.12 Vor einer Wahl in einer Stadt mit 60000 wahlberechigten Einwohnern soll eine Meinungsumfrage durchgeführt werden. Sei p := 1 − p= Anteil der Wähler der Partei A, Anteil der Wähler der anderen Partei, Nichtwähler u.s.w. Wir sollen p bestimmen, bzw. ein 95%− Kondenzintervall für Es wird eine (zufällige) Stichprobe von Umfang 100 p konstruieren. o. Z. gezogen, d.h. kein Wahlbe- rechtigter wird zweimal befragt. Umfrageergebnis: 40 der Befragten sind für die Partei A. Die Zufallsvariable X := Anzahl der Wähler von A in der Stichprobe, deren Realisierung 40 ist, ist wegen o.Z. hypergeometrisch verteilt. Die Bedingungen in Satz 7.6.20 für die Näherung durch die Binomialverteilung sind aber deutlich erfüllt: N = 60000 ≥ 1000 X und n = 100 ≤ 0.1 · N . ist also näherungsweise binomialverteilt mit Parametern n, p. Konstruktion des Kondenzintervalles: Bestimme q>0 aus ! 2Φ(q) − 1 = γ = 0.95 ⇔ Φ(q) = 0.975 ⇔ q x = 40 = Realisierung von X Tabelle = 1.96. bei der Durchführung der Umfrage. Die erste Bedingung für die Näherung der Binomialverteilung durch die Normalverteilung ist erfüllt: n = 100 ≥ 50. Wir bestimmen dann die Grenzen √ p1,2 √ x ∓ q 2n 40 ∓ 1.962 100 = = = 0.400 ∓ 0.098. n 100 Wir erhalten so das Intervall [p1 , p2 ] = [0.302, 0.498]. Ist dieses Intervall als Kondenzintervall zu akzeptieren? Dazu müssen wir die weiteren Näherungsbedingungen prüfen: n · p1 = 100 · 0.302 = 30.2 ≥ 5, n(1 − p2 ) = 100 · 0.502 = 50.2 ≥ 5, n ≥ 50. [0.302, 0.498] näherungsweise ein Kondenzintervall für p. Man kann also mit 95-prozentiger Sicherheit schlieÿen, dass näherungsweise zwischen 30.2% und 49.8% für die Partei A sind. Damit ist Kapitel 9 Testen statistischer Hypothesen 9.1 Einfühurung, Signikanztest Wir beginnen mit einem Beispiel für einen Signikanztest, aus dem auch gewisse Grundprinzipien von Testen überhaupt klar werden. Beispiel 9.1.1 Nehmen wir an, wir wollen eine Abfüllmaschine für Zucker kontrollieren. Sie soll in jede Tüte 500 g Zucker einfüllen. Füllt sie zu wenig ein, sind gesetzliche Bestimmungen verletzt, und es muÿ Abhilfe geschaen werden. Füllt sie zuviel ein, sind zwar Gesetzgegeber und Kunde zufrieden aber diese ungewollte Groÿzügigkeit wird sich bald in den Kosten bemerkbar machen. Deshalb wird man auch in diesem Fall bemüht sein, den Mangel abzustellen, d.h. die Maschine neu einzustellen. Da so etwas aber ebenfalls Kosten verursacht wird man erst dann etwas unternehmen, wenn man ziemlich sicher ist, daÿ eine Abweichung von der Norm vorliegt. Dieses ziemlich sicher muÿ präsiziert werden. Geringe Abweichungen sind unvermeidlich. Man wird nicht gleich Alarm schlagen, wenn in einer Tüte 498g 500g sind. Auch eine einwandfrei arbeitende Maschine wird die Wert 500 streuen. Dabei kann man annehmen, daÿ die tatsächli- statt Menge etwas um den chen Werte normalverteilt sind. Jetzt haben wir aber irgendwie den Verdacht, daÿ die Maschine nicht einwandfrei arbeitet. Um das nachzuprüfen, wählen wir einige Tüten aus und prüfen ihr Gewicht. Wegen der Zufallsabhängigkeit auch bei einwandfreier Maschine werden wir aber zu keinen sicheren Ergebnissen kommen, sondern nur zu Wahrscheinlichkeitsaussagen. Dabei wollen wir -so gut es geht- vermeiden, daÿ wir zu Unrecht die Maschine für defekt halten. Genauer gesagt soll folgendes gelten: Die Wahrscheinlichkeit, daÿ wir irrtümlich die Maschine für defekt halten, sei α im Gegensatz zu Kapitel 8 ein kleiner, positiver α = 0, 01. Hier soll oder Der Wert von Wert sein, z.B. ≤ α. α = 0, α = 0, 05 α, also die zugelassene Irrtumswahrscheinlichkeit und das Verfahren zur Auswertung der Stichprobe sollen vor der Untersuchung der Stichprobe festgelegt werden. Das ist ein wichtiges statistisches Prinzip. Es besteht sonst nämlich die Gefahr, dass wir z.B. α gewollt oder ungewollt den Ergebnissen anpassen und so zu keiner einwandfreien Entscheidung kommen. 74 9.1. EINFÜHURUNG, SIGNIFIKANZTEST α ist α = 0.05. Die Wahl von Beispiel 75 abhängig von der Genauigkeitsanforderung. Wir wählen für dieses Die Durchführung einiger Messungen habe (bei einer Stichprobe vom Unfang 4) folgendes Ergebnis: x1 = 495, x2 = 496, x3 = 499, Diese seien Realisierungen der Zufallsvariablen lung N (µ, σ) x4 = 494. X1 , X2 , X3 , X4 , die alle die gleiche Vertei- haben. Als Schätzwert für µ berechnen wir µ̂ = x = 496. Dieser Schätzwert wird in der Regel von 500 abweichen, ganz gleich ob die Maschine einwandfrei arbeitet oder nicht. Wir erklären die Maschine dann für defekt, wenn stark von 500 µ̂ zu abweicht. Allerdings muss man dieses zu stark erklären. 9.1.1 Signikanztest für µ bei der Normalverteilung bei bekanntem σ Xi seien unabhängig und N (µ, σ)verteilt, µ sei unbekannt und σ = σ0 sei bekannt. Das enstpricht der Situation bei dem Einführungsbeispiel. Dort ging es darum, ob eine gewisse Normgröÿe von µ beim Abfüllen tatsächlich eingehalten wird. Bezeichnen wir diese Normgröÿe mit µ0 , so geht es also darum, ob µ = µ0 ist. Wir versuchen das anhand einer Stichprobe festzustellen. Dabei gehen wir von µ = µ0 als statistische Hypothese aus, und prüfen nach, ob das vorliegende Datenmaterial diese Hypothese mit ausreichender Sicherheit widerlegt oder nicht. Was man unter ausreichender Sicherheit versteht, wird durch die Irrtumswahrscheinlichkeit α, auch Signikanzni- veau genannt, festgelegt. Signikanztest. Stelle eine Hypothese über Hypothese H0 : µ = µ0 µ auf, in diesem Fall: . Dann haben wir die bereits genannte wichtige statistische Regel zu beachten: Das Signikanzniveau α und der Stichprobenumfang sollten bei diesem Test vor der Untersuchung der Stichprobe festgelegt werden. Bestimme q > 0 aus x̄ − µ0 √ x̄ − µ0 √ P n ≥ q H0 = 1 − P n < q H0 σ0 σ0 = 1 − (2Φ(q) − 1) ! = 2 (1 − Φ(q)) = α ⇐⇒ d.h. P Die Gröÿe √ qσ0 / n ! Φ(q) = 1 − α 2 0 X̄ − µ0 ≥ qσ √ H0 = α ⇐⇒ n bezeichnen wir mit d. (9.1.1) ! Φ(q) = 1 − α 2 KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 76 Unter Bedingung H0 hypothetischen Wert hat also die Abweichung der Schätz-Zufallsvariable für µ0 um d oder mehr eine Wahrscheinlichkeit von α, µ Wahrscheinlichkeit. Beobachten wir also bei einer Stichprobe eine Abweichung es naheliegend, die Hypothese H0 von dem also eine kleine ≥ d, so ist abzulehnen. Dies führt zu folgender Anweisung : • Untersuche eine Stichprobe von Umfang • das Ergebnis sei der Schätzwert • Ist nun µ̄ = x̄ n; µ. für |µ̂ − µ0 | (= |x̄ − µ0 |) ≥ d, so ist die Hypothese H0 abzulehnen. Wir wollen nun dieses Ablehnungkriterium noch etwas präsizer zusammenfassen. P (Ablehnung von H0 | H0 ) = P X̄ − µ0 ≥ d | H0 = α. H0 Die Wahrscheinlichkeit für eine irrtümliche Ablehhnung von |x̄ − µ0 | < d bedeutet nur: Ablehnung von H0 ist also gleich ist auf Grund des vorliegenden Materials nicht gerechtfertigt. Daraus ergibt sich aber nur die Annahme von ist nämlich sehr unsicher, ob die Hypothese α. H0 H0 mit Vorbehalt. Es dann tatsächlich zutrit. Im Beispiel wird das noch deutlich sichtbar werden. |x̄ − µ0 | < d =⇒ Annahme von H0 (mit Vorbehalt ). Es gibt dann Standardbezeichnungen für die Interpretation der Testergebnisses. Zunächst einmal soll uns aber klar sein, dass es 4 verschiedene Situationen gibt: H0 kann richtig oder falsch sein - das wissen wir nicht - und das Datenmaterial kann zur Ablehnung oder zur Annahme mit Vorbehalt führen. Dabei können wir sowohl bei richtiger als auch bei falscher Hypothese H0 zur Ablehnung wie zur Annahme der Hypothese kommen. Das ganze läÿt sich recht gut in folgedem Schema darstellen: Tabelle 9-1 H0 angenommen abgelehnt richtig richtige Entscheidung Fehler 1. Art falsch Fehler 2. Art richtige Entscheidung unter der Bedingung H0 wird ↓: ist Die Fehler 1. und 2. Art sind beide prinzipiell nicht zu vermeiden. Aber es wäre schon viel gewonnen, wenn wir wenigstens die Wahrscheinlichkeiten für diese Fehler klein halten könnten. Das ist für den Fehler 1. Art gesichert. Denn wenn H0 richtig ist, dann erhalten wir aus den Formeln für den Signikanztest die Wahrscheinlichkeit für einen Fehler 1. Art: P (Fehler 1. Art) = P (H0 wird abgelehnt |H0 ) ≤ α. (9.1.2) 9.1. EINFÜHURUNG, SIGNIFIKANZTEST 77 Die Wahrscheinlichkeit für den Fehler 2. Art können wir bei diesem Test nicht kontrollieren. Das liegt im wesentlichen daran, dass die Aussage H0 ist falsch viel zu weit gefasst ist. Um den Fehler 2. Art kontrollieren zu können, brauchen wir eine engere Eingrenzung von dem was wir H0 gegenüber stellen wollen. So etwas nennt man Alternativhypothese. Eine geeignete Alternativhypothese wäre z.B. nicht H1 : µ 6= µ0 , sondern z.B. H1 : |µ − µ0 | ≥ 0.1 Dann kann der Fehler 2. Art eingeschränkt werden. Wir werden aber solche Überlegungen nicht durchführen, weil wir einfachere und bessere Ergbenisse bei den Kondenzintervallen schon erhalten haben. Alternativhypothesen werden wir dann später bei den einseitigen Tests verwenden. Hier stellen wir nur fest: Ohne geeignete Alternativhypothese erhalten wir keine brauchbaren Aussagen über den Fehler 2. Art. Wenden wir uns wieder dem Beispiel 9.1.1 zu. Hypothese α H0 : µ = 500 =: µ0 und den Stichprobenumfang hatten wir vorher festgelegt: α = 0.05, n = 4. Wir begnügen uns also mit einem sehr kleinen Stichprobenumfang. Auÿerdem soll noch die Standardabweichung σ0 = 5 bekannt sein. Der nächste Schritt ist dann die Bestimmung von q>0 und d > 0: 0.05 = 0.975 =⇒ q = 1.96. 2 q 1.96 d := √ σ0 = √ · 5 = 4.90. n 4 Φ(q) = 1 − Wir können nun zur Auswertung übergehen. µ̂ = 496 =⇒ |µ̂ − µ0 | = |496 − 500| = 4 < d = 4.90. Testergebnis: H0 wird mit Vorbehalt angenommen. An dieser Stelle hat der Vorbehalt tatsächlich seine volle Berechtigung. Denn die Daten deuten zusammen mit dem geringen Stichprobenumfang darauf hin, dass wir H0 mögli- cherweise zu Unrecht angenommen haben. Genau sagen können wir allerdings nicht, auch nicht mit gewissen Wahrscheinlihchkeitsschranken, wie wir es sonst gewohnt sind. Trotzdem ist hier dringend zu empfehlen, den Test mit einem gröÿeren Stichprobenumfang zu wiederholen. 494, Stichprobe vom Umfang 8: =⇒ µ̂ = x̄ = 494.25 Testergebnis: =⇒ Ablehnung von 492, 495, 494, 496, 496, 491, 491. |µ̂ − µ0 | = |494.25 − 500| = 5.75 ≥ 3.46. H0 . Das, was wir hier beobachtet haben, ist auch allgemein zu beachten. Scheint die Annahme von H0 nur durch einen zu kleinen Stichprobenumfang zustande gekommen zu sein, ist der Test u.U. mit gröÿerem Stichprobenumfang n zu wiederholen. KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 78 9.1.2 Signikanztest für µ bei der Normalverteilung bei unbekanntem σ Dazu erinnern wir uns, wie wir Kondenzintervalle für µ bei unbekanntem σ bestimmt haben: σ durch die erwartungstreue Schätzung ersetzt. Dabei mussten wir beachten, dass wir nicht die Normalverteilung, sondern die t-Verteilung verwenden. Beim Test machen wir es genauso. Wir ersetzen σ0 durch die erwartungstreue Schätzung Wir haben das unbekannte und kommen so zu folgendem Xi seien unabhängig und 1. Stelle eine Hypothese 2. Lege das Verfahren: N (µ, σ)verteilt, µ Hypothese über H0 : µ = µ0 µ und σ seien unbekannt. auf, in diesem Fall: . Signikanzniveau α und den Stichprobenumfang n vor der Untersuchung der Stichprobe fest. 3. Bestimme q>0 aus ! Ft (q)=1 − wobei α , 2 (9.1.3) Ft (·) die Verteilungsfunktion der tVerteilung mit r = (n−1) Freiheitsgraden ist. n. Diese liefert die Mess oder Beobx1 , x2 , . . . xn . Daraus gewinnen wir den Schätzwert 4. Untersuche eine Stichprobe vom Umfang achtungswerte (Realisierungen) µ̂ = x für µ und die Testgröÿe v uP u n u (xi − x)2 t d := q i=1 . n(n − 1) 5. Falls Falls |µ̂ − µ0 | ≥ d |µ̂ − µ0 | < d ist, ist ist, ist H0 H0 abzulehnen. (mit Vorbehalt) anzunehmen. Begründung der Entscheidungsregel: Für die Wahrscheinlichkeit für eine irrtümliche Ablehnung von H0 gilt, da nur stetige 9.2. EINSEITIGE TESTS 79 Zufallsvariablen beteiligt sind: ! α = P (H0 = = = = wird (auf Grund des Testergebnisses) abgelehnt |H0 ) n 2 i=1 (Xi − X) P |X − µ0 | ≥ q H0 n(n − 1) sP n 2 i=1 (Xi − X) P |X − µ0 | > q H0 n(n − 1) √ |X − µ0 | n q > q H0 P Pn 2 i=1 (Xi −X) n−1 √ |X − µ0 | n 1 − P q Pn ≤ q H0 2 i=1 (Xi −X) sP n−1 ! = 1 − (2Ft (q) − 1) = 2 − 2Ft (q) ⇐⇒ Ft (q)=1 − α . 2 Der Test also ist überwiegend genauso durchzuführen wie bei bekanntem σ. Allerdings müssen wir zwei Unterschiede beachten: (i) tVerteilung (ii) In statt Standard-Normalverteilung; d ersetzen wir σ0 durch den erwartungstreuen Schätzwert (Stichprobenstandard- abweichung). 9.2 Einseitige Tests Wir beginnen wieder mit einem Beispiel: Beispiel 9.2.1 Jemand erhält eine Lieferung von Garn. Der Lieferant behauptet, daÿ die Reiÿfestigkeit bei über 20 kPa liege. Der Kunde ist skeptisch. Er will die Behauptung durch eine Untersuchung prüfen. Bei der Prüfung werden Garnstücke bis zum Zerreiÿen belastet. Dazu sollten natürlich möglichst wenige Garnstücke geprüft werden. Man wird also eine Stichprobe von Garnstücken ziehen. N (µ, σ)-verteilt, µ > 20. Die Reiÿfestigkeit sei ranten ist also Dann nehmen wir an, dass sei: σ wobei µ unbekannt ist. Die Behauptung des Liefe- als Erfahrungswert aus früheren Untersuchungen bekannt σ = 0.5. Der skeptische Kunde stellt vorsichtshalber die gegenteilige Behauptung auf: H0 : µ ≤ 20. Davon will er nur abgehen, wenn die Untersuchung mit ausreichender Sicherheit dagegen spricht. KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 80 Mit H0 allein kommen wir nur zu einer positiven Entscheidung über Lieferung mit ausrei- chender Sicherheit. Wir wollen aber auch eine negative Entscheidung über die Lieferung mit ausreichender Sicherheit treen können. Daher formulieren wir die Behauptung des Lieferanten als Alternativhypothese: H1 : µ > 20. Der Lieferant nimmt seine Ware zurück, wenn H1 mit ausreichender Sicherheit verworfen werden kann. Wir sollten den Test dann so durchführen, daÿ man auf Grund des Untersuchungsergebnis mit ausreichender Sicherheit möglichst zu einer Entscheidung zwischen H0 und H1 kommt. Es ist besser, dies allgemeiner als im Beispiel zu beschreiben: Es gibt jetzt fünf Situationen, die eintreten können: (i) Entscheidung für H0 , wenn H0 richtig ist. (ii) Entscheidung für H1 , wenn H1 richtig ist. (iii) Entscheidung für H1 , obwohl H0 richtig ist : Fehler 1. Art. (iv) Entscheidung für H0 , obwohl H1 richtig ist : Fehler 2. Art. (v) Es kann keine Entscheidung mit ausreichender Sicherheit getroen werden. Eine wichtige Voraussetzung dafür, dass wir überhaupt eine Entscheidung für eine der beiden Hypothesen treen können, ist: Es liegt eine Normalverteilung mit Sonst wäre es möglich, daÿ weder σ = σ0 H0 vor. noch H1 richtig ist. Für diese Voraussetzung kann man keine positive Entscheidung mit ausreichender Sicherheit auf Grund des Datenmaterials treen. Für die Testdurchführungen sind nur die Situationen (iii) und (iv) wichtig: Fehler 1. Art : Entscheidung gegen Fehler 2. Art : Entscheidung gegen H0 H1 (und damit für (und damit für H1 ), H0 ), obwohl obwohl H0 H1 richtig ist. richtig ist. Durchführung des Tests: Die Entscheidung für eine Hypothese ist nur dadurch möglich, daÿ sich beide Hypothesen gegeseitig ausschlieÿen und den ganzen Parameterbereich erfassen. Das Primäre sind immer Entscheidungen gegen Hypothesen. Die Höchstgrenzen der Wahrscheinlichkeit für den Fehler 1. und 2. Art sollen dann wieder vor der Auswertung einer Stichprobe festgelegt werden: Schritt 1: Lege die Höchstgrenze und die Höchstgrenze β Dann ist der Stichprobeumfang gröÿen aus α, β, n und α für die Wahrscheinlichkeit für einen Fehler 1. Art für die Wahrscheinlichkeit für einen Fehler 2. Art fest. σ0 n festzulegen, und anschlieÿend sind die kritischen Test- zu bestimmen: 9.2. EINSEITIGE TESTS 81 Schritt 2: Lege den Stichprobenumfang n d0 fest und berechne und d1 aus n, α und β nach der folgenden Formel: √ d0 = q0 σ0 / n √ d1 = q1 σ0 / n mit mit Φ(q0 ) = 1 − α Φ(q1 ) = 1 − β. Begründung und Interpretation stellen wir zurück und schauen uns zuerst den letzten Schritt des Testverfahrens an. Schritt 3: Werte eine Stichprobe vom Umfang n aus. x ist dann eine Realisierung von X := n−1 (X1 + · · · + Xn )): x ≥ µ0 + d0 ⇒ Entscheidung für H1 . x ≤ µ0 − d1 ⇒ Entscheidung für H0 . Falls µ0 − d1 < x̄ < µ0 + d0 , dann kann keine Entscheidung getroen werden (u. U. muÿ man den Test mit gröÿerem Stichprobenumfang wiederholen). Die Realisierung x̄ von X̄ X1 , . . . , Xn ) µ. Liegt dieser Schätzwert für µ weit genug über gegen µ ≤ µ0 und damit für H1 , d.h. für µ > µ0 . (also von dem einfachen arithmetischen Mittel von ist ein Schätzwert für das unbekannte µ0 , so spricht das gegen Liegt der Schätzwert damit für H0 , x̄ d.h. für H0 , d.h. für µ weit µ ≤ µ0 . unter µ0 , so spricht gegen H1 , d.h. gegen Es gibt jetzt 3 Möglichkeiten, da wir eben nicht die Bedingungen x̄ > µ0 µ > µ0 bzw. und x̄ ≤ µ0 , x̄ ≥ µ0 + d0 bzw. x̄ ≤ µ0 − d1 prüfen. Wir haben also noch µ0 − d1 und µ0 + d0 , in den x̄ auch fallen kann. In diesem Bereich sondern die Bedingungen den Bereich zwischen können wir wie bereits erwähnt keine Entscheidung treen. Es gibt keinen Test mit dem man mit Sicherheit zu einer Entscheidung zwischen H1 H0 und kommt. Scheint dieses Ergebnis keine Entscheidung durch einen zu kleinen Stichprobenumfang zustande gekommen zu sein, sollte man den Test mit einem gröÿerem Stichprobenumfang n wiederholen, aber vielleicht auch nur einmal, weil man sonst ganz andere Testverfahren wie z.B. Sequentialtests anwenden muss. Will man auf jeden Fall zu einer Entscheidung kommen, so sollte man die Hypothesen etwas auseinanderrücken. Zunächst aber wollen wir sehen, warum in dem obigen Testvefahren die gewünschten Folgerungen zu ziehen sind: Begründung für die Formel in Schritt 2: Da Φ(x) monoton wachsend ist, folgt: P (Fehler 1. Art) µ0 − µ + d0 √ n |µ≤µ0 σ0 = P (X ≥ µ0 + d0 |H0 ) = 1 − Φ d0 √ n = 1 − Φ (q0 ) = α. ≤ 1−Φ σ0 KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 82 µ0 − µ − d1 √ Art) = P (X ≤ µ0 − d1 |H1 ) = Φ n |µ>µ0 σ0 d1 √ −d1 √ n =1−Φ n = 1 − Φ (q1 ) = β. ≤ Φ σ0 σ0 P (Fehler 2. Wir gehen nun die Schritte des Testverfahrens anhand unseres Beispiels durch: Die Festlegung von α und β in Schritt 1 hängt von dem Sicherheitsbedürfnis ab. Schritt 1: Wahl der Irrtumswahrscheinlichkeiten (Werte, auf die sich Kunde und Lieferant geeinigt haben): α = 0.05 , Schritt 2: Wahl des Stichprobenumfangs: β = 0.10. n = 16. ! ⇐⇒ q0 = 1.645. ! ⇐⇒ q1 = 1.282. Φ(q0 ) = 1 − α = 0.95 Φ(q1 ) = 1 − β = 0.90 q0 σ0 1.645 · 0.5 d0 := √ = = 0.206, 4 n q1 σ0 1.282 · 0.5 d1 := √ = = 0.160. 4 n x̄ = 20.05. Dies ist nämlich eine bei µ = 20.1. Wir können also bei H1 treen. In dem Bereich keine Entscheidung landen wir z.B. bei sehr gute Schätzung für µ, sowohl bei µ = 20 diesem Ergebnis keine Entscheidung zwischen als auch H0 und Schritt 3: Die Untersuchung einer Stichprobe von Umfang 16 liefere das Ergebnis: x̄ = 20.88. x̄ ≥ µ0 + d0 (= 20.21) =⇒ Entscheidung für H1 : µ > 20. Entscheidung für die Behauptung des Lieferanten. Ergebnis bei der Prüfung einer anderen Lieferung: x̄ = 19.88. µ0 − d1 = 19.84 < x̄ < µ0 + d0 = 20.21 =⇒ keine Entscheidung. An dieser Stelle wollen wir noch kurz andere Formulierungen der Hypothesen ansprechen, die häug in der Literatur verwendet werden, z.B.: H0 : µ = µ0 gegen H1 : µ > µ0 Angenommen, wir wollen mit 90% Sicherheit feststellen, dass der Garn eine erwartete µ = 20 mit 90% Sicherheit etwa durch µ̂ = 30 abgelehnt wird, wird damit erst recht die Hypothese µ ≤ 20 abgelehnt. Die DurchReiÿfestigkeit > 20 . kPa hat. Wenn die Hypothese führung des Tests ist bei der zweiten Gegenüberstellung der Hypothesen nicht anders als bei der am Anfang gewählten Formulierung, insbesondere haben wir keine rechnerische Vereinfachung. Wir werden daher die ursprüngliche Formulierung beibehalten: Es gibt bei H0 : µ = µ0 gegen H1 : µ > µ0 . • keinen rechnerischen Unterschied zu : H0 : µ ≤ µ0 gegen H1 : µ > µ0 . • keinen rechnerischen Unterschied zu : H0 : µ < µ0 gegen H1 : µ ≥ µ0 . 9.2. EINSEITIGE TESTS • 83 keinen rechnerischen Unterschied zu : H0 : µ ≥ µ0 gegen H1 : µ = µ0 . Nun zurück zum Beispiel. Im 2. Fall kommen wir zu keiner Entscheidung. Dies ist etwas unbefriedigend. Was für Möglichkeiten haben wir nun, doch zu einer Entscheidung zu kommen? Eine Möglichkeit wäre, den Test mit grösserem Stichprobenumfang zu wiederholen. Wir werden da aber in der Regel keinen Erfolg haben, wenn µ = 20 ist. Auch sonst ist das Risiko keine Entscheidung bei noch so groÿen Stichprobenumfang vorhanden. Den Grund hatten wir bereits genannt: Wenn µ ≈ µ0 sind Hypothesen kaum aus den Da- ten heraus zu unterscheiden. Es ist daher besser die Hypothesen etwas anders zu wählen, z.B.: Lieferung ablehnen, wenn µ ≤ 20. µ ≥ 20.5. Lieferung annehmen, wenn Die Rechnung kann sonst wie oben durchgeführt werden: Änderungen: H0 : µ ≤ 20 =: µ0 . H1 (neu) : µ ≥ 20.5 =: µ1 (> 20). α, β, n Der Fall wie gehabt 2. Lieferung: wie gehabt. x̄ ≥ µ0 + d0 = 20.21 =⇒ Entscheidung gegen H0 . x̄ ≤ µ1 − d1 = 20.34 =⇒ Entscheidung gegen H1 . µ − d1 < x̄ < µ0 + d0 1. Lieferung: =⇒ d0 , d1 x̄ = 20.88 =⇒ x̄ = 19.88 =⇒ Bemerkung 9.2.2 ist nicht möglich, da: Entscheidung gegen Entscheidung gegen H0 . H1 . (a) Manchmal ist von der praktischen Fragestellung her folgende Gegenüberstellung zweckmäÿig: H0 : µ ≤ µ0 , H1 : µ ≥ µ1 (µ1 > µ0 ). Der Test ist dann wie oben durchzuführen, wobei aber folgende Änderungen zu beachten sind: x ≥ µ0 + d0 ⇒ Entscheidung gegen H0 (nicht unbedingt x ≤ µ1 − d1 ⇒ Entscheidung gegen H1 (nicht unbedingt µ1 − d1 < x < µ0 + d0 ⇒ keine Entscheidung. Durch genügend groÿen Stichprobenumfang µ0 + d0 n für für H1 ). H0 ). kann man erreichen, daÿ µ1 − d1 ≥ und damit das letzte Intervall leer ist. Man kommt dann immer zu einer Entscheidung. KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 84 H0 bzw. H1 ? x̄ = 20.30: Weshalb kommen wir nur zu einer Entscheidung gegen kommen, dass x̄ beide Bedingungen erfüllt, z.B. bei Es kann vor- 20.30 ≥ 20.21. 20.30 ≤ 20.34. Wir können sowohl zwischen µ0 und µ1 H0 H1 als auch ablehnen. Das ist auch vernünftig, denn µ kann liegen. Tatsächlich ist die Entscheidung dann oen. Es ist wohl naheliegend, in diesem Fall eine Entscheidung zugunsten des Lieferanten zu treen. Zusätzliche Entscheidungsregel (etwas zugunsten des Lieferanten): Wenn n so groÿ ist, daÿ µ1 −d1 ≥ µ0 +d0 H0 . ist, dann wird die Lieferung angenommen, bei Ablehnung der Hypothese (b) Ist auch σ unbekannt, so kann man ähnlich wie bei den Kondenzintervallen oder beim Signikanztest die einseitigen Tests mit folgenden Veränderungen durchführen: s d0 = q0 s (xi −x̄)2 n(n−1) n P (xi −x̄)2 i=1 d1 = q1 wobei n P i=1 n(n−1) mit Ft (q0 ) = 1 − α, mit Ft (q1 ) = 1 − β, Ft (y) die Verteilungsfunktion der tVerteilung mit r = (n−1) Freiheitsgraden ist. 9.2.1 Ein einseitiger Test bei der Binomialverteilung X sei eine binomialverteilte Zufallsvariable mit den Parametern und p (unbekannt). X p (wird noch festgelegt) ist damit selbst schon mit einer Stichprobe vom Umfang den. Die Auswertung dieser Stichprobe soll eine Realisierung Hypothesen über n x von X n verbun- liefern. : H0 : 0 ≤ p ≤ p0 , H1 : p1 ≤ p ≤ 1, 0 < p0 ≤ p1 < 1. Sonderfälle: H0 : p = 0 und x>0 ⇒ Ablehnung vonH0 . H1 : p = 1 und x<n ⇒ Ablehnung vonH1 . Fehler 1. Art: Entscheidung gegen Fehler 2. Art: Entscheidung gegen H0 H1 (und damit für (und damit für p > p0 ), p < p1 ), obwohl obwohl H0 H1 richtig ist. richtig ist. Durchführung des Tests: Schritt 1: Lege die Höchstgrenze und die Höchstgrenze Schritt 2: Lege n β α für die Wahrscheinlichkeit für einen Fehler 1. Art für die Wahrscheinlichkeit für einen Fehler 2. Art fest. fest. Schritt 3: Werte eine Stichprobe vom Umfang n aus, die eine Realisierung x von X liefert. 9.2. EINSEITIGE TESTS Fall 1: Setze 85 x/n < p1 q1 := 1 − p1 . Falls x X n p1 k k k=0 gilt, ist die Hypothese die Hypothese H1 H1 q1 ≤ β q1n mit ausreichender Sicherheit abzulehnen. Anderenfalls kann auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit abgelehnt werden. Begründung: x/n < p1 spricht gegen die Hypothese H1 . Um aber H1 mit ausreichender Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen Fehler 2. Art kleiner als X β ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvariable x oder Werte annimmt, die noch mehr gegen die Hypothese H1 den vorliegenden Wert sprechen, kleiner als β ist: P (X ≤ x|H1 ) ≤ P (X ≤ x|p = p1 ) = x X n k k=0 pk1 q1n−k = Fall 2: Setze x X n p1 k k k=0 Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für kleiner ist als für q1n q1 X ≤ x(< np1 ) für ? ≤ β. p > p1 noch p = p1 . x/n > p0 q0 := 1 − p0 . Falls x−1 X n p0 k gilt, ist die Hypothese die Hypothese H0 H0 q0 k k=0 ≥ 1−α q0n mit ausreichender Sicherheit abzulehnen. Anderenfalls kann auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit abgelehnt werden. Begründung: x/n > p0 spricht gegen die Hypothese H0 . Um aber H0 mit ausreichender Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen Fehler 1. Art keiner als X α ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvariable x oder Werte annimmt, die noch mehr gegen die Hypothese H0 den vorliegenden Wert sprechen, kleiner als α ist: n n X X n p0 k ? n k n−k n P (X ≥ x|H0 ) ≤ P (X ≥ x|p = p0 ) = p q = q0 ≤ α. k k 0 0 q0 k=x k=x Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für kleiner ist als für p = p0 . Da x X ≥ x(> np0 ) für p < p0 noch nur ganzzahlige Werte annehmen kann, ergibt sich die obige Ungleichung schlieÿlich aus: q0n n X n p0 k k=x k q0 = q0n n X n p0 k k=0 k ⇐⇒ q0 −q0n k=0 x−1 X n p0 k k=0 k Wenn Fall 1 und Fall 2 nicht zutreen, also p0 ≥ p1 . Da aber p0 ≤ p1 x−1 X n p0 k q0 k q0 ? 1−α . q0n ≥ x/n ≥ p1 vorausgesetzt war, gilt = 1−q0n x/n ≤ p0 schlieÿlich p0 = p1 . und x−1 X n p0 k k=0 k q0 ? ≤α gilt, so folgt daraus KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 86 Fall 3: x/n = p0 = p1 H0 Es kann weder die Hypothese noch die Hypothese H1 auf Grund der vorliegenden Daten mit ausreichender Sicherheit abgelehnt werden. Begründung: pothese H1 . x/n = p0 = p1 spricht weder gegen die Hypothese Eine Annahme von H0 oder von H1 H0 noch gegen die Hy- auf Grund der vorliegenden Daten ist mit ausreichender Sicherheit aber auch nicht gerechtfertigt; denn eine Annahme von z.B. H0 bedeutet eine Ablehnung von Ablehnung von p > p0 , und dies ist rechnerisch gleichwertig mit einer H1 . Bemerkung: Die obige Summenbildung ist speziell bei dem in der Vorlesung und den p1 Übungen stets behandelten Fall, dass deutlich näher bei 0 als bei 1 ist, günstig. Trit dies nicht zu, kann es besser sein, im Test die Ungleichung x X n p1 k k k=0 q1 ≤ β q1n durch die äquivalente Ungleichung k n X n p1 1−β ≥ k q1 q1n k=x+1 oder die Ungleichung x−1 X n p0 k k k=0 q0 ≥ 1−α q0n durch die äquivalente Ungleichung n X n p0 k k k=x q0 ≤ α q0n zu ersetzen. 9.2.2 Ein einseitiger Test bei der hypergeometrischen Verteilung X sei eine hypergeometrisch verteilte Zufallsvariable mit den Parametern festgelegt), M (unbekannt) und N . Bei der Qualitätskontrolle wäre N n (wird noch die Zahl der Stücke M die Zahl der defekten Stücke in der Lieferung und n der Umfang einer X ist also -wie auch bei der Binomialverteilung in 9.2.1- selbst schon mit Stichprobe vom Umfang n verbunden. in der Lieferung, Stichprobe o.Z. einer M H0 : 0 ≤ M ≤ M0 , Hypothesen über : H1 : M1 ≤ M ≤ N, Fehler 1. Art: Entscheidung gegen Fehler 2. Art: Entscheidung gegen H0 H1 0 < M0 ≤ M1 < N. (und damit für (und damit für M > M0 ), M < M1 ), obwohl obwohl H0 H1 richtig ist. richtig ist. Durchführung des Tests: Schritt 1: Lege die Höchstgrenze α für die Wahrscheinlichkeit für einen Fehler 1. Art 9.2. EINSEITIGE TESTS β und die Höchstgrenze Schritt 2: Lege n 87 für die Wahrscheinlichkeit für einen Fehler 2. Art fest. fest. Schritt 3: Werte eine Stichprobe vom Umfang n aus, die eine Realisierung x von X liefert. Fall 1: x/n < M1 /N Falls x X N N − M1 M1 ≤ β n−k n k k=0 H1 gilt, ist die Hypothese die Hypothese H1 mit ausreichender Sicherheit abzulehnen. Anderenfalls kann auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit abgelehnt werden. Begründung: x/n < M1 /N spricht gegen die Hypothese H1 . Um aber H1 mit ausreichen- der Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen β Fehler 2. Art kleiner als ble X H1 sprechen, kleiner als ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvaria- den vorliegenden Wert β x oder Werte annimmt, die noch mehr gegen die Hypothese ist: P (X ≤ x|H1 ) ≤ P (X ≤ x|M = M1 ) = x X M1 k k=0 N −M1 n−k N n x N − M1 ? 1 X M1 ≤ β. = N k n−k n k=0 Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für Fall 2: X ≤ x(< nM1 /N ) für M > M1 M = M1 . noch kleiner ist als für x/n > M0 /N Falls x−1 X M1 N − M1 N ≥ (1 − α) k n−k n k=0 gilt, ist die Hypothese die Hypothese H0 H0 mit ausreichender Sicherheit abzulehnen. Anderenfalls kann auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit abgelehnt werden. Begründung: x/n > M0 /N spricht gegen die Hypothese H0 . Um aber H0 mit ausreichen- der Sicherheit ablehnen zu können, müssen wir prüfen, ob die die Wahrscheinlichkeit für α ist, d.h. ob die Wahrscheinlichkeit dafür, dass die ZuX den vorliegenden Wert x oder Werte annimmt, die noch mehr gegen die H0 sprechen, kleiner als α ist: M1 N −M1 n X ? k n−k P (X ≥ x|H0 ) ≤ P (X ≥ x|M = M0 ) = ≤ α. N einen Fehler 1. Art kleiner als fallsvariable Hypothese n k=x Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für noch kleiner ist als für X ≥ x(> nM0 /N ) für M < M0 M = M0 . Da x nur ganzzahlige Werte annehmen kann, ergibt sich die obige Ungleichung schlieÿlich aus: n X k=x M1 k N −M1 n−k N n = n X k=0 M1 k N −M1 n−k N n − x−1 X k=0 M1 k N −M1 n−k N n =1− x−1 X k=0 M1 k N −M1 n−k N n ? ≤α KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN 88 x−1 X N − M1 ? N M1 ⇐⇒ ≥ (1 − α). n−k n k k=0 Fall 3: x/n = M0 /N = M1 /N Es kann weder die Hypothese H0 noch die Hypothese H1 auf Grund der vorliegenden Daten mit ausreichender Sicherheit abgelehnt werden. Begründung: x/n = M0 /N = M1 /N spricht weder gegen die Hypothese H0 noch gegen H1 . Eine Annahme von H0 oder von H1 auf Grund der vorliegenden Daten die Hypothese ist mit ausreichender Sicherheit aber auch nicht gerechtfertigt; denn eine eine Annahme von z.B. H0 bedeutet eine Ablehnung von mit einer Ablehnung von M > M0 , und dies ist rechnerisch gleichwertig H1 . Bemerkung: Die obige Summenbildung ist speziell bei dem in der Vorlesung und Übungen stets behandelten Fall, daÿ M1 deutlich näher bei 0 als bei N nicht zu, kann es besser sein, im Test die Ungleichung x X M1 N − M1 N ≤ β k n−k n k=0 durch die äquivalente Ungleichung n X M1 N − M1 N ≥ (1 − β) k n−k n k=x+1 oder die Ungleichung x−1 X M1 N − M1 N ≥ (1 − α) k n−k n k=0 durch die äquivalente Ungleichung n X M1 N − M1 N ≤ α k n−k n k=x zu ersetzen. ist, günstig. Trit dies