Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.35 Hypergeometrische Verteilung Für n, M ≤ N heißt Zufallsgröße mit Werten in X = {0, 1, . . . ,min(n, M )} hypergeometrisch verteilt mit Parameter (n, M, N ), wenn M N −M k n−k Ws(X = k) = , N n k = 0, . . . , min(n, M ). Kurzschreibweise: X ist H(n, M, N )-verteilt W3 Ws(X ≤ k) = k X j=0 Ws(X = j) = 1 − Ws(X > k) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.36 Modellbildung: Stichprobenziehen ohne Zurücklegen Population von N Objekten oder Personen M davon haben bestimmtes Merkmal i) Wie groß ist M ? (defekte Produkte in Qualitätssicherung, N bekannt) ii) Wie groß ist N ? (Populationsgröße im Wildlife-Management, M bekannt) Untersuche nacheinander n Objekte; jedes kann nur einmal gewählt werden Stichprobe ohne Wiederholungen X = Anzahl der Objekte in der Stichprobe, die das Merkmal besitzen ist H(n, M, N )-verteilt. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.37 Anwendungsfeld: Qualitätskontrolle Endkontrolle: Aus Tagesproduktion von N Geräten wird eine Stichprobe von n Stück gezogen und genau untersucht. Abnahmekontrolle: Aus Lieferung (”Los”) von N Geräten wird Stichprobe vom Umfang n genau untersucht. Anzahl der unzulänglichen Geräte in der Lieferung = M =? Anzahl der unzulänglichen Geräte in der Stichprobe = X X ist H(n, M, N )-verteilt. Intuition für Schätzer: X M ≈ n N M̂ = N X n schätzt M Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.38 Operationscharakteristik = Annahmewahrscheinlichkeit für n = 30 und n = 60, M = 0, 05N (+) bzw. M = 0, 01N (*) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.39 Approximation hypergeometrische durch Binomialverteilung M und N − M n (Stichprobe klein im Vergleich zu beiden Teilpopulationen) Dann: H(n, M, N ) ≈ B(n, M N) d.h. für H(n, M, N )-verteilte zufällige Anzahl X gilt: Ws(X = k) ≈ n k pk (1 − p)n−k mit p = M . N Man kann X dann auch gleich als binomialverteilte Zufallsgröße modellieren. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.40 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.41 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.42 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.43 Anwendungsfeld: Meinungsumfragen Aus Gesamtpopulation (Bevölkerung der BRD, Kunden des ABC-Baumarktes, Anhänger des 1.FCK, ...) der Größe N wird Stichprobe aus n verschiedenen Personen zufällig ausgewählt. N muss nicht bekannt sein. Ihnen wird eine Frage gestellt, die mit Ja oder Nein beantwortet werden kann. p = Anteil der Gesamtpopulation, der mit Ja antworten würde. Annahme: N p, N (1 − p) n. X = Anzahl der Befragten, die mit Ja antworten, ist eigentlich hypergeometrisch, praktisch aber binomial verteilt mit Parameter n und p. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.44 Beispiel: Der (einzige) Parkplatz neben einem innerstädtischen Supermarkt soll in einen Park umgewandelt werden. Um die Auswirkungen abzuschätzen, werden eine Woche lang in mehreren, über den Tag verteilten 10 min-Intervallen Kunden an der Kasse befragt, ob sie mit dem Wagem da sind oder nicht. N M N −M Anzahl aller Kunden n Anzahl der Kunden, die mit Pkw anfahren Anzahl der Kunden, die nicht mit Pkw anfahren n = 536 X = 178 ist ≈ B(536, p)-verteilt p= M X ≈ = 0, 332 = p̂ (schätzt p) N n Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.45 Fallstudie: Wahlverhalten Stimmanteil der ABC-Partei bei der letzten Wahl: p0 = 0, 1 = 10% Nach einem Jahr Umfrage unter n = 500 Wahlberechtigten nur X = 42 (8,4 %) für ABC. Zufall oder Hinweis auf sinkende Popularität? a) Umfrage ohne Wiederholungen X ist exakt H(n, M, N )-verteilt mit M = Anzahl der Wahlberechtigten für ABC N = Anzahl aller Wahlberechtigten Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.46 b) n M, N − M X kann näherungsweise als B(n, p)-verteilt betrachtet werden mit M = prozentualer Anteil der Wahlberechtigten für ABC p= N Präzisierung der Frage: Ist X = 42 noch verträglich mit der Annahme, dass sich der Anteil der Anhänger von ABC nicht verringert hat? Angenommen, p = p0. Wie groß ist die Wahrscheinlichkeit für höchstens 42 ABC-Wähler in der Stichprobe? Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.47 Wie groß ist die Wahrscheinlichkeit für X ≤ 42, wenn immer noch p = p0 = 0.1? n groß X ≈ N (np, npq)-verteilt, q = 1 − p ! 42 − np0 Wsp0 (X ≤ 42) ≈ Φ √ = Φ(−1, 19) np0q0 = 1 − Φ(1, 19) = 1 − 0, 883 = 0, 117 Ereignisse mit einer Wahrscheinlichkeit von 11, 7% erscheinen durchaus noch im Rahmen des Möglichen. Man kann aus der Umfrage nicht folgern, dass sich der Wähleranteil verringert hat. Binomialtest (α = 0, 05): Teststatistik: > −1, 645 = −c1−α H0 : p = p0 gegen H1 : p < p0 X − n p0 0 X = √ = −1, 19 n p0q0 H0 annehmen. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.48 Frage mit mehreren möglichen Antworten, z.B. ”Welcher Partei würden Sie Ihre Stimme geben, wenn am nächsten Sonntag Landtagswahl wäre?” Antworte: SPD, CDU, FDP, Grüne, ... ”Welche Automarke würden Sie bei der nächsten Neuanschaffung vorziehen, wenn der Kaufpreis keine Rolle spielt?” Antworte: BMW, Daimler, Audi, VW, Volvo, ... Allgemein: m mögliche Antworten A1, A2, . . . , Am n Personen werden gefragt Xi = Anzahl der Personen, die Ai antworten, i = 1, . . . , m. i fest. Erfolg = Antwort Ai, Misserfolg = Antwort Aj , j 6= i, Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.49 Jedes Xi ist für sich allein genommen B(n, pi)-verteilt pi = Ws(Antwort einer Person ist Ai) = Anteil der Gesamtpopulation, die der Meinung Ai ist. Aber: X1 + . . . + Xm = n Abhängigkeit der X1, . . . , Xm 2.3 Laplace-verteilte Zufallsgrößen, rein zufällige Auswahl Rein zufällige Auswahl eines Objektes oder einer Person: i) jedes hat diesselbe Chance, gewählt zu werden; ii) bei Auswahl mehrerer Personen/Objekte hat auch jede Reihenfolge dieselbe Chance Laplace-Mechanismus Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.50 A = {a1, . . . , am} endliche Menge Zufallsgröße X mit Werten in X = A heißt Laplace-verteilt in A, wenn 1 für alle i = 1, . . . , m Ws(X = ai) = m B = {ai1 , . . . , aik } ⊆ A Laplace-Wahrscheinlichkeit: Ws(X ∈ B) = = Anzahl der Elemente in B k = Anzahl der Elemente von A m Anzahl der ”günstigen” Fälle (mit X ∈ B) Anzahl aller möglichen Fälle Wiederholte Auswahl: 1 Ws(X1 = ai1 , . . . , XN = aiN ) = N m Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.51 2.4 Allgemeine diskrete Verteilungen Zufallsgröße X mit nur endlich vielen möglichen Werten a1, . . . , am Ws(X = ai), i = 1, . . . , m, reichen zur Berechnung von Ws(X ∈ B) Allgemeiner: X nimmt Werte in abzählbarem Wertebereich X = {x1, x2, . . .} an. Vorgegeben: Wahrscheinlichkeitsgewichte p(xj ) ≥ 0 mit P∞ j=1 p(xj ) = 1 Definiere Ws(X = xj ) = p(xj ) j = 1, 2, . . . Rechenregel W 3 Ws(X ∈ B) = X j mit xj ∈B p(xj ). j = 1, 2, . . . Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.52 Ws(X ∈ B) = X p(xj ). j mit xj ∈B Summe der Wahrscheinlichkeitsgewichte aller möglichen Werte xj von X, die in B liegen. Beispiele: i) Zu n ≥ 1, 0 < p < 1, X = {0, . . . , n} definiere Wahrscheinlichkeitsgewichte n p(k) = pk (1 − p)n−k , k = 0, . . . , n k und Ws(X = k) = p(k), k = 0, . . . , n, X ist B(n, p)-verteilt. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.53 Ws(X ≤ 3) = Ws(X ∈ {0, 1, 2, 3}) | = = X Ws(X gerade ) = } p(k) k∈B 3 X n k=0 {z B k pk (1 − p)n−k n X n k=0 k pk (1 − p)n−k k gerade Ws(X > 3) = n X n k=4 k pk (1 − p)n−k = 1 − Ws(X ≤ 3) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.54 ii) Welcher Farbton einer Verpackung kommt bei Kunden gut an? MUSTER MUSTER MUSTER MUSTER MUSTER Frage an zufällig vorbeikommenden Kunden: Welche Verpackung gefällt Ihnen am besten? Antwort X ∈ X = {rot, blau, schwarz, magentarot, cyanblau} Ws-gewichte: p(f ) ≥ 0, f ∈ X mit p(r) + p(b) + p(s) + p(m) + p(c) = 1 Ereignis: Entscheidung für bunt, d.h. X ∈ B = {r, b, m, c} Ws(X bunt) = p(r) + p(b) + p(m) + p(c) = 1 − p(s) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.55 ii’) n unabhängige Kundenbefragungen Zf = Anzahl der Kunden, die sich für Farbe f entscheiden, f ∈ X = {r, b, s, m, c} Zr + Zb + Zs + Zm + Zc = n vektorwertige Zufallsgröße Z = (Zr , Zb, Zs, Zm, Zc) von Anzahlen mit Wertebereich Z = {0, 1, . . . , n}5 z.B. für n = 100: Z = (35, 18, 26, 14, 7) oder Z = (24, 9, 17, 25, 25), ... Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.56 Allgemein: n ≥ 1, d ≥ 2, 0 < p1, p2, . . . , pd < 1 mit p1 + . . . + pd = 1. Eine Zufallsgröße Z = (Z1, . . . , Zd) mit Werten in Z = {0, . . . , n}d heißt multinomial verteilt mit Parameter (n, p1, . . . , pd), wenn Ws(Z = (k1, . . . , kd)) = Ws(Z1 = k1, . . . , Zd = kd) = n p 1 k 1 · . . . · pd k d k1 . . . k d für k1, . . . , kd ≥ 0 mit k1 + . . . + kd = n. n n! = k1 . . . k d k1 ! · . . . · kd ! Multinomialkoeffizient Schreibweise: X ist M(n, p1, . . . , pd)-verteilt Prof. Dr. J. Franke Spezialfall: d = 2, X = Z1 Statistik II für Wirtschaftswissenschaftler 5.57 Z2 = n − X, p 2 = 1 − p1 (Z1, Z2) M(n, p1, 1 − p1)-verteilt ←→ X = Z1 B(n, p1)-verteilt Modellbildung: n unabhängige, gleichartige Versuche mit d möglichen Ausgängen oder Ergebnissen: E1, . . . , Ed pi = Ws(Einzelversuch hat Ergebnis Ei), i = 1, . . . , d Zi = Anzahl der Versuche mit Ergebnis Ei, i = 1, . . . , d Z = (Z1, . . . , Zd) ist M(n, p1, . . . , pd)-verteilt. Jedes einzelne Zi ist B(n, pi)-verteilt, aber Z1, . . . , Zd abhängig! Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.58 Der Chi-Quadrat-Anpassungstest (Goodness-of-Fit) Binomialexperiment: Experimente/Fragen mit zwei möglichen Ergebnissen Multinomialexperiment: Experimente/Fragen mit d ≥ 2 möglichen Ergebnissen n Daten, die in jeweils eine von d Klassen fallen Klassen Klassennr. Anzahl Daten in der Klasse Immer: Z1 + Z2 + . . . Z d = n A1 1 Z1 A2 2 Z2 ... ... ... Ad d Zd Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.59 Anzeige- oder Indikatorvariable: Yj = k, wenn j-tes Objekt zu Klasse k gehört, j = 1, . . . , n Zk = Anzahl der j mit Yj = k = Anzahl der Objekte, die zu Klasse k gehören Modell: Zu welcher Klasse ein Objekt gehört, wird auf unabhängige, identische Weise bestimmt, d.h. Y1, . . . , Yn sind u.i.v. mit Werten in {1, . . . , d} Ws(Yj = k) = Ws(Objekt in Klasse Nr. k) = pk , k = 1, . . . , d p1 + . . . + pd = 1 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.60 0 bekannt und fest 1. Entscheidungsproblem: p0 , . . . , p 1 d Gilt H 0 : p k = p0 k für alle k = 1, . . . , d, oder H1 : p` 6= p0 ` für wenigstens ein `? Beispiel: Zusammensetzung (nach Berufsgruppen) der Kunden wie in der Gesamtbevölkerung? A1 = Freiberufler A2 = selbständige Handwerker A3 = mittlere Angestellte ohne Leitungsfunktion ... ... p0 k = Anteil der Berufsgruppe Ak an der Gesamtbevölkerung pk = Anteil der Berufsgruppe Ak am Kundenkreis Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.61 Daten: Befrage n Kunden Z2 = Anzahl der selbständigen Handwerker unter den Befragten, ... Beispiel: Investition (Personal, Modernisierung) in Verkaufsgebiet mit d = 5 Filialen. Gießkannenprinzip oder gezielte Förderung ”gutgehender” Verkaufsstellen? Gibt es überhaupt Unterschiede? Klassen (Filialen) Zk = Zahl der Kunden an Testtagen Z1 + . . . + Z5 = n = 620 A1 123 A2 96 A3 164 A4 131 A5 106 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.62 Hypothese H0 : 0 , , k = 1, . . . , 5 keine Unterschiede, d.h. pk = 1 = p k 5 Alternative H1 : 0 für wenigstens ein k pk 6= 1 = p k 5 pk ≈ Znk Wahrscheinlichkeit ≈ relative Häufigkeit Zk 0 n ≈ pk für alle k = 1, . . . , d 2 quadratische Abstände Zk − np0 ≈0 k Wenn H0 gilt: Teststatistik: D = D(Z1, . . . , Zd) = d X k=1 = d X k=1 2 0 Zk − npk np0 k beobachtet − erwartet in Klasse k erwartet in Klasse k 2 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.63 Faustregel: Wenn np0 k ≥ 1 für alle k = 1, . . . , d und np0 k ≥ 5 für ≥ 80% der k = 1, . . . , d D= d X k=1 2 0 Zk − npk ungefähr χ2 -verteilt, wenn H0 gilt. d−1 0 npk Chi-Quadrat-Anpassungstest zum Niveau α 0 Gegeben feste Klassenwahrscheinlichkeiten p0 1 , . . . , pd Hypothese Alternative H0 verwerfen, wenn p k = p0 k, für alle k p` 6= p0 ` D > χ2 d−1,1−α = (1 − α)-Quantil von χ2 d−1 für wenigstens ein ` Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.64 Beispiel (Forts.): d = 5, n = 620 1 , k = 1, . . . , 5 5 erwartete Anzahl in Klasse Ak (unter H0) : n · 1 5 = 124 H0 : p k = D= 5 X (Zk − 124)2 k=1 124 = 22, 242 Annahmen der Faustregel hier völlig unproblematisch. Wähle Niveau α = 5%. Aus Tabelle: 0.95-Quantil von χ2 4 : 9, 488 Da D > 9, 488: verwirf H0 auf dem 5%-Niveau! Diese Entscheidung ist ziemlich sicher richtig; wir irren uns dabei mit einer Wahrscheinlichkeit von höchstens 5%. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.65 Faustregel verletzt? fasse zu kleine Klassen (mit np0 k 5) zu einer größeren Klasse zusammen! So wenig wie nötig, denn: viele Klassen Ws(Fehler 2. Art) klein Beispiel: d = 12 Sektmarken A1, . . . , A12 im Supermarkt, bisherige Marktanteile p0 k (bekannt aus Langzeitbeobachtung der Verkaufszahlen) Sekt Nr. 1 2 3 4 5 6 7 8 9 10 11 Anteil p0 k 25 20 16 13 9 6 3 3 2 1 1 12 1 % Werbeaktion für Sekt Nr. 3 und 7. Ändert sich dadurch etwas? Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.66 Daten: Kaufentscheidung von n = 120 Kunden an 3 Tagen Zk = Zahl der Käufer von Sekt. Nr. k Sekt Nr. Zk np0k 1 32 30 2 19 24 3 26 19,2 4 11 15,6 5 6 10,8 6 10 7,2 7 8 3,6 8 1 3,6 Da nur ≤ 2 Klassen mit np0 k < 5 auftreten sollen 9-12 zu einer neuen Klasse zusammen. 9 5 2,4 10 0 1,2 11 0 1,2 fasse Klassen Sekt Nr. 1 2 3 4 5 6 7 8 9 - 12 Zk∗ 32 19 26 11 6 10 8 1 7 np0∗ k 30 24 19,2 15,6 10,8 7,2 3,6 3,6 6 Zk∗ = Zk , k = 1, . . . , 8, p0∗ k = pk , k = 1, . . . , 8, Z9∗ = Z9 + . . . + Z12 0 + . . . + p0 p0∗ = p 9 9 12 12 2 1,2 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.67 D = D(Z1∗ , . . . , Z9∗ ) = 12, 47 α = 0, 05 0.95-Quantil: 15, 59 (Tabelle der Quantile von χ2 8) Da D ≤ 15, 59 akzeptiere H0! Die Daten reichen nicht aus, um mit einiger Sicherheit auf den Effekt der Werbeaktion schließen zu können, obwohl der beobachtete Umsatz der beworbenen Marken in der Stichprobe höher als erwartet ist. Sekt Nr. 1 2 3 4 5 6 7 8 9 - 12 Zk∗ 32 19 26 11 6 10 8 1 7 np0∗ k 30 24 19,2 15,6 10,8 7,2 3,6 3,6 6 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.68 Poissonverteilung Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poissonverteilt mit Parameter λ > 0, wenn die Wahrscheinlichkeitsgewichte die Form haben: λk −λ p(k) = Ws(X = k) = e , k = 0, 1, 2, . . . k! Kurzschreibweise: X ist P(λ)-verteilt Beispiele für Daten, die als Poisson-verteilte Zufallsgrößen modelliert werden können: • Anzahl der Kunden, die zwischen 10 und 11 Uhr einen Bankschalter benutzen, • Anzahl der Telefonanrufe, die einen Netzknoten zwischen 15 und 17 Uhr passieren, Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.69 • Anzahl der Versicherungsfälle, die einer Brandversicherung innerhalb eines Monats gemeldet werden, • Anzahl von Atomen eines radioaktiven Präparats, die innerhalb eines Jahres zerfallen. Modellbildung I: Gleichartige Ereignisse treten in unregelmäßiger Abfolge ein; die Wartezeiten zwischen aufeinander folgenden Ereignissen sind unabhängig. X = Anzahl der Ereignisse in festem Zeitintervall ist P(λ)-verteilt. λ = mittlere Anzahl von Ereignissen pro Zeitintervall, abhängig von Intervalllänge und Ereignisdichte. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.70 Modellbildung II: Kleine (punktförmige) Objekte sind zufällig über eine große Fläche oder ein großes Volumen verteilt. X = Anzahl der Objekte in fester Teilfläche oder -volumen ist P(λ)-verteilt. λ = mittlere Anzahl von Objekten pro Teilfläche bzw. -volumen abhängig von Fläche bzw. Volumen und räumlicher Objektdichte. • Anzahl von Verunreinigungen in Kristall • Anzahl von Rosinen in Rosinenbrötchen • Anzahl von Bäumen einer Art auf 10 km2 Urwald • Anzahl von Bakterien auf 10 cm2 einer Petrischale • Anzahl von Fasern in 1 dm3 Faserverbundwerkstoff Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.71 Verteilungsfunktion der Poisson-Verteilung: ` X λk −λ e Fλ(`) = Ws(X ≤ `) = k! k=0 Tabelle 2: λ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 0 0.3679 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353 1 0.7358 0.6990 0.6626 0.6268 0.5918 0.5578 0.5249 0.4932 0.4628 0.4337 0.4060 2 0.9197 0.9004 0.8795 0.8571 0.8335 0.8088 0.7834 0.7572 0.7306 0.7037 0.6767 3 0.9810 0.9743 0.9662 0.9569 0.9463 0.9344 0.9212 0.9068 0.8913 0.8747 0.8571 ` 4 0.9963 0.9946 0.9923 0.9893 0.9857 0.9814 0.9763 0.9704 0.9636 0.9559 0.9473 5 0.9994 0.9990 0.9985 0.9978 0.9968 0.9955 0.9940 0.9920 0.9896 0.9868 0.9834 6 0.9999 0.9999 0.9997 0.9996 0.9994 0.9991 0.9987 0.9981 0.9974 0.9966 0.9955 7 1 1 1 0.9999 0.9999 0.9998 0.9997 0.9996 0.9994 0.9992 0.9989 8 1 1 1 1 1 1 1 0.9999 0.0000 0.9998 0.9998 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.72 ”Gesetz der kleinen Zahlen”: Unabhängige, identische Experimente mit 2 Ergebnissen (Binomialexperiment), Erfolg sehr selten n = Anzahl Experimente groß, p = Erfolgswahrscheinlichkeit ≈ 0 X = Anzahl der Erfolge klein. Exakt: X ist B(n, p)-verteilt Näherung: X ist P(λ)-verteilt mit λ = np brauchbar für n ≥ 20, p ≤ 0, 05 gut für n ≥ 100, np ≤ 10 Man kann X dann auch gleich als poissonverteilte Zufallsgröße modellieren: B(n, p) ≈ P(np), wenn n groß, p ≈ 0. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.73 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.74 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.75 Schätzer für Poisson-Parameter λ X1, . . . , XN u.i.v. P(λ)-verteilt schätze λ durch N 1 X XN = Xj N j=1 Anwendung - exemplarisch für Unfall- oder Brandversicherungen Ladislaus von Bortkiewicz (1868-1931): Anzahl der jährlichen Todesfälle durch Pferdetritt in der preußischen Kavallerie pro Regiment (1875-1894, 14 Regimenter) N = 14 · 20 = 280 Regimentsjahre X1, . . . , XN Anzahl Todesfälle in den N Regimentsjahren Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.76 X1, . . . , XN Anzahl Todesfälle in den N = 280 Regimentsjahren Zk = Anzahl Regimentsjahre mit k Todesfällen, k = 0, 1, 2, . . .. k 0 1 2 3 4 ≥5 Zk 144 91 32 11 2 0 Schätzer für λ 4 X 1 280 1 X Xj = k · Zk = 0, 7 λ̂ = X N = 280 j=1 280 k=0 Vergleich der beobachteten Häufigkeiten mit den Poissonwahrscheinlichkeiten (λ̂ = 0,7) ergibt gute Modellanpassung an Daten: Zk λ̂k −λ̂ ≈ p̂(k) = e , N k! k = 0, . . . , 4 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.77 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.78 Rutherford/Geiger (1910): Radioaktiver Zerfall von Polonium (Anzahl Zerfälle in 7,5 sec-Intervallen), N = 2608, λ̂ = 3, 872 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.79 Chi-Quadrat-Test II: Test von Verteilungsmodellen k 0 1 2 3 4 ≥5 Zk 144 91 32 11 2 0 np̂(k) 139,0 97,3 34,1 7,9 1,4 0,2 Todesfälle durch Pferdetritt (d = 6 Klassen, n = 280), λ̂ = 0.7. Wenn Xj P(λ)-verteilt, dann ist Z = (Z1, . . . , Z6) multinomial verteilt mit Parameter (n, p(0), . . . , p(5)). p(k) unbekannt c= D 5 X k=0 Zk − np̂(k) np̂(k) setze in Chi-Quadrat-Statistik Schätzer ein: 2 , λ̂k −λ̂ p̂(k) = e , k = 0, . . . , 4, k! p̂(5) = 1− 4 X k=0 p̂(k) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.80 0 ≥ 5 für ca. 80 % oder mehr k) Faustregel (np0 ≥ 1 immer, np k k verletzt vereinige k = 4 und k ≥ 5 zu einer neuen Klasse k ≥ 4 k 0 1 2 3 ≥4 Zk 144 91 32 11 2 np̂(k) 139,0 97,3 34,1 7,9 1,6 2 2 2 (144 − 139, 0) (91 − 97, 3) (2 − 1, 6) c= D + + ... + = 1, 98 139, 0 97, 3 1, 6 Wenn die Hypothese H0 : Xj , j = 1, . . . , n sind P(λ)-verteilt für irgendein λ > 0 c ungefähr χ2 wahr ist, dann ist D d−1−m -verteilt: d = Anzahl Klassen m = Anzahl der geschätzten Parameter (hier λ, also m = 1) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 5.81 H0 : Zk , k = 1, . . . , d, sind multinomial verteilt mit Parameter (n, p1, . . . , pd), wobei pk = fk (θ), k = 1, . . . , d, für irgendeinen Wert des Parametervektors θ = (θ1, . . . , θm), fk bekannt b ersetze bekannte p0 in der χ2-Teststatistik Schätze θ durch θ, k durch geschätzte b p̂k = fk (θ) c = D 5 X k=0 Zk − np̂k 2 np̂k c > (1 − α)-Quantil von χ2 H0 verwerfen, wenn D d−1−m Im Beispiel d = 5, m = 1, α = 0, 05, 7, 81 = 95%-Quantil von χ2 3 c = 1, 98 < 7, 81 D H0 akzeptieren die Daten widersprechen nicht der Modellannahme, dass die Anzahl der Todesfälle durch Pferdetritt poissonverteilt ist.