Statistik II für Wirtschaftswissenschaftler Folie 5.1 Binomialverteilung - Alternative Darstellung n Versuche mit 2 möglichen Ausgängen. Setze Yj = 1 wenn Erfolg im j-ten Versuch 0 wenn kein Erfolg im j-ten Versuch Y1, . . . , Yn sind 0-1-Zufallsgrößen (oder Bernoulli-verteilte Zufallsgrößen) X= n X Yj = Anzahl der Erfolge in n Versuchen j=1 Versuche unabhängig und identisch Y1, . . . , Yn u.i.v. mit Ws(Yj = 1) = p, Ws(Yj = 0) = 1 − p X ist B(n, p)-verteilt Statistik II für Wirtschaftswissenschaftler Beispiele: i) n Personen mit Kopfschmerzen erhalten neues Medikament Yj = 1 wirkt beim j-ten Patienten 0 wirkt nicht beim j-ten Patienten p = Ws(Yj = 1) Wirkungswahrscheinlichkeit p = 0, 9 X= ”wirkt in 9 von 10 Fällen” Pn j=1 Yj ist B(n, p)-verteilt. n = 20, X = 15. Ist dann p = 0.9 noch glaubhaft? Folie 5.2 Statistik II für Wirtschaftswissenschaftler Folie 5.3 Für n = 20, p = 0.9 : Ws(X ≤ 15) = 15 X 20 k=0 Tabelle 1 = k 0.9k (1 − 0.9)20−k 0, 0432 = 4, 32% ii) n junge Kraftfahrer im 1. Jahr nach Führerscheinerwerb Yj = 1 j-ter Fahrer unfallfrei (Erfolg) 0 j-ter Fahrer nicht unfallfrei (kein Erfolg) p = Ws(Yj = 1) = Ws(”unfallfrei”) Statistik II für Wirtschaftswissenschaftler iii) Umfrage unter Unternehmern: ”Rechnen Sie 2012 mit einer besseren, gleichbleibenden oder schlechteren Geschäftslage als 2011?” Ende 2012 Rückfrage: Yj = 1 j-ter Unternehmer schätzte Entwicklung richtig ein 0 j-ter Unternehmer schätzte Entwicklung falsch ein p = Ws (”korrekte Vorhersage der Geschäftsentwicklung”) = Ws(Yj = 1) X= Pn j=1 Yj = Anzahl korrekter Einschätzungen ist B(n, p)-verteilt. Folie 5.4 Statistik II für Wirtschaftswissenschaftler Folie 5.5 Spezialfall: Stichprobenziehen mit Zurücklegen Population von N Objekten oder Personen M davon haben bestimmtes Merkmal. Wie groß ist der Anteil p = M N der Objekte mit dem Merkmal? Wähle nacheinander n Objekte, wobei bereits gewählte wieder gewählt werden können Stichprobe X = Anzahl der Objekte in der Stichprobe, die das Merkmal besitzen ist B(n, p)-verteilt: c n Auswahlen von Objekten n Versuche = c Auswahl eines Objekts mit Merkmal. ”Erfolg” = Statistik II für Wirtschaftswissenschaftler Folie 5.6 Wahrscheinlichkeitsgewichte der Binomialverteilung mit n = 10, p = 0.5: k n−k , k = 0, . . . , n Ws(X = k) = n k p (1 − p) Statistik II für Wirtschaftswissenschaftler n = 10, p = 0.1 Folie 5.7 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.5 Folie 5.8 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.1 Folie 5.9 Statistik II für Wirtschaftswissenschaftler Folie 5.10 Modell: X ist B(n, p)-verteilt. p =? Schätzer für p : X p̂ = n Beispiel: Wahlumfrage n = 2000 Personen werden nach Wahlabsicht befragt, X = 118 wollen ihre Stimme der ABCPartei geben. Stimmanteil p in der Gesamtwählerschaft? Einzelversuch: Wähle Person rein zufällig aus Wählerschaft aus: Erfolg: ABC-Wähler Misserfolg: kein ABC-Wähler p = Ws(Erfolg) = Wahrscheinlichkeit, dass es ABC-Wähler ist. 118 p̂ = = 5, 8% 2000 Statistik II für Wirtschaftswissenschaftler Folie 5.11 Konfidenzintervalle für Wahrscheinlichkeiten Beispiel: Wahlumfrage men. ABC-Partei erhält p̂ = 5, 8% Stim- Aussagekräftiger: Stimmanteil liegt ziemlich sicher im Intervall [5,2%, 6,3%]. Konfidenzintervalle für allgemeine Verteilungsparameter Modell: Die Daten X1, . . . , XN sind unabhängig voneinander und besitzen dieselbe Verteilungsfunktion Ws(Xj ≤ t) = Fϑ(t) Fϑ bekannt bis auf den reellwertigen Parameter ϑ ∈ Θ ⊆ R. ϑ =? Beispiele: a) B(n, p), ϑ = p b) N (µ, σ 2), ϑ = µ Θ = [0, 1] Θ = (−∞, ∞) Statistik II für Wirtschaftswissenschaftler Folie 5.12 X1, . . . , XN u.i.v. mit Ws(Xj ≤ t) = Fϑ(t) Definition: Vorgegeben: 0 < α 1 (typisch: 0, 05, 0, 01, . . .) Ein Konfidenzintervall zum (Sicherheits-) Niveau 1 − α (kurz: (1−α)-Konfidenzintervall) für ϑ ist ein zufälliges Intervall [T1, T2] mit Grenzen Ti = gi(X1, . . . , XN ), i = 1, 2, für das gilt: Wsϑ([T1, T2] 3 ϑ) ≥ 1 − α für alle ϑ ∈ Θ Gleich, was der wahre Wert ϑ des Parameters ist: der Intervallschätzer [T1, T2] überdeckt ihn mit hoher Wahrscheinlichkeit (≥ 1 − α). Statistik II für Wirtschaftswissenschaftler n = 10, p = 0.5 Folie 5.13 k + 0.5 − np Bessere Approximation: Ws(X ≤ k) ≈ Φ √ npq Statistik II für Wirtschaftswissenschaftler n = 10, p = 0.5 Folie 5.14 Statistik II für Wirtschaftswissenschaftler n = 30, p = 0.5 Folie 5.15 Statistik II für Wirtschaftswissenschaftler n = 30, p = 0.5 Folie 5.16 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.5 Folie 5.17 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.5 Folie 5.18 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.1 Folie 5.19 Statistik II für Wirtschaftswissenschaftler n = 100, p = 0.1 Folie 5.20 Statistik II für Wirtschaftswissenschaftler n = 10, p = 0.1 Folie 5.21 Statistik II für Wirtschaftswissenschaftler n = 10, p = 0.1 Folie 5.22 Statistik II für Wirtschaftswissenschaftler Folie 5.23 Für α = 0, 05, (1 − α 2 )-Quantil von N (0, 1) = 1.96 ≈ 2 s p̂ − 2 s p̂(1 − p̂) p̂(1 − p̂) , p̂ + 2 n n ist ein approximatives 0,95-Konfidenzintervall für den Parameter p der Binomialverteilung. Anwendung: Wahlprognose, Stimmanteil bei 6% d.h. p̂ = 0, 06. Sicher über die 5%-Hürde? n = 2000 0,95 - Konfidenzintervall: s 0, 06 ± 2 0, 06 · 0, 94 = [0, 0494 , 0, 0706] 2000 Statistik II für Wirtschaftswissenschaftler Folie 5.24 4.8 Binomial- und Vorzeichentest Modell: X binomialverteilt mit Parameter (n, p) n groß, 0 p 1, so dass B(n, p) ≈ N (np, npq), q = 1 − p Approximativer Binomialtest mit Teststatistik (q0 = 1 − p0) X − n p0 0 X = √ n p0q0 ≈ N (0, 1) wenn p = p0 Alternative H0 verwerfen, wenn H0 : p = p 0 p ≤ p0 H1 : p > p 0 X 0 > c1−α = (1 − α)-Quantil von N (0, 1) H0 : p = p 0 p ≥ p0 H1 : p < p 0 X 0 < −c1−α H0 : p = p 0 H1 : p 6= p0 |X 0| > c1− α Hypothese 2 Statistik II für Wirtschaftswissenschaftler Folie 5.25 Für kleine n exakter Binomialtest: bn,p,α = α-Quantil von B(n, p) (Tabelle 1 von ”innen nach außen”) Tabelle 1 Verteilungsfunktion Fn,p(k) = Wsn,p(X ≤ k). Suche zu α ein k mit Fn,p(k) ≈ α Hypothese k ≈ bn,p,α Alternative H0 verwerfen, wenn H0 : p = p 0 p ≤ p0 H1 : p > p 0 X > bn,p0,1−α H0 : p = p 0 p ≥ p0 H1 : p < p 0 X < bn,p0,α H0 : p = p 0 H1 : p 6= p0 X > bn,p0,1− α oder X < bn,p0, α 2 2 Statistik II für Wirtschaftswissenschaftler Folie 5.26 Tabelle 1: Verteilungsfunktion der Binomialverteilungen für ausgewählte Werte von (n, p) X sei B(n, p)-verteilt. Die Tabelle enthält dann die Werte Fn,p(k) = Ws(X ≤ k) für k = 0, . . . , n. n=9 k 0 1 2 3 4 5 6 7 8 9 0.05 0.6302 0.9288 0.9916 0.9994 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.10 0.3874 0.7748 0.9470 0.9917 0.9991 0.9999 1.0000 1.0000 1.0000 1.0000 0.15 0.2316 0.5995 0.8591 0.9661 0.99 44 0.9994 1.0000 1.0000 1.0000 1.0000 p 0.20 0.1342 0.4362 0.7382 0.9144 0.9804 0.9969 0.9997 1.0000 1.0000 1.0000 0.25 0.0751 0.3003 0.6007 0.8343 0.9511 0.9900 0.9987 0.9999 1.0000 1.0000 0.30 0.0404 0.1960 0.4628 0.7297 0.9012 0.9747 0.9957 0.9996 1.0000 1.0000 0.35 0.0207 0.1211 0.3373 0.6089 0.8283 0.9464 0.9888 0.9986 0.9999 1.0000 Statistik II für Wirtschaftswissenschaftler n=9 k 0 1 2 3 4 5 6 7 8 9 Folie 5.27 p 0.40 0.0101 0.0705 0.2318 0.4826 0.7334 0.9006 0.9750 0.9962 0.9997 1.0000 0.45 0.0046 0.0385 0.1495 0.3614 0.6214 0.8342 0.9502 0.9909 0.9992 1.0000 0.50 0.0020 0.0195 0.0898 0.2539 0.5000 0.7461 0.9102 0.9805 0.9980 1.0000 0.55 0.0008 0.0091 0.0498 0.1658 0.3786 0.6386 0.8505 0.9615 0.9954 1.0000 0.60 0.0003 0.0038 0.0250 0.0994 0.2666 0.5174 0.7682 0.9295 0.9899 1.0000 0.65 0.0001 0.0014 0.0112 0.0536 0.1717 0.3911 0.6627 0.8789 0.0793 1.0000 α = 0, 05, n = 9, p = 0, 5: Fn,p(1) = 0, 0195 ≈ 0, 05 bn,p,α ≈ 1 oder: Ersetze α durch α̃ = 0, 0195 bn,p,α̃ = 1 Statistik II für Wirtschaftswissenschaftler n=9 k 0 1 2 3 4 5 6 7 8 9 Folie 5.28 p 0.70 0.0000 0.0004 0.0043 0.0253 0.0988 0.2703 0.5372 0.8040 0.9596 1.0000 0.75 0.0000 0.0001 0.0013 0.0100 0.0489 0.1657 0.3993 0.6997 0.9249 1.0000 0.80 0.0000 0.0000 0.0003 0.0031 0.0196 0.0856 0.2618 0.5638 0.8658 1.0000 0.85 0.0000 0.0000 0.0000 0.0006 0.0056 0.0339 0.1409 0.4005 0.7684 1.0000 0.90 0.0000 0.0000 0.0000 0.0001 0.0009 0.0083 0.0530 0.2252 0.6126 1.0000 0.95 0.0000 0.0000 0.0000 0.0000 0.0000 0.0006 0.0084 0.0712 0.3698 1.0000 α = 0, 95, n = 9, p = 0, 7: Fn,p(8) = 0, 9596 ≈ 0, 95 bn,p,α ≈ 8 oder: Ersetze α durch α̃ = 0, 9596 bn,p,α̃ = 8 Statistik II für Wirtschaftswissenschaftler Folie 5.29 Anwendung des Binomialtests: Vorzeichentest Neues Rezept für Tomatensuppe aus der Dose 8 Geschmackstester bewerten blind altes und neues Rezept (mit 0-10 Punkten) Tester A B C D E F G H Bewertung alt neu 6 8 4 9 5 4 8 7 3 9 6 9 7 7 5 9 Differenz alt−neu −2 −5 1 1 −6 −3 0 −4 Vorzeichen − − + + − − 0 − Vereinfachung: Entferne Teilexperimente mit Vorzeichen 0 (Bindungen) aus der Stichprobe. Statistik II für Wirtschaftswissenschaftler Folie 5.30 Alternative H1 : neu besser als alt Hypothese H0 : neu nicht besser als alt, d.h. Ws(+) ≥ 0.5 Modell + = Erfolg, n unabhängige, identische Versuche n = Stichprobenumfang (nach Entfernen von Vorzeichen 0) X = Anzahl der positiven Vorzeichen + ist B(n, p)-verteilt. 1 Hypothese: H0 : p = Ws(+) ≥ p0 = 2 1 Alternative: H1 : p = Ws(+) < p0 = 2 Beobachtet X = 2, n = 7 Tabelle: b7,0.5,0.0625 = 1 X≥1 akzeptiere H0 auf Niveau 6,25% Statistik II für Wirtschaftswissenschaftler Folie 5.31 Vergleich zweier Wahrscheinlichkeiten/Anteile (Skript S. 92) Zwei Populationen, deren Mitglieder ein bestimmtes Merkmal haben können. Sind die beiden Anteile an Merkmalsinhabern gleich? Beispiel: ABC-Wähler unter den männlichen bzw. unter den weiblichen Wahlberechtigten Modell: X, Z unabhängig und jeweils binomialverteilt mit Parameter (n, p1) bzw. (m, p2) Schätzer für p1, p2: p̂1 = X , n p̂2 = Hilfsgröße: p̂ = Z m X +Z n+m Statistik II für Wirtschaftswissenschaftler Folie 5.32 X Z X +Z , p̂2 = , p̂ = n m n+m Unter der Hypothese H0 : p1 = p2 = p schätzen p̂1, p̂2, p̂ alle den gemeinsamen Anteil p der Merkmalsinhaber in beiden Populationen. p̂1 = n, m groß, 0 p1, p2 1, so dass B(n, p1), B(m, p2) mit der Normalverteilung approximiert werden können. Dann: Zweistichproben-Binomialtest mit Teststatistik (q̂ = 1 − p̂) pˆ − p̂2 ∆ = q1 n+m n m p̂q̂ Intuition: p̂1 ≈ p̂2 ≈ N (0, 1) wenn p1 = p2 ∆≈0 H0 annehmen Statistik II für Wirtschaftswissenschaftler Folie 5.33 Hypothese Alternative H0 verwerfen, wenn H 0 : p1 = p2 p1 ≤ p2 H1 : p 1 > p 2 ∆ > c1−α = (1 − α)-Quantil von N (0, 1) H 0 : p1 = p2 p1 ≥ p2 H1 : p 1 < p 2 ∆ < −c1−α H 0 : p1 = p2 H1 : p1 6= p2 |∆| > c1− α 2 Beispiel: Haben Angestellte und Angehörige der Geschäftsleitung unterschiedliche Einstellungen zu ethischem Verhalten im Geschäftsleben? Frage in einer Studie: Die Angst, erwischt zu werden und den Arbeitsplatz zu verlieren, hat einen großen Einfluss auf ethisches Verhalten im Beruf - Ja oder Nein? Statistik II für Wirtschaftswissenschaftler Folie 5.34 Die Angst, erwischt zu werden und den Arbeitsplatz zu verlieren, hat einen großen Einfluss auf ethisches Verhalten im Beruf - Ja oder Nein? Angestellte (n=755): 57 % Ja Geschäftsleitung (m=616): 50 % Ja Schätzer p̂1 = 0, 57 > p̂2 = 0, 50 signifikant oder zufällig? Beobachtungen X = np̂1 ≈ 430 (gerundet), Z = mp̂2 = 308 p̂ = 430+308 755+616 = 0, 538 Teststatistik: ∆ = q 0, 57 − 0, 50 755+616 755·616 0, 538 · 0, 462 ∆ > 2, 326 = 99%-Quantil von N (0, 1) werfen auf Niveau 1% = 2, 586 > 2, 326 H0 : p1 ≤ p2 ver- Statistik II für Wirtschaftswissenschaftler Folie 5.35 Hypergeometrische Verteilung Für n, M ≤ N heißt Zufallsgröße mit Werten in X = {0, 1, . . . ,min(n, M )} hypergeometrisch verteilt mit Parameter (n, M, N ), wenn M N −M k n−k Ws(X = k) = , N n k = 0, . . . , min(n, M ). Kurzschreibweise: X ist H(n, M, N )-verteilt W3 Ws(X ≤ k) = k X j=0 Ws(X = j) = 1 − Ws(X > k) Statistik II für Wirtschaftswissenschaftler Folie 5.36 Modellbildung: Stichprobenziehen ohne Zurücklegen Population von N Objekten oder Personen M davon haben bestimmtes Merkmal i) Wie groß ist M ? (defekte Produkte in Qualitätssicherung, N bekannt) ii) Wie groß ist N ? (Populationsgröße im Wildlife-Management, M bekannt) Untersuche nacheinander n Objekte; jedes kann nur einmal gewählt werden Stichprobe ohne Wiederholungen X = Anzahl der Objekte in der Stichprobe, die das Merkmal besitzen ist H(n, M, N )-verteilt. Statistik II für Wirtschaftswissenschaftler Folie 5.37 Anwendungsfeld: Qualitätskontrolle Endkontrolle: Aus Tagesproduktion von N Geräten wird eine Stichprobe von n Stück gezogen und genau untersucht. Abnahmekontrolle: Aus Lieferung (”Los”) von N Geräten wird Stichprobe vom Umfang n genau untersucht. Anzahl der unzulänglichen Geräte in der Lieferung = M =? Anzahl der unzulänglichen Geräte in der Stichprobe = X X ist H(n, M, N )-verteilt. Intuition für Schätzer: X M ≈ n N M̂ = N X n schätzt M Statistik II für Wirtschaftswissenschaftler Operationscharakteristik = Annahmewahrscheinlichkeit für n = 30 und n = 60, M = 0, 05N (+) bzw. M = 0, 01N (*) Folie 5.38 Statistik II für Wirtschaftswissenschaftler Folie 5.39 Approximation hypergeometrische durch Binomialverteilung M und N − M n (Stichprobe klein im Vergleich zu beiden Teilpopulationen) Dann: H(n, M, N ) ≈ B(n, M N) d.h. für H(n, M, N )-verteilte zufällige Anzahl X gilt: Ws(X = k) ≈ n k pk (1 − p)n−k mit p = M . N Man kann X dann auch gleich als binomialverteilte Zufallsgröße modellieren. Statistik II für Wirtschaftswissenschaftler Folie 5.40 Statistik II für Wirtschaftswissenschaftler Folie 5.41 Statistik II für Wirtschaftswissenschaftler Folie 5.42 Statistik II für Wirtschaftswissenschaftler Anwendungsfeld: Meinungsumfragen Aus Gesamtpopulation (Bevölkerung der BRD, Kunden des ABC-Baumarktes, Anhänger des 1.FCK, ...) der Größe N wird Stichprobe aus n verschiedenen Personen zufällig ausgewählt. N muss nicht bekannt sein. Ihnen wird eine Frage gestellt, die mit Ja oder Nein beantwortet werden kann. p = Anteil der Gesamtpopulation, der mit Ja antworten würde. Annahme: N p, N (1 − p) n. X = Anzahl der Befragten, die mit Ja antworten, ist eigentlich hypergeometrisch, praktisch aber binomial verteilt mit Parameter n und p. Folie 5.43 Statistik II für Wirtschaftswissenschaftler Folie 5.44 Beispiel: Der (einzige) Parkplatz neben einem innerstädtischen Supermarkt soll in einen Park umgewandelt werden. Um die Auswirkungen abzuschätzen, werden eine Woche lang in mehreren, über den Tag verteilten 10 min-Intervallen Kunden an der Kasse befragt, ob sie mit dem Wagem da sind oder nicht. N M N −M Anzahl aller Kunden n Anzahl der Kunden, die mit Pkw anfahren Anzahl der Kunden, die nicht mit Pkw anfahren n = 536 X = 178 ist ≈ B(536, p)-verteilt p= M X ≈ = 0, 332 = p̂ (schätzt p) N n Statistik II für Wirtschaftswissenschaftler Fallstudie: Wahlverhalten Stimmanteil der ABC-Partei bei der letzten Wahl: p0 = 0, 1 = 10% Nach einem Jahr Umfrage unter n = 500 Wahlberechtigten nur X = 42 (8,4 %) für ABC. Zufall oder Hinweis auf sinkende Popularität? a) Umfrage ohne Wiederholungen X ist exakt H(n, M, N )-verteilt mit M = Anzahl der Wahlberechtigten für ABC N = Anzahl aller Wahlberechtigten Folie 5.45 Statistik II für Wirtschaftswissenschaftler b) n M, N − M X kann näherungsweise als B(n, p)-verteilt betrachtet werden mit M = prozentualer Anteil der Wahlberechtigten für ABC p= N Präzisierung der Frage: Ist X = 42 noch verträglich mit der Annahme, dass sich der Anteil der Anhänger von ABC nicht verringert hat? Angenommen, p = p0. Wie groß ist die Wahrscheinlichkeit für höchstens 42 ABC-Wähler in der Stichprobe? Folie 5.46 Statistik II für Wirtschaftswissenschaftler Folie 5.47 Wie groß ist die Wahrscheinlichkeit für X ≤ 42, wenn immer noch p = p0 = 0.1? n groß X ≈ N (np, npq)-verteilt, q = 1 − p ! 42 − np0 Wsp0 (X ≤ 42) ≈ Φ √ = Φ(−1, 19) np0q0 = 1 − Φ(1, 19) = 1 − 0, 883 = 0, 117 Ereignisse mit einer Wahrscheinlichkeit von 11, 7% erscheinen durchaus noch im Rahmen des Möglichen. Man kann aus der Umfrage nicht folgern, dass sich der Wähleranteil verringert hat. Binomialtest (α = 0, 05): Teststatistik: > −1, 645 = −c1−α H0 : p = p0 gegen H1 : p < p0 X − n p0 0 X = √ = −1, 19 n p0q0 H0 annehmen. Statistik II für Wirtschaftswissenschaftler Frage mit mehreren möglichen Antworten, z.B. ”Welcher Partei würden Sie Ihre Stimme geben, wenn am nächsten Sonntag Landtagswahl wäre?” Antworte: SPD, CDU, FDP, Grüne, ... ”Welche Automarke würden Sie bei der nächsten Neuanschaffung vorziehen, wenn der Kaufpreis keine Rolle spielt?” Antworte: BMW, Daimler, Audi, VW, Volvo, ... Allgemein: m mögliche Antworten A1, A2, . . . , Am n Personen werden gefragt Xi = Anzahl der Personen, die Ai antworten, i = 1, . . . , m. i fest. Erfolg = Antwort Ai, Misserfolg = Antwort Aj , j 6= i, Folie 5.48 Statistik II für Wirtschaftswissenschaftler Folie 5.49 Jedes Xi ist für sich allein genommen B(n, pi)-verteilt pi = Ws(Antwort einer Person ist Ai) = Anteil der Gesamtpopulation, die der Meinung Ai ist. Aber: X1 + . . . + Xm = n Abhängigkeit der X1, . . . , Xm 2.3 Laplace-verteilte Zufallsgrößen, rein zufällige Auswahl Rein zufällige Auswahl eines Objektes oder einer Person: i) jedes hat diesselbe Chance, gewählt zu werden; ii) bei Auswahl mehrerer Personen/Objekte hat auch jede Reihenfolge dieselbe Chance Laplace-Mechanismus Statistik II für Wirtschaftswissenschaftler A = {a1, . . . , am} endliche Menge Zufallsgröße X mit Werten in X = A heißt Laplace-verteilt in A, wenn 1 für alle i = 1, . . . , m Ws(X = ai) = m B = {ai1 , . . . , aik } ⊆ A Laplace-Wahrscheinlichkeit: Ws(X ∈ B) = = Anzahl der Elemente in B k = Anzahl der Elemente von A m Anzahl der ”günstigen” Fälle (mit X ∈ B) Anzahl aller möglichen Fälle Wiederholte Auswahl: 1 Ws(X1 = ai1 , . . . , XN = aiN ) = N m Folie 5.50 Statistik II für Wirtschaftswissenschaftler Folie 5.51 2.4 Allgemeine diskrete Verteilungen Zufallsgröße X mit nur endlich vielen möglichen Werten a1, . . . , am Ws(X = ai), i = 1, . . . , m, reichen zur Berechnung von Ws(X ∈ B) Allgemeiner: X nimmt Werte in abzählbarem Wertebereich X = {x1, x2, . . .} an. Vorgegeben: Wahrscheinlichkeitsgewichte p(xj ) ≥ 0 mit P∞ j=1 p(xj ) = 1 Definiere Ws(X = xj ) = p(xj ) j = 1, 2, . . . Rechenregel W 3 Ws(X ∈ B) = X j mit xj ∈B p(xj ). j = 1, 2, . . . Statistik II für Wirtschaftswissenschaftler Ws(X ∈ B) = Folie 5.52 X p(xj ). j mit xj ∈B Summe der Wahrscheinlichkeitsgewichte aller möglichen Werte xj von X, die in B liegen. Beispiele: i) Zu n ≥ 1, 0 < p < 1, X = {0, . . . , n} definiere Wahrscheinlichkeitsgewichte n p(k) = pk (1 − p)n−k , k = 0, . . . , n k und Ws(X = k) = p(k), k = 0, . . . , n, X ist B(n, p)-verteilt. Statistik II für Wirtschaftswissenschaftler Folie 5.53 Ws(X ≤ 3) = Ws(X ∈ {0, 1, 2, 3}) | = = X Ws(X gerade ) = } p(k) k∈B 3 X n k=0 {z B k pk (1 − p)n−k n X n k=0 k pk (1 − p)n−k k gerade Ws(X > 3) = n X n k=4 k pk (1 − p)n−k = 1 − Ws(X ≤ 3) Statistik II für Wirtschaftswissenschaftler Folie 5.54 ii) Welcher Farbton einer Verpackung kommt bei Kunden gut an? MUSTER MUSTER MUSTER MUSTER MUSTER Frage an zufällig vorbeikommenden Kunden: Welche Verpackung gefällt Ihnen am besten? Antwort X ∈ X = {rot, blau, schwarz, magentarot, cyanblau} Ws-gewichte: p(f ) ≥ 0, f ∈ X mit p(r) + p(b) + p(s) + p(m) + p(c) = 1 Ereignis: Entscheidung für bunt, d.h. X ∈ B = {r, b, m, c} Ws(X bunt) = p(r) + p(b) + p(m) + p(c) = 1 − p(s) Statistik II für Wirtschaftswissenschaftler Folie 5.55 ii’) n unabhängige Kundenbefragungen Zf = Anzahl der Kunden, die sich für Farbe f entscheiden, f ∈ X = {r, b, s, m, c} Zr + Zb + Zs + Zm + Zc = n vektorwertige Zufallsgröße Z = (Zr , Zb, Zs, Zm, Zc) von Anzahlen mit Wertebereich Z = {0, 1, . . . , n}5 z.B. für n = 100: Z = (35, 18, 26, 14, 7) oder Z = (24, 9, 17, 25, 25), ... Statistik II für Wirtschaftswissenschaftler Folie 5.56 Allgemein: n ≥ 1, d ≥ 2, 0 < p1, p2, . . . , pd < 1 mit p1 + . . . + pd = 1. Eine Zufallsgröße Z = (Z1, . . . , Zd) mit Werten in Z = {0, . . . , n}d heißt multinomial verteilt mit Parameter (n, p1, . . . , pd), wenn Ws(Z = (k1, . . . , kd)) = Ws(Z1 = k1, . . . , Zd = kd) = n p 1 k 1 · . . . · pd k d k1 . . . k d für k1, . . . , kd ≥ 0 mit k1 + . . . + kd = n. n n! = k1 . . . k d k1 ! · . . . · kd ! Multinomialkoeffizient Schreibweise: X ist M(n, p1, . . . , pd)-verteilt Statistik II für Wirtschaftswissenschaftler Spezialfall: d = 2, X = Z1 Folie 5.57 Z2 = n − X, p 2 = 1 − p1 (Z1, Z2) M(n, p1, 1 − p1)-verteilt ←→ X = Z1 B(n, p1)-verteilt Modellbildung: n unabhängige, gleichartige Versuche mit d möglichen Ausgängen oder Ergebnissen: E1, . . . , Ed pi = Ws(Einzelversuch hat Ergebnis Ei), i = 1, . . . , d Zi = Anzahl der Versuche mit Ergebnis Ei, i = 1, . . . , d Z = (Z1, . . . , Zd) ist M(n, p1, . . . , pd)-verteilt. Jedes einzelne Zi ist B(n, pi)-verteilt, aber Z1, . . . , Zd abhängig! Statistik II für Wirtschaftswissenschaftler Folie 5.58 Der Chi-Quadrat-Anpassungstest (Goodness-of-Fit) Binomialexperiment: Experimente/Fragen mit zwei möglichen Ergebnissen Multinomialexperiment: Experimente/Fragen mit d ≥ 2 möglichen Ergebnissen n Daten, die in jeweils eine von d Klassen fallen Klassen Klassennr. Anzahl Daten in der Klasse Immer: Z1 + Z2 + . . . Z d = n A1 1 Z1 A2 2 Z2 ... ... ... Ad d Zd Statistik II für Wirtschaftswissenschaftler Anzeige- oder Indikatorvariable: Yj = k, wenn j-tes Objekt zu Klasse k gehört, j = 1, . . . , n Zk = Anzahl der j mit Yj = k = Anzahl der Objekte, die zu Klasse k gehören Modell: Zu welcher Klasse ein Objekt gehört, wird auf unabhängige, identische Weise bestimmt, d.h. Y1, . . . , Yn sind u.i.v. mit Werten in {1, . . . , d} Ws(Yj = k) = Ws(Objekt in Klasse Nr. k) = pk , k = 1, . . . , d p1 + . . . + pd = 1 Folie 5.59 Statistik II für Wirtschaftswissenschaftler 0 bekannt und fest 1. Entscheidungsproblem: p0 , . . . , p 1 d Gilt H 0 : p k = p0 k für alle k = 1, . . . , d, oder H1 : p` 6= p0 ` für wenigstens ein `? Beispiel: Zusammensetzung (nach Berufsgruppen) der Kunden wie in der Gesamtbevölkerung? A1 = Freiberufler A2 = selbständige Handwerker A3 = mittlere Angestellte ohne Leitungsfunktion ... ... p0 k = Anteil der Berufsgruppe Ak an der Gesamtbevölkerung pk = Anteil der Berufsgruppe Ak am Kundenkreis Folie 5.60 Statistik II für Wirtschaftswissenschaftler Folie 5.61 Daten: Befrage n Kunden Z2 = Anzahl der selbständigen Handwerker unter den Befragten, ... Beispiel: Investition (Personal, Modernisierung) in Verkaufsgebiet mit d = 5 Filialen. Gießkannenprinzip oder gezielte Förderung ”gutgehender” Verkaufsstellen? Gibt es überhaupt Unterschiede? Klassen (Filialen) Zk = Zahl der Kunden an Testtagen Z1 + . . . + Z5 = n = 620 A1 123 A2 96 A3 164 A4 131 A5 106 Statistik II für Wirtschaftswissenschaftler Folie 5.62 Hypothese H0 : 0 , , k = 1, . . . , 5 keine Unterschiede, d.h. pk = 1 = p k 5 Alternative H1 : 0 für wenigstens ein k pk 6= 1 = p k 5 pk ≈ Znk Wahrscheinlichkeit ≈ relative Häufigkeit Zk 0 n ≈ pk für alle k = 1, . . . , d 2 quadratische Abstände Zk − np0 ≈0 k Wenn H0 gilt: Teststatistik: D = D(Z1, . . . , Zd) = d X k=1 = d X k=1 2 0 Zk − npk np0 k beobachtet − erwartet in Klasse k erwartet in Klasse k 2 Statistik II für Wirtschaftswissenschaftler Folie 5.63 Faustregel: Wenn np0 k ≥ 1 für alle k = 1, . . . , d und np0 k ≥ 5 für ≥ 80% der k = 1, . . . , d D= d X k=1 2 0 Zk − npk ungefähr χ2 -verteilt, wenn H0 gilt. d−1 0 npk Chi-Quadrat-Anpassungstest zum Niveau α 0 Gegeben feste Klassenwahrscheinlichkeiten p0 1 , . . . , pd Hypothese Alternative H0 verwerfen, wenn p k = p0 k, für alle k p` 6= p0 ` D > χ2 d−1,1−α = (1 − α)-Quantil von χ2 d−1 für wenigstens ein ` Statistik II für Wirtschaftswissenschaftler Folie 5.64 Beispiel (Forts.): d = 5, n = 620 1 , k = 1, . . . , 5 5 erwartete Anzahl in Klasse Ak (unter H0) : n · 1 5 = 124 H0 : p k = D= 5 X (Zk − 124)2 k=1 124 = 22, 242 Annahmen der Faustregel hier völlig unproblematisch. Wähle Niveau α = 5%. Aus Tabelle: 0.95-Quantil von χ2 4 : 9, 488 Da D > 9, 488: verwirf H0 auf dem 5%-Niveau! Diese Entscheidung ist ziemlich sicher richtig; wir irren uns dabei mit einer Wahrscheinlichkeit von höchstens 5%. Statistik II für Wirtschaftswissenschaftler Folie 5.65 Faustregel verletzt? fasse zu kleine Klassen (mit np0 k 5) zu einer größeren Klasse zusammen! So wenig wie nötig, denn: viele Klassen Ws(Fehler 2. Art) klein Beispiel: d = 12 Sektmarken A1, . . . , A12 im Supermarkt, bisherige Marktanteile p0 k (bekannt aus Langzeitbeobachtung der Verkaufszahlen) Sekt Nr. 1 2 3 4 5 6 7 8 9 10 11 Anteil p0 k 25 20 16 13 9 6 3 3 2 1 1 12 1 % Werbeaktion für Sekt Nr. 3 und 7. Ändert sich dadurch etwas? Statistik II für Wirtschaftswissenschaftler Folie 5.66 Daten: Kaufentscheidung von n = 120 Kunden an 3 Tagen Zk = Zahl der Käufer von Sekt. Nr. k Sekt Nr. Zk np0k 1 32 30 2 19 24 3 26 19,2 4 11 15,6 5 6 10,8 6 10 7,2 7 8 3,6 8 1 3,6 Da nur ≤ 2 Klassen mit np0 k < 5 auftreten sollen 9-12 zu einer neuen Klasse zusammen. 9 5 2,4 10 0 1,2 11 0 1,2 fasse Klassen Sekt Nr. 1 2 3 4 5 6 7 8 9 - 12 Zk∗ 32 19 26 11 6 10 8 1 7 np0∗ k 30 24 19,2 15,6 10,8 7,2 3,6 3,6 6 Zk∗ = Zk , k = 1, . . . , 8, p0∗ k = pk , k = 1, . . . , 8, Z9∗ = Z9 + . . . + Z12 0 + . . . + p0 p0∗ = p 9 9 12 12 2 1,2 Statistik II für Wirtschaftswissenschaftler Folie 5.67 D = D(Z1∗ , . . . , Z9∗ ) = 12, 47 α = 0, 05 0.95-Quantil: 15, 59 (Tabelle der Quantile von χ2 8) Da D ≤ 15, 59 akzeptiere H0! Die Daten reichen nicht aus, um mit einiger Sicherheit auf den Effekt der Werbeaktion schließen zu können, obwohl der beobachtete Umsatz der beworbenen Marken in der Stichprobe höher als erwartet ist. Sekt Nr. 1 2 3 4 5 6 7 8 9 - 12 Zk∗ 32 19 26 11 6 10 8 1 7 np0∗ k 30 24 19,2 15,6 10,8 7,2 3,6 3,6 6 Statistik II für Wirtschaftswissenschaftler Poissonverteilung Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poissonverteilt mit Parameter λ > 0, wenn die Wahrscheinlichkeitsgewichte die Form haben: λk −λ p(k) = Ws(X = k) = e , k = 0, 1, 2, . . . k! Kurzschreibweise: X ist P(λ)-verteilt Beispiele für Daten, die als Poisson-verteilte Zufallsgrößen modelliert werden können: • Anzahl der Kunden, die zwischen 10 und 11 Uhr einen Bankschalter benutzen, • Anzahl der Telefonanrufe, die einen Netzknoten zwischen 15 und 17 Uhr passieren, Folie 5.68 Statistik II für Wirtschaftswissenschaftler • Anzahl der Versicherungsfälle, die einer Brandversicherung innerhalb eines Monats gemeldet werden, • Anzahl von Atomen eines radioaktiven Präparats, die innerhalb eines Jahres zerfallen. Modellbildung I: Gleichartige Ereignisse treten in unregelmäßiger Abfolge ein; die Wartezeiten zwischen aufeinander folgenden Ereignissen sind unabhängig. X = Anzahl der Ereignisse in festem Zeitintervall ist P(λ)-verteilt. λ = mittlere Anzahl von Ereignissen pro Zeitintervall, abhängig von Intervalllänge und Ereignisdichte. Folie 5.69 Statistik II für Wirtschaftswissenschaftler Modellbildung II: Kleine (punktförmige) Objekte sind zufällig über eine große Fläche oder ein großes Volumen verteilt. X = Anzahl der Objekte in fester Teilfläche oder -volumen ist P(λ)-verteilt. λ = mittlere Anzahl von Objekten pro Teilfläche bzw. -volumen abhängig von Fläche bzw. Volumen und räumlicher Objektdichte. • Anzahl von Verunreinigungen in Kristall • Anzahl von Rosinen in Rosinenbrötchen • Anzahl von Bäumen einer Art auf 10 km2 Urwald • Anzahl von Bakterien auf 10 cm2 einer Petrischale • Anzahl von Fasern in 1 dm3 Faserverbundwerkstoff Folie 5.70 Statistik II für Wirtschaftswissenschaftler Folie 5.71 Verteilungsfunktion der Poisson-Verteilung: ` X λk −λ e Fλ(`) = Ws(X ≤ `) = k! k=0 Tabelle 2: λ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 0 0.3679 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353 1 0.7358 0.6990 0.6626 0.6268 0.5918 0.5578 0.5249 0.4932 0.4628 0.4337 0.4060 2 0.9197 0.9004 0.8795 0.8571 0.8335 0.8088 0.7834 0.7572 0.7306 0.7037 0.6767 3 0.9810 0.9743 0.9662 0.9569 0.9463 0.9344 0.9212 0.9068 0.8913 0.8747 0.8571 ` 4 0.9963 0.9946 0.9923 0.9893 0.9857 0.9814 0.9763 0.9704 0.9636 0.9559 0.9473 5 0.9994 0.9990 0.9985 0.9978 0.9968 0.9955 0.9940 0.9920 0.9896 0.9868 0.9834 6 0.9999 0.9999 0.9997 0.9996 0.9994 0.9991 0.9987 0.9981 0.9974 0.9966 0.9955 7 1 1 1 0.9999 0.9999 0.9998 0.9997 0.9996 0.9994 0.9992 0.9989 8 1 1 1 1 1 1 1 0.9999 0.0000 0.9998 0.9998 Statistik II für Wirtschaftswissenschaftler Folie 5.72 ”Gesetz der kleinen Zahlen”: Unabhängige, identische Experimente mit 2 Ergebnissen (Binomialexperiment), Erfolg sehr selten n = Anzahl Experimente groß, p = Erfolgswahrscheinlichkeit ≈ 0 X = Anzahl der Erfolge klein. Exakt: X ist B(n, p)-verteilt Näherung: X ist P(λ)-verteilt mit λ = np brauchbar für n ≥ 20, p ≤ 0, 05 gut für n ≥ 100, np ≤ 10 Man kann X dann auch gleich als poissonverteilte Zufallsgröße modellieren: B(n, p) ≈ P(np), wenn n groß, p ≈ 0. Statistik II für Wirtschaftswissenschaftler Folie 5.73 Statistik II für Wirtschaftswissenschaftler Folie 5.74 Statistik II für Wirtschaftswissenschaftler Folie 5.75 Schätzer für Poisson-Parameter λ X1, . . . , XN u.i.v. P(λ)-verteilt schätze λ durch N 1 X XN = Xj N j=1 Anwendung - exemplarisch für Unfall- oder Brandversicherungen Ladislaus von Bortkiewicz (1868-1931): Anzahl der jährlichen Todesfälle durch Pferdetritt in der preußischen Kavallerie pro Regiment (1875-1894, 14 Regimenter) N = 14 · 20 = 280 Regimentsjahre X1, . . . , XN Anzahl Todesfälle in den N Regimentsjahren Statistik II für Wirtschaftswissenschaftler Folie 5.76 X1, . . . , XN Anzahl Todesfälle in den N = 280 Regimentsjahren Zk = Anzahl Regimentsjahre mit k Todesfällen, k = 0, 1, 2, . . .. k 0 1 2 3 4 ≥5 Zk 144 91 32 11 2 0 Schätzer für λ 4 X 1 280 1 X Xj = k · Zk = 0, 7 λ̂ = X N = 280 j=1 280 k=0 Vergleich der beobachteten Häufigkeiten mit den Poissonwahrscheinlichkeiten (λ̂ = 0,7) ergibt gute Modellanpassung an Daten: Nk λ̂k −λ̂ ≈ p̂(k) = e , N k! k = 0, . . . , 4 Statistik II für Wirtschaftswissenschaftler Folie 5.77 Statistik II für Wirtschaftswissenschaftler Rutherford/Geiger (1910): Radioaktiver Zerfall von Polonium (Anzahl Zerfälle in 7,5 sec-Intervallen), N = 2608, λ̂ = 3, 872 Folie 5.78 Statistik II für Wirtschaftswissenschaftler Folie 5.79 Chi-Quadrat-Test II: Test von Verteilungsmodellen k 0 1 2 3 4 ≥5 Zk 144 91 32 11 2 0 np̂(k) 139,0 97,3 34,1 7,9 1,4 0,2 Todesfälle durch Pferdetritt (d = 6 Klassen, n = 280), λ̂ = 0.7. Wenn Xj P(λ)-verteilt, dann ist Z = (Z1, . . . , Z6) multinomial verteilt mit Parameter (n, p(0), . . . , p(5)). p(k) unbekannt c= D 5 X k=0 Zk − np̂(k) np̂(k) setze in Chi-Quadrat-Statistik Schätzer ein: 2 , λ̂k −λ̂ p̂(k) = e , k = 0, . . . , 4, k! p̂(5) = 1− 4 X k=0 p̂(k) Statistik II für Wirtschaftswissenschaftler Folie 5.80 0 ≥ 5 für ca. 80 % oder mehr k) Faustregel (np0 ≥ 1 immer, np k k verletzt vereinige k = 4 und k ≥ 5 zu einer neuen Klasse k ≥ 4 k 0 1 2 3 ≥4 Zk 144 91 32 11 2 np̂(k) 139,0 97,3 34,1 7,9 1,6 2 2 2 (144 − 139, 0) (91 − 97, 3) (2 − 1, 6) c= D + + ... + = 1, 98 139, 0 97, 3 1, 6 Wenn die Hypothese H0 : Xj , j = 1, . . . , n sind P(λ)-verteilt für irgendein λ > 0 c ungefähr χ2 wahr ist, dann ist D d−1−m -verteilt: d = Anzahl Klassen m = Anzahl der geschätzten Parameter (hier λ, also m = 1) Statistik II für Wirtschaftswissenschaftler Folie 5.81 H0 : Zk , k = 1, . . . , d, sind multinomial verteilt mit Parameter (n, p1, . . . , pd), wobei pk = fk (θ), k = 1, . . . , d, für irgendeinen Wert des Parametervektors θ = (θ1, . . . , θm), fk bekannt b ersetze bekannte p0 in der χ2-Teststatistik Schätze θ durch θ, k durch geschätzte b p̂k = fk (θ) c = D 5 X k=0 Zk − np̂k 2 np̂k c > (1 − α)-Quantil von χ2 H0 verwerfen, wenn D d−1−m Im Beispiel d = 5, m = 1, α = 0, 05, 7, 81 = 95%-Quantil von χ2 3 c = 1, 98 < 7, 81 D H0 akzeptieren die Daten widersprechen nicht der Modellannahme, dass die Anzahl der Todesfälle durch Pferdetritt poissonverteilt ist.