Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(X + a) = l(X) + a): • Erwartungswert EX • Median von X = 1 2 -Quantil q0,5 : 1 Ws(X ≤ q0,5) = 2 (wenn X Dichte hat) Schätzer (vgl. Kapitel 1): • Stichprobenmittel X N • • Stichprobenmedian X N Wenn X symmetrische Dichte hat, gilt: Wenn X rechtsschiefe Dichte hat, gilt: EX = q0,5 EX q0,5 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.2 Wenn X1, . . . , XN u.i.v. • normal- oder uniform-verteilt • XN ≈ XN • lognormal-, Weibull- oder speziell Exponential-verteilt • XN XN Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.3 Genauer: X1, . . . , XN u.i.v. Exp(λ)-verteilt EX = 1 λ, Ws(X ≤ q0,5) = 1 − eλq0,5 = 1 2 ln 2 = 0, 693 EX q0,5 = λ • X N ≈ 0, 693 X N Skalenparameter (s(X + a) = s(X), s(c · X) = c · s(X), c > 0): √ • Standardabweichung σ(X) = var X • Quartilenabstand Q(X) = q0,75 − q0,25 Schätzer (vgl. Kapitel 1): • Stichprobenstandardabweichung sN • Stichprobenviertelweite dvN Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.4 Quartile q0,25, q0,75 von N (µ, σ 2) : µ ± 0, 675 σ, da z.B. Ws(X ≤ µ+0, 675 σ) = Ws µ+σZ ≤ µ+0, 675 σ = Ws(Z ≤ 0, 675) = 0, 75 mit standardnormalverteiltem Z. Quartilenabstand von N (µ, σ 2) : Q(X) = 1, 35 σ Für normalverteilte Daten gilt daher: dvN ≈ 1, 35 sN 2 Exponentialverteilung: 1 ≈X s2 ≈ var X = N N λ2 Poissonverteilung: s2 N ≈ var X = λ ≈ X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.5 Anwendung I: Viertelweite, Ausreißer und 3 σ-Regel Für N (µ, σ 2)-verteiltes X: Quartile µ ± 0, 675 σ, Quartilenabstand Q(X) = 1, 35 σ Kapitel 1 (Boxplot): Ausreißer = Messwert, der um mehr als das 1,5 fache der Stichprobenviertelweite dvN unterhalb (oberhalb) des unteren (oberen) Viertelwerts liegt. Ws(X ≥ µ + 0, 675 σ + 1, 5 · 1, 35 σ) = 1 − Ws(X ≤ µ + 2, 7 σ) = 1 − Φ(2, 7) = 0, 0035 Ws( Ausreißer ) = 0, 007 sehr selten (7 von Tausend) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.6 Qualitätskontrolle: 3 σ-Regel Ws(X ≥ µ + 3 σ) = 0, 0013, Ws(X − µ ≥ 3 σ) = 0, 0026 Variabilität der Produktqualität (≡ σ) nur so groß, dass maximal 2,6 von Tausend nicht den Ansprüchen genügen. Nicht ausreichend für Luftfahrt, Medikamentenproduktion, ... Six Sigma als Firmenphilosophie im Produkt- und Prozessentwicklungsbereich (Motorola, in großem Maßstab dann bei GE) Heute: Weltweit bei zahlreichen Großunternehmen, auch im Dienstleistungssektor Von Zulieferern wird Nachweis der Six-Sigma-Qualität in den Produktionsprozessen verlangt. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.7 Ws(X − µ ≥ 6 σ) = 0, 00034% Anforderung: nur 3,4 von 1 Million Produkte ungenügend De facto ausschussfreie Produktion als Ziel Dazu kommen bei Produkt- und Prozessentwicklung strukturierte DMAIC-Prozesse (Define - Measure - Analyze - Improve - Control) und Prozessmanagement-Techniken zum Einsatz (Design for Six Sigma, DFSS) Statistische Toolbox: Histogramm, Paretodiagramm, ... Statistische Versuchsplanung (Design of Experiments), Regressionsanalyse, Multivariate Analyse, statistische Testverfahren (FTest, ANOVA), Wahrscheinlichkeitsnetz (Normal Plot) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.8 Wahrscheinlichkeitsnetz oder Normal (probability) Plot: X(1) ≤ X(2) ≤ . . . ≤ X(N ) 1) Ordne Daten: X1, . . . , XN 2) Plotte Quantile Φ−1( j ) gegen X(j), j = 1, . . . , N N Wenn X1, . . . , XN u.i.v. N (µ, σ 2)-verteilt: Normal Plot ungefähr Gerade Wenn Daten mehr extreme Werte enthalten als normalverteilte: Normal Plot ungefähr Z -förmig Wenn Daten rechtsschief sind: Normal Plot gekrümmt mit nach rechts abnehmender Steigung Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.9 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.10 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.11 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.12 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.13 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.14 Probability Plots (Wahrscheinlichkeitsnetze, Wahrscheinlichkeitspapier) auch für andere Verteilungen mit Verteilungsfunktion F : j −1 Plotte Quantile F ( ) gegen X(j), j = 1, . . . , N N Wenn X1, . . . , XN u.i.v. mit (bis auf Verschiebung und Skalierung) Verteilungsfunktion F (Beispiel Exp): Probability Plot ungefähr Gerade Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.15 Versuchsplanung: Modell: Regressionsgerade Yj = b0 + b1xj + ej , j = 1, . . . , N . Mittel für N Experimente vorhanden - wie kann man x1, . . . , xN so wählen, dass die Daten möglichst informativ sind? Hier: a) b0, b1 möglichst genau schätzen b) Gültigkeit des Modells überprüfbar ANOVA oder Varianzanalyse : Additives 2-Faktor-Modell: 2 Faktoren x, u, Daten Yx,u,j sind unabhängig, normalverteilt mit EYx,u,j = µ + αx + βu, j = 1, . . . , n, x = 1, . . . , mx, u = 1, . . . , mu Balanciertes Design - alle Teilstichproben haben denselben Umfang n. Teste, ob Faktor Mittelwert beeinflusst: H 0 : α1 = . . . = αm x = 0 oder H0 : β1 = . . . = βmu = 0 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.16 Unabhängigkeit von Zufallsvariablen X, Y unabhängig, wenn Ws(X ∈ A und Y ∈ B) = Ws(X ∈ A)·Ws(Y ∈ B) für alle A, B Falls Dichten: p(x, y) = px(x) · py (y) für alle x, y X, Y gemeinsam normalverteilt unabhängig ⇐⇒ unkorreliert, d.h. ρ = corr(X, Y ) = 0 Alternative: X, Y unabhängig, wenn Kenntnis von X die Einschätzung, welche Werte von Y besonders wahrscheinlich sind, nicht ändert bedingte Wahrscheinlichkeit und bedingter Erwartungswert Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.17 Hat das Ereignis {X ∈ A} positive Wahrscheinlichkeit, ist die bedingte Wahrscheinlichkeit für {Y ∈ B} gegeben {X ∈ A} Ws(X ∈ A und Y ∈ B) Ws Y ∈ B X ∈ A = Ws(X ∈ A) X, Y unabhängig, wenn Ws Y ∈ B X ∈ A = Ws(Y ∈ B) für alle A, B Die bedingte Wahrscheinlichkeit kann auch für Ws(X ∈ A) = 0 definiert werden. Haben X, Y zum Beispiel eine gemeinsame Dichte p(x, y), so ist die bedingte Dichte von Y gegeben X = x p(x, y) p(y | x) = px(x) und Z Ws Y ∈ B X = x = p(y | x)dy B bedingter Erwartungswert Z E Y X = x} = y p(y | x)dy n = beste Vorhersage für Y , wenn X = x bekannt ist. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.19 Operationscharakteristik = Annahmewahrscheinlichkeit für n = 30 und n = 60, M = 0, 05N (+) bzw. M = 0, 01N (*) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.20 Anwendung: Zweistufige Abnahmekontrolle Kontrollschema (Xi = Ánzahl defekter in i. Stichprobe): 1) Ziehe 1. Stichprobe vom Umfang n1 = 30 • X1 = 0 akzeptiere Lieferung • X1 = 1 ziehe 2. Stichprobe • X1 > 1 lehne Lieferung ab 2) Ziehe 2. Stichprobe vom Umfang n2 = 60 • X2 ≤ c akzeptiere Lieferung • X2 > c lehne Lieferung ab OCM,N (c) = Ws( Lieferung wird angenommen) = ? OCM,N (c) = Ws X1 = 0 + Ws X1 = 1, X2 ≤ c = Ws X1 = 0 + Ws X2 ≤ c X1 = 1 · Ws X1 = 1 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.21 OCM,N (c) = Ws X1 = 0 + Ws X2 ≤ c X1 = 1 · Ws X1 = 1 X1 ist H(n1, M, N )-verteilt M N −M k n −k 1 , Ws X1 = k = N n1 k = 0, 1 Wenn X1 = 1, dann ist X2 H(n2, M −1, N −n1)-verteilt N −n −(M −1) M −1 1 k n2 −k Ws X2 = k X1 = 1 = , k = 0, 1, . . . N −n1 n2 c X Ws X2 ≤ c X1 = 1 = Ws X2 = k X1 = 1 k=0 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.22 Kontingenztafeln und Unabhängigkeitstest (Skript 5.7) Zwei Merkmale mit je endlich vielen Werten a1, . . . , am bzw. b1, . . . , bn. Setze X = k, wenn 1. Merkmal = ak Y = `, wenn 2. Merkmal = b` X, Y abhängig? Daten: (X1, Y1), . . . , (XN , YN ) Modell: (Xj , Yj ), j = 1, . . . , N, u.i.v. mit Werten in {(k, `), k = 1, . . . , m, ` = 1, . . . , n}, Wahrscheinlichkeitsgewichte pk` = Ws Xj = k, Yj = ` , k = 1, . . . , m, ` = 1, . . . , n. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.23 pk` = Ws Xj = k, Yj = ` , k = 1, . . . , m, ` = 1, . . . , n. Notation: pk• = pk1 + . . . + pkn, p•` = p1` + . . . + pm` pk• = Ws(Xj = k), p•` = Ws(Yj = `) Unabhängigkeit heißt: Für alle k, ` pk` = Ws(Xj = k, Yj = `) = Ws(Xj = k) · Ws(Yj = `) = pk• · p•`. Für Datenanalyse reicht (wegen u.i.v.-Annahme): Z k` = Anzahl der (Xj , Yj ) mit Xj = k und Yj = ` Zk`, 1 ≤ k ≤ m, 1 ≤ ` ≤ n als Tabelle mit m Zeilen und n Spalten (m × n)-Kontingenztafel. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.24 Beispiel: X = Beurteilung der Leistung im Beruf nach 2 Jahren ∈ {1, 2, 3} Y = Studienabschlussnote ∈ {1, 2, 3} N = 400 Mitarbeiter Beruf 1 2 3 Spaltensummen Studium 1 2 3 63 49 9 60 79 28 29 60 23 152 188 60 Zeilensummen 121 167 112 400 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.25 Z•` = Anzahl der j mit Yj = `, N = m X n X Zk• = Anzahl der j mit Xj = k. m X Zk` = k=1 `=1 Zk• = k=1 n X Z•` `=1 (m × n)-Kontingenztafel Yj 1 Xj 2 ... m Spaltensummen 1 Z11 Z21 ... Zm1 Z•1 2 Z12 Z22 ... Zm2 Z•2 ... ... ... ... ... n Z1n Z2n ... Zmn Z•n Zeilensummen Z1• Z2• ... Zm• N Unter dem Modell ist Z = (Z11, Z12, . . . , Zmn) multinomial verteilt mit Parameter (N, p11, p12, . . . , pmn). Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.26 Unter der Hypothese pk` = pk• · p•` = p0 k`, haben die Klassenwahrscheinlichkeiten eine bestimmte Form, die aber von unbekannten Größen abhängt H0 : Xj , Yj unabhängig , d.h. Chi-Quadrat-Anpassungstest mit geschätzten Parametern p0 k`. Schätzer für pk`, da Zk` B(N, pk`)-verteilt: Z p̂k` = k` N Schätzer für pk•, p•`, da z.B. Zk• B(N, pk•)-verteilt ist mit pk• = Ws(Xj = k): p̂k• = Zk• Z , p̂•` = •` , p̂0 k` = p̂k• · p̂•` N N Intuition: Akzeptiere H0, wenn p̂k` ≈ p̂0 k` = p̂k• · p̂•` für alle k = 1, . . . , m, ` = 1, . . . , n Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.27 Chi-Quadrat-Statistik m X n (Z − N p̂0 )2 m X n (Z − 1 Z · Z )2 X X k` •` k` k` N k• D= = . 0 1 N p̂k` k=1 `=1 k=1 `=1 N Zk• · Z•` Wenn H0 wahr ist und N groß genug (Faustregel mit mn Klas-verteilt, da zur Berechnung von sen), ist D ungefähr χ2 (m−1)·(n−1) p̂0 k` insgesamt m + n − 2 Parameter geschätzt werden müssen. Chi-Quadrat-Unabhängigkeitstest, Niveau α Hypothese pk` = pk• · p•` für alle k, `, d.h. Xj , Yj unabhängig Alternative H0 verwerfen, wenn Xj , Yj abhängig D > χ2 (m−1)·(n−1),1−α 2 wobei χ2 d,β = β-Quantil der χd -Verteilung. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.28 Beispiel: H0 : Leistung im Studium und im Beruf unabhängig. Zk`, Zk• (Zeilensumme), Z•` (Spaltensumme) direkt aus Kontingenztafel ablesbar, z.B. 1 Z Z 1 121 · 152 = 46, 0 = 1• •1 N 400 1 121 · 188 = 56, 9 1 Z Z = 1• •2 N 400 1 Z Z 1 112 · 60 = 16, 8 = 3• •3 N 400 (63 − 46, 0)2 (49 − 56, 9)2 (23 − 16, 8)2 + + ... + = 20, 34 D= 46, 0 56, 9 16, 8 Freiheitsgrade (m − 1) · (n − 1) = 2 · 2 = 4. Für α = 0, 01 ergibt die Tabelle χ2 4,0,99 = 13, 28 Da D > 13, 28, kann H0 auf dem 1%-Niveau verworfen werden. Anhand der Daten sind wir ziemlich sicher, dass Leistung in Studium und Beruf etwas miteinander zu tun haben. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.29 Beispiel: Nützt Airbag im PKW? N = 418 schwere Auffahrunfälle - hat der Fahrer überlebt? 2 × 2-Kontingenztafel tot überlebt mit Airbag 24 105 129 Erwartet unter H0 38,6 N p̂0 kl 90,4 α = 1% ohne Airbag 101 188 289 125 293 418 86,4 202,6 χ2 1,0,99 = 6, 64 D = 11, 40 > 6, 64 H0 verwerfen auf Niveau 1% hilft beim Überleben Airbag Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.30 Fallstudie (Daten USA, Mitte 90er Jahre) Wie wählen Firmen der Elektronikindustrie ihre Zulieferer aus? Vergangenheit: im wesentlichen über den Preis. Im Studienzeitraum rückt Qualität in den Vordergrund. Gibt es Unterschiede zwischen kleinen und großen Firmen? 87 kleine und 123 große Firmen mit Jahresumsatz von im Durchschnitt 33 M$ bzw. 583 M$. Frage nach Reihenfolge der Bedeutung verschiedener Kriterien (Qualität, Preis, aktuelle Technik) für die Beschaffung. Gezählt wurde, wie viele Firmen einem Kriterium den 1., 2. oder 3. Rang bei der Beschaffungsentscheidung zuweisen. Prof. Dr. J. Franke Qualität Rang 1 2 3 Statistik II für Wirtschaftswissenschaftler 8.31 Firmengröße klein groß 48 70 17 27 7 6 aktuelle Technik Rang 1 2 3 m = 3, n = 2 Preis Rang 1 2 3 Firmengröße klein groß 8 14 29 36 26 37 Firmengröße klein groß 5 13 8 5 5 12 (m − 1) · (n − 1) = 2 Beschaffungsverfahren unabhängig von Firmengröße? Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.32 α = 0, 05, χ2 2,0,95 = 5, 99 Qualität: D = 0, 991 Preis: D = 0, 483 H0 akzeptieren H0 akzeptieren aktuelle Technik: D = 1, 026 H0 akzeptieren Die Daten liefern keinen Hinweis, dass es Unterschiede zwischen kleinen und großen Firmen gibt.