(l(X + a) = l(X) + a ): • Erwartungswert EX

Werbung
Statistik II für Wirtschaftswissenschaftler
8.1
Schätzer für Lage- und Skalenparameter
und Verteilungsmodellwahl
Lageparameter (l(X + a) = l(X) + a):
• Erwartungswert EX
• Median von X = 1
2 -Quantil q0,5 :
1
Ws(X ≤ q0,5) = 2
(wenn X Dichte hat)
Schätzer (vgl. Kapitel 1):
• Stichprobenmittel X N
•
• Stichprobenmedian X N
Wenn X symmetrische Dichte hat, gilt:
Wenn X rechtsschiefe Dichte hat, gilt:
EX = q0,5
EX q0,5
Statistik II für Wirtschaftswissenschaftler
8.2
Wenn X1, . . . , XN u.i.v.
• normal- oder uniform-verteilt
•
XN ≈ XN
• lognormal-, Weibull- oder speziell Exponential-verteilt
•
XN XN
Statistik II für Wirtschaftswissenschaftler
8.3
Genauer: X1, . . . , XN u.i.v. Exp(λ)-verteilt
EX = 1
λ,
Ws(X ≤ q0,5) = 1 − eλq0,5 = 1
2
ln 2
= 0, 693 EX
q0,5 =
λ
•
X N ≈ 0, 693 X N
Skalenparameter (s(X + a) = s(X), s(c · X) = c · s(X), c > 0):
√
• Standardabweichung σ(X) = var X
• Quartilenabstand Q(X) = q0,75 − q0,25
Schätzer (vgl. Kapitel 1):
• Stichprobenstandardabweichung sN
• Stichprobenviertelweite dvN
Statistik II für Wirtschaftswissenschaftler
8.4
Quartile q0,25, q0,75 von N (µ, σ 2) : µ ± 0, 675 σ, da z.B.
Ws(X ≤ µ+0, 675 σ) = Ws µ+σZ ≤ µ+0, 675 σ = Ws(Z ≤ 0, 675) = 0, 75
mit standardnormalverteiltem Z.
Quartilenabstand von N (µ, σ 2) :
Q(X) = 1, 35 σ
Für normalverteilte Daten gilt daher:
dvN ≈ 1, 35 sN
2
Exponentialverteilung:
1 ≈X
s2
≈
var
X
=
N
N
λ2
Poissonverteilung:
s2
N ≈ var X = λ ≈ X N
Statistik II für Wirtschaftswissenschaftler
8.5
Anwendung I:
Viertelweite, Ausreißer und 3 σ-Regel
Für N (µ, σ 2)-verteiltes X:
Quartile µ ± 0, 675 σ,
Quartilenabstand Q(X) = 1, 35 σ
Kapitel 1 (Boxplot):
Ausreißer = Messwert, der um mehr als das 1,5 fache der
Stichprobenviertelweite dvN unterhalb (oberhalb) des unteren (oberen) Viertelwerts liegt.
Ws(X ≥ µ + 0, 675 σ + 1, 5 · 1, 35 σ) = 1 − Ws(X ≤ µ + 2, 7 σ)
= 1 − Φ(2, 7) = 0, 0035
Ws( Ausreißer ) = 0, 007
sehr selten (7 von Tausend)
Statistik II für Wirtschaftswissenschaftler
8.6
Qualitätskontrolle: 3 σ-Regel
Ws(X ≥ µ + 3 σ) = 0, 0013,
Ws(X − µ ≥ 3 σ) = 0, 0026
Variabilität der Produktqualität (≡ σ) nur so groß, dass maximal
2,6 von Tausend nicht den Ansprüchen genügen.
Nicht ausreichend für Luftfahrt, Medikamentenproduktion, ...
Six Sigma als Firmenphilosophie im Produkt- und Prozessentwicklungsbereich (Motorola, in großem Maßstab dann bei GE)
Heute: Weltweit bei zahlreichen Großunternehmen, auch im Dienstleistungssektor
Von Zulieferern wird Nachweis der Six-Sigma-Qualität in den
Produktionsprozessen verlangt.
Statistik II für Wirtschaftswissenschaftler
Ws(X − µ ≥ 6 σ) = 0, 00034%
Anforderung: nur 3,4 von 1 Million Produkte ungenügend
De facto ausschussfreie Produktion als Ziel
Dazu kommen bei Produkt- und Prozessentwicklung strukturierte
DMAIC-Prozesse (Define - Measure - Analyze - Improve - Control) und Prozessmanagement-Techniken zum Einsatz (Design
for Six Sigma, DFSS)
Statistische Toolbox:
Histogramm, Paretodiagramm, ...
Statistische Versuchsplanung (Design of Experiments), Regressionsanalyse, Multivariate Analyse, statistische Testverfahren (FTest, ANOVA), Wahrscheinlichkeitsnetz (Normal Plot)
8.7
Statistik II für Wirtschaftswissenschaftler
8.8
Wahrscheinlichkeitsnetz oder Normal (probability) Plot:
X(1) ≤ X(2) ≤ . . . ≤ X(N )
1) Ordne Daten: X1, . . . , XN
2) Plotte Quantile
Φ−1(
j
) gegen X(j), j = 1, . . . , N
N
Wenn X1, . . . , XN u.i.v. N (µ, σ 2)-verteilt:
Normal Plot ungefähr Gerade
Wenn Daten mehr extreme Werte enthalten als normalverteilte:
Normal Plot ungefähr
Z
-förmig
Wenn Daten rechtsschief sind:
Normal Plot gekrümmt mit nach rechts abnehmender
Steigung
Statistik II für Wirtschaftswissenschaftler
8.9
Statistik II für Wirtschaftswissenschaftler
8.10
Statistik II für Wirtschaftswissenschaftler
8.11
Statistik II für Wirtschaftswissenschaftler
8.12
Statistik II für Wirtschaftswissenschaftler
8.13
Statistik II für Wirtschaftswissenschaftler
Probability Plots (Wahrscheinlichkeitsnetze, Wahrscheinlichkeitspapier) auch für andere Verteilungen mit Verteilungsfunktion F :
j
−1
Plotte Quantile
F ( ) gegen X(j), j = 1, . . . , N
N
Wenn X1, . . . , XN u.i.v. mit (bis auf Verschiebung und Skalierung)
Verteilungsfunktion F (Beispiel Exp):
Probability Plot ungefähr Gerade
8.14
Statistik II für Wirtschaftswissenschaftler
8.15
Versuchsplanung:
Modell: Regressionsgerade Yj = b0 + b1xj + ej , j = 1, . . . , N .
Mittel für N Experimente vorhanden - wie kann man x1, . . . , xN
so wählen, dass die Daten möglichst informativ sind? Hier:
a) b0, b1 möglichst genau schätzen
b) Gültigkeit des Modells überprüfbar
ANOVA oder Varianzanalyse :
Additives 2-Faktor-Modell: 2 Faktoren x, u, Daten Yx,u,j sind
unabhängig, normalverteilt mit
EYx,u,j = µ + αx + βu, j = 1, . . . , n, x = 1, . . . , mx, u = 1, . . . , mu
Balanciertes Design - alle Teilstichproben haben denselben Umfang n. Teste, ob Faktor Mittelwert beeinflusst:
H 0 : α1 = . . . = αm x = 0
oder
H0 : β1 = . . . = βmu = 0
Statistik II für Wirtschaftswissenschaftler
8.16
Unabhängigkeit von Zufallsvariablen
X, Y unabhängig, wenn
Ws(X ∈ A und Y ∈ B) = Ws(X ∈ A)·Ws(Y ∈ B)
für alle A, B
Falls Dichten: p(x, y) = px(x) · py (y) für alle x, y
X, Y gemeinsam normalverteilt
unabhängig ⇐⇒ unkorreliert, d.h. ρ = corr(X, Y ) = 0
Alternative: X, Y unabhängig, wenn Kenntnis von X die Einschätzung,
welche Werte von Y besonders wahrscheinlich sind, nicht ändert
bedingte Wahrscheinlichkeit und bedingter Erwartungswert
Statistik II für Wirtschaftswissenschaftler
8.17
Hat das Ereignis {X ∈ A} positive Wahrscheinlichkeit, ist die
bedingte Wahrscheinlichkeit für {Y ∈ B} gegeben {X ∈ A}
Ws(X ∈ A und Y ∈ B)
Ws Y ∈ B X ∈ A =
Ws(X ∈ A)
X, Y unabhängig, wenn
Ws Y ∈ B X ∈ A = Ws(Y ∈ B)
für alle A, B
Die bedingte Wahrscheinlichkeit kann auch für Ws(X ∈ A) =
0 definiert werden. Haben X, Y zum Beispiel eine gemeinsame
Dichte p(x, y), so ist die bedingte Dichte von Y gegeben X = x
p(x, y)
p(y | x) =
px(x)
und
Z
Ws Y ∈ B X = x =
p(y | x)dy
B
bedingter Erwartungswert
Z
E Y X = x} = y p(y | x)dy
n
= beste Vorhersage für Y , wenn X = x bekannt ist.
Statistik II für Wirtschaftswissenschaftler
Operationscharakteristik = Annahmewahrscheinlichkeit für
n = 30 und n = 60, M = 0, 05N (+) bzw. M = 0, 01N (*)
8.19
Statistik II für Wirtschaftswissenschaftler
8.20
Anwendung: Zweistufige Abnahmekontrolle
Kontrollschema (Xi = Ánzahl defekter in i. Stichprobe):
1) Ziehe 1. Stichprobe vom Umfang n1 = 30
• X1 = 0
akzeptiere Lieferung
• X1 = 1
ziehe 2. Stichprobe
• X1 > 1
lehne Lieferung ab
2) Ziehe 2. Stichprobe vom Umfang n2 = 60
• X2 ≤ c
akzeptiere Lieferung
• X2 > c
lehne Lieferung ab
OCM,N (c) = Ws( Lieferung wird angenommen) = ?
OCM,N (c) = Ws X1 = 0 + Ws X1 = 1, X2 ≤ c
= Ws X1 = 0 + Ws X2 ≤ c X1 = 1 · Ws X1 = 1
Statistik II für Wirtschaftswissenschaftler
8.21
OCM,N (c) = Ws X1 = 0 + Ws X2 ≤ c X1 = 1 · Ws X1 = 1
X1 ist H(n1, M, N )-verteilt
M
N
−M
k
n −k
1
,
Ws X1 = k =
N
n1
k = 0, 1
Wenn X1 = 1, dann ist X2 H(n2, M −1, N −n1)-verteilt
N
−n
−(M
−1)
M
−1
1
k
n2 −k
Ws X2 = k X1 = 1 =
, k = 0, 1, . . .
N −n1
n2
c
X
Ws X2 ≤ c X1 = 1 =
Ws X2 = k X1 = 1
k=0
Statistik II für Wirtschaftswissenschaftler
8.22
Kontingenztafeln und Unabhängigkeitstest (Skript 5.7)
Zwei Merkmale mit je endlich vielen Werten a1, . . . , am bzw. b1, . . . , bn.
Setze
X = k, wenn 1. Merkmal = ak
Y = `, wenn 2. Merkmal = b`
X, Y abhängig?
Daten: (X1, Y1), . . . , (XN , YN )
Modell: (Xj , Yj ), j = 1, . . . , N, u.i.v. mit Werten in
{(k, `), k = 1, . . . , m, ` = 1, . . . , n}, Wahrscheinlichkeitsgewichte
pk` = Ws Xj = k, Yj = ` , k = 1, . . . , m, ` = 1, . . . , n.
Statistik II für Wirtschaftswissenschaftler
8.23
pk` = Ws Xj = k, Yj = ` , k = 1, . . . , m, ` = 1, . . . , n.
Notation: pk• = pk1 + . . . + pkn,
p•` = p1` + . . . + pm`
pk• = Ws(Xj = k), p•` = Ws(Yj = `)
Unabhängigkeit heißt: Für alle k, `
pk` = Ws(Xj = k, Yj = `) = Ws(Xj = k) · Ws(Yj = `) = pk• · p•`.
Für Datenanalyse reicht (wegen u.i.v.-Annahme):
Z k` = Anzahl der (Xj , Yj ) mit Xj = k und Yj = `
Zk`, 1 ≤ k ≤ m, 1 ≤ ` ≤ n als Tabelle mit m Zeilen und n Spalten
(m × n)-Kontingenztafel.
Statistik II für Wirtschaftswissenschaftler
8.24
Beispiel:
X = Beurteilung der Leistung im Beruf nach 2 Jahren ∈ {1, 2, 3}
Y = Studienabschlussnote ∈ {1, 2, 3}
N = 400 Mitarbeiter
Beruf
1
2
3
Spaltensummen
Studium
1
2
3
63
49
9
60
79 28
29
60 23
152 188 60
Zeilensummen
121
167
112
400
Statistik II für Wirtschaftswissenschaftler
8.25
Z•` = Anzahl der j mit Yj = `,
N =
m X
n
X
Zk• = Anzahl der j mit Xj = k.
m
X
Zk` =
k=1 `=1
Zk• =
k=1
n
X
Z•`
`=1
(m × n)-Kontingenztafel
Yj
1
Xj
2
...
m
Spaltensummen
1
Z11
Z21
...
Zm1
Z•1
2
Z12
Z22
...
Zm2
Z•2
...
...
...
...
...
n
Z1n
Z2n
...
Zmn
Z•n
Zeilensummen
Z1•
Z2•
...
Zm•
N
Unter dem Modell ist Z = (Z11, Z12, . . . , Zmn) multinomial verteilt mit Parameter (N, p11, p12, . . . , pmn).
Statistik II für Wirtschaftswissenschaftler
Unter der Hypothese
pk` = pk• · p•` = p0
k`,
haben die Klassenwahrscheinlichkeiten eine bestimmte Form, die
aber von unbekannten Größen abhängt
H0 : Xj , Yj unabhängig , d.h.
Chi-Quadrat-Anpassungstest mit geschätzten Parametern p0
k`.
Schätzer für pk`, da Zk` B(N, pk`)-verteilt:
Z
p̂k` = k`
N
Schätzer für pk•, p•`, da z.B. Zk• B(N, pk•)-verteilt ist mit pk• =
Ws(Xj = k):
p̂k• =
Zk•
Z
, p̂•` = •` , p̂0
k` = p̂k• · p̂•`
N
N
Intuition: Akzeptiere H0, wenn
p̂k` ≈ p̂0
k` = p̂k• · p̂•`
für alle k = 1, . . . , m, ` = 1, . . . , n
8.26
Statistik II für Wirtschaftswissenschaftler
8.27
Chi-Quadrat-Statistik
m X
n (Z − N p̂0 )2
m X
n (Z − 1 Z · Z )2
X
X
k`
•`
k`
k`
N k•
D=
=
.
0
1
N p̂k`
k=1 `=1
k=1 `=1
N Zk• · Z•`
Wenn H0 wahr ist und N groß genug (Faustregel mit mn Klas-verteilt, da zur Berechnung von
sen), ist D ungefähr χ2
(m−1)·(n−1)
p̂0
k` insgesamt m + n − 2 Parameter geschätzt werden müssen.
Chi-Quadrat-Unabhängigkeitstest, Niveau α
Hypothese
pk` = pk• · p•`
für alle k, `, d.h.
Xj , Yj unabhängig
Alternative
H0 verwerfen, wenn
Xj , Yj abhängig
D > χ2
(m−1)·(n−1),1−α
2
wobei χ2
d,β = β-Quantil der χd -Verteilung.
Statistik II für Wirtschaftswissenschaftler
Beispiel:
H0 : Leistung im Studium und im Beruf unabhängig.
Zk`, Zk• (Zeilensumme), Z•` (Spaltensumme) direkt aus Kontingenztafel ablesbar, z.B.
1 Z Z
1 121 · 152 = 46, 0
=
1•
•1
N
400
1 121 · 188 = 56, 9
1 Z Z
=
1•
•2
N
400
1 Z Z
1 112 · 60 = 16, 8
=
3•
•3
N
400
(63 − 46, 0)2
(49 − 56, 9)2
(23 − 16, 8)2
+
+ ... +
= 20, 34
D=
46, 0
56, 9
16, 8
Freiheitsgrade (m − 1) · (n − 1) = 2 · 2 = 4. Für α = 0, 01 ergibt
die Tabelle χ2
4,0,99 = 13, 28
Da D > 13, 28, kann H0 auf dem 1%-Niveau verworfen werden.
Anhand der Daten sind wir ziemlich sicher, dass Leistung in Studium und Beruf etwas miteinander zu tun haben.
8.28
Statistik II für Wirtschaftswissenschaftler
8.29
Beispiel: Nützt Airbag im PKW?
N = 418 schwere Auffahrunfälle - hat der Fahrer überlebt?
2 × 2-Kontingenztafel
tot
überlebt
mit Airbag
24
105
129
Erwartet unter H0
38,6
N p̂0
kl
90,4
α = 1%
ohne Airbag
101
188
289
125
293
418
86,4
202,6
χ2
1,0,99 = 6, 64
D = 11, 40 > 6, 64
H0 verwerfen auf Niveau 1%
hilft beim Überleben
Airbag
Statistik II für Wirtschaftswissenschaftler
Fallstudie (Daten USA, Mitte 90er Jahre)
Wie wählen Firmen der Elektronikindustrie ihre Zulieferer aus?
Vergangenheit: im wesentlichen über den Preis. Im Studienzeitraum rückt Qualität in den Vordergrund.
Gibt es Unterschiede zwischen kleinen und großen Firmen?
87 kleine und 123 große Firmen mit Jahresumsatz von im Durchschnitt 33 M$ bzw. 583 M$.
Frage nach Reihenfolge der Bedeutung verschiedener Kriterien
(Qualität, Preis, aktuelle Technik) für die Beschaffung. Gezählt
wurde, wie viele Firmen einem Kriterium den 1., 2. oder 3. Rang
bei der Beschaffungsentscheidung zuweisen.
8.30
Statistik II für Wirtschaftswissenschaftler
Qualität
Rang
1
2
3
Firmengröße
klein groß
48
70
17
27
7
6
aktuelle Technik
Rang
1
2
3
m = 3, n = 2
8.31
Preis
Rang
1
2
3
Firmengröße
klein groß
8
14
29
36
26
37
Firmengröße
klein groß
5
13
8
5
5
12
(m − 1) · (n − 1) = 2
Beschaffungsverfahren unabhängig von Firmengröße?
Statistik II für Wirtschaftswissenschaftler
8.32
α = 0, 05, χ2
2,0,95 = 5, 99
Qualität: D = 0, 991
Preis: D = 0, 483
H0 akzeptieren
H0 akzeptieren
aktuelle Technik: D = 1, 026
H0 akzeptieren
Die Daten liefern keinen Hinweis, dass es Unterschiede zwischen
kleinen und großen Firmen gibt.
Herunterladen