Statistik- Formel

Werbung
Formelsammlung in Statistik
Häufigkeitsverteilung und Summenverteilung
Zählindices
i = 1, . . . , n zählt die Elemente der Urliste
j = 1, . . . , m zählt die Merkmalsausprägungen
k = 1, . . . , K zählt die Klassen
Klassierung von Daten
xuk mit xuk+1 > xuk : untere Klassengrenze
xok = xuk+1 obere Klassengrenze
x∗k = 21 (xuk + xok ) Klassenmitte (manchmal auch einfach xk )
∆xk = xok − xuk Klassenbreite
absolute Häufigkeit
hj bzw. hk
relative Häufigkeit
fj =
hj
hk
bzw. fk =
n
n
Häufigkeitsdichten
hD
k =
fk
hk
, fkD =
∆xk
∆xk
absolute Summenhäufigkeit
Hj = H(X ≤ xj ) =
j
X
(nur klassierte Daten!)
hj ′
(für Klassen analog mit k)
j ′ =1
H(X > xj ) = n − H(X ≤ xj )
relative Summenhäufigkeit
Fj = F (X ≤ xj ) =
j
X
fj ′ = Hj /n
j ′ =1
F (X > xj ) = 1 − F (X ≤ xj )
Empirische Verteilungsfunktion (nichtklassierte Daten)
Empirische Verteilungsfunktion (klassierte Daten)
Empirische Dichtefunktion
(nur klassierte Daten)



0 falls x < x1 ,
F (x) =  1 falls x > xm ,

Fj falls xj ≤ x < xj+1




0
falls x < xu1 ,
falls x ≥ xoK ,
F (x) = 1
u


 Fk−1 + x−xk fk falls xu ≤ x < xo
k
k
∆xk
dF (x)
=
f (x) =
dx
1
(
0
falls x < xu1 oder x > xoK ,
D
fk falls xuk ≤ x < xok
Lagemaße (Mittelwerte & Co)
arithmetisches Mittel
n
1X
x̄ =
xi
n i=1
(aus der Urliste)
m
m
X
1X
fj xj
hj xj =
=
n j=1
j=1
≈
K
K
X
1X
hk x∗k =
fk x∗k
n k=1
k=1
arithmetisches Mittel der
Linearkombination Y=a+bx
ȳ = a + bx̄
harmonisches Mittel
n
x̄H = Pn
geometrisches Mittel
x̄G =
n
Y
(aus klassierten Daten)
1
bzw.
1
i=1 xi
bzw.
m
X
fj
j=1 xj
1
K
X
fk
x∗
k=1 k
!1
n
xi
i=1
Modus bzw. Dichtemittel
(klassierte Daten)
(aus den Merkmalsausprägungen)
x̄D = xuk̂ +
D
fk̂D − fk̂−1
D
D
2fk̂D − fk̂−1
− fk̂+1
∆xk̂
k̂: Klassenindex der Klasse mit
maximaler Häufigkeitsdichte
Median bzw. Zentralwert
(geordnete Urliste)
x0.5



x[ n+1 ]
(n ungerade)
2
=

 21 x[ n ] + x[ n +1]
(n gerade)
2
2
Median bzw. Zentralwert
(klassierte Daten)
0.5 − Fk′ −1
∆xk′
fk′
mit k ′ so dass Fk′ −1 < 0.5, aber Fk′ ≥ 0.5,
also die Klasse k ′ , innerhalb der F den Wert 0.5 annimmt.
q-Quantil
q − Fk′ −1
∆xk′
fk′
mit k ′ so dass Fk′ −1 < q, aber Fk′ ≥ q,
also die Klasse k ′ , innerhalb der F den Wert q annimmt.
x0.5 = xuk′ +
xq = xuk′ +
2
Streuungsmaße
Bei klassierten Daten (Klassen k = 1, . . . , K) gelten alle Gleichungen nur näherungsweise.1
Varianz
s2x =
n
1X
(xi − x̄)2
n i=1
bzw.
K
X
k=1
fk (x∗k − x̄)2
In der Stichprobentheorie: zusätzlicher Faktor n/(n − 1)
Varianz der
Linearkombination Y=a+bx
s2y = b2 s2x
Standardabweichung
sx =
Variationskoeffizient
V =
Verschiebungssatz
n
X
i=1
q
s2x
sx
x̄
(nur sinnvoll, wenn alle xi > 0)
(xi − x̄)2 =
K
X
n
X
i=1
(x∗k − x̄)2 fk =
k=1
x2i − nx̄2 bzw.
K
X
(x∗k )2 fk − x̄2
k=1
Spannweite
R = xmax − xmin
mittlere absolute
Abweichung
sMAD =
Interquartilsabstand
sIQ = x0.75 − x0.25
n
1X
|xi − x0.5 |
n i=1
Weitere Maße für die Verteilungsform
MN =
N-tes zentrales Moment
MN =
MN =
n
1X
(xi − x̄)N (Urliste)
n i=1
m
X
(xj − x̄)N fj (Merkmalsausprägungen)
j=1
K
X
(x∗k − x̄)N fk (klassierte Daten)
k=1
Schiefe
Γ=
M3
s3x
Exzess (“Kurtosis”)
K=
M4
−3
s4x
1
Die Formeln hängen sehr von der Verteilung innerhalb der Klassen ab. Auch bei Gleichverteilung innerhalb
der Klasen ist die aus klassierten Daten ermittelte Stichprobenvarianz nicht erwartungstreu, obwohl dies in
den meisten Skripten und Lehrbüchern impliziert wird.
3
Konzentrationsmaße
Merkmalssumme
M=
n
X
xi = nx̄ =
i=1
K
X
x∗k hk (letzteres für klassierte Daten)
k=1
relativer Anteil an M
pi =
xi
x∗ hk
x∗ fk
bzw. pk = k = k
M
M
x̄
kumulierter relativer Anteil
Pi =
i
X
pi′ (Urliste und klassierte Daten)
i′ =1
Herfindahl-Index
KH =
n
X
p2i
n
Y
ppi i = pp11 pp22 . . . ppnn
i=1
Exponentialindex
KE =
i=1
Punkte der Lorenzkurve
Gini-Koeffizient
(0, 0) und (Fi , Pi ), i = 1, . . . , n bzw. 1, . . . , K
mit Fi der üblichen relativen Summenhäufigkeit.
n
X
n−1
X
1
1
G = 1 − (Pi + Pi−1 ) = 1 −
Pi + Pn
2
n
n
i=1
i=1
=1−
K
X
!
(Urliste)
(Pk + Pk−1 )fk (klassierte Daten)
k=1
Verhältnis- und Indexzahlen
Wachstumsfaktor
Preisindex von Laspeyres
It =
(L)
P0t
xt
, Wachstumsrate rt = It − 1
xt−1
Preisindex von Paasche
Mengenindices von Laspeyres und Paasche
(L)
Q0t
Wertindex
pi (t)qi (0)
mit pi (t) den Preisen und qi (t) den
i=1 pi (0)qi (0)
= Pni=1
Mengen
(P)
P0t
Pn
Pn
pi (t)qi (t)
i=1 pi (0)qi (t)
= Pni=1
=
Pn
i=1 pi (0)qi (t)
,
Pn
i=1 pi (0)qi (0)
Pn
pi (t)qi (t)
i=1 pi (0)qi (0)
W0t = Pni=1
4
(P)
Q0t
Pn
pi (t)qi (t)
i=1 pi (t)qi (0)
= Pni=1
Bivariate Analyse: Kreuztabelle klassierter Daten
Relative Häufigkeit
f (xi , yj ) =
absolute Randhäufigkeiten
h(xi ) =
Ky
X
h(xi , yj )
n
h(xi , yj ), h(yj ) =
Kx
X
h(xi , yj )
i=1
j=1
h(yj )
h(xi )
, f (yj ) =
n
n
relative Randhäufigkeiten
f (xi ) =
bedingte relative
Häufigkeiten
f (xi |yj ) =
empirische Unabhängigkeit
f (xi , yj ) = f (xi )f (yj ) für alle i, j
Arithmetische Mittelwerte
Kx
Kx
X
1X
∗
x∗i f (xi )
xi h(xi ) =
x̄ =
n i=1
i=1
K
K
ȳ =
f (xi , yj )
h(xi , yj )
=
h(yj )
f (yj )
y
X
1 Xy ∗
yj∗ f (yj )
yj h(yj ) =
n j=1
j=1
5
Bivariate Analyse II: Regressionsanalyse:
(Empirische) Kovarianz
sxy =
n
1X
(xi − x̄)(yi − ȳ) (Urliste)
n i=1
sxy =
y
Kx X
1X
(x∗ − x̄)(yj∗ − ȳ)h(xi , yj ) (Kreuztabelle)
n i=1 j=1 i
K
Verschiebungssatz
Kovarianz
für
die
n
X
i=1
(xi − x̄)(yi − ȳ) =
XX
i
lineare Regression
j
n
X
i=1
xi yi − nx̄ȳ
(x∗i − x̄)(yj∗ − ȳ)h(xi , yj ) =
bzw.
XX
i
j
x∗i yj∗ h(xi , yj ) − nx̄ȳ
ŷ(x) = a + bx, a = ȳ − bx̄
b =
sxy
s2x
(allgemein)
P
xi yi − nx̄ȳ
= P 2
(Urliste)
xi − nx̄2
Minimiere F =
nichtlineare Regression
n
X
e2i =
n
X
i=1
i=1
(yi − ŷ(x, a, b, . . .))2
∂F
∂F
= 0,
= 0, . . .
bezüglich a, b, . . . ⇒
∂a
∂b
Grenzfunktion (=“absolute
Elastizitätsfunktion”)
g(x) =
(relative)
Elastizitätsfunktion
ǫyx =
Aufspaltung in erklärte und
nichterklärte Schwankung
(yi − ȳ) = ∆i + ei mit ∆i = ŷi − ȳ, ei = yi − ŷi
Additionsregel bei linearer
Regression
Bestimmtheitsmaß
n
X
i=1
dŷ
dx
x dŷ
ŷ dx
(yi − ȳ)2 =
n
X
6
Pn
i=1
Pn
∆2i
ns2y
n
X
e2i
i=1
i=1
B =1−U =1−
s2
B = ∆2 =
sy
∆2i +
2
i=1 ei
ns2y
=1−
s2e
(allgemein)
s2y
(lineare Regression)
Bivariate Analyse III: Korrelationsanalyse
(Maß)Korrelationskoeffizient
(nach Pearson)
rxy =
Zusammenhang
mit
Bestimmtheitsmaß der linearen
Regression
2
B = rxy
Rangkorrelationskoeffizient
nach Spearman
sxy
sx sy
rs = 1 −
6
Pn
(Rix − Riy )
n(n2 − 1)
2
i=1
Zeitreihen
Additive Aufspaltung
Yi = Ti + Ki + Si + Ui = Gi + Si + Ui
T = Trend, K = Konjunkturkomponente,
G = T + K = glatte Komponente, S = Saisonkomponente,
U = Rest.
multiplikative Aufspaltung
Yi = Ti Ki Si Ui = Gi Si Ui





1 i+m
P
yj
τ ungerade, m =
τ j=i−m
!
= 1 y
i+m−1
P
i−m + yi+m


yj
τ gerade, m = τ2 .
+

τ
2
j=i−m+1
gleitender Durchschnitt
der Ordnung τ
ȳi
exponentielle Glättung
ŷt = αyt + (1 − α)ŷt−1 , ŷ0 = y0
1
mit dem Glättungsparameter α = 1 − e− τ
Berechnung der Saisonfigur
(τ )
n
τ
1 X
1X
(τ )
e
(yij − ȳij ), Sj = Sj −
S̃j ′ ,
S̃j =
n i=1
τ j ′=1
i = Index der Perioden, j = Index innerhalb jeder Periode.
(τ )
Bei trendfreien Zeitreihen ist S̃j = Sj sowie ȳij = ȳ.
7
τ −1
,
2
Zufall und Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
P (A|B) = P (A, falls B eingetreten ist)
Stochastische
keit
P (A|B) = P (A) bzw. P (B|A) = P (B)
Unabhängig-
Additionstheorem
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Multiplikationstheorem
P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A)
Totale
Wahrscheinlichkeit
bei sich einander ausschließenden Ereignissen Ak
P (B) =
X
P (B|Ak )P (Ak )
Theorem von Bayes
P (Ak |B) =
P (B|Ak )P (Ak )
P (B)
k
Zufallsvariable (ZV) und Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion
diskreter ZV
p(xi ) = P (X = xi ) = pi
Verteilungsfunktion
ter ZV
F (x) = P (X ≤ x) =
diskre-
Wahrscheinlichkeitsdichte stetiger ZV
Verteilungsfunktion stetiger
ZV
Wahrscheinlichkeit eines Intervalls (X diskret oder stetig)
Erwartungswert
f (x) =
X
p(xi )
xi ≤x
dF
dx
F (x) = P (X ≤ x) =
Zx
f (x′ ) dx′
x′ =−∞
P (a ≤ X ≤ b) = F (b) − F (a)
P (X > a) = 1 − F (a)
P
E(X) =
i
=
xi p(xi )
(diskrete Zufallsvariable)
∞
R
xf (x) dx (stetige Zufallsvariable)
x=−∞
Varianz
V (X) = E(X − E(X))2
P
= [xi − E(X)]2 p(xi )
i
=
R∞
(diskrete Zufallsvariable)
[x − E(X)]2 f (x) dx (stetige Zufallsvariable)
x=−∞
Kovarianz
Cov(X, Y ) = E(XY ) − E(X)E(Y )
E(XY ) =
=
PP
xi yj p(xi , yj )
(diskrete Zufallsvariable)
xyf (x, y) dx dy
(ststige Zufallsvariable)
i j
∞
R
R ∞
−∞ −∞
8
Diskrete theoretische Verteilungen
n! = n · (n − 1) · (n − 2) · · · (1)
Fakultät
N
n
Binomialkoeffizient
Binomialverteilung
X ∼ B(n; θ)
Hypergeometrische
lung X ∼ H(N; n; M)
!
N!
N(N − 1) . . . (N − n + 1)
=
n!
n!(N − n)!
=
P (X = x) =
Vertei-
Poissonverteilung
X ∼ Po(µ)
(n,θ)
pB (x)
(N,n,M )
P (X = x) = pH
P (X = x) =
(µ)
pP (x)
=
(x) =
n
x
!
M
x
µx e−µ
=
x!
θx (1 − θ)n−x
N
n
N −M
n−x
Stetige theoretische Verteilungen
Dichte der Gleichverteilung
X ∼ G(a, b)
Exponentialverteilung
X ∼ E(λ)
(a,b)
fG (x)
(λ)
fE (x)
=
=
(
(
1
b−a
0
falls a ≤ x ≤ b,
sonst.
q
λe−λx x ≥ 0
E(X) = V (X) =
0
sonst,
Zusammenhang Exponentialverteilung mit Poissonverteilung
n ∼ Po(µ) ⇔ ∆ ∼ E(µ/T )
n = Zahl der Ereignisse im Zeitraum T
∆ = Abstände zweier Ereignisse
Normalverteilung
X ∼ N(µ, σ 2 )
fN
Standardnormalverteilung
Z=
Rechenregeln zur Anwendung der Tabelle von Φ
x−µ
=Φ
σ
Φ(−x) = 1 − Φ(x)
(µ,σ2 )
1
λ
(x−µ)2
1
(x) = √ e− 2σ2 , E(X) = µ, V (X) = σ 2
σ 2π
X −µ
(0,1)
∼ N(0; 1), F (z) = FN (x) =: Φ(z)
σ
(µ,σ2 )
FN
(x)
9
Funktionen von ZV und Zentraler Grenzwertsatz
Wahrscheinlichkeitsdichte einer (monoton steigenden)
Funktion Z = g(X) einer ZV
Wahrscheinlichkeitsdichte
der Summe Z = X1 + X2
zweier unabhängiger ZV
Verteilungsfunktion
der Summe Z = X1 + X2
zweier unabhängiger ZV
"
fX (x)
fZ (z) =
g ′(x)
fZ (z) =
Z
∞
−∞
#
x=g −1 (z)
f1 (x)f2 (z − x)dx
mit fi (x) den Wahrscheinlichkeitsdichten von Xi
FZ (z) =
Z
∞
−∞
f1 (x)F2 (z − x)dx =
Z
∞
−∞
F1 (x)f2 (z − x)dx
mit Fi (x) den Verteilungsfunktionen von Xi
Sonderfall Normalverteilung
X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ) ⇒ Z ∼ N(µ1 +µ2 , σ12 +σ22 )
Erwartungswert und Varianz
von Z = aX + b
E(Z) = aE(X) + b,
V (Z) = a2 V (X)
Erwartungswert und Varianz
von Z = aX + bY
E(Z) = aE(X) + bE(Y )
V (Z) = a2 V (X) + b2 V (Y ) + 2abCov(X, Y )
Erwartungswert und Varianz
P
der Summe Zn = ni=1 ai Xi unabhängiger ZV
E(Zn ) =
Zentraler Grenzwertsatz für
P
die Summe Zn = ni=1 ai Xi
V (Zn ) =
n
P
i=1
n
P
i=1
ai E(Xi )
a2i V (Xi )
Zn ≈ N(µ, σ 2 ) mit µ = E(Zn ), σ 2 = V (Zn )
Voraussetzungen: Alle Xi unabhängig und kein Einzelbetrag
der Varianz größer als σ 2 /30. Die Xi können beliebige (!!)
diskrete oder stetige ZV mit endlicher Varianz sein
10
Induktive Statistik: Parameterschätzung
Schätzer für den Mittelwert
µ̂ = X̄
Schätzer für den Anteilswert
θ̂i = fi =
Schätzer für die Varianz (vgl.
die Fußnote auf S. 3)
n
K
n X
1 X
2
(Xi − X̄) bzw.
fk (x∗k − x̄)2
σ̂ = S =
n − 1 i=1
n − 1 k=1
Schätzer für die Koeffizienten
der linearen Regression
Y = aX + b
2
hi
n
2
â
b̂ =
= Ȳ − b̂X̄
i=1 (Xi Yi ) − X̄ Ȳ
,
Pn
2
2
i=1 Xi − X̄
Pn
Gauß-Statistik (Mittelwert
X̄ − µ √
bei bekannter Varianz und Z =
n ∼ N(0; 1)
σ
Anteilswert)
t-Statistik (Mittelwert
unbekannter Varianz)
bei
χ2 -Statistik (Varianz)
Konfidenzintervall (KI) für
den Mittelwert bei bekannter
Varianz Hier und im Folgenden
werden “Rezepte” wie KIs und Tests
als Realisierungen (also mit kleinem
xquer, s etc) und nicht als Zufallsgroessen (Xquer, S, etc) formuliert
Konfidenzintervall
Anteilswert
für
den
T =
X̄ − µ √
n ∼ T (n − 1)
S
Q=
(n − 1)S 2
∼ χ2 (n − 1)
σ2
s
σ N −n
µ ∈ x̄ ± z1−α/2 √
n N −1
z1−α/2 Tabelliertes Quantil der Gauß-Statistik,
α
Fehlerwahrscheinlichkeit
(z.B. α = 5% ⇒ z1−α/2 = z0.975 = 1.96)
q
N −n
Korrekturfaktor für endliche Grundgesamtheiten
N −1
mit N Elementen (=1, falls N ≫ n)
s
s
f (1 − f ) N − n
θ ∈ f ± z1−α/2
n
N −1
mit f der relativen Häufigkeit in der Stichprobe. Bedingung:
nf (1 − f ) ≥ 9
Konfidenzintervall für den
Mittelwert bei unbekannter
Varianz
(n−1) s
µ ∈ x̄ ± t1−α/2 √
n
(n−1)
mit tq
dem tabellierten q-Quantil der t-Statistik mit (n−1)
“Freiheitsgraden”
Konfidenzintervalle für den
Regressionskoeffizienten b
b ∈ b̂ ± t1−α/2 σ̂b , σ̂b2 =
Konfidenzintervall der Regressionsfunktion y = a + bx
(n−2)
(n−2) σ̂R
y ∈ â + b̂x ± t1−α/2 √
n
11
n
σ̂R2
1 X
2
,
σ̂
=
yi − ŷ(xi )
R
ns2x
n − 2 i=1
v
u
u
t1 +
(x − x̄)2
s2x
2
Induktive Statistik: Parametrische Tests
Testvariable für Test des Mittelwertes auf Wert µ0 bei bekannter Varianz
Z=
Test des Anteilswertes auf
Wert θ0
Z = √ f −θ0
Test des Mittelwertes bei unbekannter Varianz
T =
X̄−µ0 √
n
S
Test der Varianz
Q=
(n−1)S 2
σ02
X̄−µ0 √
n
σ
θ0 (1−θ0 )
∼ N(0, 1); Realisierung: z
√ q N −1
n N −n
∼ T (n − 1); Realisierung: t
∼ χ2 (n − 1); Realisierung: q
√
xy n−2
Test der Korrelation ρ(x, y) Tρ = r√
∼ T (n − 2)
1−rxy
auf Wert 0
√ sx
Test des Koeffizienten b der Tb = n B̂ − b0 σ̂R ∼ T (n − √2)
linearen Regression
√sx n
Ty(x) = Ŷ (x) − y0 (x))
∼ T (n − 2)
σ̂R s2x +(x−x̄)2
ŷ(x) = ax + b auf Wert b0
P
 = Ȳ − B̂ x̄, B̂ = ns12 ni=1 Yi − Ȳ (xi − x̄)
sowie die Regression selbst
x
2
P
1 Pn
2
auf den Wert yˆ0 (x)
σ̂R = n−2 n=1 Yi − Ŷ (xi ) , s2x = n1 ni=1 (xi − x̄)2 .
Zweiseitiger Test
Nullhypothese µ = µ0 bzw. θ = θ0 bzw. ρxy = 0
kann abgelehnt werden, falls
|z| > z1−α/2
(Mittelwert bei bekannter Varianz
und Anteilswert)
(n−1)
|t| > t1−α/2
(Mittelwert bei unbekannter Varianz)
i
h
(n−1) (n−1)
q∈
/ qα/2 , q1−α/2 (Varianz)
(n−2)
|t| > t1−α/2
Einseitiger Test auf ”größer”
Einseitiger Test auf ”kleiner”
(Korrelation).
Nullhypothese µ > µ0 bzw. θ > θ0 bzw. ρxy > 0
kann abgelehnt werden, falls
z < −z1−α (Mittelwert bei bekannter Varianz
und Anteilswert)
(n−1)
t < −t1−α
(Mittelwert bei unbekannter Varianz)
q < qα(n−1)
(Varianz)
(n−2)
t < −t1−α
(Korrelation).
Nullhypothese µ < µ0 bzw. θ < θ0 bzw. ρxy < 0
kann abgelehnt werden, falls
z > z1−α
(Mittelwert bei bekannter Varianz
und Anteilswert)
(n−1)
t > t1−α
(Mittelwert bei unbekannter Varianz)
(n−1)
q > q1−α
(Varianz)
(n−2)
t > t1−α
(Korrelation).
12
Induktive Statistik: Nichtparametrische Tests
Testvariable für den
χ2 -Anpassungstest
!
K
X
!
K
X
(hk − hek )2
h2k
Q=
=
− n ∼ χ2 (K − 1 − r)
e
e
hk
k=1
k=1 hk
r
Zahl der zu schätzenden Parameter,
P
n = k hk Zahl der Beobachtungen,
K
Zahl der Klassen,
e
hk
theoretischer Mittelwert für abs. Häufigkeit hk
bei Zutreffen der Nullhypothese
Bedingung für den
χ2 -Anpassungstest
hek ≥ 5 für alle Klassen k
Testergebnis
H0 nicht verwerfbar, falls für die Realisierung q von Q gilt:
(K−1−r)
q < q1−α
Testvariable für den
χ2 -Unabhängigkeitstest
Q=
Ky
Kx X
X
i=1 j=1
(hij − heij )2
heij
!
Kx , Ky
m = (Kx − 1)(Ky − 1)
j)
heij = h(xi )h(y
n
h(xi ), h(yj )
P
n = j h(yj )
Ky
Kx X
X
!
h2ij
=
− n ∼ χ2 (m)
e
h
ij
i=1 j=1
Zahl der Klassen,
Zahl der Freiheitsgrade,
Abs. Häufigkeit
bei Zutreffen der Nullhypothese
Spalten- und Zeilensumme
Gesamtzahl der Tabellenelemente
χ2 -Homogenitätstest
(Test auf gleiche
Grundgesamtheit)
Q wie beim Unabhängigkeitstest mit
Kx
Zahl der Klassen der Verteilung,
Ky = M Zahl der Stichproben
Testvariable für den
Kolmogorow-SmirnowAnpassungstest
(KS-Test)
D = max F (x) − F (0) (x) ∼ D(n)
Entscheidung beim
KS-Test
H0 verwerfbar, falls für
s die Realisierung d von D gilt:
c(α)
− ln(α/2)
d > dn,1−α ≈ √ =
n
2n
Testvariable für den
Zwei-Stichproben-KSHomogenitätstest
D = max |F1 (x) − F2 (x)| ∼ D(n, m)
Entscheidung beim
Zwei-Stichproben KS-Test
H0 verwerfbar, fallssfür die Realisierung
d von D gilt:
s
n+m
− ln(α/2)(n + m)
=
d > dn,m,1−α ≈ c(α)
nm
2nm
x
F (x)
F (0) (x)
n
Verteilungsfunktion der Stichprobe,
Verteilungsfunktion bei Zutreffen der Nullhypothese
Stichprobenumfang
x
F1 (x), F2 (x)
n, m
13
Verteilungsfunktionen der zwei Stichproben,
zu F1 (x), F2 (x) gehörige Stichprobenumfänge
Herunterladen