Formelsammlung Statistik II1 1 Numerische und graphische

Werbung
TU Kaiserslautern
FB Mathematik
Prof. Dr. Jörn Saß
Sommer 2012
Stand 19.7.2012
Formelsammlung Statistik II1
1
Numerische und graphische Zusammenfassung quantitativer Daten
Beobachtet werden Daten x1 , . . . , xN . Die Ordungsstatistiken x(1) ≤ x(2) ≤ . . . ≤ x(N ) sind
die der Größe nach sortierten Daten.
N
1 X
xi
N i=1
(
x(m+1)
,
=
1
(x
+
x
),
(m)
(m+1)
2
Stichprobenmittel
xN =
Stichprobenmedian
ẋN
Stichprobenstandardabweichung
s2N
Stichprobenvarianz
sN
v
u
u
=t
falls
falls
N = 2m + 1
N = 2m
N
1 X
(xi − xN )2
N − 1 i=1
Spannweite dN = x(N ) − x(1)
u
o
Unterer und oberer Viertelwert vN
bzw. vN
sind definiert durch
u
vN
o
vN
Viertelweite

x(m)
,



 3x
1
4 (m) + 4 x(m+1) ,
=
1

x(m) + 21 x(m+1) ,


 12
3
4 x(m) + 4 x(m+1) ,

x(3m)
,



 1x
3
+
x
,
4 (3m)
4 (3m+1)
=
1
1

 2 x(3m+1) + 2 x(3m+2) ,

 3
1
4 x(3m+2) + 4 x(3m+3) ,
falls
falls
falls
falls
falls
falls
falls
falls
N
N
N
N
+ 1 = 4m
+ 1 = 4m + 1
+ 1 = 4m + 2
+ 1 = 4m + 3
N
N
N
N
+ 1 = 4m
+ 1 = 4m + 1
+ 1 = 4m + 2
+ 1 = 4m + 3
o
u
dvN = vN
− vN
Als Ausreißer für die Zeichnung eines Boxplots definieren wir Datenwerte, die um mehr als
0
u
oder unterhalb von vN
liegen.
1, 5 dvN oberhalb von vN
Histogramm der Anzahlen HN (x) = Zn für x ∈ In , n ∈ ZZ,
Histogramm der relativen Häufigkeiten HN (x) = ZNn für x ∈ In , n ∈ ZZ,
wobei für Startwert a und Intervallbreite b die Intervalle In definiert sind durch
In = (a + (n − 1)b, a + nb]
und Zn die Anzahl der Daten bezeichnet, die in Intervall In fallen.
1 Basierend
auf dem Skript von Prof. Dr. Franke
1
Faustregel: Wähle a und b so, dass ẋN etwa in einer Intervallmitte liegt, dass [x(1) , x(N ) ]
von 5 bis 20 Intervallen überdeckt wird, und dass N mindestens das 5-fache der Anzahl der
nicht-leeren Intervalle ist.
Verteilungseigenschaften, die man an einem Histogramm gut erkennen kann, sind
• Schiefe der Verteilung: Wir unterscheiden Rechtsschiefe, die typischerweise mit xN >>
ẋN einhergeht und Linksschiefe, für die typischerweise xN << ẋN gilt.
• Mehrgipfligkeit: Die Verteilung der Daten wird uni-, bi-, mulitmodal genannt, falls in
ihr ein, zwei, oder mehr Gipfel beobachtet werden können.
Messen wir an N Objekten jeweils zwei Merkmale, so erhalten wir zwei Datensätze x1 , . . . , xN
und y1 , . . . , yN . Abhängigkeitsmaße sind:
N
1 X
(xi − xN )(yi − y N )
Stichprobenkovarianz ĉN =
N − 1 i=1
ĉN
Stichprobenkorrelation ρ̂N =
sN,x sN,y
wobei Stichprobenmittelwerte und -standardabweichungen sich wie oben berechnen, d.h.
N
N
1 X
1 X
xi , y N =
yi ,
N i=1
N i=1
v
v
u
u
N
N
u 1 X
u 1 X
t
2
=
(xi − xN ) , sN,y = t
(yi − y N )2 .
N −1 i=1
N −1 i=1
xN =
sN,x
Die Stichprobenkorrelation ρ̂N hat stets Werte zwischen -1 und 1.
2
Wahrscheinlichkeitstheoretische Grundlagen
Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus
• Ergebnismenge Ω. Ein Element ω ∈ Ω wird als Ergebnis eines Zufallsexperiments
interpretiert. Ω sollte alle Ergebnisse umfassen, die in dem Experiment möglich sind.
• Menge von Ereignissen A. Ein Ereignis A ist geeignete Teilmenge von Ω, d.h. A ⊆ Ω.
• Wahrscheinlichkeit P , die jedem Ereignis A seine Wahrscheinlichkeit zuordnet.
Ereignisse und ihre Verknüpfung
Spezialfälle: Elementarereignis {ω} für ω ∈ Ω, sicheres Ereignis Ω, unmögliches Ereignis ∅.
A und B“: A ∩ B (Durchschnitt)
”
A oder B“: A ∪ B (Vereinigung)
”
A, aber nicht B“: A \ B (A ohne B)
”
Gegenereignis, nicht A“: Ac = Ω \ A (Komplement von A)
”
A, B schließen sich aus“: A ∩ B = ∅ (A und B sind disjunkt)
”
Ereignissystem A: Falls Ω nur endlich viele Elemente hat, kann stets A = P(Ω) gewählt
werden. Dabei bezeichnet P(Ω) die Menge aller Teilmengen von Ω (Potenzmenge). Ist Ω
nicht endlich, so muss man für die Definition von Wahrscheinlichkeiten gewisse pathologische
Mengen ausschließen. Es ist sehr schwierig, solche pathologischen Mengen zu konstruieren, sie
werden uns in der Praxis nicht begegnen. Wir verzichten daher auf eine genauere Darstellung.
Die Wahrscheinlichkeit P : A → [0, 1] ist eine Funktion, die jedem Ereignis A seine Wahrscheinlichkeit P (A) zuordnet. Es gelten für alle Ereignisse A, B, A1 , A2 , . . . die Rechenregeln
2
• P (A) ≥ 0,
P (∅) = 0,
P (Ω) = 1
• P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + . . .,
falls Ai ∩ Aj = ∅ für alle i 6= j
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• P (Ac ) = 1 − P (A)
• P (A) ≤ P (B), falls A ⊆ B
Zufallsgrößen
Eine Zufallsgröße X mit Werten in einer Menge X ist eine Abbildung X : Ω → X .
Bei Beobachtung des Wertes (der Realisation) von X in einem Zufallsexperiment, kann
entschieden werden, ob ein Ereignis der Form {X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} eingetreten
ist. Die Verteilung PX gibt die Wahrscheinlichkeit dieser Ereignisse an und ist definiert durch
PX (B) = P ({X ∈ B})
für alle geeigneten Teilmengen B ⊆ X (geeignet = nicht pathologisch, siehe oben).
Weitere Notationen: Z.B. {X ≤ x} = {X ∈ (−∞, x]}, P (X ≤ x) = P ({X ≤ x}).
Diskrete Verteilungen
Eine Zufallsgröße X mit Werten in {0, 1, . . . , n} heißt binomialverteilt mit Erfolgswahrscheinlichkeit p, falls
n k
P (X = k) =
p (1 − p)n−k , k = 0, 1, . . . , n.
k
Bezeichnung: X ∼ B(n, p). Interpretation: n unabhängige Zufallsexperimente mit Ausgang
Erfolg/Misserfolg, p Erfolgswahrscheinlichkeit in einem Experiment, X Anzahl der Erfolge.
n(n−1)...1
n!
= (k(k−1)...1)((n−k)(n−k−1)...1)
= n(n−1...(n−k+1)
.
Binomialkoeffizient nk = k! (n−k)!
k(k−1)...1
n
k gibt die Anzahl der Möglichkeiten an, k Objekte aus n verschiedenartigen Objekten
auszuwählen (oder k Einsen auf n Stellen zu verteilen).
Für n, M ≤ N heißt eine Zufallsgröße X mit Werten in {0, 1, . . . , min{n, M }} hypergeometrisch verteilt, falls
M N −M
P (X = k) =
k
n−k
N
n
k = 0, 1, . . . , min{n, M }.
,
Bezeichnung: X ∼ H(n, M, N ). Interpretation: N Objekte, M davon mit bestimmten Merkmal, n Stichprobengröße, X Anzahl der gezogenen Objekte mit diesem Merkmal.
Eine Zufallsgröße X mit Werten in einer endlichen Menge {a1 , . . . , am } heißt Laplaceverteilt, falls
1
P (X = ai ) = , i = 1, . . . , m.
m
Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poisson-verteilt mit Parameter λ > 0,
falls
λk −λ
e , k = 0, 1, 2, . . . .
P (X = k) =
k!
Bezeichnung: X ∼ P (λ) oder X ∼ P oi(λ). Interpretation: X Anzahl pro Zeitintervall eines
in unregelmäßigen Abständen auftretenden Ereignisses, λ mittlere Häufigkeit des Ereignisses
pro Zeitintervall.
3
Alle bisher betrachteten Verteilungen sind diskret, d.h. sie sind von der Form, dass X Werte
in einer höchstens abzählbaren Menge {a1 , a2 , . . .} annimmt und für i = 1, 2, . . . ist
P (X = ai ) = pi ,
pi ≥ 0,
wobei
∞
X
pi = 1.
i=1
Verteilungen mit Dichte
Eine Zufallsgröße X mit Werten in IR ist verteilt mit (Wahrscheinlichkeits-)Dichte p(x), falls
für alle nicht pathologischen B ⊆ IR gilt
Z
Z ∞
p(x)dx = 1.
P (X ∈ B) =
p(x)dx,
wobei p(x) ≥ 0,
B
−∞
Insbesondere ist P (a < X < b) = P (a ≤ X ≤ b) = P (X ∈ [a, b]) =
Rb
a
p(x)dx.
X heißt uniform verteilt (oder Rechteck-, gleichverteilt) in [a, b], falls
p(x) =
1
für x ∈ [a, b]
b−a
und
p(x) = 0
sonst..
X heißt normalverteilt mit Parametern µ, σ 2 (oder σ), falls
p(x) = ϕµ,σ2 (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
.
Bezeichnung: X ∼ N (µ, σ 2 ). Dann ist Z = X−µ
standard-normalverteilt, d.h. Z ∼ N (0, 1).
σ
Gilt umgekehrt Z ∼ N (0, 1), so ist X = µ + σZ ∼ N (µ, σ 2 ).
X mit Werten in (0, ∞) heißt lognormalverteilt mit Parametern µ, σ 2 , falls ln(X) ∼ N (µ, σ 2 ).
X heißt exponentialverteilt mit Parameter λ > 0, falls p(x) = λe−λx für x ≥ 0 und p(x) = 0
für x < 0. Bezeichnung: X ∼ Exp(λ).
X heißt Weibull verteilt mit Parametern λ > 0, β > 0, falls X β ∼ Exp(λ).
Verteilungsfunktion, Quantile, Erwartungswert und Varianz
Die Verteilungsfunktion von X ist definiert durch
F (x) = P (X ≤ x),
x ∈ IR.
Eigenschaften: F (−∞) = 0, F (∞) = 1, P (X > x) = 1−F (x), P (a < X ≤ b) = F (b)−F (a).
Für X ∼ N (0, 1) schreibe Φ(x) = F (x). Die Werte sind tabelliert für x > 0, nutze Φ(−x) =
1 − Φ(x) für negative Werte.
Für stetiges X ist das α-Quantil qα definiert durch α = F (qα ).
Spezialfälle: Med(X) = q0,5 Median, q0,25 unterer und q0,75 oberer Viertelwert.
Viertelweite: Q(X) = q0,75 − q0,25 .
Für diskretes X ist qα ein α-Quantil, falls P (X < qα ) ≤ α ≤ P (X ≤ qα ).
Ist X diskret mit Werten in {a1 , a2 , . . .} und P (X = ai ) = pi , i = 1, 2, . . ., so heißt
E(X) =
∞
X
i=1
4
pi a i
Erwartungswert von X (auch Mittelwert). Ist X stetig mit Dichte p(x), so
Z ∞
p(x)x dx.
E(X) =
−∞
Ist X diskret oder stetig, so werden die Varianz Var(X) und die Standardabweichung σ(X)
von X definiert durch
p
Var(X) = E (X − E(X))2 , σ(X) = Var(X).
Beachte: Dabei benutzen wir, dass f (X) für eine Funktion f : IR → IR wieder eine Zufallsgröße ist, deren Erwartungswert sich berechnet zu
E(f (X)) =
∞
X
pi f (ai )
bzw.
E(f (X)) =
i=1
Z
∞
p(x)f (x) dx.
−∞
Rechenregeln und Eigenschaften: Für Zufallsgrößen X, Y und a, b ∈ IR gelten
• E(aX + bY ) = aE(X) + bE(Y ), wegen E(1) = 1 insbesondere E(aX + b) = aE(X) + b.
• Var(aX + b) = a2 Var(X), σ(aX + b) = |a|σ(X).
• Var(X) = E(X 2 ) − (E(X))2 .
Erwartungswerte und Varianzen einiger Verteilungen
Verteilung von X
E(X)
Var(X)
binomial B(n, p)
np
np(1 − p)
hypergeometrisch H(n, M, N )
nM
N
λ
Poisson P (λ)
λ
uniform in [α, β]
α+β
2
normal N (µ, σ 2 )
µ
lognormal mit (µ, σ 2 )
eµ+
1
12 (β
− α)2
σ2
σ2
2
e2µ+
σ2
2
2
(eσ − 1)
1
λ
1
λ2
λ− β Γ(1 + β1 )
2
λ− β Γ(1 + β2 ) − (Γ(1 + β1 ))2
exponential Exp(λ)
Weibull mit (λ, β)
nM (N −M )(N −n)
N 2 (N −1)
1
Dabei bezeichnet Γ die Gamma-Funktion, eine Verallgemeinerung der Fakultät. Es gilt Γ(n+
1) = n! für n = 0, 1, 2, . . .. Die Werte für Γ(x), x ≥ 0, können nachgeschlagen werden.
Näherungsformeln für Wahrscheinlichkeiten
H(n, M, N ) ≈ B(n, M
N ), falls M >> n und N − M >> n.
B(n, p) ≈ P (np), falls np mittlere Größe, p klein.
Faustregel: Gut, falls n ≥ 100, np ≤ 10; befriedigend, falls n ≥ 20, p ≤ 0, 05.
B(n, p) ≈ N (np, np(1 − p)), falls n groß, p nicht zu dicht bei 0 oder 1.
Faustregel: np ≥ 5 und n(1 − p) ≥ 5.
5
Unabhängigkeit und Korrelation
n Zufallsgrößen X1 , . . . , XN mit Werten in X heißen unabhängig, falls
P (X1 ∈ A1 , . . . , XN ∈ AN ) = P (X1 ∈ A1 ) · . . . · P (XN ∈ AN )
für alle nicht-pathologischen Teilmengen A1 , . . . , AN ⊆ X . X1 , . . . , XN heißen unabhängig
identisch verteilt (u.i.v.), falls sie zusätzlich die gleiche Verteilung besitzen.
Sind X1 , . . . , XN unabhängige Zufallsgrößen mit Werten in IR und existierenden Erwartungswerten und Varianzen, so gelten
E(X1 · . . . · XN ) = E(X1 ) · . . . · E(XN )
und
Var(X1 + . . . + XN ) =
N
X
Var(Xn ).
n=1
Für zwei Zufallsgrößen X, Y mit Werten in IR und endlichen Varianzen 6= 0 heißen
Cov(X, Y ) = E ((X − E(X))(Y − E(Y )))
und
Corr(X, Y ) =
Cov(X, Y )
σ(X)σ(Y )
Kovarianz bzw. Korrelation von X und Y . Ist Corr(X, Y ) = 0, so heißen X, Y unkorreliert.
Eigenschaften und Rechenregeln:
• Cov(X,Y) = E(XY) - E(X) E(Y),
• Cov(X,Y+Z) = Cov(X,Y) +Cov(X,Z),
• Es gelten Cov(aX + c, bY + d) = abCov(X, Y ) und Corr(aX + c, bY + d) = Corr(X, Y )
für a, b > 0 und c, d ∈ IR,
• −1 ≤ Corr(X, Y ) ≤ 1, wobei Corr(X, Y ) = 1, falls Y = aX + b, und Corr(X, Y ) = −1,
falls Y = −aX + b, jeweils für a > 0.
• Sind X, Y unabhängig, so sind X und Y unkorreliert.
Die Umkehrung vom letzten Punkt gilt im Spezialfall gemeinsam normalverteilter X, Y . Im
Allgemeinen folgt aus der Unkorreliertheit aber nicht die Unabhängigkeit.
3
Schätzer für Verteilungsparameter
Statistisches Modell: Beobachtet werden u.i.v. Zufallsgrößen X1 , . . . , XN , deren Verteilung
Pϑ von einem unbekannten Parameter ϑ ∈ Θ ⊆ IRd abhängt, aber die ansonsten bekannt
ist. Der Erwartungswert bei Verteilung Pϑ wird mit Eϑ bezeichnet.
Punktschätzer
Schätzfunktion T : IRN → Θ.
Schätzer für ϑ ist ϑ̂N = T (X1 , . . . , XN ). Bei beobachteten Werten x1 , . . . , xN (Realisierungen
von X1 , . . . , XN ) sprechen wir auch vom Schätzwert T (x1 , . . . , xN ).
Ein Schätzer ϑ̂N heißt konsistent, falls Pϑ (limN →∞ ϑ̂N = ϑ) = 1.
Ein Schätzer ϑ̂N heißt erwartungstreu, falls Eϑ (ϑ̂N ) = ϑ.
Die Stichprobenkennzahlen X N , s2N sind konsistent und erwartungstreu für E[X1 ], Var(X1 ).
Unter schwachen Bedingungen an die Verteilung sind auch ẊN und die Stichprobenquantile
konsistente Schätzer für Med(X1 ) und die entsprechenden Quantile der Verteilung. Für eine
PN
stetige Funktion f sind f (X N ) und N1 i=1 f (Xi ) konsistent für f (E(X1 )) bzw. E(f (X1 )).
6
Ein Maß für die Güte des Schätzers ϑ̂N ist der mittlere quadratische Fehler
2
MSE(ϑ̂N ) = E (ϑ̂N − ϑ)2 = Var(ϑ̂N ) + E(ϑ̂N ) − ϑ .
Dabei heißt E(ϑ̂N ) − ϑ der Bias vom Schätzer ϑ̂N .
Ein guter Schätzer muss MSE(ϑ̂N ) → 0 für N → ∞ erfüllen.
Eine Liste guter Schätzer für einige Verteilungsparameter liefert folgende Tabelle:
Verteilung von X
bekannt
ϑ
Schätzer
X ∼ B(n, p)
n
p
p̂ =
X ∼ H(n, M, N )
n, N
M
M̂ =
X1 , . . . , XN u.i.v. P (λ)
λ
λ̂ = X N
X1 , . . . , XN u.i.v. Exp(λ)
λ
λ̂ =
µ
µ̂ = X N
(µ, σ 2 )
µ̂ = X N
X1 , . . . , XN u.i.v. N (µ, σ 2 )
σ2
X1 , . . . , XN u.i.v. N (µ, σ 2 )
(µ, σ 2 )
X1 , . . . , XN u.i.v.
lognormal mit (µ, σ 2 )
X
n
XN
n
1
XN
σ̂ 2 = s2N
PN
µ̂ = N1 i=1 ln Xi und
PN
σ̂ 2 = N 1−1 i=1 (ln(Xi ) − µ̂)2
Konfidenzintervalle
Ein Konfidenzintervall (Intervallschätzer, Vetrauensbereich) für ϑ zum Sicherheitsniveau
1 − α ist ein (zufälliges) Intervall [T1 , T2 ] mit Grenzen Ti = gi (X1 , . . . , XN ), i = 1, 2, so dass
P (ϑ ∈ [T1 , T2 ]) ≥ 1 − α für alle ϑ ∈ Θ.
Bei Normalverteilung können die Konfidenzintervalle exakt bestimmt werden. Seien also
X1 , . . . , XN u.i.v. N (µ, σ 2 ). Wir unterscheiden drei Fälle:
(a) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 bekannt, schätze µ. Dann ist
σ
σ
σ
[T1 , T2 ] = X N ± √ q1−α/2 = X N − √ q1−α/2 , X N + √ q1−α/2
N
N
N
ein 1 − α Konfidenzintervall für µ.
Dabei bezeichnet q1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung.
(b) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze µ. Dann ist
sN
sN
sN
[T1 , T2 ] = X N ± √ tN −1,1−α/2 = X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2
N
N
N
ein 1 − α Konfidenzintervall für µ.
Dabei bezeichnet tN −1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit N − 1 Freiheitsgraden. Die Werte sind tabelliert.
7
(c) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze σ 2 . Dann ist
#
"
(N − 1)s2N (N − 1)s2N
,
[T1 , T2 ] =
χ2N −1,1−α/2 χ2N −1,α/2
ein 1 − α Konfidenzintervall für σ 2 .
Dabei bezeichnen χ2N −1,α/2 und χ2N −1,1−α/2 die α/2- und (1 − α/2)-Quantile der ChiQuadrat-Verteilung mit N − 1 Freiheitsgraden. Die Werte sind auch tabelliert.
Liegt keine Normalverteilung vor, so kann für X1 , . . . , XN u.i.v. mit µ = E(Xi ), σ 2 =
Var(Xi ) mit Hilfe des zentralen Grenzwertsatzes ein approximatives (1−α)-Konfidenzintervall
bestimmt werden:
(d) Approximatives Konfidenzintervall für µ bei bekanntem σ 2 :
σ
σ
σ
[T1 , T2 ] = X N ± √ q1−α/2 = X N − √ q1−α/2 , X N + √ q1−α/2
N
N
N
(e) Approximatives Konfidenzintervall für µ bei unbekanntem σ 2 :
sN
sN
sN
[T1 , T2 ] = X N ± √ tN −1,1−α/2 = X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2
N
N
N
(f) Im Spezialfall der Binomialverteilung, d.h. X ∼ B(n, p) erhält man mit einem weiteren
Approximationsargument ein (1 − α)-Konfidenzintervall für p:
#
"
r
r
p̂(1 − p̂)
p̂(1 − p̂)
X
, p̂ = .
, p̂ + q1−α/2
[T1 , T2 ] = p̂ − q1−α/2
n
n
n
Kovarianz und Korrelationsschätzer
Die zweidimensionale Zufallsgrößen (X1 , Y1 ), . . . , (XN , YN ) seien u.i.v.. mit existierenden
Varianzen ungleich 0. Dann sind die Stichprobenkovarianz ĉN und die Stichprobenkorrelation
ρ̂N gute Schätzer für die Kovarianz Cov(Xi , Yi ) bzw. die Korrelation Corr(Xi , Yi ).
Da die Verteilung von ρ̂N schief und auf [−1, 1] begrenzt ist, wird eine Transformation
benutzt:
1 + ρ̂N
1
ŵN = ln
2
1 − ρ̂N
1+ρ
ist für N ≥ 50, |ρ| << 1, ungefähr N (w, N 1−3 )-verteilt mit w = 12 ln( 1−ρ
), wobei ρ =
Corr(Xi , Yi ). Ein approximatives (1 − α)-Konfidenzintervall für w ist
q1−α/2
[T1 , T2 ] = ŵN ± √
,
N −3
wobei q1−α/2 das (1 − α2 )-Quantil der Standardnormalverteilung ist. Aus den Grenzen ergibt
sich durch Rücktransformation ein approximatives (1 − α)-Konfidenzintervall für ρ zu
2T1
e
− 1 e2T2 − 1
[R1 , R2 ] = 2T1
.
,
e
+ 1 e2T2 + 1
Verteilung einiger Schätzer
Bei der Berechnung der Konfidenzintervalle wurden folgende Aussagen für u.i.v. X1 , . . . , XN
benutzt:
√
(a) Falls Xi ∼ N (µ, σ 2 ), so ist N X Nσ−µ standard-normalverteilt.
8
(b) Falls Xi ∼ N (µ, σ 2 ), so ist
(c) Falls Xi ∼ N (µ, σ 2 ), so ist
√
N
X N −µ
sN
(N −1)s2N
σ2
t-verteilt mit N − 1 Freiheitsgraden.
Chi-Quadrat-verteilt mit N − 1 Freiheitsgraden.
(d) Für nicht normalverteilte Xi gilt der zentrale Grenzwertsatz: Existieren µ = E(Xi ) und
√
σ 2 = Var(Xi ) > 0, so ist N X Nσ−µ für große N ungefähr standard-normalverteilt,
genauer
√ XN − µ
N
lim P
≤ z = Φ(z).
N →∞
σ
(e) Ist X ∼ B(n, p), so gilt für geeignete n, p (siehe Kap. 2), dass X ungefähr N (np, np(1−
p))-verteilt ist.
(f) In der Situation vom letzten Abschnitt ist für geeignete N und ρ (siehe oben) die trans1+ρ̂N
1+ρ
1
√ 1
formierte Größe ŵN = 12 ln( 1−
ρ̂N ) ungefähr N (w, N −3 )-verteilt für w = 2 ln( 1−ρ ).
4
Lineare Regression
Regressionsmodell: Beobachtet werden unabhängige Datenpaare (X1 , Y1 ), . . . , (XN , YN ) und
es wird ein Zusammenhang
Yi = g(Xi ) + εi ,
i = 1, . . . , N,
angenommen mit Regressionsfunktion g und u.i.v. Messfehlern ε1 , . . . , εN mit E(εi ) = 0,
Var(εi ) = σε2 .
Methode der kleinsten Quadrate: Wähle g aus einer geeigneten Klasse von Funktionen so,
dass
N
X
(Yi − g(Xi ))2
i=1
minimiert wird. Bei der linearen Regression werden Funktionen g der Form
g(x) = b1 f1 (x) + b2 f2 (x) + . . . bd fd (x)
betrachtet, wobei f1 , . . . fd bekannte vorgegebene Funktionen sind und b1 , . . . , bd durch die
Methode der kleinsten Quadrate zu schätzen sind. Spezialfälle:
• Regressionsgerade g(x) = b1 + b2 x. In diesem Fall ergibt sich mit der Methode der
kleinsten Quadrate
ĉN
b̂2 = 2 , b̂1 = Y N − b̂2 X N .
sN,x
• Regressionspolynom 2. Ordnung g(x) = b1 + b2 x + b3 x2 .
5
Statistische Entscheidungsverfahren (Tests)
Bei einem Hypothesentest wird eine Hypothese H0 (Nullhypothese) gegen eine Alternative
H1 (Alternativhypothese) getestet. Dabei können folgende Fehler auftreten:
H0 wahr
H0 falsch
akzeptiere H0
richtig
Fehler 2. Art
9
verwerfe H0
Fehler 1. Art
richtig
Bei einem statistischen Test wird auf Basis der Stichprobe eine Testgröße berechnet, anhand
derer H0 abgelehnt oder beibehalten (besser: nicht abgelehnt) wird. Bei einem Signifikanztest
zum Niveau α (Signifikanzniveau) wird das Kriterium so gewählt, dass im ungünstigsten Fall
der Fehler 1. Art gleich α ist. Typische Werte für α sind 0, 05, 0, 01 oder 0, 001.
Es können nicht gleichzeitig Fehler 1. Art und Fehler 2. Art kontrolliert werden. Daher wählt
man beim Signifikanztest möglichst das, was gezeigt werden soll (das mit den schwerwiegenderen Konsequenzen) als Alternative: Wenn wir H0 ablehnen, d.h. uns für die gewünschte
Alternative entscheiden, wissen wir, dass der Fehler höchstens α ist.
Gauß-Test
Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit bekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese:
(i) H0 : µ = µ0 (oder µ ≤ µ0 ),
(ii) H0 : µ = µ0 (oder µ ≥ µ0 ),
(iii) H0 : µ = µ0 ,
H1 : µ > µ 0
H1 : µ < µ 0
H1 : µ 6= µ0
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN und berechne Testgröße Z =
√
N X Nσ−µ0 .
4. Lehne H0 ab, falls
in (i) Z > q1−α ,
in (ii) Z < qα ,
in (iii) Z < qα/2 oder Z > q1−α/2 ,
wobei qβ das β-Quantil der Standardnormalverteilung ist.
Einstichproben t-Test
Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit unbekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : µ ≤ µ0 , H1 : µ > µ0 , (ii) H0 : µ ≥ µ0 ,
H1 : µ < µ0 oder (iii) H0 : µ = µ0 , H1 : µ 6= µ0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . , XN und berechne Testgröße t =
√ X −µ
N NsN 0 .
4. Lehne H0 ab, falls in (i) t > tN −1,1−α , in (ii) t < tN −1,α , bzw. in (iii) t < tN −1,α/2 oder
t > tN −1,1−α/2 , wobei tN −1,β das β-Quantil der t-Verteilung mit N −1 Freiheitsgraden
ist.
Anwendung auf Vergleich des Mittelwertes unabhängiger identisch gemeinsam normalverteilter Paare (X1 , Y1 ), . . . (XN , YN ): Es seien µ1 = E(Xi ), µ2 = E(Yi ). Die Differenzen
Di = Xi −Yi , i = 1, . . . , N sind dann u.i.v. N (µ, σ 2 ) mit µ = µ1 −µ2 und der Einstichprobent-Test mit Alternative (i) µ > 0, (ii) µ < 0, (iii) µ 6= 0 kann verwendet werden, um auf (i)
µ1 > µ2 , (ii) µ1 < µ2 , oder (iii) µ1 6= µ2 zu testen.
Zweistichproben t-Test
Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) und
Y1 , . . . , YM u.i.v. N (µ2 , σ 2 ) mit unbekanntem σ. Vorgehen:
10
1. Wähle die zu testende Hypothese: (i) H0 : µ1 ≤ µ2 , d H1 : µ1 > µ2 , (ii) H0 : µ1 ≥ µ2 ,
H1 : µ1 < µ2 , oder (iii) H0 : µ1 = µ2 , H1 : µ1 6= µ2 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße
t=
XN − Y M
q
,
1
sN,M N1 + M
wobei
s2N,M =
(N − 1)s2N,x + (M − 1)s2M,y
.
N +M −2
4. Lehne H0 ab, falls in (i) t > tN +M −2,1−α , in (ii) t < tN +M −2,α , bzw. in (iii) t <
tN +M −2,α/2 oder t > tN +M −2,1−α/2 , wobei tN +M −2,β das β-Quantil der t-Verteilung
mit N + M − 2 Freiheitsgraden ist.
F-Test
Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ12 ) und
Y1 , . . . , YM u.i.v. N (µ2 , σ22 ) mit unbekannten σ1 , σ2 . Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : σ12 ≤ σ22 , H1 : σ12 > σ22 (ii) H0 : σ12 ≥ σ22 ,
H1 : σ12 < σ22 oder (iii) H0 : σ12 = σ22 , H1 : σ12 6= σ22 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße F =
s2N,x
.
s2M,y
4. Lehne H0 ab, falls in (i) F > fN −1,M −1,1−α , in (ii) F < fN −1,M −1,α , bzw. in (iii)
F < fN −1,M −1,α/2 oder F > fN −1,M −1,1−α/2 , wobei fN −1,M −1,β das β-Quantil der
F -Verteilung mit (N − 1, M − 1) Freiheitsgraden ist. Die Quantile sind tabelliert für
β > 0, 5 und können für β < 0, 5 bestimmt werden aus fN −1,M −1,β = 1/fM −1,N −1,1−β .
χ2 -Test für die Varianz
Voraussetzung: X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) mit unbekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : σ 2 ≤ σ02 , H1 : σ 2 > σ02 , (ii) H0 : σ 2 ≥ σ02 ,
H1 : σ 2 < σ02 oder (iii) H0 : σ 2 = σ02 , H1 : σ 2 6= σ02 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN und berechne Testgröße S 2 =
(N −1)s2N
σ02
.
4. Lehne H0 ab, falls in (i) S 2 > χ2N −1,1−α , in (ii) S 2 < χ2N −1,α , bzw. in (iii) S 2 <
χ2N −1,α/2 oder S 2 > χ2N −1,1−α/2 , wobei χ2N −1,β das β-Quantil der Chi-Quadrat-Verteilung
mit N − 1 Freiheitsgraden ist.
Korrelationstest (und Test auf Unabhängigkeit)
Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte
Paare mit Korrelation ρ = Corr(Xi , Yi ). Anwendbar, falls N ≥ 50 und |ρ| nicht zu dicht bei
1. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : ρ ≤ ρ0 , H1 : ρ > ρ0 , (ii) H0 : ρ ≥ ρ0 ,
H1 : ρ < ρ0 oder (iii) H0 : ρ = ρ0 , H1 : ρ 6= ρ0 .
2. Lege Signifikanzniveau α fest.
11
3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße
√
1
1 + ρ̂N
Z = N − 3(ŵN − w0 ),
wobei ŵN = ln
,
2
1 − ρ̂N
1
w0 = ln
2
1 + ρ0
1 − ρ0
.
4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder
Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
Wird gegen ρ0 = 0 getestet, so ist dies auch ein Test auf Unabhängigkeit, da normalverteilte
(Xi , Yi ) angenommen sind.
Test auf Unabhängigkeit (auf korreliert/unabhängig, auch für kleine N )
Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte
Paare mit Korrelation ρ = Corr(Xi , Yi ). Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : ρ ≤ 0, H1 : ρ > 0, (ii) H0 : ρ ≥ 0, H1 : ρ < 0
oder (iii) H0 : ρ = 0, H1 : ρ 6= 0.
2. Lege Signifikanzniveau α fest.
√
N −2
.
1−ρ̂2N
N
3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße R = ρ̂√
4. Lehne H0 ab, falls in (i) R > tN −2,1−α , in (ii) R < tN −2,α , bzw. in (iii) R < tN −2,α/2
oder R > tN −2,1−α/2 , wobei tN −2,β jeweils das β-Quantil der t-Verteilung mit N − 2
Freiheitsgraden bezeichnet.
Chi-Quadrat-Anpassungstest zum Niveau α
Modell: N Objekte fallen unabhängig voneinander in d Klassen A1 , . . . , Ad . Für i = 1, . . . , N
werden Zufallsgrößen Yi definiert durch Yi = k, falls Objekt i in Ak fällt (k = 1, . . . , d). Es
seien Y1 , . . . , YN u.i.v. mit pk = P (Yi = k), k = 1, . . . , d. Ferner sei Xk die Anzahl der i, für
die Yi = k. Unter der Hypothese pk = p0k für alle k = 1, . . . , d“ bei vorgegebenen p0k gelte
”
Faustregel (FRD):
N p0k ≥ 1 für alle k ∈ {1, . . . , d} und N p0k ≥ 5 für mindestens 80% der k ∈ {1, . . . , d}.
Gilt die Faustregel nicht, so muss man kleine Klassen zusammenlegen, bis sie gilt. Es sollten
aber nicht mehr Klassen als nötig zusammengelegt werden, da mit der Zusammenlegung der
Fehler 2. Art steigt.
Der Test erlaubt, bestimmte Verteilungsannahmen zu vorgegebenem Signifikanzniveau α zu
prüfen. Drei wichtige Anwendungen sind:
(a) Chi-Quadrat-Anpassungstest bei endlicher Verteilung
Voraussetzung: Wie im Modell oben. Es gelte (FRD). Vorgehen:
H1 : pk 6= p0k für mind. ein k ∈ {1, . . . , d}.
1. H0 : pk = p0k für alle k = 1, . . . , d,
2. Wähle α.
3. Berechne Testgröße D =
d
X
(Xk − N p0 )2
k
k=1
N p0k
4. H0 ablehnen, falls D > χ2d−1,1−α .
12
.
(b) Chi-Quadrat-Anpassungstest für die Poissonverteilung
Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in {0, 1, 2, . . .},
Xk = Anzahl der i mit Yi = k
Xm = Anzahl der i mit Yi ≥ m.
für k = 0, . . . , m − 1,
k
Schätze λ̂ = Y N und p̂k = λ̂k! e−λ̂ , k = 0, . . . , m − 1 sowie p̂m = 1 − p̂0 − . . . − p̂m−1 .
Die Faustregel (FRD) gelte für p̂k , k = 0, . . . , m. Vorgehen:
H1 : Y1 , . . . , YN nicht Poisson-verteilt.
1. H0 : Y1 , . . . , YN Poisson-verteilt,
2. Wähle α.
3. Berechne Testgröße D =
4. Lehne H0 ab, falls D >
m
X
(Xk − N p̂k )2
N p̂k
.
k=0
χ2m−1,1−α .
(c) Chi-Quadrat-Anpassungstest für die Normalverteilung
Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in IR. Für Schätzer µ̂ = Y N , σ̂ 2 =
berechne zu Intervallen
I1 = (−∞, s1 ],
I2 = (s1 , s2 ],
...,
Id−1 = (sd−2 , sd−1 ],
N −1 2
N sN ,
Id = (sd−1 , ∞)
die Wahrscheinlichkeiten p̂k = Φ( skσ̂−µ̂ ) − Φ( sk−1σ̂ −µ̂ ) für k = 2, . . . , d − 1 sowie p̂1 =
Φ( s1σ̂−µ̂ ) und p̂d = 1 − Φ( sd−1σ̂ −µ̂ ). Die Faustregel (FRD) gelte für p̂k , k = 1, . . . , d.
Xk sei die Anzahl der i mit Yi ∈ Ik für k = 1, . . . , d. Vorgehen:
H1 : Y1 , . . . , YN nicht normalverteilt.
1. H0 : Y1 , . . . , YN normalverteilt,
2. Wähle α.
3. Berechne Testgröße D =
4. Lehne H0 ab, falls D >
d
X
(Xk − N p̂k )2
N p̂k
.
k=1
χ2d−3,1−α .
Achtung: Soll auf eine P (λ) bzw. N (µ, σ 2 )-Verteilung zu vorgegebenen λ bzw. µ, σ 2 getestet
werden, so sind wir nicht in der Situation von (b) oder (c), sondern in der Situation von (a),
wo wir dann die p0k über die vorgegebene Verteilung berechnen und die Testgröße mit den
Quantilen der Chi-Quadrat-Verteilung mit d − 1 Freiheitsgraden vergleichen.
Chi-Quadrat-Unabhängigkeitstest
Modell: (X1 , Y1 ), . . . , (XN , YN ) u.i.v. mit Werten in {(k, l) : k = 1, . . . , m; l = 1, . . . , n} und
pkl = P (Xi = k, Yi = l). Es bezeichne Zkl die Anzahl der i für die (Xi , Yi ) = (k, l), sowie
Z•l = Z1l + . . . + Zml ,
Zk• = Zk1 + . . . + Zkn
und p̂0kl = Zk• Z•l /N 2 für k = 1, . . . , m, l = 1, . . . , n. Es gelte die Faustregel N p̂0kl ≥ 1 für
alle k, l und N p̂0kl ≥ 5 für mindestens 80% der Paare (k, l). Vorgehen:
1. H0 : X1 , Y1 unabhängig,
H1 : X1 , Y1 nicht unabhängig.
2. Wähle Signifikanzniveau α.
n
m X
X
(Zkl − N p̂0kl )2
3. Berechne Testgröße D =
.
N p̂0kl
k=1 l=1
13
4. Lehne H0 ab, falls D > χ2(m−1)(n−1),1−α .
Die Zkl , Zk• , Z•l können übersichtlich in einer Kontingenztafel zusammengestellt werden.
Approximativer Binomialtest
Voraussetzung: X ∼ B(n, p). Für die vermutete Erfolgswahrscheinlichkeit p0 gelte die Faustregel: np0 ≥ 5 und n(1 − p0 ) ≥ 5. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p = p0 (oder p ≤ p0 ), H1 : p > p0 , (ii)
H0 : p = p0 (oder p ≥ p0 ), H1 : p < p0 oder (iii) H0 : p = p0 , H1 : p 6= p0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X und berechne Testgröße Z = √ X−np0
np0 (1−p0 )
4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder
Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
Exakter Binomialtest
Voraussetzung: X ∼ B(n, p), n klein oder Faustregel für den approximativen Binomialtest
gilt nicht. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p = p0 (oder p ≤ p0 ), H1 : p > p0 , (ii)
H0 : p = p0 (oder p ≥ p0 ), H1 : p < p0 oder (iii) H0 : p = p0 , H1 : p 6= p0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X.
4. Lehne H0 ab, falls in (i) X > bn,p0 ,1−α , in (ii) X < bn,p0 ,α , bzw. in (iii) X < bn,p0 ,α1
oder X > bn,p0 ,1−α2 mit α1 , α2 ≈ α/2, α1 + α2 = α, wobei bn,p0 β ein β-Quantil der
Binomialverteilung mit Paramtern n und p0 bezeichnet. Tabelliert sind Quantile bn,p0 ,β
für verschieden Kombinationen von n und p0 . Sie können für kleine n aber auch selbst
berechnet werden.
Vorzeichentest
Modell: Beobachtet werden n1 Datenpaare (yi , zi ), die unabhängig voneinander erhoben
wurden. Ziel: Test, ob die ersten (alten) Datenwerte yi eher größer oder besser als die zi sind.
Vorgehen: Es werden alle Datenpaare mit yi = zi gestrichen. Die Anzahl der verbleibenden
Paare sei n und X die Anzahl der verbleibenden Paare, für die yi > zi ist. Dann gilt X ∼
B(n, p). Gibt es eher keinen Unterschied, so wäre p = 12 und wir können die gewünschten
Aussage für die Hypothese ’H0 : p = p0 ’ mit p0 = 21 unter Benutzung des approximativen
oder exakten Binomialtests testen.
Zweistichproben-Binomialtest
Voraussetzung: X ∼ B(n, p1 ) und Y ∼ B(m, p2 ) mit hinreichend großen n, m für eine gute
Approximation durch die Normalverteilung. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p1 = p2 (oder p1 ≤ p2 ), H1 : p1 > p2 , (ii)
H0 : p1 = p2 (oder p1 ≥ p2 ), H1 : p1 < p2 oder (iii) H0 : p1 = p2 , H1 : p1 6= p2 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X und Y und berechne Testgröße ∆ = √
und p̂ =
X+M
n+m .
p̂1 −p̂2
p̂(1−p̂) n+m
nm
, wobei p̂1 =
X
n,
p̂2 =
Y
m
4. Lehne H0 ab, falls in (i) ∆ > q1−α , in (ii) ∆ < qα , bzw. in (iii) ∆ < qα/2 oder
∆ > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
14
Herunterladen