Formelsammlung Statistik II1 1 Numerische und graphische

TU Kaiserslautern
FB Mathematik
Prof. Dr. Jörn Saß
Sommer 2012
Stand 19.7.2012
Formelsammlung Statistik II1
1
Numerische und graphische Zusammenfassung quantitativer Daten
Beobachtet werden Daten x1 , . . . , xN . Die Ordungsstatistiken x(1) ≤ x(2) ≤ . . . ≤ x(N ) sind
die der Größe nach sortierten Daten.
N
1 X
xi
N i=1
(
x(m+1)
,
=
1
(x
+
x
),
(m)
(m+1)
2
Stichprobenmittel
xN =
Stichprobenmedian
ẋN
Stichprobenstandardabweichung
s2N
Stichprobenvarianz
sN
v
u
u
=t
falls
falls
N = 2m + 1
N = 2m
N
1 X
(xi − xN )2
N − 1 i=1
Spannweite dN = x(N ) − x(1)
u
o
Unterer und oberer Viertelwert vN
bzw. vN
sind definiert durch
u
vN
o
vN
Viertelweite

x(m)
,



 3x
1
4 (m) + 4 x(m+1) ,
=
1

x(m) + 21 x(m+1) ,


 12
3
4 x(m) + 4 x(m+1) ,

x(3m)
,



 1x
3
+
x
,
4 (3m)
4 (3m+1)
=
1
1

 2 x(3m+1) + 2 x(3m+2) ,

 3
1
4 x(3m+2) + 4 x(3m+3) ,
falls
falls
falls
falls
falls
falls
falls
falls
N
N
N
N
+ 1 = 4m
+ 1 = 4m + 1
+ 1 = 4m + 2
+ 1 = 4m + 3
N
N
N
N
+ 1 = 4m
+ 1 = 4m + 1
+ 1 = 4m + 2
+ 1 = 4m + 3
o
u
dvN = vN
− vN
Als Ausreißer für die Zeichnung eines Boxplots definieren wir Datenwerte, die um mehr als
0
u
oder unterhalb von vN
liegen.
1, 5 dvN oberhalb von vN
Histogramm der Anzahlen HN (x) = Zn für x ∈ In , n ∈ ZZ,
Histogramm der relativen Häufigkeiten HN (x) = ZNn für x ∈ In , n ∈ ZZ,
wobei für Startwert a und Intervallbreite b die Intervalle In definiert sind durch
In = (a + (n − 1)b, a + nb]
und Zn die Anzahl der Daten bezeichnet, die in Intervall In fallen.
1 Basierend
auf dem Skript von Prof. Dr. Franke
1
Faustregel: Wähle a und b so, dass ẋN etwa in einer Intervallmitte liegt, dass [x(1) , x(N ) ]
von 5 bis 20 Intervallen überdeckt wird, und dass N mindestens das 5-fache der Anzahl der
nicht-leeren Intervalle ist.
Verteilungseigenschaften, die man an einem Histogramm gut erkennen kann, sind
• Schiefe der Verteilung: Wir unterscheiden Rechtsschiefe, die typischerweise mit xN >>
ẋN einhergeht und Linksschiefe, für die typischerweise xN << ẋN gilt.
• Mehrgipfligkeit: Die Verteilung der Daten wird uni-, bi-, mulitmodal genannt, falls in
ihr ein, zwei, oder mehr Gipfel beobachtet werden können.
Messen wir an N Objekten jeweils zwei Merkmale, so erhalten wir zwei Datensätze x1 , . . . , xN
und y1 , . . . , yN . Abhängigkeitsmaße sind:
N
1 X
(xi − xN )(yi − y N )
Stichprobenkovarianz ĉN =
N − 1 i=1
ĉN
Stichprobenkorrelation ρ̂N =
sN,x sN,y
wobei Stichprobenmittelwerte und -standardabweichungen sich wie oben berechnen, d.h.
N
N
1 X
1 X
xi , y N =
yi ,
N i=1
N i=1
v
v
u
u
N
N
u 1 X
u 1 X
t
2
=
(xi − xN ) , sN,y = t
(yi − y N )2 .
N −1 i=1
N −1 i=1
xN =
sN,x
Die Stichprobenkorrelation ρ̂N hat stets Werte zwischen -1 und 1.
2
Wahrscheinlichkeitstheoretische Grundlagen
Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus
• Ergebnismenge Ω. Ein Element ω ∈ Ω wird als Ergebnis eines Zufallsexperiments
interpretiert. Ω sollte alle Ergebnisse umfassen, die in dem Experiment möglich sind.
• Menge von Ereignissen A. Ein Ereignis A ist geeignete Teilmenge von Ω, d.h. A ⊆ Ω.
• Wahrscheinlichkeit P , die jedem Ereignis A seine Wahrscheinlichkeit zuordnet.
Ereignisse und ihre Verknüpfung
Spezialfälle: Elementarereignis {ω} für ω ∈ Ω, sicheres Ereignis Ω, unmögliches Ereignis ∅.
A und B“: A ∩ B (Durchschnitt)
”
A oder B“: A ∪ B (Vereinigung)
”
A, aber nicht B“: A \ B (A ohne B)
”
Gegenereignis, nicht A“: Ac = Ω \ A (Komplement von A)
”
A, B schließen sich aus“: A ∩ B = ∅ (A und B sind disjunkt)
”
Ereignissystem A: Falls Ω nur endlich viele Elemente hat, kann stets A = P(Ω) gewählt
werden. Dabei bezeichnet P(Ω) die Menge aller Teilmengen von Ω (Potenzmenge). Ist Ω
nicht endlich, so muss man für die Definition von Wahrscheinlichkeiten gewisse pathologische
Mengen ausschließen. Es ist sehr schwierig, solche pathologischen Mengen zu konstruieren, sie
werden uns in der Praxis nicht begegnen. Wir verzichten daher auf eine genauere Darstellung.
Die Wahrscheinlichkeit P : A → [0, 1] ist eine Funktion, die jedem Ereignis A seine Wahrscheinlichkeit P (A) zuordnet. Es gelten für alle Ereignisse A, B, A1 , A2 , . . . die Rechenregeln
2
• P (A) ≥ 0,
P (∅) = 0,
P (Ω) = 1
• P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + . . .,
falls Ai ∩ Aj = ∅ für alle i 6= j
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• P (Ac ) = 1 − P (A)
• P (A) ≤ P (B), falls A ⊆ B
Zufallsgrößen
Eine Zufallsgröße X mit Werten in einer Menge X ist eine Abbildung X : Ω → X .
Bei Beobachtung des Wertes (der Realisation) von X in einem Zufallsexperiment, kann
entschieden werden, ob ein Ereignis der Form {X ∈ B} = {ω ∈ Ω : X(ω) ∈ B} eingetreten
ist. Die Verteilung PX gibt die Wahrscheinlichkeit dieser Ereignisse an und ist definiert durch
PX (B) = P ({X ∈ B})
für alle geeigneten Teilmengen B ⊆ X (geeignet = nicht pathologisch, siehe oben).
Weitere Notationen: Z.B. {X ≤ x} = {X ∈ (−∞, x]}, P (X ≤ x) = P ({X ≤ x}).
Diskrete Verteilungen
Eine Zufallsgröße X mit Werten in {0, 1, . . . , n} heißt binomialverteilt mit Erfolgswahrscheinlichkeit p, falls
n k
P (X = k) =
p (1 − p)n−k , k = 0, 1, . . . , n.
k
Bezeichnung: X ∼ B(n, p). Interpretation: n unabhängige Zufallsexperimente mit Ausgang
Erfolg/Misserfolg, p Erfolgswahrscheinlichkeit in einem Experiment, X Anzahl der Erfolge.
n(n−1)...1
n!
= (k(k−1)...1)((n−k)(n−k−1)...1)
= n(n−1...(n−k+1)
.
Binomialkoeffizient nk = k! (n−k)!
k(k−1)...1
n
k gibt die Anzahl der Möglichkeiten an, k Objekte aus n verschiedenartigen Objekten
auszuwählen (oder k Einsen auf n Stellen zu verteilen).
Für n, M ≤ N heißt eine Zufallsgröße X mit Werten in {0, 1, . . . , min{n, M }} hypergeometrisch verteilt, falls
M N −M
P (X = k) =
k
n−k
N
n
k = 0, 1, . . . , min{n, M }.
,
Bezeichnung: X ∼ H(n, M, N ). Interpretation: N Objekte, M davon mit bestimmten Merkmal, n Stichprobengröße, X Anzahl der gezogenen Objekte mit diesem Merkmal.
Eine Zufallsgröße X mit Werten in einer endlichen Menge {a1 , . . . , am } heißt Laplaceverteilt, falls
1
P (X = ai ) = , i = 1, . . . , m.
m
Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poisson-verteilt mit Parameter λ > 0,
falls
λk −λ
e , k = 0, 1, 2, . . . .
P (X = k) =
k!
Bezeichnung: X ∼ P (λ) oder X ∼ P oi(λ). Interpretation: X Anzahl pro Zeitintervall eines
in unregelmäßigen Abständen auftretenden Ereignisses, λ mittlere Häufigkeit des Ereignisses
pro Zeitintervall.
3
Alle bisher betrachteten Verteilungen sind diskret, d.h. sie sind von der Form, dass X Werte
in einer höchstens abzählbaren Menge {a1 , a2 , . . .} annimmt und für i = 1, 2, . . . ist
P (X = ai ) = pi ,
pi ≥ 0,
wobei
∞
X
pi = 1.
i=1
Verteilungen mit Dichte
Eine Zufallsgröße X mit Werten in IR ist verteilt mit (Wahrscheinlichkeits-)Dichte p(x), falls
für alle nicht pathologischen B ⊆ IR gilt
Z
Z ∞
p(x)dx = 1.
P (X ∈ B) =
p(x)dx,
wobei p(x) ≥ 0,
B
−∞
Insbesondere ist P (a < X < b) = P (a ≤ X ≤ b) = P (X ∈ [a, b]) =
Rb
a
p(x)dx.
X heißt uniform verteilt (oder Rechteck-, gleichverteilt) in [a, b], falls
p(x) =
1
für x ∈ [a, b]
b−a
und
p(x) = 0
sonst..
X heißt normalverteilt mit Parametern µ, σ 2 (oder σ), falls
p(x) = ϕµ,σ2 (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
.
Bezeichnung: X ∼ N (µ, σ 2 ). Dann ist Z = X−µ
standard-normalverteilt, d.h. Z ∼ N (0, 1).
σ
Gilt umgekehrt Z ∼ N (0, 1), so ist X = µ + σZ ∼ N (µ, σ 2 ).
X mit Werten in (0, ∞) heißt lognormalverteilt mit Parametern µ, σ 2 , falls ln(X) ∼ N (µ, σ 2 ).
X heißt exponentialverteilt mit Parameter λ > 0, falls p(x) = λe−λx für x ≥ 0 und p(x) = 0
für x < 0. Bezeichnung: X ∼ Exp(λ).
X heißt Weibull verteilt mit Parametern λ > 0, β > 0, falls X β ∼ Exp(λ).
Verteilungsfunktion, Quantile, Erwartungswert und Varianz
Die Verteilungsfunktion von X ist definiert durch
F (x) = P (X ≤ x),
x ∈ IR.
Eigenschaften: F (−∞) = 0, F (∞) = 1, P (X > x) = 1−F (x), P (a < X ≤ b) = F (b)−F (a).
Für X ∼ N (0, 1) schreibe Φ(x) = F (x). Die Werte sind tabelliert für x > 0, nutze Φ(−x) =
1 − Φ(x) für negative Werte.
Für stetiges X ist das α-Quantil qα definiert durch α = F (qα ).
Spezialfälle: Med(X) = q0,5 Median, q0,25 unterer und q0,75 oberer Viertelwert.
Viertelweite: Q(X) = q0,75 − q0,25 .
Für diskretes X ist qα ein α-Quantil, falls P (X < qα ) ≤ α ≤ P (X ≤ qα ).
Ist X diskret mit Werten in {a1 , a2 , . . .} und P (X = ai ) = pi , i = 1, 2, . . ., so heißt
E(X) =
∞
X
i=1
4
pi a i
Erwartungswert von X (auch Mittelwert). Ist X stetig mit Dichte p(x), so
Z ∞
p(x)x dx.
E(X) =
−∞
Ist X diskret oder stetig, so werden die Varianz Var(X) und die Standardabweichung σ(X)
von X definiert durch
p
Var(X) = E (X − E(X))2 , σ(X) = Var(X).
Beachte: Dabei benutzen wir, dass f (X) für eine Funktion f : IR → IR wieder eine Zufallsgröße ist, deren Erwartungswert sich berechnet zu
E(f (X)) =
∞
X
pi f (ai )
bzw.
E(f (X)) =
i=1
Z
∞
p(x)f (x) dx.
−∞
Rechenregeln und Eigenschaften: Für Zufallsgrößen X, Y und a, b ∈ IR gelten
• E(aX + bY ) = aE(X) + bE(Y ), wegen E(1) = 1 insbesondere E(aX + b) = aE(X) + b.
• Var(aX + b) = a2 Var(X), σ(aX + b) = |a|σ(X).
• Var(X) = E(X 2 ) − (E(X))2 .
Erwartungswerte und Varianzen einiger Verteilungen
Verteilung von X
E(X)
Var(X)
binomial B(n, p)
np
np(1 − p)
hypergeometrisch H(n, M, N )
nM
N
λ
Poisson P (λ)
λ
uniform in [α, β]
α+β
2
normal N (µ, σ 2 )
µ
lognormal mit (µ, σ 2 )
eµ+
1
12 (β
− α)2
σ2
σ2
2
e2µ+
σ2
2
2
(eσ − 1)
1
λ
1
λ2
λ− β Γ(1 + β1 )
2
λ− β Γ(1 + β2 ) − (Γ(1 + β1 ))2
exponential Exp(λ)
Weibull mit (λ, β)
nM (N −M )(N −n)
N 2 (N −1)
1
Dabei bezeichnet Γ die Gamma-Funktion, eine Verallgemeinerung der Fakultät. Es gilt Γ(n+
1) = n! für n = 0, 1, 2, . . .. Die Werte für Γ(x), x ≥ 0, können nachgeschlagen werden.
Näherungsformeln für Wahrscheinlichkeiten
H(n, M, N ) ≈ B(n, M
N ), falls M >> n und N − M >> n.
B(n, p) ≈ P (np), falls np mittlere Größe, p klein.
Faustregel: Gut, falls n ≥ 100, np ≤ 10; befriedigend, falls n ≥ 20, p ≤ 0, 05.
B(n, p) ≈ N (np, np(1 − p)), falls n groß, p nicht zu dicht bei 0 oder 1.
Faustregel: np ≥ 5 und n(1 − p) ≥ 5.
5
Unabhängigkeit und Korrelation
n Zufallsgrößen X1 , . . . , XN mit Werten in X heißen unabhängig, falls
P (X1 ∈ A1 , . . . , XN ∈ AN ) = P (X1 ∈ A1 ) · . . . · P (XN ∈ AN )
für alle nicht-pathologischen Teilmengen A1 , . . . , AN ⊆ X . X1 , . . . , XN heißen unabhängig
identisch verteilt (u.i.v.), falls sie zusätzlich die gleiche Verteilung besitzen.
Sind X1 , . . . , XN unabhängige Zufallsgrößen mit Werten in IR und existierenden Erwartungswerten und Varianzen, so gelten
E(X1 · . . . · XN ) = E(X1 ) · . . . · E(XN )
und
Var(X1 + . . . + XN ) =
N
X
Var(Xn ).
n=1
Für zwei Zufallsgrößen X, Y mit Werten in IR und endlichen Varianzen 6= 0 heißen
Cov(X, Y ) = E ((X − E(X))(Y − E(Y )))
und
Corr(X, Y ) =
Cov(X, Y )
σ(X)σ(Y )
Kovarianz bzw. Korrelation von X und Y . Ist Corr(X, Y ) = 0, so heißen X, Y unkorreliert.
Eigenschaften und Rechenregeln:
• Cov(X,Y) = E(XY) - E(X) E(Y),
• Cov(X,Y+Z) = Cov(X,Y) +Cov(X,Z),
• Es gelten Cov(aX + c, bY + d) = abCov(X, Y ) und Corr(aX + c, bY + d) = Corr(X, Y )
für a, b > 0 und c, d ∈ IR,
• −1 ≤ Corr(X, Y ) ≤ 1, wobei Corr(X, Y ) = 1, falls Y = aX + b, und Corr(X, Y ) = −1,
falls Y = −aX + b, jeweils für a > 0.
• Sind X, Y unabhängig, so sind X und Y unkorreliert.
Die Umkehrung vom letzten Punkt gilt im Spezialfall gemeinsam normalverteilter X, Y . Im
Allgemeinen folgt aus der Unkorreliertheit aber nicht die Unabhängigkeit.
3
Schätzer für Verteilungsparameter
Statistisches Modell: Beobachtet werden u.i.v. Zufallsgrößen X1 , . . . , XN , deren Verteilung
Pϑ von einem unbekannten Parameter ϑ ∈ Θ ⊆ IRd abhängt, aber die ansonsten bekannt
ist. Der Erwartungswert bei Verteilung Pϑ wird mit Eϑ bezeichnet.
Punktschätzer
Schätzfunktion T : IRN → Θ.
Schätzer für ϑ ist ϑ̂N = T (X1 , . . . , XN ). Bei beobachteten Werten x1 , . . . , xN (Realisierungen
von X1 , . . . , XN ) sprechen wir auch vom Schätzwert T (x1 , . . . , xN ).
Ein Schätzer ϑ̂N heißt konsistent, falls Pϑ (limN →∞ ϑ̂N = ϑ) = 1.
Ein Schätzer ϑ̂N heißt erwartungstreu, falls Eϑ (ϑ̂N ) = ϑ.
Die Stichprobenkennzahlen X N , s2N sind konsistent und erwartungstreu für E[X1 ], Var(X1 ).
Unter schwachen Bedingungen an die Verteilung sind auch ẊN und die Stichprobenquantile
konsistente Schätzer für Med(X1 ) und die entsprechenden Quantile der Verteilung. Für eine
PN
stetige Funktion f sind f (X N ) und N1 i=1 f (Xi ) konsistent für f (E(X1 )) bzw. E(f (X1 )).
6
Ein Maß für die Güte des Schätzers ϑ̂N ist der mittlere quadratische Fehler
2
MSE(ϑ̂N ) = E (ϑ̂N − ϑ)2 = Var(ϑ̂N ) + E(ϑ̂N ) − ϑ .
Dabei heißt E(ϑ̂N ) − ϑ der Bias vom Schätzer ϑ̂N .
Ein guter Schätzer muss MSE(ϑ̂N ) → 0 für N → ∞ erfüllen.
Eine Liste guter Schätzer für einige Verteilungsparameter liefert folgende Tabelle:
Verteilung von X
bekannt
ϑ
Schätzer
X ∼ B(n, p)
n
p
p̂ =
X ∼ H(n, M, N )
n, N
M
M̂ =
X1 , . . . , XN u.i.v. P (λ)
λ
λ̂ = X N
X1 , . . . , XN u.i.v. Exp(λ)
λ
λ̂ =
µ
µ̂ = X N
(µ, σ 2 )
µ̂ = X N
X1 , . . . , XN u.i.v. N (µ, σ 2 )
σ2
X1 , . . . , XN u.i.v. N (µ, σ 2 )
(µ, σ 2 )
X1 , . . . , XN u.i.v.
lognormal mit (µ, σ 2 )
X
n
XN
n
1
XN
σ̂ 2 = s2N
PN
µ̂ = N1 i=1 ln Xi und
PN
σ̂ 2 = N 1−1 i=1 (ln(Xi ) − µ̂)2
Konfidenzintervalle
Ein Konfidenzintervall (Intervallschätzer, Vetrauensbereich) für ϑ zum Sicherheitsniveau
1 − α ist ein (zufälliges) Intervall [T1 , T2 ] mit Grenzen Ti = gi (X1 , . . . , XN ), i = 1, 2, so dass
P (ϑ ∈ [T1 , T2 ]) ≥ 1 − α für alle ϑ ∈ Θ.
Bei Normalverteilung können die Konfidenzintervalle exakt bestimmt werden. Seien also
X1 , . . . , XN u.i.v. N (µ, σ 2 ). Wir unterscheiden drei Fälle:
(a) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 bekannt, schätze µ. Dann ist
σ
σ
σ
[T1 , T2 ] = X N ± √ q1−α/2 = X N − √ q1−α/2 , X N + √ q1−α/2
N
N
N
ein 1 − α Konfidenzintervall für µ.
Dabei bezeichnet q1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung.
(b) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze µ. Dann ist
sN
sN
sN
[T1 , T2 ] = X N ± √ tN −1,1−α/2 = X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2
N
N
N
ein 1 − α Konfidenzintervall für µ.
Dabei bezeichnet tN −1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit N − 1 Freiheitsgraden. Die Werte sind tabelliert.
7
(c) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze σ 2 . Dann ist
#
"
(N − 1)s2N (N − 1)s2N
,
[T1 , T2 ] =
χ2N −1,1−α/2 χ2N −1,α/2
ein 1 − α Konfidenzintervall für σ 2 .
Dabei bezeichnen χ2N −1,α/2 und χ2N −1,1−α/2 die α/2- und (1 − α/2)-Quantile der ChiQuadrat-Verteilung mit N − 1 Freiheitsgraden. Die Werte sind auch tabelliert.
Liegt keine Normalverteilung vor, so kann für X1 , . . . , XN u.i.v. mit µ = E(Xi ), σ 2 =
Var(Xi ) mit Hilfe des zentralen Grenzwertsatzes ein approximatives (1−α)-Konfidenzintervall
bestimmt werden:
(d) Approximatives Konfidenzintervall für µ bei bekanntem σ 2 :
σ
σ
σ
[T1 , T2 ] = X N ± √ q1−α/2 = X N − √ q1−α/2 , X N + √ q1−α/2
N
N
N
(e) Approximatives Konfidenzintervall für µ bei unbekanntem σ 2 :
sN
sN
sN
[T1 , T2 ] = X N ± √ tN −1,1−α/2 = X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2
N
N
N
(f) Im Spezialfall der Binomialverteilung, d.h. X ∼ B(n, p) erhält man mit einem weiteren
Approximationsargument ein (1 − α)-Konfidenzintervall für p:
#
"
r
r
p̂(1 − p̂)
p̂(1 − p̂)
X
, p̂ = .
, p̂ + q1−α/2
[T1 , T2 ] = p̂ − q1−α/2
n
n
n
Kovarianz und Korrelationsschätzer
Die zweidimensionale Zufallsgrößen (X1 , Y1 ), . . . , (XN , YN ) seien u.i.v.. mit existierenden
Varianzen ungleich 0. Dann sind die Stichprobenkovarianz ĉN und die Stichprobenkorrelation
ρ̂N gute Schätzer für die Kovarianz Cov(Xi , Yi ) bzw. die Korrelation Corr(Xi , Yi ).
Da die Verteilung von ρ̂N schief und auf [−1, 1] begrenzt ist, wird eine Transformation
benutzt:
1 + ρ̂N
1
ŵN = ln
2
1 − ρ̂N
1+ρ
ist für N ≥ 50, |ρ| << 1, ungefähr N (w, N 1−3 )-verteilt mit w = 12 ln( 1−ρ
), wobei ρ =
Corr(Xi , Yi ). Ein approximatives (1 − α)-Konfidenzintervall für w ist
q1−α/2
[T1 , T2 ] = ŵN ± √
,
N −3
wobei q1−α/2 das (1 − α2 )-Quantil der Standardnormalverteilung ist. Aus den Grenzen ergibt
sich durch Rücktransformation ein approximatives (1 − α)-Konfidenzintervall für ρ zu
2T1
e
− 1 e2T2 − 1
[R1 , R2 ] = 2T1
.
,
e
+ 1 e2T2 + 1
Verteilung einiger Schätzer
Bei der Berechnung der Konfidenzintervalle wurden folgende Aussagen für u.i.v. X1 , . . . , XN
benutzt:
√
(a) Falls Xi ∼ N (µ, σ 2 ), so ist N X Nσ−µ standard-normalverteilt.
8
(b) Falls Xi ∼ N (µ, σ 2 ), so ist
(c) Falls Xi ∼ N (µ, σ 2 ), so ist
√
N
X N −µ
sN
(N −1)s2N
σ2
t-verteilt mit N − 1 Freiheitsgraden.
Chi-Quadrat-verteilt mit N − 1 Freiheitsgraden.
(d) Für nicht normalverteilte Xi gilt der zentrale Grenzwertsatz: Existieren µ = E(Xi ) und
√
σ 2 = Var(Xi ) > 0, so ist N X Nσ−µ für große N ungefähr standard-normalverteilt,
genauer
√ XN − µ
N
lim P
≤ z = Φ(z).
N →∞
σ
(e) Ist X ∼ B(n, p), so gilt für geeignete n, p (siehe Kap. 2), dass X ungefähr N (np, np(1−
p))-verteilt ist.
(f) In der Situation vom letzten Abschnitt ist für geeignete N und ρ (siehe oben) die trans1+ρ̂N
1+ρ
1
√ 1
formierte Größe ŵN = 12 ln( 1−
ρ̂N ) ungefähr N (w, N −3 )-verteilt für w = 2 ln( 1−ρ ).
4
Lineare Regression
Regressionsmodell: Beobachtet werden unabhängige Datenpaare (X1 , Y1 ), . . . , (XN , YN ) und
es wird ein Zusammenhang
Yi = g(Xi ) + εi ,
i = 1, . . . , N,
angenommen mit Regressionsfunktion g und u.i.v. Messfehlern ε1 , . . . , εN mit E(εi ) = 0,
Var(εi ) = σε2 .
Methode der kleinsten Quadrate: Wähle g aus einer geeigneten Klasse von Funktionen so,
dass
N
X
(Yi − g(Xi ))2
i=1
minimiert wird. Bei der linearen Regression werden Funktionen g der Form
g(x) = b1 f1 (x) + b2 f2 (x) + . . . bd fd (x)
betrachtet, wobei f1 , . . . fd bekannte vorgegebene Funktionen sind und b1 , . . . , bd durch die
Methode der kleinsten Quadrate zu schätzen sind. Spezialfälle:
• Regressionsgerade g(x) = b1 + b2 x. In diesem Fall ergibt sich mit der Methode der
kleinsten Quadrate
ĉN
b̂2 = 2 , b̂1 = Y N − b̂2 X N .
sN,x
• Regressionspolynom 2. Ordnung g(x) = b1 + b2 x + b3 x2 .
5
Statistische Entscheidungsverfahren (Tests)
Bei einem Hypothesentest wird eine Hypothese H0 (Nullhypothese) gegen eine Alternative
H1 (Alternativhypothese) getestet. Dabei können folgende Fehler auftreten:
H0 wahr
H0 falsch
akzeptiere H0
richtig
Fehler 2. Art
9
verwerfe H0
Fehler 1. Art
richtig
Bei einem statistischen Test wird auf Basis der Stichprobe eine Testgröße berechnet, anhand
derer H0 abgelehnt oder beibehalten (besser: nicht abgelehnt) wird. Bei einem Signifikanztest
zum Niveau α (Signifikanzniveau) wird das Kriterium so gewählt, dass im ungünstigsten Fall
der Fehler 1. Art gleich α ist. Typische Werte für α sind 0, 05, 0, 01 oder 0, 001.
Es können nicht gleichzeitig Fehler 1. Art und Fehler 2. Art kontrolliert werden. Daher wählt
man beim Signifikanztest möglichst das, was gezeigt werden soll (das mit den schwerwiegenderen Konsequenzen) als Alternative: Wenn wir H0 ablehnen, d.h. uns für die gewünschte
Alternative entscheiden, wissen wir, dass der Fehler höchstens α ist.
Gauß-Test
Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit bekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese:
(i) H0 : µ = µ0 (oder µ ≤ µ0 ),
(ii) H0 : µ = µ0 (oder µ ≥ µ0 ),
(iii) H0 : µ = µ0 ,
H1 : µ > µ 0
H1 : µ < µ 0
H1 : µ 6= µ0
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN und berechne Testgröße Z =
√
N X Nσ−µ0 .
4. Lehne H0 ab, falls
in (i) Z > q1−α ,
in (ii) Z < qα ,
in (iii) Z < qα/2 oder Z > q1−α/2 ,
wobei qβ das β-Quantil der Standardnormalverteilung ist.
Einstichproben t-Test
Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit unbekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : µ ≤ µ0 , H1 : µ > µ0 , (ii) H0 : µ ≥ µ0 ,
H1 : µ < µ0 oder (iii) H0 : µ = µ0 , H1 : µ 6= µ0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . , XN und berechne Testgröße t =
√ X −µ
N NsN 0 .
4. Lehne H0 ab, falls in (i) t > tN −1,1−α , in (ii) t < tN −1,α , bzw. in (iii) t < tN −1,α/2 oder
t > tN −1,1−α/2 , wobei tN −1,β das β-Quantil der t-Verteilung mit N −1 Freiheitsgraden
ist.
Anwendung auf Vergleich des Mittelwertes unabhängiger identisch gemeinsam normalverteilter Paare (X1 , Y1 ), . . . (XN , YN ): Es seien µ1 = E(Xi ), µ2 = E(Yi ). Die Differenzen
Di = Xi −Yi , i = 1, . . . , N sind dann u.i.v. N (µ, σ 2 ) mit µ = µ1 −µ2 und der Einstichprobent-Test mit Alternative (i) µ > 0, (ii) µ < 0, (iii) µ 6= 0 kann verwendet werden, um auf (i)
µ1 > µ2 , (ii) µ1 < µ2 , oder (iii) µ1 6= µ2 zu testen.
Zweistichproben t-Test
Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) und
Y1 , . . . , YM u.i.v. N (µ2 , σ 2 ) mit unbekanntem σ. Vorgehen:
10
1. Wähle die zu testende Hypothese: (i) H0 : µ1 ≤ µ2 , d H1 : µ1 > µ2 , (ii) H0 : µ1 ≥ µ2 ,
H1 : µ1 < µ2 , oder (iii) H0 : µ1 = µ2 , H1 : µ1 6= µ2 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße
t=
XN − Y M
q
,
1
sN,M N1 + M
wobei
s2N,M =
(N − 1)s2N,x + (M − 1)s2M,y
.
N +M −2
4. Lehne H0 ab, falls in (i) t > tN +M −2,1−α , in (ii) t < tN +M −2,α , bzw. in (iii) t <
tN +M −2,α/2 oder t > tN +M −2,1−α/2 , wobei tN +M −2,β das β-Quantil der t-Verteilung
mit N + M − 2 Freiheitsgraden ist.
F-Test
Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ12 ) und
Y1 , . . . , YM u.i.v. N (µ2 , σ22 ) mit unbekannten σ1 , σ2 . Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : σ12 ≤ σ22 , H1 : σ12 > σ22 (ii) H0 : σ12 ≥ σ22 ,
H1 : σ12 < σ22 oder (iii) H0 : σ12 = σ22 , H1 : σ12 6= σ22 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße F =
s2N,x
.
s2M,y
4. Lehne H0 ab, falls in (i) F > fN −1,M −1,1−α , in (ii) F < fN −1,M −1,α , bzw. in (iii)
F < fN −1,M −1,α/2 oder F > fN −1,M −1,1−α/2 , wobei fN −1,M −1,β das β-Quantil der
F -Verteilung mit (N − 1, M − 1) Freiheitsgraden ist. Die Quantile sind tabelliert für
β > 0, 5 und können für β < 0, 5 bestimmt werden aus fN −1,M −1,β = 1/fM −1,N −1,1−β .
χ2 -Test für die Varianz
Voraussetzung: X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) mit unbekanntem σ. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : σ 2 ≤ σ02 , H1 : σ 2 > σ02 , (ii) H0 : σ 2 ≥ σ02 ,
H1 : σ 2 < σ02 oder (iii) H0 : σ 2 = σ02 , H1 : σ 2 6= σ02 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X1 , . . . XN und berechne Testgröße S 2 =
(N −1)s2N
σ02
.
4. Lehne H0 ab, falls in (i) S 2 > χ2N −1,1−α , in (ii) S 2 < χ2N −1,α , bzw. in (iii) S 2 <
χ2N −1,α/2 oder S 2 > χ2N −1,1−α/2 , wobei χ2N −1,β das β-Quantil der Chi-Quadrat-Verteilung
mit N − 1 Freiheitsgraden ist.
Korrelationstest (und Test auf Unabhängigkeit)
Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte
Paare mit Korrelation ρ = Corr(Xi , Yi ). Anwendbar, falls N ≥ 50 und |ρ| nicht zu dicht bei
1. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : ρ ≤ ρ0 , H1 : ρ > ρ0 , (ii) H0 : ρ ≥ ρ0 ,
H1 : ρ < ρ0 oder (iii) H0 : ρ = ρ0 , H1 : ρ 6= ρ0 .
2. Lege Signifikanzniveau α fest.
11
3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße
√
1
1 + ρ̂N
Z = N − 3(ŵN − w0 ),
wobei ŵN = ln
,
2
1 − ρ̂N
1
w0 = ln
2
1 + ρ0
1 − ρ0
.
4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder
Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
Wird gegen ρ0 = 0 getestet, so ist dies auch ein Test auf Unabhängigkeit, da normalverteilte
(Xi , Yi ) angenommen sind.
Test auf Unabhängigkeit (auf korreliert/unabhängig, auch für kleine N )
Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte
Paare mit Korrelation ρ = Corr(Xi , Yi ). Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : ρ ≤ 0, H1 : ρ > 0, (ii) H0 : ρ ≥ 0, H1 : ρ < 0
oder (iii) H0 : ρ = 0, H1 : ρ 6= 0.
2. Lege Signifikanzniveau α fest.
√
N −2
.
1−ρ̂2N
N
3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße R = ρ̂√
4. Lehne H0 ab, falls in (i) R > tN −2,1−α , in (ii) R < tN −2,α , bzw. in (iii) R < tN −2,α/2
oder R > tN −2,1−α/2 , wobei tN −2,β jeweils das β-Quantil der t-Verteilung mit N − 2
Freiheitsgraden bezeichnet.
Chi-Quadrat-Anpassungstest zum Niveau α
Modell: N Objekte fallen unabhängig voneinander in d Klassen A1 , . . . , Ad . Für i = 1, . . . , N
werden Zufallsgrößen Yi definiert durch Yi = k, falls Objekt i in Ak fällt (k = 1, . . . , d). Es
seien Y1 , . . . , YN u.i.v. mit pk = P (Yi = k), k = 1, . . . , d. Ferner sei Xk die Anzahl der i, für
die Yi = k. Unter der Hypothese pk = p0k für alle k = 1, . . . , d“ bei vorgegebenen p0k gelte
”
Faustregel (FRD):
N p0k ≥ 1 für alle k ∈ {1, . . . , d} und N p0k ≥ 5 für mindestens 80% der k ∈ {1, . . . , d}.
Gilt die Faustregel nicht, so muss man kleine Klassen zusammenlegen, bis sie gilt. Es sollten
aber nicht mehr Klassen als nötig zusammengelegt werden, da mit der Zusammenlegung der
Fehler 2. Art steigt.
Der Test erlaubt, bestimmte Verteilungsannahmen zu vorgegebenem Signifikanzniveau α zu
prüfen. Drei wichtige Anwendungen sind:
(a) Chi-Quadrat-Anpassungstest bei endlicher Verteilung
Voraussetzung: Wie im Modell oben. Es gelte (FRD). Vorgehen:
H1 : pk 6= p0k für mind. ein k ∈ {1, . . . , d}.
1. H0 : pk = p0k für alle k = 1, . . . , d,
2. Wähle α.
3. Berechne Testgröße D =
d
X
(Xk − N p0 )2
k
k=1
N p0k
4. H0 ablehnen, falls D > χ2d−1,1−α .
12
.
(b) Chi-Quadrat-Anpassungstest für die Poissonverteilung
Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in {0, 1, 2, . . .},
Xk = Anzahl der i mit Yi = k
Xm = Anzahl der i mit Yi ≥ m.
für k = 0, . . . , m − 1,
k
Schätze λ̂ = Y N und p̂k = λ̂k! e−λ̂ , k = 0, . . . , m − 1 sowie p̂m = 1 − p̂0 − . . . − p̂m−1 .
Die Faustregel (FRD) gelte für p̂k , k = 0, . . . , m. Vorgehen:
H1 : Y1 , . . . , YN nicht Poisson-verteilt.
1. H0 : Y1 , . . . , YN Poisson-verteilt,
2. Wähle α.
3. Berechne Testgröße D =
4. Lehne H0 ab, falls D >
m
X
(Xk − N p̂k )2
N p̂k
.
k=0
χ2m−1,1−α .
(c) Chi-Quadrat-Anpassungstest für die Normalverteilung
Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in IR. Für Schätzer µ̂ = Y N , σ̂ 2 =
berechne zu Intervallen
I1 = (−∞, s1 ],
I2 = (s1 , s2 ],
...,
Id−1 = (sd−2 , sd−1 ],
N −1 2
N sN ,
Id = (sd−1 , ∞)
die Wahrscheinlichkeiten p̂k = Φ( skσ̂−µ̂ ) − Φ( sk−1σ̂ −µ̂ ) für k = 2, . . . , d − 1 sowie p̂1 =
Φ( s1σ̂−µ̂ ) und p̂d = 1 − Φ( sd−1σ̂ −µ̂ ). Die Faustregel (FRD) gelte für p̂k , k = 1, . . . , d.
Xk sei die Anzahl der i mit Yi ∈ Ik für k = 1, . . . , d. Vorgehen:
H1 : Y1 , . . . , YN nicht normalverteilt.
1. H0 : Y1 , . . . , YN normalverteilt,
2. Wähle α.
3. Berechne Testgröße D =
4. Lehne H0 ab, falls D >
d
X
(Xk − N p̂k )2
N p̂k
.
k=1
χ2d−3,1−α .
Achtung: Soll auf eine P (λ) bzw. N (µ, σ 2 )-Verteilung zu vorgegebenen λ bzw. µ, σ 2 getestet
werden, so sind wir nicht in der Situation von (b) oder (c), sondern in der Situation von (a),
wo wir dann die p0k über die vorgegebene Verteilung berechnen und die Testgröße mit den
Quantilen der Chi-Quadrat-Verteilung mit d − 1 Freiheitsgraden vergleichen.
Chi-Quadrat-Unabhängigkeitstest
Modell: (X1 , Y1 ), . . . , (XN , YN ) u.i.v. mit Werten in {(k, l) : k = 1, . . . , m; l = 1, . . . , n} und
pkl = P (Xi = k, Yi = l). Es bezeichne Zkl die Anzahl der i für die (Xi , Yi ) = (k, l), sowie
Z•l = Z1l + . . . + Zml ,
Zk• = Zk1 + . . . + Zkn
und p̂0kl = Zk• Z•l /N 2 für k = 1, . . . , m, l = 1, . . . , n. Es gelte die Faustregel N p̂0kl ≥ 1 für
alle k, l und N p̂0kl ≥ 5 für mindestens 80% der Paare (k, l). Vorgehen:
1. H0 : X1 , Y1 unabhängig,
H1 : X1 , Y1 nicht unabhängig.
2. Wähle Signifikanzniveau α.
n
m X
X
(Zkl − N p̂0kl )2
3. Berechne Testgröße D =
.
N p̂0kl
k=1 l=1
13
4. Lehne H0 ab, falls D > χ2(m−1)(n−1),1−α .
Die Zkl , Zk• , Z•l können übersichtlich in einer Kontingenztafel zusammengestellt werden.
Approximativer Binomialtest
Voraussetzung: X ∼ B(n, p). Für die vermutete Erfolgswahrscheinlichkeit p0 gelte die Faustregel: np0 ≥ 5 und n(1 − p0 ) ≥ 5. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p = p0 (oder p ≤ p0 ), H1 : p > p0 , (ii)
H0 : p = p0 (oder p ≥ p0 ), H1 : p < p0 oder (iii) H0 : p = p0 , H1 : p 6= p0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X und berechne Testgröße Z = √ X−np0
np0 (1−p0 )
4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder
Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
Exakter Binomialtest
Voraussetzung: X ∼ B(n, p), n klein oder Faustregel für den approximativen Binomialtest
gilt nicht. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p = p0 (oder p ≤ p0 ), H1 : p > p0 , (ii)
H0 : p = p0 (oder p ≥ p0 ), H1 : p < p0 oder (iii) H0 : p = p0 , H1 : p 6= p0 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X.
4. Lehne H0 ab, falls in (i) X > bn,p0 ,1−α , in (ii) X < bn,p0 ,α , bzw. in (iii) X < bn,p0 ,α1
oder X > bn,p0 ,1−α2 mit α1 , α2 ≈ α/2, α1 + α2 = α, wobei bn,p0 β ein β-Quantil der
Binomialverteilung mit Paramtern n und p0 bezeichnet. Tabelliert sind Quantile bn,p0 ,β
für verschieden Kombinationen von n und p0 . Sie können für kleine n aber auch selbst
berechnet werden.
Vorzeichentest
Modell: Beobachtet werden n1 Datenpaare (yi , zi ), die unabhängig voneinander erhoben
wurden. Ziel: Test, ob die ersten (alten) Datenwerte yi eher größer oder besser als die zi sind.
Vorgehen: Es werden alle Datenpaare mit yi = zi gestrichen. Die Anzahl der verbleibenden
Paare sei n und X die Anzahl der verbleibenden Paare, für die yi > zi ist. Dann gilt X ∼
B(n, p). Gibt es eher keinen Unterschied, so wäre p = 12 und wir können die gewünschten
Aussage für die Hypothese ’H0 : p = p0 ’ mit p0 = 21 unter Benutzung des approximativen
oder exakten Binomialtests testen.
Zweistichproben-Binomialtest
Voraussetzung: X ∼ B(n, p1 ) und Y ∼ B(m, p2 ) mit hinreichend großen n, m für eine gute
Approximation durch die Normalverteilung. Vorgehen:
1. Wähle die zu testende Hypothese: (i) H0 : p1 = p2 (oder p1 ≤ p2 ), H1 : p1 > p2 , (ii)
H0 : p1 = p2 (oder p1 ≥ p2 ), H1 : p1 < p2 oder (iii) H0 : p1 = p2 , H1 : p1 6= p2 .
2. Lege Signifikanzniveau α fest.
3. Beobachte X und Y und berechne Testgröße ∆ = √
und p̂ =
X+M
n+m .
p̂1 −p̂2
p̂(1−p̂) n+m
nm
, wobei p̂1 =
X
n,
p̂2 =
Y
m
4. Lehne H0 ab, falls in (i) ∆ > q1−α , in (ii) ∆ < qα , bzw. in (iii) ∆ < qα/2 oder
∆ > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist.
14

Zugehörige Unterlagen

Blatt 12

11.¨Ubungsblatt zur Mathematischen Statistik

Formelsammlung Statistik II1 1 Numerische und graphische

Zugehörige Unterlagen

Produkte

Unterstützung

Formelsammlung Statistik II1 1 Numerische und graphische

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können