Statistik II

Werbung
Prof. Dr. Roland Füss
Statistik II
SS 2008
5. Spezielle Testverfahren
Zahlreiche parametrische und nichtparametrische Testverfahren, die nach Testverteilung (Binomial, t-Test etc.), Analyseziel (Anpassungs- und Unabhängigkeitstest) oder Konstruktion der Prüfgröße (Vorzeichentest) benannt sind.
5.1 Tests für Median und Quantile
Nullhypothese: H 0 : xMed = x0
Liegt Median (Zentralwert) vor, sind in unabhängiger Zufallsstichprobe Hälfte der
Werte größer als x0 und Hälfte kleiner. Ist Anzahl deutlich kleiner oder größer,
muss H 0 verworfen werden.
1
Prof. Dr. Roland Füss
Statistik II
SS 2008
Einfacher Vorzeichentest
Prüfstatistik = Anzahl Stichprobenwerte größer als Hypothesenwert
V + = Anzahl der Werte X i > x0
Ist x0 der Median, dann ist Wahrscheinlichkeit in der Stichprobe ein größeres
Element zu finden p = 0.5 und V + ist eine binomialverteilte Zufallsvariable mit n
und p = 0.5 :
H0 : p =
1
2
2
Prof. Dr. Roland Füss
Statistik II
SS 2008
Binomialtest:
1. einseitiger Test:
H 0 : p ≥ 0.5 gegen H1 : p < 0.5
mit P(V + < b) ≤ α
2. oberseitiger Test:
H 0 : p ≤ 0.5 gegen H1 : p > 0.5
mit P(V + < b) ≤ α
3. zweiseitiger Test:
H 0 : p = 0.5 gegen H1 : p ≠ 0.5
mit P(V + < bunten ) ≤
α
2
und P(V + > boben ) ≤
α
2
3
Prof. Dr. Roland Füss
Statistik II
SS 2008
= verteilungsfreier Test;
für n > 25 kann Normalverteilung herangezogen werden unter Berücksichtigung
der Stetigkeitskorrektur
(V + + 0.5) − n / 2
≈ Z (annähernd standardnormalvert.)
n/2
Test ist nicht nur für kardinale (metrische) Daten, sondern auch für ordinale
Daten xi verwendbar!
4
Prof. Dr. Roland Füss
Statistik II
SS 2008
Test für Quantile
Analog zu Median kann für andere Qunatile ebenfalls Vorzeichentest durchgeführt werden:
H 0 : x[ q] = x0
d.h. 100 ⋅ q% der Werte kleiner und 100 ⋅ (1 − q )% größer als hypothetischer Wert
x0 und es gilt die Nullhypothese:
H 0 : p = (1 − q )
zu testen (mit krit. Werten für Testgröße V + aus Binomialverteilung ( n , 1 − q )
5
Prof. Dr. Roland Füss
Statistik II
SS 2008
Für große n gilt
(V + + 0.5) − n(1 − q )
≈Z
nq(1 − q )
5.2 Anpassungstests
Viele statistische Methoden setzen voraus, dass das interessierende Merkmal
eine bestimmte Wahrscheinlichkeitsverteilung besitzt. Ob die beobachteten
Daten mit einer bestimmten Verteilung der Zufallsvariablen vereinbar sind, kann
man mit Hilfe eines Anpassungstests überprüfen.
6
Prof. Dr. Roland Füss
Statistik II
SS 2008
Der Anpassungstest vergleicht die gegebenen Daten mit einer hypothetischen
Verteilung und entscheidet, ob die Beobachtungsdaten zu dieser Verteilung
„passen“ oder nicht.
χ 2 -Anpassungstest
Bei diesem Test wird eine empirisch gewonnene Verteilung (oder eine
Stichprobe) mit einer vorgegebenen theoretischen Verteilung F0 verglichen, um
dann die Entscheidung zu treffen, ob die empirische Verteilung so stark von der
theoretischen abweicht, dass die Nullhypothese ( H 0 : F = F0 ) verworfen werden
muss.
7
Statistik II
Prof. Dr. Roland Füss
SS 2008
F : unbekannte Wahrscheinlichkeitsverteilung, aus der die Stichprobe stammt,
also die Verteilung in der Grundgesamtheit.
F0 : theoretische Verteilung (z.B. Normal-, Poisson-, Binomialverteilung usw.).
H1 : F ( x ) ≠ F 0 ( x )
H0 : F ( x ) = F 0 ( x ) ;
k
T =
∑
i = 1
(
ni − ei
ei
)2
ni2
− n
= ∑
i = 1 ei
k
Die Testgröße T ist χ 2 -verteilt mit ν = k − 1 Freiheitsgraden.
8
Statistik II
Prof. Dr. Roland Füss
SS 2008
i = 1,…, k = Merkmale bzw. Klassen
ni = empirisch beobachtete Werte (absolute Häufigkeiten),
ei = n ⋅ f ( xi ) = theoretisch erwartete Werte im diskreten Fall,
ei = n ⋅ ∆Fi ( x ) = theoretisch erwartete Werte im stetigen Fall
k
k
wobei:
∑ n = ∑ e =n
i
i=1
i
i=1
5.3 Unabhängigkeitstest
Test auf Übereinstimmung zwischen empirisch beobachteten Häufigkeiten.
9
Statistik II
Prof. Dr. Roland Füss
SS 2008
Gegeben seien zwei gemeinsam verteilte Zufallsvariablen X und Y . Es soll
geprüft werden, ob X und Y stochastisch unabhängig sind.
H 0 : X und Y sind unabhängig
H 1 : X und Y sind abhängig
k
T=∑
i=1
l
( n ij − e ij )
j=1
e ij
∑
2
nij ( i = 1,…, k ; j = 1,…, l ) und den theoretisch erwarteten Häufigkeiten eij ,
die eintreffen würden, wenn X und Y unabhängig wären.
10
Prof. Dr. Roland Füss
Statistik II
SS 2008
Unabhängigkeitsannahme: fij = fi i ⋅ f i j
nij = empirisch beobachtete Häufigkeiten
eij = n ⋅ fi i ⋅ f i j = 1 / n ⋅ ni i ⋅ ni j = theoretisch erwartete Häufigkeiten
Die Testgröße T ist χ 2 -verteilt mit ν = ( k − 1)(l − 1) Freiheitsgraden.
11
Prof. Dr. Roland Füss
Statistik II
SS 2008
5.4 Homogenitätstest
Mit Homogenitätstest werden die Hypothesen der Form
H 0 : F1 = F2 = … = Fm
H1 : Fi ≠ Fj für mindestens ein Paar (i, j )
Fragestellung: Können zwei oder mehr unabhängige empirische Stichproben
eines Merkmals als Stichproben aus derselben Grundgesamtheit bzw. aus
Grundgesamtheiten, welche dieselbe Verteilung haben, aufgefasst werden.
12
Prof. Dr. Roland Füss
Statistik II
SS 2008
Ausgangssituation: Kontingenztabelle mit entsprechenden Randverteilungen
Die erwarteten Häufigkeiten ergeben sich analog zum Homogenitätstest:
eij = 1 / n ⋅ ni i ⋅ ni j
unter Verwendung der Stichprobeninformation und der Nullhypothese. Je mehr
nij von eij abweichen, um so eher ist zu vermuten, dass H 0 nicht zutrifft.
m
k
T = ∑∑
i=1 j=1
( n ij − e ij )
e ij
2
> χ (2m −1)( k −1) [1 − α ] ⇒ H 0 verwerfen !
13
Statistik II
Prof. Dr. Roland Füss
SS 2008
Hommogenitäts- und χ 2 -Test sind eng verwandt, da Hypothese der Unabhängigkeit besagt, dass bedingte Verteilungen alle gleich sind. Bei Homogenitätstest
entsprechen die bedingten Verteilungen aber den einzelnen Verteilungen
F1 = F2 = … = Fm in der Hypothese.
5.5 Test auf Korrelation
Empirische Korrelationskoeffizient (Bravais-Pearson):
r=
sxy
sx ⋅ s y
mit −1 ≤ r ≤ +1
14
Prof. Dr. Roland Füss
Statistik II
SS 2008
Korrelationskoeffizient misst linearer statistischer Zusammenhang von metrischen Daten.
Fragestellung: Ob von Korrelationskoeffizient aus einer Stichprobe r auf eine
Korrelation
ρ in Grundgesamtheit bzw. in der der Stichprobe zugrundeliegenden
Wahrscheinlichkeitsverteilung geschlossen werden kann?
H0 : ρ = 0
Der Korrelationskoeffizient r in einer Stichprobe ist eine Realisation einer
Zufallsvariablen R .
15
Prof. Dr. Roland Füss
Dabei ist die Größe R ⋅
Statistik II
SS 2008
n−2
= Tn − 2 unter der H 0 t -verteilt mit n − 2 Freiheits1 − R2
graden, wenn X und Y gemeinsam normalverteilt sind.
Entscheidungsregel bei zweiseitigem Test:
r⋅
n−2
> tn − 2 [1 − α / 2] ⇒ H 0 verwerfen !
2
1− r
Die Entscheidung, ob der Korrelationskoeffizient in der Stichprobe groß genug
ist, um auf Korrelation in der Grundgesamtheit schließen zu können, hängt von
dem gewählten Signifikanzniveau und vom Stichprobenumfang ab.
16
Prof. Dr. Roland Füss
Statistik II
SS 2008
Rangkorrelationskoeffizient (nach Spearman)
rs = 1 −
6 ⋅ ∑ di2
(
i
2
)
n n −1
mit di = Rg ( x ) − Rg ( y )
für ordinalskalierte Variablen.
H 0 : ρ Sp = 0
17
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Zufallsvariable R Sp ist hinlänglich normalverteilt mit Erwartungswert Null und
Varianz V ( R Sp ) = 1 / ( n − 1) .
Die Testentscheidung lautet für einen zweiseitigen Test:
r Sp ⋅ n − 1 > z[1 − α / 2] ⇒ H 0 verwerfen !
5.6 Varianzanalyse (ANOVA)
Anhand von m > 2 unabhängigen Zufallsstichproben soll geprüft werden, ob
Verteilungen, aus denen sie entnommen sind, alle den gleichen Mittelwert haben
oder nicht:
18
Prof. Dr. Roland Füss
Statistik II
SS 2008
H 0 : µ1 = µ2 = … = µm
H1 : mindestens zwei der µi sind verschieden
Gegeben: Stichproben n1,…, nm , Mittelwerte x1,…, xm und Varianzen s12 ,…, s22 sowie
Zusammenfassung zur Gesamtstichprobe vom Umfang und Gesamtmittelwert:
n = ∑ ni und xges =
1
∑ ni xi
n
Die Varianz kann aus den m einzelnen Varianzen und den Mittelwerten als
Summe von interner und externer Varianz berechnet werden:
19
Prof. Dr. Roland Füss
Gesamtvarianz:
s
2
ges
Statistik II
SS 2008
1 m
1 m
2
= ∑ ni si + ∑ ni ( xi − xges )2
n i =1
n i =1
1 m ni
interne Varianz: s = ∑∑ ( xij − xi )2
n i =1 j =1
2
int
2
ext
externe Varianz: s
1.
1 m
= ∑ ni ( xi − xges )2
n i =1
interne Varianz = gewichtete Mittel aus Varianzen innerhalb der m Gruppen
bzw. Stichproben.
2.
externe Varianz = Varianz der Mittelwerte x , also die Varianz zwischen den
Gruppen bzw. Stichproben
20
Statistik II
Prof. Dr. Roland Füss
SS 2008
Entscheidungsregel basiert auf Verhältnis von externer zu interner Varianz, d.h.
H 0 wird verworfen, wenn Prüfgröße:
2
sext
1 2
sext
1
−
m
=
> Fnm−−m1[1 − α ]
1
sint2
n−m
Die Teststatistik ist bei Annahme der Normalverteilung und gleicher Varianz
sowie der Nullhypothese gleicher Mittelwerte F-verteilt.
21
Herunterladen