1 Ergänzungen zu Statistik II

QM2 15
1
1.1
1
Ergänzungen zu Statistik II
Stichprobenverteilungen
Produkträume.
In diesem Abschnitt geht es darum, einen geeigneten Wahrscheinlichkeitsraum
für die unabhängige Durchführung zweier Experimente zu konstruieren. Die Konstruktion soll nur an einem Beispiel durchgeführt werden, wobei jedoch klar werden dürfte, wie diese Konstruktion dann im allgemeinen Fall aussieht.
Die Experimente sollen hier das Werfen eines unfairen Würfels und das einer unfairen Münze sein. Zunächst werden die Wahrscheinlichkeitsräume für die Einzelexperimente angegeben. Beim Würfeln ist die Grundgesamtheit Ω1 = {1, . . . , 6},
wobei das Wahrscheinlichkeitsmaß P1 gegeben sei durch die folgende Wahrscheinlichkeitsfunktion f1 :
ω1 f1 (ω1 )
1
.1
2
.1
.
.1
3
4
.1
5
.1
6
.5
Beim Münzwurf ist die Grundgesamtheit Ω2 = {W, Z}, und das zugehörige Wahrscheinlichkeitsmaß P2 sei durch die Wahrscheinlichkeitsfunktion f2 gegeben:
ω2 f2 (ω2 )
.
W
.3
Z
.7
Für die unabhängige Durchführung beider Experimente wird man als Grundgesamtheit Ω naheliegenderweise Ω1 × Ω2 wählen. Als angemessenes Wahrscheinlichkeitsmaß erweist sich eine Art Produkt der einzelnen Maße; die Wahrscheinlichkeitsfunktion wählt man nämlich als Produkt der gegebenen beiden einzelnen
Wahrscheinlichkeitsfunktionen.
In der folgenden Tabelle ist diese Wahrscheinlichkeitsfunktion angegeben, außer-
1.1
Stichprobenverteilungen
QM2 15
2
dem stehen die ‚Faktoren‘ am Rand der Tabelle:
ω1 \ω2
1
2
3
4
5
6
W
.03
.03
.03
.03
.03
.15
.3
Z
.07
.07
.07
.07
.07
.35
.7
.1
.1
.1
.
.1
.1
.5
1
Dass die durch die Tabelle gegebene Funktion auf Ω1 × Ω2 tatsächlich eine Wahrscheinlichkeitsfunktion ist, rechnet man unmittelbar nach (die Summe der Zahlen
ist 1). Man macht sich auch leicht klar, dass dies so sein muss, denn zunächst
ergeben sich die Zahlen am rechten und unteren Rand durch zeilen- bzw. spaltenweises Aufsummieren (was nach Konstruktion offenbar so sein muss), und dann
ist die Summe dieser Summen jeweils 1, da ja jeweils die Werte einer Wahrscheinlichkeitsfunktion aufsummiert werden.
Betrachtet man auf dem so definierten Wahrscheinlichkeitsraum nun die beiden
‚Projektionen‘, die einem Paar (ω1 , ω2 ) einerseits ω1 und andererseits ω2 zuordnen
(inhaltlich heißt das, dass die Ergebnisse der Teilversuche isoliert betrachtet werden), so erhält man als Kontingenztafel dieser beiden Zufallsvariablen genau die
gerade untersuchte Tabelle. Man beachte allerdings, dass mit den beiden formal
gleich aussehenden Tabellen konzeptuell verschiedene Sachverhalte beschrieben
werden: einmal wird ein Wahrscheinlichkeitsmaß definiert und einmal eine Kontingenztafel zweier Zufallsvariablen angegeben.
Um dies auch formal korrekt aufzuschreiben, seien K1 und K2 die Funktionen auf
Ω1 ×Ω2 , die gerade die erste bzw. zweite Komponente eines Elementes von Ω1 ×Ω2
liefern; es gilt also K1 (ω1 , ω2 ) = ω1 und K2 (ω1 , ω2 ) = ω2 (eigentlich müsste man
K1 ((ω1 , ω2 )) schreiben). Die Funktionen K1 und K2 sind dann Zufallsvariablen
auf Ω1 × Ω2 mit Werten in Ω1 bzw. Ω2 . Die Tabelle oben kann dann auch als die
Kontingenztafel der gemeinsamen Verteilung von K1 und K2 gelesen werden.
Da in der Tabelle, als Kontingenztafel aufgefasst, sich die Zahlen als Produkte
der Randsummen ergeben, sind die beiden Projektionen unabhängig. Man hat
also insgesamt einen Wahrscheinlichkeitsraum für das zusammengesetzte Experiment definiert, bei dem die beiden Zufallsvariablen, die das Ergebnis der beiden
Teilexperimente angeben, einerseits unabhängig sind und andererseits die gleiche
1.1
Stichprobenverteilungen
QM2 15
3
Verteilung haben, wie die Ergebnisse der isoliert betrachteten Teilexperimente.
Damit erweist sich die Konstruktion des Wahrscheinlichkeitsmaßes auf Ω1 × Ω2
als angemessen, da dieses Wahrscheinlichkeitsmaß nun genau die Bedingungen
erfüllt, die sinnvoll von ihm zu fordern sind.
Das so konstruierte Maß bezeichnet man auch als das Produktmaß von P1 und
P2 . Als Abkürzung dient oft die Schreibweise P1 ⊗ P2 .
Nun mögen für das Würfeln und für das Münzwerfen zwei Gewinnspiele durch
zwei Zufallsvariablen definiert sein. Die Zufallsvariable X1 auf Ω1 und die Zufallsvariable X2 auf Ω2 sollen durch die folgenden Tabellen gegeben sein:
ω1 X1 (ω1 )
1
0
2
−2
3
−2
3
4
5
−2
6
3
ω2 X2 (ω2 )
.
W
−1
1
Z
Die Zufallsvariablen geben den Gewinn bzw. Verlust bei den einzelnen Spielen
an. Wären Würfel und Münze fair, so wären auch diese Spiele fair; so sind sie es
offenbar nicht.
Es geht nun darum, wie man das Spiel beschreibt, das aus den beiden einzelnen
Spielen zusammengesetzt ist, bei dem also jedesmal sowohl ein Würfel als auch
eine Münze geworfen werden. Auch hier sollen die beiden Einzelgewinne durch
zwei Zufallsvariable gegeben sein, die jetzt allerdings auf Ω1 × Ω2 definiert sein
sollen.
Ist das Ergebnis des zusammengesetzten Experiments gleich (ω1 , ω2 ), so soll natürlich der Gewinn des Würfelanteils des Spiels gleich X1 (ω1 ) sein und der des
Münzwurfanteils gleich X2 (ω2 ).
Ist das Ergebnis des zusammengesetzten Experiments also beispielsweise (3, W ),
so ist der Gewinn aus dem Würfelteil gleich X1 (3) = −2 und der Gewinn aus
dem Münzteil gleich X2 (W ) = −1.
Die Einzelgewinne aus dem zusammengesetzten Experiement sollen der Deutlichkeit halber hier mit X10 und X20 bezeichnet werden. Dies ist eine etwas umständliche Formulierung, die jedoch den momentanen Zwecken angemessen ist.
1.1
Stichprobenverteilungen
QM2 15
4
Normalerweise würde man die Einzelgewinne wieder mit X1 und X2 bezeichnen,
was allerdings nicht ganz korrekt ist, da die Symbole X1 und X2 schon verbraucht
sind (die verständige Leserin entnähme aber leicht dem Kontext, was jeweils gemeint ist).
Der Unterschied, auf den hier aufmerksam gemacht werden soll, liegt im Definitionsbereich; der Definitionsbereich von X10 und X20 ist Ω1 × Ω2 , während die
Definitionsbereiche von X1 und X2 hingegen Ω1 und Ω2 sind. Der Zusammenhang ist jedoch eng: es gilt Xi0 (ω1 , ω2 ) = Xi (ωi ) (eigentlich wäre Xi0 ((ω1 , ω2 )) zu
schreiben).
Es gilt dann also beispielsweise X10 (3, W ) = X1 (3) = −2.
Die gemeinsame Verteilung der beiden neuen (auf Ω1 × Ω2 definierten) Zufallsvariablen X10 und X20 lässt sich nun leicht angeben:
x1 \x2
−2
0
3
−1 1
.09 .21 .3
.03 .07 .1 .
.18 .42 .6
.3 .7 1
Man prüft sofort nach, dass die beiden Zufallsvariablen unabhängig sind und die
gleichen Verteilungen besitzen wie die entsprechenden Zufallsvariablen aus den
Einzelversuchen.
Die Unabhängigkeit ist natürlich keineswegs zufällig. Vielmehr liegt hier ein Spezialfall einer etwas allgemeineren Tatsache vor, die nun zunächst ergänzend behandelt werden soll.
Sind nämlich X und Y zwei unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum Ω, und sind g(X) und h(Y ) zwei Funktionen dieser Zufallsvariablen
(also neue Zufallsvariablen), so sind auch g(X) und h(Y ) unabhängig.
Zur Begründung hat man für zwei beliebige Mengen A und B aus dem Wertebereich von g und h die Unabhängigkeitsbedingung nachzuweisen, also zu zeigen,
dass (g(X))−1 (A) und (h(Y ))−1 (B) unabhängig sind. Nun ist aber (g(X))−1 (A) =
X −1 (g −1 (A)), da für ein Element ω ∈ Ω offenbar (g(X))(ω) = g(X(ω)) genau dann in A liegt, wenn X(ω) in g −1 (A) liegt, denn dies bedeutet ja genau,
dass g(X(ω)) ∈ A gilt. Entsprechend ist (h(Y ))−1 (B) = Y −1 (h−1 (B)). Aus der
Unabhängigkeit von X und Y folgt nun aber sofort die Unabhängigkeit von
1.1
Stichprobenverteilungen
QM2 15
5
X −1 (g −1 (A)) und Y −1 (h−1 (B)) und damit die Gesamtbehauptung.
Um diese allgemeine Tatsache nun auf den vorliegenden Fall anzuwenden, seien die beiden ‚Projektionen‘ von Ω1 × Ω2 auf Ω1 und Ω2 wieder mit K1 und
K2 bezeichnet. Die beiden untersuchten Variablen sind dann X10 = X1 (K1 ) und
X20 = X2 (K2 ) (es gilt ja offenbar X10 (ω1 , ω2 ) = X1 (ω1 ) = X1 (K1 (ω1 , ω2 )) =
(X1 (K1 ))(ω1 , ω1 ), entsprechend für X2 ).
Damit folgt die Unabhängigkeit von X10 und X20 aus der Unabhängigkeit von K1
und K2 gemäß der gerade behandelten allgemeineren Tatsache, wenn man dort
X = K1 , Y = K2 , g = X1 und h = X2 setzt.
Insgesamt ist es so gelungen, für zwei isolierte Experimente, deren (für einen
bestimmten Zweck - im Beispiel das Budget des Spielers) wesentliche Resultate
durch zwei Zufallsvariablen beschrieben werden, einen Wahrscheinlichkeitsraum
zu konstruieren, der die gemeinsame unabhängige Durchführung der Experimente beschreibt, und auf diesem zwei Zufallsvariablen zu definieren, die wieder die
wesentlichen Resultate der Einzelexperimente beschreiben, und die zusätzlich unabhängig sind.
Der Unterschied zwischen X1 und X10 (ebenso zwischen X2 und X20 ) liegt im Grunde nur darin, dass bei X10 noch ein weiteres Experiment sozusagen im Hintergrund
mit abläuft und bei X1 nicht, was in den unterschiedlichen Definitionsbereichen
zum Ausdruck kommt. Die Verteilungen von X1 und X10 sind hingegen gleich.
Genau auf die gleiche Art kann man für mehr als zwei Einzelexperimente einen
Wahrscheinlichkeitsraum definieren, der deren gemeinsame unabhängige Durchführung beschreibt; auch hier können wesentliche Resultate durch dann unabhängige Zufallsvariablen hervorgehoben werden.
Insbesondere ist es möglich, für vorgegebene Verteilungen einen Wahrscheinlichkeitsraum zu konstruieren, auf dem Zufallsvariablen definiert werden können, die
gerade die gegebenen Verteilungen besitzen und die zusätzlich unabhängig sind.
Dies ist für theoretische Zwecke, beispielsweise bei der Definition neuer Verteilungen, von entscheidender Wichtigkeit.
Ein Spezialfall kommt besonders häufig vor, nämlich der, dass dasselbe Experiment unabhängig mehrfach wiederholt wird.
In diesem Fall sei der angemessene Wahrscheinlichkeitsraum für die einmalige
Durchführung Ω0 mit dem Wahrscheinlichkeitsmaß P0 ; ein wesentliches Resultat
1.1
Stichprobenverteilungen
QM2 15
6
sei durch eine Zufallsvariable X gegeben.
Der Wahrscheinlichkeitsraum für die n-malige unabhängige Durchführung des
Experiments ist dann Ω = Ωn0 , versehen mit dem entsprechend den obigen Überlegungen zu definierenden Wahrscheinlichkeitsmaß P = P0 ⊗ P0 ⊗ . . . ⊗ P0 .
Die für die Versuche wesentlichen Resultate können dann durch Zufallsvariablen X1 , . . . , Xn beschrieben werden, von denen Xi gerade das Resultat des i-ten
Teilversuchs liefert; genauer gilt also
Xi (ω1 , . . . , ωn ) = X(ωi ) .
Diese Zufallsvariablen X1 , . . . , Xn sind gemeinsam unabhängig und besitzen alle
die gleiche Verteilung wie X.
Für diese Situation benutzt man auch abkürzend die Sprechweise, dass X1 , . . . , Xn
unabhängige Versionen von X sind.
Stichprobenverteilung von Varianzen und Kovarianzen.
Als Ausgangssituation seien X1 , . . . , Xn unabhängige Versionen einer Zufallsvariable X mit E(X) = µ und V(X) = σ 2 . Beschreibt man mit diesen Variablen die
Resultate von n unabhängigen Durchführungen eines Zufallsversuchs, so handelt
es sich hier um eine Stichprobe (die allerdings erst noch zu erheben ist).
Auf der Grundlage dieser Werte kann man dann die Varianz
S2 =
1X
(Xi − M )2
n
mit
M=
1X
Xi
n
2
mit den Xi also eine Zufallsvariable.
bilden. Hier ist SX
Für den Erwartungswert von S 2 gilt dann
E(S 2 ) =
n−1 2
σ ,
n
wie nun gezeigt werden soll.
Zunächst sei daran erinnert, dass für jede Zufallsvariable X die Beziehung
E(X 2 ) = V(X) + (E(X))2
(1)
gilt; dies ist nur die Umstellung der bekannten Formel V(X) = E(X 2 ) − (E(X))2 .
1.1
Stichprobenverteilungen
QM2 15
7
Die Varianz S 2 lässt sich nun bekanntlich auch schreiben als
S 2 = MX 2 − (MX )2 ,
woraus für den Erwartungswert die Beziehung
E(S 2 ) = E(MX 2 ) − E((MX )2 )
(2)
folgt; es sollen daher nun die beiden Erwartungswerte auf der rechten Seite dieser
Gleichung bestimmt und dann subtrahiert werden.
Zuerst geht es um MX 2 , also um den Mittelwert der Xi2 . Da die Xi unabhängige
Versionen von X sind, sind auch die Xi2 unabhängige Versionen von X 2 : da die
Verteilungen von Xi und X gleich sind, sind auch die Verteilungen von Xi2 und
X 2 gleich, und da die Xi unabhängig sind, sind auch die Xi2 unabhängig (vgl. den
Abschnitt über Produkträume für die Begründung im Fall von zwei Variablen).
Es folgt, dass der Erwartungswert von MX 2 gleich dem Erwartungswert von X 2
ist, womit sich nach (1) insgesamt
E(MX 2 ) = E(X 2 ) = σ 2 + µ2
(3)
ergibt.
Der nächste zu bestimmende Wert ist E((MX )2 ). Bekannt ist die Varianz von
MX , nämlich σ 2 /n. Setzt man in (1) für X den Mittelwert MX ein, so erhält man
E((MX )2 ) = V(MX ) + (E(MX ))2 =
σ2
+ µ2 .
n
(4)
Durch Einsetzen von (3) und (4) in (2) erhält man nun schließlich das gewünschte
Resultat
E(S 2 ) = E(MX 2 ) − E((MX )2 )
2
σ
σ2
n−1 2
2
2
2
= σ +µ −
+µ
= σ2 −
=
σ . n
n
n
Die Stichprobenvarianz S 2 ist also kein erwartungstreuer Schätzer für σ 2 , was
sich aber leicht korrigieren lässt: die korrigierte Stichprobenvarianz
s2 =
n
S2
n−1
1.1
Stichprobenverteilungen
QM2 15
8
schätzt σ 2 erwartungstreu.
Es liegt damit die Frage nahe, ob man etwas über den Erwartungswert von s
aussagen kann. Da Varianzen nichtnegativ sind, gilt immerhin
0 ≤ V(s) = E(s2 ) − (E(s))2 ,
woraus über (E(s))2 ≤ E(s2 ) die Beziehung
√
p
p
E(s) = (E(s))2 ≤ E(s2 ) = σ 2 = σ
folgt.
Gleichheit gilt hier nur in dem Fall, dass V(s) = 0 gilt, was nur dann eintritt,
wenn die möglichen Stichproben mit Wahrscheinlichkeit 1 die Varianz 0 haben,
also aus lauter gleichen Werten bestehen, was wiederum nur dann möglich ist,
wenn X nur einen möglichen Wert (mit Wahrscheinlichkeit 1) annehmen kann.
Der Fall der Gleichheit tritt also nur für völlig uninteressante Zufallsvariablen X
auf, die fast sicher konstant sind.
Bei Zufallsvariablen, die nicht (f.s.) konstant sind, gilt daher immer
E(s) < σ ,
durch s wird σ also ‚systematisch‘ unterschätzt.
Schließlich soll noch die Frage nach dem Erwartungswert der Stichprobenkovarianz beantwortet werden.
Man kann diese Frage auf die schon bekannten Ergebnisse über die Varianz zurückführen, indem man die folgende Beziehung ausnutzt:
V(X + Y ) − V(X − Y )
= V(X) + V(Y ) + 2 Kov(X, Y ) − (V(X) + V(Y ) − 2 Kov(X, Y ))
= 4 Kov(X, Y ) .
Die Kovarianz lässt sich also auch mit Hilfe der Varianz der Summe und der
Differenz ausdrücken.
Ganz analog erhält man auf empirischer Ebene die Formel
2
2
SX+Y
− SX−Y
= 4 KovX,Y .
1.1
Stichprobenverteilungen
QM2 15
9
Mit Hilfe dieser Formeln kann nun der Erwartungswert der Stichprobenkovarianz
bestimmt werden. Vorausgesetzt sind dabei wieder n unabhängige Versuche, in
denen nun zwei Variablen X und Y erhoben werden sollen. Schreibt man für
die Resultate der einzelnen Durchgänge wieder Xi und Yi , so kann man diese
Voraussetzung formal auch so schreiben, dass (X1 , Y1 ), . . . , (Xn , Yn ) unabhängige
Versionen der (nun ‚zweidimensionalen‘) Zufallsvariable (X, Y ) sein sollen.
Der Erwartungswert der Stichprobenkovarianz ist nun
1 2
1
2
2
2
E(KovX,Y ) = E
(SX+Y − SX−Y ) =
E(SX+Y
) − E(SX−Y
)
4
4
n−1
1 n−1
V(X + Y ) −
V(X − Y )
=
4
n
n
n−1 1
=
(V(X + Y ) − V(X − Y ))
n
4
n−1
Kov(X, Y ) .
=
n
Auch hier ist es also so, dass die Stichprobenkovarianz (im Betrag) die theoretische Kovarianz systematisch unterschätzt, was man leicht dadurch korrigieren
kann, dass man zur korrigierten Stichprobenkovarianz
n
KovX,Y
n−1
übergeht, die dann für Kov(X, Y ) erwartungstreu ist; die korrigierte Stichprobenkovarianz errechnet man dabei genauso wie die unkorrigierte, außer dass man im
letzten Schritt nicht durch n sondern durch (n − 1) dividiert.
Anmerkung zur Definition der Binomialverteilung.
Sind X1 , . . . , Xn unabhängige Versionen einer Variable X, die Bernoulli-verteilt
ist mit Erfolgswahrscheinlichkeit p, und ist
Y =
n
X
Xi ,
i=1
so heißt die Verteilung von Y auch Binomialverteilung mit den Parametern n und
p.
Die Abkürzung für diese Verteilung ist B(n, p).
1.1
Stichprobenverteilungen
QM2 15
10
Hat eine Variable U die B(n, p)-Verteilung, so schreibt man dafür auch kurz
U ∼ B(n, p).
Zu der Definition der Binomialverteilung ist anzumerken, dass hier eine Verteilung
definiert wird dadurch, dass eine Variable konstruiert wird, die diese Verteilung
besitzt (nämlich Y ).
Es geht dabei um die Definition einer Verteilung und nicht etwa um die Definition einer binomialverteilten Variable. Eine binomialverteilte Variable ist eine
Variable, deren Verteilung eine Binomialverteilung ist; keinesfalls muss eine solche Variable gleich einer Summe unabhängiger Bernoulli-verteilter Variablen sein
(auch wenn dies in vielen Fällen so sein wird).
Will man nun Eigenschaften von binomialverteilten Variablen zeigen (beispielsweise eine Formel für den Erwartungswert angeben), so genügt es oft, eine spezielle binomialverteilte Variable wie die Variable Y in der Definition zu benutzen;
sind die Eigenschaften nämlich nur abhängig von der Verteilung, so ist es gleichgültig, welche Variable bei der Argumentation benutzt wird, da das Ergebnis bei
allen Variablen das gleiche sein muss.
Der Erwartungswert lässt sich beispielsweise auch nur auf der Grundlage der
Verteilung berechnen (ist f die Wahrscheinlichkeitsfunktion der Verteilung, so
P
ist der Erwartungswert gleich
xf (x), wobei über alle möglichen Werte x der
Verteilung summiert wird). Daher haben alle Zufallsvariablen, die die gleiche
Verteilung besitzen, auch den gleichen Erwartungswert – in diesem Sinn hängt
der Erwartungswert nur über die Verteilung von der Zufallsvariable ab. Man kann
deshalb auch (nicht ganz korrekt) vom Erwartungswert der Binomialverteilung
sprechen (obwohl streng genommen nicht Verteilungen Erwartungswerte besitzen,
sondern Zufallsvariablen).
Um den Erwartungswert der B(n, p)-Verteilung (in diesem Sinn) zu bestimmen,
genügt es also, eine spezielle Variable mit dieser Verteilung zu benutzen (wie die
Variable Y in der Definition) und von dieser Variable den Erwartungswert zu
bilden (der sich für Y sofort zu n · p berechnet); jede andere Variable mit der
B(n, p)-Verteilung hat dann ebenfalls diesen Erwartungswert.
Als ein weiteres Beispiel soll gezeigt werden, dass die Verteilung von zwei unabhängigen binomialverteilten Variablen mit gleicher Erfolgswahrscheinlichkeit wieder binomialverteilt ist. Sind nämlich genauer Y1 ∼ B(n1 , p) und Y1 ∼ B(n2 , p)
1.1
Stichprobenverteilungen
QM2 15
11
unabhängig, und ist Y = Y1 + Y2 , so gilt
Y ∼ B(n1 + n2 , p) .
Zur Begründung seien X1 , . . . , Xn1 , Xn1 +1 , . . . , Xn1 +n2 unabhängige Bernoulli-verteilte Variablen mit Erfolgswahrscheinlichkeit p. Dass es solche Variablen gibt, ist
vielleicht nicht ganz selbstverständlich – man konstruiert sie jedoch beispielsweise
mit den bei den Produkträumen skizzierten Methoden.
Mit den Variablen Xi bildet man nun neue Variablen U1 und U2 als
U1 :=
n1
X
i=1
Xi
und
U2 :=
nX
1 +n2
Xi .
i=n1 +1
Dann gilt U1 ∼ B(n1 , p) und U1 ∼ B(n2 , p), U1 und U2 haben also die gleichen
Verteilungen wie Y1 und Y2 . Außerdem sind U1 und U2 unabhängig, was plausibel
ist, da ja die Xi , deren Summe sie jeweils sind, unabhängig sind (streng genommen
müsste dies allerdings auch noch genauer gezeigt werden).
Damit haben auch U1 und U2 die gleiche gemeinsame Verteilung wie Y1 und Y2 ,
denn die gemeinsame Verteilung ist durch die Einzelverteilungen und die Tatsache
der Unabhängigkeit schon vollständig bestimmt.
Schließlich ist auch die Verteilung von U = U1 + U2 gleich der von Y = Y1 + Y2 ,
denn es handelt sich bei diesen beiden Verteilungen um die Bildmaße der gleichen
W-Maße (Verteilungen von (U1 , U2 ) bzw. (Y1 , Y2 )) unter der gleichen Funktion
(Addition der beiden Komponenten).
P 1 +n2
Da jedoch nun U = ni=1
Xi die Summe von n1 + n2 unabhängigen BernoulliVariablen ist, ist die Verteilung von U eine B(n1 + n2 , p)-Verteilung und damit
auch die von Y . Multinomialverteilung.
Die Binomialverteilung kann verallgemeinert werden für den Fall, dass ein Versuch
nicht nur zwei mögliche Ergebnisse hat, sondern mehrere, nämlich e1 . . . , em , die
mit Wahrscheinlichkeiten p1 , . . . , pm auftreten.
Gefragt ist nach den Wahrscheinlichkeiten, mit denen bei n unabhängigen VersuP
chen die Werte ei jeweils genau ni Mal auftreten (dabei muss natürlich
ni = n
gelten).
1.1
Stichprobenverteilungen
QM2 15
12
Die gesuchte Verteilung ermittelt man völlig analog zum Vorgehen bei der Binomialverteilung; die Frage ist zunächst die, mit welcher Wahrscheinlichkeit ein
bestimmtes Gesamtergebnis auftritt, bei dem die Einzelwerte ei mit vorgegebenen
Häufigkeiten ni auftreten, wobei zusätzlich noch vorgeschrieben ist, bei welchem
Versuchsdurchgang welches Einzelergebnis auftreten soll. Wegen der Unabhängigkeit der Ziehungen ist die Wahrscheinlichkeit für jede solche spezielle Konstallation gleich
pn1 1 pn2 2 . . . pnmm ;
die Begründung ist völlig analog zu der im Fall der Binomialverteilung.
Die als nächstes zu beantwortende Frage ist die, wieviele derartige Gesamtergebnisse es gibt, bei denen vorgeschrieben ist, dass die Einzelergebnisse ei mit
den Häufigkeiten ni auftreten, wobei es nun jedoch gleichgültig ist, an welcher
Stelle welches Einzelergebnis auftritt. Ganz analog zu den Überlegungen bei der
Binomialverteilung ergibt sich hier als Anzahl der Multinomialkoeffizient
n!
.
n1 !n2 ! . . . nm !
Man fragt sich zur Begründung beispielsweise, auf wieviele Arten man die Menge
G der Nummern der Ziehungen so auf m Mengen Gi aufteilen kann, dass diese
Mengen jeweils genau ni Elemente enthalten. Die Menge Gi soll dabei gerade die
Nummern der Ziehungen enthalten, in denen das Ergebnis ei ist.
Insgesamt ist damit die Wahrscheinlichkeit, bei n unabhängigen Ziehungen die
Wertekombinationen ei mit den Häufigkeiten ni zu erhalten, gerade
n!
pn1 1 pn2 2 . . . pnmm .
n1 !n2 ! . . . nm !
Die Verteilung, die sich auf diese Weise ergibt, heißt auch Multinomialverteilung,
wobei offensichtlich ist, dass die Binomialverteilung gerade der Spezialfall ist, in
der die betrachtete Variable zwei mögliche Werte besitzt.
Zur Kontrolle kann man sich fragen, ob die Summe dieser Wahrscheinlichkeiten
über alle möglichen Häufigkeitskombinationen n1 , . . . , nm auch wirklich gleich 1
ist; dies folgt jedoch wie im Fall der Binomialverteilung aus der beim Multinomialkoeffizienten behandelten Gleichung
!n
m
X
X
n!
pn1 1 pn2 2 . . . pnmm ,
1 = 1n =
pi
=
n
!
n
!
.
.
.
n
!
1
2
m
i=1
(n1 ,...,nm )
in der über alle m-Tupel (n1 , . . . , nm ) summiert wird, die aus nichtnegativen
ganzen Zahlen bestehen, deren Summe n ist.
1.2
1.2
Stetige Verteilungen
QM2 15
13
Stetige Verteilungen
Die Einführung stetiger Zufallsvariablen erfordert einige Erweiterungen und Modifikationen der bisher betrachteten Wahrscheinlichkeitstheorie, die ja nur für
endliche Grundgesamtheiten galt. Diese Modifikationen erfordern mathematische
Voraussetzungen, die hier nicht zur Verfügung stehen. Trotzdem soll nun ein ungefährer Eindruck gegeben werden, welcher Art sie sind.
Die wesentliche Änderung ist die, dass nun unendliche Grundgesamtheiten zugelassen werden müssen, da Zufallsvariablen auf endlichen Grundgesamtheiten
nicht stetig sein können.
Man hat also den Begriff des Wahrscheinlichkeitsraums zu verallgemeinern in der
Weise, dass keine Einschränkungen über die Zahl der Ergebnisse gemacht werden.
Die Grundgesamtheiten Ω können also nun auch aus unendlich vielen Elementen
(Ergebnissen) bestehen. Es können dann die Wahrscheinlichkeiten einiger oder
sogar aller Ergebnisse gleich 0 sein (die Formulierung ist nicht ganz korrekt, gemeint sind natürlich die Wahrscheinlichkeiten von Ereignissen, die aus nur einem
Ergebnis bestehen).
Um Widersprüche zu vermeiden, muss man die Gleichsetzung von Ereignissen mit
Teilmengen von Ω aufgeben: Nur noch gewisse Teilmengen von Ω sind Ereignisse
und nicht mehr alle.
Zu Widersprüchen in einer ähnlichen Situation führt beispielsweise die Annahme
der Existenz eines Flächenmaßes auf dem R2 , das für alle Teilmengen definiert
ist und drei Eigenschaften besitzt, die man intuitiv von einem Flächenmaß fordern würde. Diese drei Eigenschaften sind die folgenden: Erstens soll das Maß
für Rechtecke sich als Breite mal Höhe berechnen. Zweitens soll das Maß einer
abzählbaren Vereinigung von disjunkten Teilmengen gleich der Summe der Maße der einzelnen Mengen sein (dies verallgemeinert das Analogon zum dritten
Axiom für endliche W-Räume). Drittens soll das Maß ‚translationsinvariant‘ sein
in dem Sinne, dass das Maß einer Menge (Fläche) sich nicht ändert, wenn man
diese Menge verschiebt. Gäbe es nun ein Flächenmaß mit diesen Eigenschaften,
so könnte man eine Teilmenge ‚konstruieren‘, deren Maß sowohl 0 als auch größer als 0 sein müsste. Hieraus folgt, dass ein derartiges Flächenmaß, das für alle
Teilmengen definiert ist, nicht existieren kann.
Wenn nun nicht mehr alle Teilmengen Ereignisse sein können, so wird man von
den Ereignissen immerhin fordern, dass die Mengenoperationen der Vereinigung,
1.2
Stetige Verteilungen
QM2 15
14
Durchschnittsbildung und Komplementbildung von Ereignissen wieder zu Ereignissen führen, denn diese Operationen haben ja für Ereignisse eine inhaltliche
Interpretation. Genauer fordert man, dass man beim Bilden von Komplementen und von abzählbar unendlichen Vereinigungen immer wieder Ereignisse erhält (ferner soll ∅ immer ein Ereigis sein). Die Menge der Teilmengen, die dann
Ereignisse sind, erhält durch diese Forderung eine Struktur, nämlich die einer
sogenannten σ-Algebra. Sie heißt daher auch manchmal Ereignisalgebra.
Die Definition eines Wahrscheinlichkeitsmaßes im allgemeinen Fall ist etwas komplizierter als im endlichen Fall; betroffen ist das dritte Axiom. Hier wird nun
gefordert, dass die Wahrscheinlichkeit einer abzählbar unendlichen Vereinigung
von disjunkten Ereignissen gleich der Summe der Wahrscheinlichkeiten dieser Ereignisse ist; statt um nur endlich viele Mengen geht es also jetzt um abzählbar
unendlich viele.
Die Begriffe des Erwartungswertes und der Varianz können nun auch nicht mehr
einfach durch Summationen definiert werden, vielmehr ist hierfür die Konstruktion eines geeigneten Integrals nötig.
Für den Erwartungswert und die Varianz (deren Definition nun einen geeigneten Integralbegriff voraussetzt), gelten dann weitgehend die gleichen Regeln und
Gesetze wie im endlichen Fall, so dass man die im endlichen Fall gewonnenen
Intuitionen weiter verwenden kann. Allerdings gibt es auch hier neue Probleme.
So gibt es nun gelegentlich reelle Zufallsvariablen, die keinen Erwartungswert
besitzen oder solche, deren Varianz unendlich groß ist.
Was die Unabhängigkeit von Zufallsvariablen angeht, so ist nun die alte Definition
nicht mehr tauglich. Nach dieser Definition waren ja zwei Zufallsvariablen X und
Y unabhängig, wenn für alle möglichen Werte x und y die Beziehung
P(X = x, Y = y) = P(X = x) P(Y = y)
galt. Da es nun möglich ist, dass alle denkbaren Werte x und y die Wahrscheinlichkeit 0 haben, wird diese Definition unbrauchbar. Die Definition der Unabhängigkeit im allgemeinen Fall ist die, dass für ‚zulässige‘ Teilmengen A und B nun
immer die Beziehung
P(X ∈ A, Y ∈ B) = P(X ∈ A) P(Y ∈ B)
gelten soll. Da diese Eigenschaft für endliche Wahrscheinlichkeitsräume sich als
äquivalent zur dortigen Definition erwiesen hatte, stehen die beiden Definitionen
1.2
Stetige Verteilungen
QM2 15
15
nicht im Widerspruch zueinander, vielmehr ist die frühere ein Spezialfall der
allgemeineren.
Die Multinormalverteilung.
Die Zufallsvariablen X1 , . . . , Xn heißen multinormalverteilt oder gemeinsam normalverteilt, wenn jede Linearkombination dieser Variablen, die nicht Varianz 0
besitzt, normalverteilt ist.
P
Jede Variable der Form
ai Xi + b, deren Varianz nicht 0 ist, soll also normalverteilt sein.
Insbesondere sind dann Summen oder Differenzen gemeinsam normalverteilter
Variablen normalverteilt, sofern ihre Varianz nicht 0 ist. Das gleiche gilt für die
Variablen Xi selber, da beispielsweise X1 = 1 · X1 + 0 · X2 + . . . + 0 · Xn + 0 eine
solche Linearkombination ist (entsprechend auch die anderen Xi ).
Sind X1 , . . . , Xn multinormalverteilt, so sind also alle einzelnen Xi normalverteilt. Die Umkehrung gilt keinesfalls: Aus der Normalverteiltheit der Variablen
X1 , . . . , Xn folgt nicht notwendigerweise deren gemeinsame Normalverteiltheit.
Der hier eingeführte Begriff der Multinormalverteilung ist für die multivariate
Statistik wohl die praktischste Verallgemeinerung der Normalverteilung auf mehrere Dimensionen. Leider ist für den Fall n = 1 eine (allerdings unbedeutende)
Inkonsistenz zu konstatieren: Eine einzelne Variable X, deren Varianz 0 ist, gilt
auch als multinormalverteilt, obgleich sie natürlich nicht normalverteilt ist. Einzelne normalverteilte Variablen sind hingegen immer auch multinormalverteilt.
Die Forderung in der Definition der Multinormalverteilung ist recht stark, so dass
es zunächst fraglich ist, ob es überhaupt multinormalverteilte Variablen gibt. Hier
gilt jedoch der folgende (hier nicht begründbare) Satz:
Sind X1 , . . . , Xn unabhängig und normalverteilt, so sind sie auch gemeinsam normalverteilt.
Darüber hinaus gilt die folgende bemerkenswerte Feststellung (die hier ebenfalls
nicht gezeigt werden kann):
Sind X und Y gemeinsam normalverteilt und unkorreliert, so sind sie unabhängig.
Für gemeinsam normalverteilte Variablen fallen also die Begriffe der Unabhängigkeit und der Unkorreliertheit zusammen, was ein Beleg dafür ist, wie stark der
1.2
Stetige Verteilungen
QM2 15
16
Begriff der gemeinsamen Normalverteiltheit ist, denn allgemein folgt ja nur aus
der Unabhängigkeit die Unkorreliertheit, nicht aber aus der Unkorreliertheit die
Unabhängigkeit.
Allgemeiner gilt für mehrere gemeinsam normalverteilte Variablen X1 , . . . , Xn ,
dass sie genau dann (gemeinsam) unabhängig sind, wenn sie paarweise unkorreliert sind.
Zur χ2 -Verteilung.
Für die Herleitung vieler Verteilungen von besonderer Wichtigkeit ist der folgende
Satz:
Sind X1 , . . . , Xn unabhängige Versionen von X ∼ N (µ, σ 2 ) und sind
n
M=
1X
Xi
n i=1
n
und
s2 =
1 X
(Xi − M )2
n − 1 i=1
Stichprobenmittelwert und korrigierte Stichprobenvarianz, so sind M und s2 unabhängig und es gilt
M ∼ N (µ, σ 2 /n)
und
(n − 1)s2
∼ χ2n−1 .
σ2
Die Begründung soll hier wenigstens für den Fall n = 2 gegeben werden. Hierzu sei Y = (X1 − X2 ). Als erstes soll gezeigt werden, dass M und Y gemeinsam normalverteilt und unabhängig sind. Um die gemeinsame Normalverteilung
nachzuweisen, muss gezeigt werden, dass jede Linearkombination dieser Variablen
normalverteilt ist oder Varianz 0 besitzt.
Sei also a1 M + a2 Y eine beliebige Linearkombination (es ist klar, dass additive
Konstanten hier irrelevant sind). Dann kann man dies umschreiben zu
a1 M + a2 Y = a1 (X1 + X2 )/2 + a2 (X1 − X2 ) = (a1 /2 + a2 )X1 + (a1 /2 − a2 )X2 .
Die gegebene Linearkombination ist also auch eine Linearkombination von X1
und X2 . Da X1 und X2 jedoch unabhängig und normalverteilt sind, sind sie
auch gemeinsam normalverteilt, weshalb jede Linearkombination (also auch die
gerade untersuchte) wieder normalverteilt ist oder Varianz 0 besitzt. Es folgt, wie
gewünscht, die gemeinsame Normalverteilung von M und Y .
1.2
Stetige Verteilungen
QM2 15
17
Die Kovarianz von M und Y bestimmt man zu
Kov(M, Y ) = Kov((1/2)(X1 + X2 ), X1 − X2 )
= (1/2)Kov(X1 + X2 , X1 − X2 ))
= (1/2) (Kov(X1 , X1 ) − Kov(X1 , X2 ) + Kov(X2 , X1 ) − Kov(X2 , X2 ))
= (1/2)(σ 2 − σ 2 ) = 0 ,
da ja Kov(X1 , X1 ) = Kov(X2 , X2 ) = σ 2 gilt. Die Variablen M und Y sind also
unkorreliert.
Da M und Y auch gemeinsam normalverteilt sind, folgt aus der Unkorreliertheit
sogar die Unabhängigkeit von M und Y .
Als nächstes soll gezeigt werden, dass s2 eine Funktion von Y ist; dann vererbt
sich nämlich die Unabhängigkeit von M und Y auf M und s2 .
In der Tat gilt
s2 =
1
(X1 − M )2 + (X2 − M )2 ,
(2 − 1)
wobei
1
1
1
(X1 + X2 ) = (X1 − X2 ) = Y
2
2
2
ist und entsprechend X2 − M = (1/2)(X2 − X1 ) = (−1/2)Y . Es folgt
2 2
Y
Y2
−Y
Y2
2
s =
=
.
+
=2
2
2
4
2
X1 − M = X 1 −
Nun bleiben nur noch die Aussagen über die Verteilungen von M und s2 . Die
Verteilung von M ist schon bekannt, und für s2 bemerkt man zunächst, dass
Y ∼ N (0, 2σ 2 ) gilt, denn einerseits ist der Erwartungswert von Y gleich
E(Y ) = E(X1 − X2 ) = E(X1 ) − E(X2 ) = µ − µ = 0 ,
andererseits ist die Varianz von Y wegen der Unabhängigkeit von X1 und X2
gleich der Summe der Varianzen von X1 und X2 , also 2σ 2 . Da dies ungleich 0 ist,
folgt auch noch die Normalverteilung von Y aus der gemeinsamen Normalverteilung von X1 und X2 .
√
Aus Y ∼ N (0, 2σ 2 ) folgt direkt Y /( 2σ) ∼ N (0, 1), woraus sich schließlich
2
(n − 1)s2
(2 − 1)s2
s2
Y2
Y
∼ χ21
=
= 2 = 2 = √
2
2
σ
σ
σ
2σ
2σ
1.2
Stetige Verteilungen
QM2 15
18
ergibt, da ja das Quadrat einer standardnormalverteilten Variable definitionsgemäß χ21 -verteilt ist.
Als Ergänzung soll nun noch die Begründung für den Fall n = 3 skizziert werden; sie lässt ahnen, wie die Begründung für den allgemeinen Fall etwa aussehen
würde. Allerdings kann man – mit geeigneten Hilfsmitteln, die hier noch nicht
zur Verfügung stehen – die nötigen Schritte auch viel eleganter, kürzer und vor
allem durchsichtiger formulieren.
Im Fall n = 3 bildet man neben dem Mittelwert M = (X1 + X2 + X3 )/3 zwei
geeignete neue Variablen, beispielsweise die Variablen
1
Y1 = √ (2X1 − X2 − X3 )
6
1
Y2 = √ (X2 − X3 ) .
2
Zunächst zeigt man dann analog wie oben, dass M , Y1 und Y2 gemeinsam normalverteilt sind. Dann bestimmt man – wieder genau wie oben – die Varianzen
und Kovarianzen, wobei sich herausstellt, dass die Kovarianzen alle 0 sind und
die Varianzen von Y1 und Y2 gleich σ 2 .
Man folgert wieder, dass M , Y1 und Y2 gemeinsam unabhängig sind. Aus Y1 und
Y2 stellt man als nächstes eine weitere Variable U her als
U = Y12 + Y22 ,
wobei sich die Unabhängigkeit von M , Y1 und Y2 auf M und U vererbt.
Bildet man andererseits als Vorstufe zur Varianz den Ausdruck
(X1 − M )2 + (X2 − M )2 + (X3 − M )2 ,
setzt man M = (X1 + X2 + X3 )/3 ein und formt das Ergebnis um, so stellt man
fest, dass es sich dabei gerade um U handelt (wobei auch U nach Einsetzen der
Ausdrücke für Y1 und Y2 entsprechend umzuformen ist).
Als Ergebnis erhält man
s2 =
1
2
1
1
(X1 − M )2 + (X2 − M )2 + (X3 − M )2 = U =
2
2
Y12 + Y22 ,
und hat damit (bis auf den Faktor 1/2) die Varianz s2 nicht mehr als eine Summe
von drei Termen dargestellt, sondern als eine Summe von zwei unabhängigen
1.2
Stetige Verteilungen
QM2 15
19
quadrierten normalverteilten Variablen. Dies ist die Stelle, an der sich die Zahl
der Freiheitsgerade bestimmt.
Berücksichtigt man, dass die Erwartungswerte von Y1 und Y2 beide 0 sind, so folgt,
dass Z1 = Y1 /σ und Z2 = Y2 /σ standardnormalverteilt und ebenfalls unabhängig
sind. An der Umformung
(n − 1) s2
2 s2
U
Y12 Y22
=
=
=
+ 2 = Z12 + Z22
σ2
σ2
σ2
σ2
σ
erkennt man schließlich noch, dass (n − 1)s2 /σ 2 auch in diesem Fall χ2 verteilt
ist, und zwar – wie behauptet – mit 2 Freiheitsgraden. Was die Zahl der sogenannten Freiheitsgrade angeht, so lädt der Name dazu ein,
Assoziationen zu produzieren. Solche Assoziationen können natürlich nicht die
(eher technische) Definition und die formalen Ableitungen ersetzen, sie sind jedoch als Merkhinweise durchaus nützlich und weisen bisweilen auch in die richtige
Richtung.
Bei den Freiheitsgraden der letzten Feststellung gibt es in der Tat eine recht
eingängige (Pseudo)-Argumentation: In der ursprünglichen Situation können alle
n Beobachtungen Xi unabhängig voneinander variieren, sie hätten in diesem Sinn
n ‚Grade der Freiheit‘. Beim Bilden von s2 werden zunächst die Abweichungen
der Xi vom Mittelwert M gebildet, also die Werte (Xi − M ), die dann quadriert
und aufsummiert werden. Diese Werte (Xi − M ) können jedoch nun nicht mehr
so unabhängig voneinander variieren wie die Xi , da ja bekanntlich die Summe der
Abweichungen vom Mittelwert immer 0 ist. So ist durch die ersten n − 1 Werte
(Xi − M ) der letzte Wert (Xn − M ) eindeutig festgelegt und hat gewissermaßen
im Vergleich zu Xn seine Bewegungsfreiheit verloren. Von den ursprünglich n
‚Graden der Freiheit‘ bleiben ‚also‘ nun nur noch n − 1 übrig.
Diese Argumentation veranschaulicht schön den ‚Verlust eines Freiheitsgrades‘
und ist in dieser Hinsicht nützlich. Sie ist auch harmlos, wenn man sie nicht mit
einer Begründung verwechselt. Die korrekte Begründung (die einen hier nicht vertretbaren mathematischen Aufwand erfordert) sieht natürlich anders aus, wobei
sich allerdings durchaus Elemente der betrachteten Argumentation wiederfinden.
In diesem Sinn ist die Argumentation nicht nur als Merkhinweis nützlich, sondern
weist sogar auch noch in die richtige Richtung.
Eine bemerkenswerte Eigenschaft der χ2 -Verteilungen ist ihr Verhalten beim Addieren:
1.2
Stetige Verteilungen
QM2 15
20
Sind Y1 ∼ χ2m und Y2 ∼ χ2n unabhängig, so gilt Y1 + Y2 ∼ χ2m+n .
Die Summe unabhängiger χ2 -verteilter Variablen ist also wieder χ2 -verteilt, wobei
sich die Freiheitsgrade addieren.
Um interessierten Leserinnen eine Vorstellung zu geben, wie derartige Aussagen
zu beweisen sind, soll hier skizzenhaft eine Begründung gegeben werden, die im
Wesentlichen korrekt ist (und vielleicht etwas komplizierter, als man erwarten
würde). Bei einigen Schritten fehlt die Rechtfertigung, wenngleich diese Schritte
intuitiv einsichtig sind; eine solche Rechtfertigung würde einige Vorarbeiten hinsichtlich Eigenschaften unabhängiger Variablen und gemeinsamer Verteilungen
erfordern. Um das Unterscheidungsvermögen für korrekte und nur plausibilisierende Argumentationen zu schulen, sind solche Stellen mit (∗) markiert.
Zur Begründung seien nun also X1 , . . . , Xm , Xm+1 , . . . , Xm+n unabhängige normalverteilte Zufallsvariablen. Man definiert dann neue Zufallsvariablen Ỹ1 und Ỹ2
als
m
m+n
X
X
2
Ỹ1 =
Xi
und
Ỹ2 =
Xi2 .
i=1
i=m+1
Diese Variablen sind dann definitionsgemäß χ2 -verteilt mit m und n Freiheitsgraden und zusätzlich unabhängig, da die Gruppen der Xi , aus denen sie gebildet
sind, voneinander unabhängig sind (∗).
Die Variablen Ỹ1 und Ỹ2 haben also die gleichen Verteilungen wie Y1 und Y2 . Da
die gemeinsame Verteilung von zwei unabhängigen Variablen durch die Einzelverteilungen bereits vollständig festliegt (∗), ist auch die gemeinsame Verteilung
von Ỹ1 und Ỹ2 gleich der gemeinsamen Verteilung von Y1 und Y2 (für diskrete
Variablen ist diese plausible Tatsache bekannt – die gemeinsame W-Funktion ist
das Produkt der Rand-W-Funktionen – und bei stetigen Variablen mit Dichte
gilt ja ein ähnlicher Satz).
Da die Verteilung einer Funktion f (X) einer Variablen X durch die Verteilung
der Variablen selbst vollständig bestimmt ist (∗) (für diskrete Variablen ist dies
bekannt), stimmen die Verteilungen von Ỹ1 + Ỹ2 und Y1 +Y2 überein (die Funktion
f ist hier die auf R × R definierte Addition, und die Rolle der Variablen X wird
hier einmal von (Ỹ1 , Ỹ2 ) und einmal von (Y1 , Y2 ) übernommen – die Variablen,
auf die die Funktion wirkt, sind also hier jeweils schon ‚zweidimensional‘).
1.2
Stetige Verteilungen
QM2 15
21
Die Verteilung von
Ỹ1 + Ỹ2 =
n+m
X
Xi2
i=1
ist jedoch defintionsgemäß eine
die Behauptung gezeigt ist. χ2m+n -Verteilung,
also auch die von Y1 +Y2 , womit
Zur F -Verteilung.
Sind X ∼ χ2n und Y ∼ χ2m unabhängig, und ist
U=
X/n
,
Y /m
so heißt die Verteilung von U auch F -Verteilung mit n Zähler- und m Nennerfreiheitsgraden.
Die Abkürzung für diese Verteilung ist Fn,m .
Die F -Verteilungen mit einem Zählerfreiheitsgrad sind eng mit den t-Verteilungen
verwandt:
Gilt V ∼ tn , so gilt V 2 ∼ F1,n .
2
Zur Begründung seien
p X ∼ N (0, 1) und Y ∼ χn unabhängig. Dann ist die Verteilung von W = X/ Y /n eine tn -Verteilung, die Verteilung von W stimmt also
mit der von V überein. Daher stimmt auch die Verteilung von W 2 mit der von V 2
überein (vgl. hierzu die Anmerkungen zur Verteilung der Summe zweier unabhängiger χ2 -Variablen). Die Variable W 2 ist aber gleich X 2 /(Y /n) = (X 2 /1)/(Y /n).
Da X 2 als Quadrat einer standardnormalverteilten Variablen eine χ21 -Verteilung
besitzt, und da mit X und Y auch Zähler und Nenner von W 2 unabhängig sind,
hat W 2 definitionsgemäß eine F1,n -Verteilung. Folglich besitzt auch V 2 diese Verteilung. Kehrwerte von F -verteilten Variablen sind wieder F -verteilt:
Gilt U ∼ Fn,m , so gilt 1/U ∼ Fm,n .
Zur Begründung seien X ∼ χ2n und Y ∼ χ2m unabhängig, W = (X/n)/(Y /m).
Dann besitzt W definitionsgemäß eine Fn,m -Verteilung, also die gleiche Verteilung
wie U . Folglich besitzen auch 1/U und 1/W die gleiche Verteilung. Wegen 1/W =
(Y /m)/(X/n) ist jedoch die Verteilung von 1/W eine Fm,n -Verteilung, und damit
auch die Verteilung von 1/U . 1.3
1.3
Spezielle Verfahren
QM2 15
22
Spezielle Verfahren
Anpassungstests.
Zum χ2 -Test auf eine feste Verteilung.
Bei Anpassungstests geht es um die Frage, ob eine gegebene Variable eine spezielle
Verteilung oder eine Verteilung aus einer bestimmten Klasse besitzt (beispielsweise eine Normalverteilung mit nicht spezifiziertem Erwartungswert und nicht
spezifizierter Varianz).
Hier wird zunächst der einfachere Fall behandelt, dass die Verteilung, um die
es geht, fest vorgegeben ist (beispielsweise eine spezielle Normalverteilung wie
N (100, 225)).
Die Nullhypothese ist die, dass die Verteilung der untersuchten Variable X gleich
dieser Verteilung V0 ist, die Alternativhypothese besagt hingegen, dass die Verteilung von X nicht V0 ist.
Beim χ2 -Test geht man in diesem Fall bekanntlich so vor, dass man zunächst
den Wertebereich der Variable X in J disjunkte Teilmengen Aj einteilt. Die
Wahrscheinlichkeiten dieser Teilmengen unter H0 seien die Zahlen pj0 . Unter H0
gilt also P(X ∈ Aj ) = pj0 . Die pj0 müssen dabei alle 6= 0 sein.
Im allgemeinen Fall, in dem die Verteilung von X nicht spezifiziert wird, sollen
diese Wahrscheinlichkeiten P(X ∈ Aj ) nur pj heißen.
Nach dieser Einteilung zieht man von der Variable X eine große unabhängige
Stichprobe vom Umfang N und ermittelt die Häufigkeiten fo,j , mit denen Werte
in diesen Teilmengen Aj auftreten. Diese Häufigkeiten werden verglichen mit
den Häufigkeiten fe,j = N pj0 , die man unter H0 ‚erwartet‘. (Eine unabhängige
Stichprobe ist natürlich eine solche, bei der die einzelnen Ziehungen durch das
Modell unabhängiger Zufallsvariablen beschrieben werden können; praktisch wird
man zur Rechtfertigung einer solchen Annahme zu gewährleisten suchen, dass die
Ergebnisse der einzelnen Ziehungen sich in keiner Weise gegenseitig beeinflussen
können.)
Der Vergleich wird mit der vorläufig als cN bezeichneten Statistik
J
X
(fo,j − fe,j )2
cN =
fe,j
j=1
1.3
Spezielle Verfahren
QM2 15
23
durchgeführt; die Nullhypothese wird auf dem Niveau α verworfen, wenn
cN ≥ χ2J−1; α
gilt.
Zur Rechtfertigung des Verfahrens ist zunächst klar, dass große Werte von cN gegen die Nullhypothese sprechen, weil in ihnen eine deutliche Diskrepanz zwischen
den erwarteten und den tatsächlichen Häufigkeiten zum Ausdruck kommt.
Die Form der Entscheidungsregel wird also auf jeden Fall die sein, dass die Nullhypothese dann zu verwerfen ist, wenn cN ≥ k gilt für einen kritischen Wert k,
der noch geeignet zu wählen ist. Die Wahl von k muss dann so geschehen, dass die
Wahrscheinlichkeit, H0 fälschlicherweise zu verwerfen, höchstens gleich dem gegebenen Signifikanzniveau α ist – mit anderen Worten sollte k bei der Verteilung
von cN unter H0 rechts α abschneiden.
Im hier vorliegenden Fall einer festen Verteilung V0 unter der Nullhypothese könnte man die Verteilung von cN unter H0 mit kombinatorischen Hilfsmitteln exakt
bestimmen, der Aufwand wäre allerdings meist sehr hoch. Erfreulicherweise konvergiert die Verteilung von cN jedoch für N → ∞ schwach gegen eine χ2J−1 Verteilung, wenn die Nullhypothese gilt.
Diese Konvergenzaussage kann hier nicht allgemein begründet werden; immerhin
soll gleich die Skizze einer Begründung für den Fall J = 2 gegeben werden.
Setzt man jedoch diese Konvergenz voraus, so hat man eine Rechtfertigung für
die oben gegebene Entscheidungsregel: Für hinreichend großes N sollten sich die
Verteilung von cN und die χ2J−1 -Verteilung nicht mehr allzustark unterscheiden
(im Hinblick auf ihre Verteilungsfunktionen), so dass die Zahl χ2J−1; α , die bei
der χ2J−1 -Verteilung rechts α abschneidet, auch bei der Verteilung von cN rechts
ungefähr α abschneiden wird. Mit anderen Worten ist der Fehler, den man macht,
wenn man als kritischen Wert k die Zahl χ2J−1; α wählt, nicht allzu groß – genauer
ist die Wahrscheinlichkeit eines Fehlers erster Art zwar dann nicht genau α, aber
(hoffentlich) von α auch nicht allzustark verschieden.
Der geschilderte Test ist also wenigstens näherungsweise ein Test zum Niveau α.
Es folgt nun die angekündigte skizzenhafte Begründung der Konvergenzaussage
für den Fall J = 2.
Hier geht es um den Fall mit zwei Bereichen Aj ; abkürzend sei p = p10 die
1.3
Spezielle Verfahren
QM2 15
24
Wahrscheinlichkeit für Werte in A1 . Die Wahrscheinlichkeit p20 für Werte in A2
ist dann natürlich 1 − p, was wie üblich mit q abgekürzt sei.
Wegen des unabhängigen Ziehens ist dann die Häufigkeit fo,1 von Ergebnissen
in A1 binomialverteilt, genauer gilt: fo,1 ∼ B(N, p). Da sich fo,1 und fo,2 zu N
ergänzen, gilt fo,2 = N − fo,1 .
Die erwarteten Häufigkeiten sind fe,1 = N p und fe,2 = N q = N − N p.
Damit erhält man
cN =
=
=
=
=
(fo,1 − N p)2 (fo,2 − N q)2
+
Np
Nq
2
(N − fo,1 − (N − N p))2
(fo,1 − N p)
+
Np
Nq
2
(fo,1 − N p) 1 1
+
N
p q
(fo,1 − N p)2 1
N
pq
2
(fo,1 − N p)
√
,
N pq
wobei (N p − fo,1 )2 = (fo,1 − N p)2 und p + q = 1 benutzt wurden.
Der Ausdruck
(fo,1 − N p)
√
N pq
ist aber gerade die z-Transformierte der Summe von N unabhängigen B(1, p)Variablen; wegen des zentralen Grenzwertsatzes konvergiert die Verteilung dieses
Ausdrucks daher für N → ∞ schwach gegen die N (0, 1)-Verteilung.
Es ist daher plausibel (und auch richtig), dass die Verteilung des Quadrats des
Ausdrucks (also von cN ) schwach gegen die Verteilung des Quadrats einer standardnormalverteilten Variable konvergiert, also gegen eine χ21 -Verteilung. Es folgen nun mehrere Bemerkungen zu diesem χ2 -Test.
1. Die Teststatistik cN hat meist den Namen χ2 . Die Bezeichnung cN wurde
hier nur deshalb verwendet, um voreilige Fehlassoziationen zu vermeiden
und um einige Tatsachen, beispielsweise im Zusammenhang mit der Konvergenz, besser formulieren zu können.
1.3
Spezielle Verfahren
QM2 15
25
2. In vielen Fällen findet hier eine ‚Vergröberung‘ der Hypothesen statt, nämlich in all den Fällen, in denen die Mengen Aj nicht alle nur aus einem
Element bestehen. Was nämlich untersucht wird, ist, ob die Häufigkeiten
für Beobachtungen in den Aj mit dem harmonieren, was man auf der Basis
der Wahrscheinlichkeiten pj0 dieser Mengen unter H0 erwartet.
Die Verteilung V0 unter H0 kommt also nur auf dem Umweg über die Wahrscheinlichkeiten pj0 ins Spiel, und man würde für alle Verteilungen V , die
mit der H0 -Verteilung in diesen Wahrscheinlichkeiten übereinstimmen, die
gleichen Testwerte und Entscheidungen erhalten, wenn man sie zur H0 Verteilung machen würde. Mit anderen Worten unterscheidet dieser Test
nicht zwischen V0 und allen weiteren Verteilungen, unter denen die Aj gleiche Wahrscheinlichkeiten besitzen wie unter V0 . Diese Verteilungen sollen
der Kürze halber in der weiteren Diskussion als bei den gegebenen Aj zu V0
äquivalente Verteilungen bezeichnet werden.
Man kann dies auch so ausdrücken, dass eigentlich nicht H0 getestet wird,
sondern die (schwächere, in diesem Sinn ‚vergröberte‘ oder ‚verwässerte‘)
Hypothese, dass die Wahrscheinlichkeiten der Aj gerade die pj0 sind, zu
denen V0 führt (aber eben auch viele andere Verteilungen). Formal wird
also eigentlich das modifizierte Hypothesenpaar
H00 : pj = pj0
H10
: nicht
für alle j = 1, . . . , J
H00
getestet. Das Verhältnis der alten zu den neuen Hypothesen ist nun so, dass
aus der Richtigkeit von H0 die von H00 folgt, aber nicht umgekehrt (außer
in dem Fall, dass die Aj alle nur ein Element enthalten) – hierin liegt die
‚Verwässerung‘. Entsprechend folgt aus der Gültigkeit von H10 die von H1 ,
aber wieder – außer in dem Sonderfall – nicht umgekehrt. (Man benutzt hier
die allgemeine logische Regel, dass „A → B“ und „(nicht B) → (nicht A)“
äquivalent sind.)
Die Vergröberung ist unkritisch, wenn man ein signifikantes Ergebnis erzielt,
da die dann akzeptierte H10 auch H1 impliziert. Probleme wirft hingegen ein
nichtsignifikantes Ergebnis auf, wie weiter unten ausgeführt wird.
3. Was die Zahl der Freiheitsgrade angeht, so gibt es für diesen und ähnliche
Fälle eine Faustregel, die folgendermaßen lautet:
# df
=
# FP(H1 )
−
# FP(H0 ) ,
1.3
Spezielle Verfahren
QM2 15
26
wobei das Zeichen ‚#‘ als Abkürzung für ‚Anzahl‘ steht, und wobei ‚df‘
und ‚FP‘ Abkürzungen für ‚Freiheitsgrade (degrees of freedom)‘ und ‚Freie
Parameter‘ sind. Die Faustregel lautet ausführlich dann so: Die Anzahl der
Freiheitsgrade ist die Differenz aus der Anzahl der freien Parameter unter
H1 und unter H0 .
Im hier betrachteten Fall ist zunächst zu klären, was unter ‚freien Parametern‘ zu verstehen ist. Parameter sind immer gewisse Kennwerte, die eine
Verteilung für einen bestimmten Zweck hinreichend genau charakterisieren.
Berücksichtigt man, dass im Sinne der Anmerkung 2 eigentlich die ‚vergröberte‘ oder ‚verwässerte‘ neue Nullhypothese H00 getestet wird, so ist in
dieser Formulierung naheliegend, die Wahrscheinlichkeiten p1 , . . . , pJ als Parameter zu bezeichnen. Unter H00 sind diese Wahrscheinlichkeiten festgelegt
(nämlich zu pj0 ), unter H10 hingegen nicht. Die Zahl der ‚freien‘ Parameter
ist unter H00 also 0, während sie unter H10 zunächst gleich J zu sein scheint.
Allerdings können die pj nicht völlig beliebige Werte annehmen, vielmehr
muss ihre Summe stets 1 ergeben. Dadurch ist immer ein Parameter durch
die Werte der restlichen J − 1 Parameter vollständig bestimmt. ‚Frei‘ sind
also nur J − 1 der pj .
Die Faustregel führt nach diesen Erläuterungen zur Anzahl
(J − 1) − 0 = J − 1
von Freiheitsgraden, was tatsächlich die richtige Anzahl ist; die Faustregel
hat in diesem Fall also recht.
Bei näherem Hinsehen sind die gerade gegebenen Erläuterungen sicher nicht
befriedigend, da es an präzisen Definitionen (beispielsweise des Begriffs ‚Parameter‘) fehlt. Für eine genauere Behandlung der aufgeworfenen Fragen
fehlen allerdings hier die Grundlagen, und da die Faustregel auch nur als
Faustregel und nicht mehr zu verstehen ist, sollte das Gesagte ausreichen.
4. Was die Approximation angeht (in Wahrheit ist die Teststatistik cN nur
näherungsweise χ2 -verteilt, man tut aber so, als hätte sie diese Verteilung),
so wird sie meist als ausreichend angesehen, wenn alle fe,j mindestens 5
sind.
5. Es gibt Korrekturformeln für kleine Stichprobengrößen.
6. Gelingt es nicht, die Nullhypothese zu verwerfen, so kann das eigentlich
nicht als Beleg dafür gewertet werden, dass diese Nullhypothese richtig ist.
1.3
Spezielle Verfahren
QM2 15
27
Einerseits nämlich ist über den β-Fehler nichts bekannt (er wird sehr groß
sein, wenn die tatsächliche Verteilung sich kaum von der unter H0 unterscheidet), und andererseits wird im Grunde nicht die eigentliche Nullhypothese H0 getestet, sondern nur die Vergröberung H00 , die nicht mehr zwischen der Verteilung V0 und allen anderen Verteilungen unterscheidet, die
bei den gegebenen Aj zu V0 äquivalent sind. Auch wenn man also ein nicht
signifikantes Ergebnis als Stützung für die Nullhypothese werten wollte, wäre dies nur eine Stützung für die ‚verwässerte‘ Nullhypothese H00 , aus der
H0 ja im Allgemeinen nicht folgt.
Etwas rigoroser formuliert kann man also ein nicht signifikantes Ergebnis
nicht ernsthaft als Beleg für H00 werten und als Beleg für H0 schon gar nicht.
7. Unglücklicherweise richtet sich jedoch das Interesse in vielen Situationen,
in denen der χ2 -Test angewendet wird, gerade auf eine ‚Stützung‘ der Nullhypothese (man möchte beispielsweise eine Normalverteilungsannahme, auf
der ein folgender Test beruht, rechtfertigen). Das Vorgehen in solchen Fällen ist meist so, dass man das Testniveau hochsetzt (also vielleicht von 5%
auf 20%) und hofft, dass sich dennoch kein signifikantes Ergebnis einstellt.
Auf diese Weise hat man dann den unbekannten β-Fehler wenigstens etwas
verkleinert.
8. In Programmen und in der Literatur findet sich bekanntlich statt einer
Angabe zum Signifikanzniveau ein p-Wert, der angibt, auf welchem Niveau
die gegebenen Daten gerade noch zu einem signifikanten Ergebnis geführt
hätten. In dem Fall, dass H0 ‚gestützt‘ werden soll, wird man also hoffen,
dass dieser Wert möglichst hoch ist (also vielleicht mindestens .2, besser
größer). Die naheliegende Regel ‚ je höher p, umso besser die Anpassung‘
ist in dieser naiven Form freilich nicht haltbar.
9. Für jede konkrete Verteilung V , die nicht bei den gegebenen Aj mit V0
äquivalent ist, gilt, dass die Power des Tests gegen 1 geht mit N → ∞, falls
V die wahre Verteilung von X ist. Falls also H10 (die Formulierung aus der
‚Vergröberung‘) stimmt, wird man bei großen Stichproben mit sehr großer
Wahrscheinlichkeit H0 zurückweisen.
10. Der noch zu besprechende Test von Kolmogoroff und Smirnoff ist bei stetigen Verteilungen eine Alternative zum χ2 -Test.
Delikat ist die Situation eines Forschers, der eine Nullhypothese stützen will,
an die er eigentlich gar nicht glaubt. Beispielsweise könnte diese Hypothese die
1.3
Spezielle Verfahren
QM2 15
28
sein, dass eine Variable eine bestimmte Normalverteilung besitzt. Wird zum Testen dieser Hypothese nun der χ2 -Test verwendet, so darf die Stichprobe nicht
zu klein sein, da ja der Test nur approximativ korrekt ist. Andererseits darf die
Stichprobe auch nicht zu groß werden, denn sonst wird die Wahrscheinlichkeit
eines (unerwünschten) signifikanten Ergebnisses hoch, da ja die Nullhypothese
streng genommen nicht gilt, und da deshalb mit wachsendem N diese Wahrscheinlichkeit gegen 1 geht (außer in dem Fall, in dem zwar nicht H0 , jedoch die
vergröberte H00 stimmt).
Man fragt sich womöglich, was ein solcher Forscher eigentlich tut, wenn er den
Test durchführt. Vielleicht wird er, um Auskunft gebeten, antworten, dass er zu
belegen versucht, dass die Abweichung der tatsächlichen Verteilung von X von
der unter der Nullhypothese angenommenen nicht allzu groß und daher harmlos ist. Ob sein Vorgehen zu diesem Zweck jedoch tauglich ist, hängt von einer
genaueren Spezifikation dessen ab, was unter tolerierbaren Abweichungen zu verstehen ist. An eine solche Spezifikation müssten sich dann weitere Überlegungen
anschließen...
Die Situation, dass die Richtigkeit eines theoretisches Modell belegt werden soll,
das aus formal-technischen Gründen die Rolle der Nullhypothese spielen muss,
ist keineswegs selten; die Schwierigkeiten sind dann immer ähnlich zu den hier
beschriebenen, und sie verschärfen sich, wenn bei genauerem Hinsehen gar nicht
erwartet wird, dass das Modell exakt stimmt, sondern es nur ‚ungefähr‘ stimmen
soll. Die Lösungsversuche sind meist ähnlich wie sie hier für den Test auf das
Vorliegen einer bestimmten Verteilung besprochen wurden.
Anzumerken ist übrigens, dass in sehr vielen anderen Fällen, in denen in dieser Art ein Modell als Nullhypothese getestet wird, die Teststatistik ebenfalls
approximativ χ2 -verteilt ist.
Der χ2 -Test für eine Verteilungsklasse.
Hier geht es um die Frage, wie man testen kann, ob die Verteilung einer Zufallsvariable X einer bestimmten Klasse angehört, ob X beispielsweise normalverteilt
ist, ohne dass diese Normalverteilung (durch Angabe von Erwartungswert und
Varianz) genau spezifiziert würde.
Der Test geht mit zwei Modifikationen genau so wie im Fall einer festen Verteilung
unter H0 . Diese Modifikationen sind die, dass erstens die Parameter der Verteilung
unter H0 geschätzt werden, worauf die zugehörige Verteilung die Rolle der festen
1.3
Spezielle Verfahren
QM2 15
29
Verteilung übernimmt, und dass zweitens die Zahl der Freiheitsgrade der χ2 Verteilung, die zur Festlegung des kritischen Wertes benutzt wird, um die Zahl
dieser geschätzten Parameter vermindert wird.
Dies soll am Beispiel des Tests auf Normalverteilung genauer erläutert werden; es
soll dabei zur Illustration ein konkreter hypothetischer Fall herangezogen werden.
Es geht in diesem Fall um die Frage, ob die Intelligenz X in einer bestimmten
Subpopulation (beispielsweise von Studierenden eines bestimmten Fachs) normalverteilt ist oder nicht (das Problem, dass X streng genommen gar nicht normalverteilt sein kann, sei hier ausgeklammert).
Die Hypothesen sind also die folgenden:
H0 :
X ist normalverteilt
H1 :
X ist nicht normalverteilt
Das Signifikanzniveau wird auf 5% festgelegt.
Die Normalverteilungen sind bekanntlich durch Erwartungswert µ und Varianz
σ 2 gekennzeichnet; diese beiden Zahlen sind die Parameter der Verteilung. Hier
bleiben bei H0 beide Werte offen. Es sind auch andere Fälle denkbar, in denen
man sich auf einen der beiden Parameter festlegt – es könnte beispielsweise sein,
dass die Varianz 225 generell vorausgesetzt wird.
Es soll später eine unabhängige Stichprobe vom Umfang 25 gezogen werden. Der
erste Schritt ist die Einteilung des Wertebereichs von X in geeignete Intervalle.
Die Häufigkeiten von Beobachtungen in diesen Intervallen sollen hinterher nach
Möglichkeit mindestens 5 sein, weshalb eine Einteilung in 4 Intervalle sinnvoll erscheint. Da man sicher ungefähre Vorstellungen von Erwartungswert und Varianz
von X hat, wird man die Intervalle so wählen, dass mit nicht wesentlich weniger
als 5 Beobachtungen pro Intervall gerechnet werden kann.
Hier soll die Intervalleinteilung folgendermaßen aussehen:
j Untergrenze von Aj
1
−∞
2
91.5
3
99.5
4
107.5
Obergrenze von Aj
91.5
99.5
107.5
∞
1.3
Spezielle Verfahren
QM2 15
30
Es ist eigentlich noch festzulegen, wie Werte auf den Intervallgrenzen zuzuordnen
sind. Einerseits ist das aber eigentlich unerheblich, wenn man an die Voraussetzung einer stetigen Verteilung glaubt, denn dann treten Werte auf den Grenzen
ja nur mit Wahrscheinlichkeit 0 auf. Andererseits umgeht die gegebene Einteilung
das Problem, da nur ganzzahlige Intelligenzwerte auftreten können (dies zeigt nur
wieder, dass man an die Normalverteiltheit von X gar nicht glauben kann).
Nun wird eine unabhängige Stichprobe gezogen. Als X-Werte mögen sich dabei
die folgenden Zahlen ergeben:
80, 115, 97, 102, 93, 120, 118, 83, 86, 100, 106, 92, 85,
118, 81, 82, 117, 115, 92, 117, 84, 99, 109, 118, 85
Von diesen Daten werden Mittelwert M und korrigierte Stichprobenstreuung s
ermittelt; die Ergebnisse sind M = 99.76 und s = 14.408.
Die zu diesen Parameterschätzungen gehörende Normalverteilung wird nun so
verwendet wie die H0 -Verteilung in der Situation des χ2 -Tests einer festen Verteilung.
Der nächste Schritt ist daher die Ermittlung der Wahrscheinlichkeiten der Aj
unter der Voraussetzung einer Normalverteilung mit Erwartungswert 99.76 und
Streuung 14.408. Zu diesem Zweck müssen die Intervallgrenzen z-transformiert
werden, worauf eine geeignete Tabelle die Werte der Verteilungsfunktion F der
Standardnormalverteilung für diese z-Werte liefert.
Man bekommt das folgende Ergebnis:
x
z
F (z)
91.5 −.57 .28
99.5 −.02 .49
107.5 .54
.71
Durch Differenzbildung ermittelt man nun leicht die Wahrscheinlichkeiten der
Aj . Da diese Wahrscheinlichkeiten auf Schätzungen beruhen, sollen sie mit p̂j0
bezeichnet werden – ein Dach ( ˆ ) weist ja oft darauf hin, dass der Kennwert
darunter geschätzt wurde.
1.3
Spezielle Verfahren
QM2 15
31
Die geschätzten Wahrscheinlichkeiten sind damit die folgenden:
Aj
( −∞, 91.5 )
( 91.5, 99.5 )
( 99.5, 107.5 )
( 107.5, ∞ )
p̂j0
.28
.21
.22
.29
Durch Multiplikation dieser Wahrscheinlichkeiten mit der gegebenen Stichprobengröße N = 25 erhält man die erwarteten Häufigkeiten fe,j , während man die
beobachteten Häufigkeiten einfach durch Auszählen ermittelt. Mit diesen Zahlen
können gleich auch die Summanden der Teststatistik cN bestimmt werden:
j fo,j fe,j (fo,j
1 8
7
2 5 5.25
3 3
5.5
4 9 7.25
− fe,j )2 /fe,j
0.1428
0.0119
1.1364
0.4224
Durch Summation der letzten Spalte erhält man schließlich für die Teststatistik
den Wert 1.7135. Üblicherweise ist der Name dieser Teststatistik χ2 , so dass das
Ergebnis meist als χ2 = 1.7135 notiert würde (die vorläufige Bezeichnung cN
dient nur der Bequemlichkeit bei einigen Formulierungen).
Der Test besteht nun darin, dass man diesen Wert mit dem 5%-Fraktil der χ21 Verteilung vergleicht. Dieser kritische Wert ist 3.841, weshalb das Ergebnis nicht
signifikant ist. Dass hier die χ2 -Statistik mit einem Freiheitsgrad verwendet wird,
liegt daran, dass zwei Verteilungsparameter geschätzt wurden, wodurch im Vergleich zur Situation einer festen Verteilung unter H0 eben gerade zwei Freiheitsgrade verloren gehen. Hätte man hingegen beispielsweise grundsätzlich eine Varianz von 225 vorausgesetzt, so hätte man nur den Erwartungswert geschätzt und
für die Streuung 15 eingesetzt. In diesem Fall wäre also nur ein Parameter geschätzt worden, weshalb zur Ermittlung des kritischen Wertes die χ2 -Verteilung
mit 2 Freiheitsgraden zu verwenden gewesen wäre.
Die Nullhypothese kann also nicht verworfen werden, was jedoch natürlich keineswegs bedeutet, dass man sich für ihre Richtigkeit entscheiden könnte (zu einem
solchen Ergebnis könnte man höchstens kommen, wenn man die Power des Tests
kennen würde und diese hinreichend hoch wäre; davon kann bei der denkbar
unexakten Alternativhypothese hier nicht die Rede sein).
1.3
Spezielle Verfahren
QM2 15
32
In vielen Situationen möchte man nun allerdings die Nullhypothese stützen, beispielsweise, weil man die Voraussetzung der Normalverteiltheit für weitere Tests
benötigt. Bekanntlich geht man dabei so vor, dass man ein höheres Signifikanzniveau wählt und hofft, dass der Test dennoch nicht signifikant wird (dieser Satz
ist deskriptiv und nicht normativ gemeint).
Wäre eine solche Stützung der Nullhypothese hier das Ziel gewesen, so hätte man
vielleicht α = .25 gewählt und als kritischen Wert 1.32330 erhalten. Der erhaltene
Wert 1.7135 wäre nun leider signifikant, womit auch nichts erreicht wäre, nichts
im Sinne der H0 und auch nichts im Sinne der H1 , da ja ein signifikantes Ergebnis
auf dem 25%-Niveau nichts wert ist.
Viele Computerprogramme hätten im vorliegenden Fall zu dem errechneten Wert
χ2 = 1.7135 einen p-Wert von .1905 ausgegeben. Da dieser Wert nahe an .2 liegt,
wären womöglich manche Praktiker damit zufrieden und würden sich berechtigt
fühlen, hinfort von der Normalverteiltheit von X auszugehen.
Es folgen noch einige Anmerkungen.
1. Die Faustregel ‚Anzahl der freien Parameter unter H1 minus Anzahl der
freien Parameter unter H0 ‘ für die Zahl der Freiheitsgrade liefert auch hier
die richtige Zahl – siehe jedoch Anmerkung 3.
2. Es gibt weitere Verfahren, die dem hier vorgestellten ähnlich sind; beispielsweise werden manchmal nicht die Grenzen der Aj vorgegeben, sondern
gleich deren z-Werte.
3. Zur Rechtfertigung des behandelten χ2 -Tests braucht man wieder eine Aussage über das Verhalten der Teststatistik cN für N → ∞. In der Tat konvergiert diese Teststatistik bei Vorliegen einer Verteilung aus der Verteilungsklasse der H0 wieder schwach gegen die χ2 -Verteilung mit den angegebenen Freiheitsgraden, sofern eine passende Methode der Parameterschätzung verwendet wird. Die hier referierte (und weitgehend übliche) Methode,
Mittelwert und korrigierte Stichprobenvarianz zu verwenden, gehört jedoch
leider nicht zu diesen passenden Methoden. In diesem Sinn ist das oben
geschilderte Verfahren nicht gerechtfertigt. Passende Methoden der Parameterschätzung sind beispielsweise die sogenannte ‚Minimum-χ2 -Methode‘
oder eine ‚Maximum-Likelihood-Methode‘, die auf den beobachteten Häufigkeiten in den Aj beruht. Diese Methoden werden allerdings praktisch
wohl kaum verwendet und werden daher hier auch nur erwähnt.
1.3
Spezielle Verfahren
QM2 15
33
4. Gelegentlich werden auch in dieser Testsituation geeignete Adaptationen
des Kolmogoroff-Smirnoff-Tests benutzt.
Der Kolmogoroff-Smirnoff-Test.
Eine Alternative zum χ2 -Test für eine feste Verteilung bietet oft der KolmogoroffSmirnoff-Test. Vorausgesetzt ist dabei, dass es sich bei der untersuchten Variable
X um eine reelle Zufallsvariable handelt. Unter der Nullhypothese soll die Verteilung zudem stetig sein.
Die Nullhypothese ist also wieder die, dass die Verteilung von X gleich einer
stetigen fest vorgegebenen Verteilung V0 mit Verteilungsfunktion F0 ist, während
die Alternativhypothese sagt, dass die Verteilung von X nicht V0 ist.
Als Daten werden die Werte von X bei einer unabhängigen Stichprobe vom Umfang N verwendet.
Die Idee des Tests ist nun sehr naheliegend: Man vergleicht die kumulierten relativen Häufigkeiten Fe (e: empirisch) der Stichprobe mit der Verteilungsfunktion
F0 und lehnt die Nullhypothese bei großen Diskrepanzen ab.
Die Durchführung des Tests soll an einem Beispiel illustriert werden. Hier sei die
Nullhypothese die, dass die Variable X eine N (1, 4)-Verteilung besitzt, dass X
also normalverteilt ist mit Erwartungswert 1 und Varianz 4. Als Stichprobe sollen
die Werte −1.8, 2.5, 3.8, 3.3, 3.5 vorliegen.
Die Gegenüberstellung der kumulierten relativen Häufigkeiten Fe und der Verteilungsfunktion F0 der N (1, 4)-Verteilung ergibt folgendes Bild:
1
.
........
........
....
...
...
.
.................................................................
..................
..........................
...................
................
.
.
.
.
.
.
.
.
.
.
.
.
........
.
.
.
.
.
.
.
.
.
..
..........
.................
.........
.........
.........
........
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
........
.......
...........
.......
.......
.......
.
.
.
.
.
.
....
.
.
.
.
.
.
..
.......
.......
.......
...........................................
.......
.......
.
.
.
.
.
.
.
........
........
.
.
.
.
.
.
...
........
........
..................................................................................................................................................................................................................................................
.........
.
.
.
.
.
.
.
.
.
.
.
............
..............
.................
.....................
.................................
.......................................................................................................................................................................................................................................................................................................................................................................................................................................................
F0
.5
Fe
x
1.3
Spezielle Verfahren
QM2 15
34
Die Teststatistik K ist nun die maximale absolute Abweichung zwischen den
beiden Graphen. Es sollte unmittelbar klar sein, dass eine maximale Abweichung
immer an einer der Stellen vorliegen wird, an denen Fe einen Sprung macht, also
gerade an einer der durch die Daten gegebenen Stellen.
Bei der Suche nach dem maximalen Abstand braucht man also nur diese x-Werte
berücksichtigen. Dort werden dann die Niveaus zu beiden Seiten der Sprungstelle
mit dem Wert der Verteilungsfunktion verglichen (es wird also zu dem Graphen
der kumulierten relativen Häufigkeitsverteilung Fe sozusagen noch der untere
‚Absprungspunkt‘ hinzugefügt, der ja streng genommen nicht dazugehört – nur
durch diese Hinzufügung ist übrigens garantiert, dass der ‚maximale Abstand‘
immer auch an (mindestens) einer Stelle wirklich vorliegt). Die größere der beiden
absoluten Diffenzen ist dann ein Kandidat für die maximale absolute Differenz
insgesamt.
Beispielsweise macht die empirische kumulative Häufigkeitsverteilung einen Sprung
an der Stelle x = 2.5, nämlich von .2 auf .4. Diese beiden Werte werden nun mit
dem Wert .7734 verglichen, den man für F0 an der Stelle 2.5 berechnet. Die beiden
absoluten Abstände (die Richtung der Abweichung wird also nicht berücksichtigt)
sind dann .5734 und .3734. Als Kandidat für den insgesamt maximalen Abstand
kommt natürlich nur der größere der beiden Werte, also .5734, in Frage.
In der folgenden Tabelle ist entsprechend für alle Datenpunkte der maximale
absolute Abstand D bestimmt:
x
Fe (x)
-1.8
0.2
2.5
0.4
0.6
3.3
3.5
0.8
3.8
1.
F0 (x)
0.0808
0.7734
0.8749
0.8944
0.9192
D(x)
0.1192
0.5734
0.4749
0.2944
0.1192
Der maximale Abstand insgesamt ist nun offenbar .5734, er liegt an der Stelle
x = 2.5 vor. Damit ist der Wert der Teststatistik K ermittelt: es gilt K = .5734.
Die Frage ist nun die, ob dieser Wert groß genug ist, um die Nullhypothese zu
verwerfen. Hierzu braucht man die Verteilung von K unter H0 .
Bemerkenswert ist, dass diese Verteilung nicht mehr von dem speziellen V0 abhängt; vielmehr ist die Verteilung von K bei festem N in allen Situationen die
1.3
Spezielle Verfahren
QM2 15
35
gleiche, in denen die Nullhypothese gilt, gleichgültig, welche Verteilung X dann
besitzt (natürlich muss diese Verteilung stetig sein).
Kritische Werte für K findet man in geeigneten Tabellen. Für den hier vorliegenden Fall liefert eine solche Tabelle für das 5%-Niveau den Wert .563. Da der Wert
K = .5734 größer ist als dieser kritische Wert, kann die Nullhypothese verworfen
werden; die Entscheidung lautet also, dass X keine N (1, 4)-Verteilung besitzt.
In vielen Tabellen sind eigentlich nicht die kritischen Werte für den hier beschriebenen ‚zweiseitigen‘ Test aufgeführt, sondern die für gewisse hier nicht behandelte
einseitige Tests, in denen man nur Abweichungen in eine Richtung (nach oben
oder nach unten) berücksichtigt. Wichtig ist nun, dass kritische Werte für diese
einseitigen Tests auf dem Niveau α auch für den zweiseitigen Test benutzt werden
können, allerdings auf dem Niveau 2α. Dies dürfte den Aufbau solcher Tabellen
etwas klarer machen.
Ganz genau betrachtet ist es so, dass bei einer solchen Benutzung der einseitigen
kritischen Werte die Wahrscheinlichkeit eines Fehlers erster Art beim zweiseitigen
Test oft sogar etwas kleiner ist als 2α. Dies hat zur Folge, dass der Test das
vorgegebene Niveau 2α einhält und in diesem Sinne korrekt ist. Es bedeutet aber
auch, dass dieses Niveau von 2α womöglich nicht ganz ausgeschöpft wird und
daher der Test durch eine Verkleinerung des kritischen Wertes vielleicht noch
etwas verbessert werden könnte (im Sinne der Power), ohne das vorgegebene
Niveau von 2α zu überschreiten.
Da die Verbesserung im Allgemeinen jedoch nicht besonders groß wäre, wird aus
Ökonomiegründen oft auf eine eigene Tabellierung der kritischen Werte für zweiseitige Tests verzichtet. Die Tests, die man dann mit der beschriebenen Verwendung der einseitigen kritischen Werte für den zweiseitigen Fall erhält, schützen
in vielen Fällen gewissermaßen die Nullhypothese stärker als es eigentlich nötig
wäre.
Tests mit der Eigenschaft, die Nullhypothese zu stark zu schützen, nennt man
auch konservativ.
Wenn man abschließend bei der Frage, ob eine Variable X eine bestimmte Verteilung V0 hat, die beiden Testmöglichkeiten χ2 und KS (Kolmogoroff-Smirnoff)
vergleicht, so spricht eigentlich fast alles für KS.
Zunächst ist dies ein exakter Test (die genaue Verteilung der Teststatistik unter
H0 ist bekannt, weshalb die kritischen Werte die Einhaltung des Signifikanznive-
1.3
Spezielle Verfahren
QM2 15
36
aus gewährleisten), während der χ2 -Test nur näherungsweise korrekt ist.
Demgemäß ist der KS-Test auch bei kleinen Stichproben anwendbar, wo der χ2 Test – wegen der (möglicherweise) schlechten Übereinstimmung der Verteilung
der Teststatistik cN unter H0 mit der tatsächlich benutzten χ2 -Verteilung – nicht
vertretbar erscheint.
Beim KS-Test hat man auch keine Vergröberung der Hypothesen.
Allerdings setzt der KS-Test eine stetige Verteilung von X voraus; der χ2 -Test
hingegen ist darauf nicht angewiesen, er ist vielmehr auch in Situationen anwendbar, wo die Variable X noch nicht einmal reelle Werte annimmt (man kann
beispielsweise testen, ob die Haarfarben rot, braun, blond und schwarz in einer
bestimmten Population alle mit Wahrscheinlichkeit 1/4 vorkommen – weniger
alberne Beispiele findet man leicht in der Genetik).
Für den Fall, dass die Nullhypothese unexakt ist und eine ganze Klasse von
Verteilungen umfasst, wenn also beispielsweise getestet werden soll, ob eine bestimmte Variable normalverteilt ist, ohne dass Erwartungswert und Varianz spezifiziert werden, kann der χ2 -Test passend verallgemeinert werden, während dies
beim KS-Test nicht so einfach möglich ist. Eine etwas „hemdsärmelige“ Methode
beim KS-Test, bei der auf eine Ausschöpfung des Niveaus verzichtet wird, und
die damit wieder konservativ ist, wäre die, die Parameter der H0 -Verteilung so
zu schätzen, dass der maximale Abstand der zugehörigen Verteilungsfunktion zu
der Funktion der kumulierten relativen Häufigkeiten minimal wird, und dann die
kritischen Werte für den Normalfall (einer festen Verteilung unter H0 ) zu benutzen. Man überzeugt sich unschwer davon, dass dies Verfahren tatsächlich das
gegebene Niveau einhält.
Zum χ2 -Test auf Unabhängigkeit.
Es geht um die Frage, ob zwei Zufallsvariablen X und Y unabhängig sind. Für
diese Frage gibt es einen Test, der auf dem bekannten χ2 -Kennwert für Kontingenztafeln beruht.
Wenn die Zufallsvariablen nicht diskret sind, oder wenn sie zu viele Werte annehmen können, ist der erste Schritt wieder eine Vergröberung: Man unterteilt den
Wertebereich von X und Y in J disjunkte Bereiche Ai , . . . , AI und B1 , . . . , Bj
ein.
Sind die theoretischen Wahrscheinlichkeiten für die Kombinationen von Ai und
1.3
Spezielle Verfahren
QM2 15
37
Bj gleich pij , so erhält man für diese Kombinationen die folgende theoretische
Kontingenztafel:
B1 . . . BJ
A1 p11 . . . p1J p1.
..
..
..
..
.
.
.
.
AI pI1 . . . pIJ pI .
p . 1 . . . p. J
Es ist generell vorauszusetzen, dass alle pi. und alle p.j von 0 verschieden sind.
Nun kann als Nullhypothese die Hypothese formuliert werden, dass für alle pij
die Gleichung
pij = pi. p.j
gilt. Offenbar ist das nur dann gleichbedeutend mit der Hypothese der Unabhängigkeit von X und Y , wenn alle Ai und Bj nur einen Wert enthalten; sonst
besagt die Nullyhpothese eigentlich nur, dass diejenigen neuen Variablen unabhängig sind, die durch die Vergröberung entstehen, bei der nur noch registriert
wird, in welchem Ai bzw. Bj das jeweilige Ergebnis von X bzw. Y liegt. Diese Nullhypothese folgt dann natürlich aus der Unabhängigkeit von X und Y ,
umgekehrt folgt jedoch die Unabhängigkeit von X und Y keineswegs aus der
Nullhypothese; in diesem Sinn wird die eigentlich zu untersuchende Hypothese
(Unabhängigkeit von X und Y ) abgeschwächt.
Die Alternativhypothese ist natürlich die, dass für mindestens ein Paar (i, j) die
Gleichung pij = pi. p.j nicht gilt.
Das Experiment besteht dann darin, eine unabhängige Stichprobe vom Umfang
n zu ziehen und jeweils zu registrieren, in welchem Ai bzw. Bj der Wert von
X bzw. Y liegt. Das Ergebnis ist eine (I × J)-Kontingenztafel mit insgesamt n
Beobachtungen, in der die Anzahl des Auftretens der Kombination (Ai , Bj ) wie
üblich mit nij bezeichnet wird:
A1
..
.
AI
B1 . . . BJ
n11 . . . n1J n1.
..
..
..
.
.
.
nI1 . . . nIJ nI .
n.1 . . . n.J n
Mit den Bezeichnungen
fo,i,j = nij
und
fe,i,j =
ni. n.j
n
1.3
Spezielle Verfahren
QM2 15
38
definiert man die Teststatistik
cn =
X (fo,i,j − fe,i,j )2
,
f
e,i,j
i,j
bei der es sich gerade um den bekannten χ2 -Koeffizienten aus der deskriptiven
Statistik handelt. Meist wird diese Teststatistik auch mit χ2 bezeichnet, die vorläufige Bezeichnung cn dient nur zur bequemeren Formulierung einiger Sachverhalte.
Dass man diese Statistik zum Testen benutzt, ist bei den bekannten Eigenschaften
des χ2 -Koeffizienten naheliegend; die Regel des Tests ist die, dass H0 verworfen
wird, wenn
cn ≥ χ2(I−1)(J−1); α
gilt, wo α das gewählte Signifikanzniveau ist.
Zur Rechtfertigung dieser Regel interessiert die Verteilung der Teststatistik cn
unter H0 . Dabei treten zwei Schwierigkeiten auf.
Die erste Schwierigkeit ist die, dass H0 zusammengesetzt ist; die Verteilung der
zu untersuchenden Variablen ist nämlich – nach der eventuellen Vergröberung –
durch die theoretische Kontingenztafel der pij vollständig charakterisiert, und der
Nullhypothese enspricht dann nicht nur eine Kontingenztafel, sondern sehr viele,
nämlich alle, in denen die Unabhängigkeitsbedingung gilt. Es gibt also nicht die
Verteilung von cn unter H0 , vielmehr führt jede ‚unabhängige‘ Kontingenztafel
zu einer eigenen Verteilung.
Nun tritt jedoch noch eine zweite Schwierigkeit auf: Die Statistik cn ist gar nicht
mit Wahrscheinlichkeit 1 definiert. Der Fall, dass entweder in einer Zeile oder in
einer Spalte gar keine Beobachtungen gemacht werden, hat nämlich immer eine
positive Wahrscheinlichkeit, und in diesem Fall treten bei der Berechnung von cn
Summanden der Form 0/0 auf, wodurch das Ergebnis undefiniert wird.
Man kann die zweite Schwierigkeit dadurch lösen, dass man für solche Fälle irgendeinen Ausnahmewert vorsieht, beispielsweise −1 oder 999.
Die Rechtfertigung des Testverfahrens liegt dann in folgendem nicht ganz leicht
zu beweisendem Satz:
Gilt für die wahre Kontingenztafel der (vergröberten) Variablen die Unabhängigkeitsbedingung, so geht die Verteilung von cn schwach gegen eine χ2(I−1)(J−1) -
1.3
Spezielle Verfahren
QM2 15
39
Verteilung, gleichgültig durch welchen Wert nicht definierte Werte von cn ersetzt
werden.
Dass die Wahl des Ausnahmewerts keine Rolle spielt, liegt daran, dass die Wahrscheinlichkeit, dass eine Ausnahme eintritt, gegen 0 geht für n → ∞.
Zu bemerken ist ferner, dass der Satz unter der Voraussetzung einer festen Verteilung formuliert ist, die der Unabhängigkeitsbedingung genügt; für jede solche
feste Verteilung findet Konvergenz statt. Die Konvergenz kann dabei allerdings –
beispielsweise was die ‚Geschwindigkeit‘ angeht – für verschiedene derartige feste
Verteilungen recht verschieden aussehen (wenngleich die ‚Grenzverteilung‘ immer
die gleiche ist).
Es folgen mehrere Anmerkungen:
1. Auf die Abschwächung der Nullhypothese durch eine eventuelle Vergröberung wurde schon hingewiesen.
2. Auch in diesem Fall führt die oben angegebene Faustregel für die Zahl der
Freiheitsgrade auf das richtige Ergebnis. Man hat sich dazu nur zu überlegen, welches die freien Parameter unter H0 und H1 sind. Nach der Vergröberung ist die gemeinsame Verteilung der beiden Variablen vollständig
durch die theoretische Kontingenztafel charakterisiert, also durch die Werte
pij . Unter Gültigkeit von H1 braucht man zur Beschreibung alle diese Werte
bis auf einen, da die Summe der Wahrscheinlichkeiten ja 1 ergeben muss.
Die Anzahl der freien Parameter unter H1 ist also IJ − 1.
Unter H0 hingegen reicht die Angabe der Randverteilungen zur Konstruktion der gesamten Tafel aus, und diese Randverteilungen sich durch die I
Werte pi. und die J Werte p.j vollständig gekennzeichnet. Auch hier ist aber
jeweils wieder eine Randwahrscheinlichkeit durch die übrigen determiniert,
da ja die Summe gleich 1 sein muss, so dass unter H0 insgesamt I + J − 2
freie Parameter übrig bleiben.
Nach der Faustregel ergibt sich als Zahl der Freiheitsgrade dann
(IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1) ,
und dies ist in der Tat die korrekte Anzahl.
3. Man kann die Formel für die fe,i,j noch so umschreiben, dass die Ähnlichkeit
zu den zuvor besprochenen χ2 -Tests noch größer wird:
ni. n.j
ni. n.j
fe,i,j =
=
n = (p̂i. p̂.j ) n ,
n
n n
1.3
Spezielle Verfahren
QM2 15
40
wobei p̂i. = ni. /n und p̂.j = n.j /n gesetzt ist. Offenbar sind dann p̂i. und
p̂.j naheliegende Schätzer für pi. und p.j so dass ihr Produkt bei Gültigkeit
von H0 ein Schätzer für die Wahrscheinlichkeit pij = pi. p.j ist. Damit hat
dann fe,i,j wieder die Form eines Produkts aus einer – hier allerdings nur
geschätzten – Wahrscheinlichkeit und dem Stichprobenumfang und kann in
diesem Sinne als erwartete Häufigkeit unter H0 interpretiert werden.
4. Der beschriebene Test ist nur näherungsweise korrekt (im Sinne der Einhaltung des Signifikanzniveaus). Die Näherung wird als ausreichend angesehen,
wenn alle fe,i,j mindestens 5 sind.
5. Für kleine Stichprobenumfänge gibt es Korrekturen zur Kompensation der
womöglich unbefriedigenden Näherung. Ferner gibt es für (2 × 2)-Tafeln
auch einen einfachen exakten Test, der später besprochen wird.
6. Unter H1 ist die Verteilung der Teststatistik auch eine näherungsweise χ2 verteilte mit der gleichen Zahl von Freiheitsgraden, allerdings eine nonzentrale. In den NZP gehen die Stichprobengröße ein und ein geeignetes Maß
der Abweichung von der Unabhängigkeit.
7. Auch hier geht die Power gegen 1 für n → ∞, falls die (vergröberte) Nullyhpothese nicht stimmt.
8. Die Bezeichnung cn war nur vorläufig und zur besseren Formulierbarkeit
einiger Sachverhalte. Üblicherweise wird die Teststatistik mit χ2 bezeichnet.
9. Unter Annahme einer bivariaten Normalverteilung (also unter der Annahme, dass die beiden gegebenen Variablen eine gemeinsame Normalverteilung
besitzen) ist der Test auf Nullkorrelation gleichzeitig ein Test auf Unabhängigkeit, denn bei gemeinsam normalverteilten Variablen sind ja Unabhängigkeit und Unkorreliertheit äquivalent.
10. Der hier besprochene Test auf Unabhängigkeit ist oberflächlich gleich zu
einem anderen Test, der untersucht, ob eine Variable in unterschiedlichen
Bedingungen die gleiche Verteilung besitzt oder nicht. Konzeptuell und in
ihrer Konstruktion sind diese beiden Tests jedoch ganz verschieden. Der
Test auf Gleichheit von Verteilungen wird anschließend behandelt.
1.3
Spezielle Verfahren
QM2 15
41
Tests auf Gleichheit von Verteilungen.
In der Situation, dass mehrere Zufallsvariablen Y1 ,. . . ,YI mit dem gleichen Wertebereich gegeben sind, geht es um die Frage, ob die Verteilungen von Y1 ,. . . ,YI
alle gleich sind.
Zunächst folgen einige Beispiele:
1. Eine Variable Y (z.B. eine Reaktionszeit), wird in I verschiedenen experimentellen Bedingungen erhoben. Die Frage ist, ob sich diese Variable in
den I Bedingungen in gleicher Weise verteilt oder nicht.
Plausibel ist es nun, das Ergebnis einer Beobachtung in jeder einzelnen
Bedingung als Resultat auch eines Zufallsprozesses anzusehen, der jedoch
in den einzelnen Bedingungen verschieden aussehen kann. Daher wird man
diese zufalligen Ergebnisse in jeder Bedingung i durch eine eigene Zufallsvariable Yi modellieren. Aus der Variable Y werden so I Zufallsvariablen
Yi , deren Verteilungen die Besonderheiten der Bedingungen wiederspiegeln
sollen. Die Variable Y selbst ist dabei keine Zufallsvariable, allerdings immerhin die Vorstufe zu Zufallsvariablen; zu einer Zufallsvariablen fehlt gewissermaßen der Zufall, genauer die Verteilung. Wesentlich ist, dass man im
Hinblick auf Y nicht sinnvoll von Wahrscheinlichkeiten sprechen kann (also beispielsweise von der Wahrscheinlichkeit einer Reaktionszeit > 500ms),
sondern diese Frage erst dann sinnvoll ist, wenn feststeht, unter welcher
Bedingung i die Variable Y erhoben werden soll – dann ist aber eigentlich
schon von der Zufallsvariable Yi die Rede und nicht mehr von Y .
Die Frage, um die es geht, ist dann die, ob diese Zufallsvariablen Yi alle dieselbe Verteilung haben oder nicht; Unterschiede in den Verteilungen wären
auf Unterschiede in den Bedingungen zurückzuführen.
2. Eine Variable Y kann in unterschiedlichen Populationen erhoben werden.
Die Frage ist, ob die Verteilung von Y in diesen Populationen gleich ist.
Beispielsweise kann es hier darum gehen, ob die Intelligenz in unterschiedlichen Bevölkerungsgruppen gleich verteilt ist oder nicht (ein oft untersuchtes
Beispiel sind die unterschiedlichen ‚Rassen‘ in den USA). Das W-Modell
kann in diesem Fall so aussehen, dass auf jeder Population zunächst ein
W-Maß gegeben ist, das die zufällige Auswahl einer Person aus dieser Population beschreibt. Auf der i-ten Population wird dann wieder die Zufallsvariable Yi definiert als der Wert, den die zufällig gezogene Person in der
Variable Y hat. Die Bemerkungen zum ersten Beispiel gelten nun analog.
1.3
Spezielle Verfahren
QM2 15
42
Es sei angemerkt, dass die Formulierung ‚die Verteilung von Y in der Population i‘ eigentlich nicht ganz korrekt ist (korrekt wäre ‘die Verteilung
von Yi ‘), trotzdem sollte die Formulierung einerseits verständlich sein und
andererseits womöglich sogar verständlicher als die korrekte Formulierung
– jedenfalls am Anfang.
3. Ein ganz konkretes Beispiel: Unterscheiden sich Männer und Frauen in ihrem Rauchverhalten? Die Populationen sind hier die Männer und die Frauen, auf jeder der Populationen ist eine Zufallsvariable definiert (Y1 für die
Männer, Y2 für die Frauen), die angibt, wieviele Zigaretten eine jeweils zufällig gezogene Person im Durchschnitt pro Tag raucht.
Gelegentlich fasst man die Bedingungen auch als Werte einer Variable X auf;
statt von der i-ten Bedingung redet man dann davon, dass die Variable X den
Wert xi annimmt, wo xi für die i-te Bedingung steht. In den Beispielen oben wäre
im ersten Fall X die experimentell manipulierte Variable und hätte als Werte die
unterschiedlichen Versuchsbedingungen, die dann x1 , . . . , xI heißen statt mit 1
bis I durchnummeriert zu werden. Im zweiten Fall wäre X die Variable, die die
Teilpopulationen definiert (beispielsweise die Variable ‚Rasse‘) und die xi wären
die Stufen dieser Variable. Im konkreten dritten Beispiel wäre X die Variable
‚Geschlecht‘ mit den Stufen ‚männlich‘ und ‚weiblich‘.
Eine solche Sprechweise ist im Rahmen der Versuchsplanung üblich, es sei jedoch
darauf hingewiesen, dass X dann eine Variable eben im Sinne der Versuchsplanung ist, nicht aber im statistischen Sinn; insbesondere ist X im Allgemeinen
keine Zufallsvariable und auch nicht die Vorstufe einer solchen (wie Y in den
Beispielen).
Ein oft verwendetes Verfahren, die Hypothese der Gleichheit verschiedener Verteilungen zu testen, führt zu einem χ2 -Test; hiervon soll zunächst die praktische
Durchführung beschrieben werden.
Der erste Schritt der Untersuchung besteht oft in einer Vergröberung der Fragestellung: Der gemeinsame Wertebereich der Variablen Yi wird in J disjunkte
Mengen Bj eingeteilt.
Im dritten Beispiel könnte man zum Beispiel die Einteilung B1 : 0 Zigaretten,
B2 : mehr als 0, aber höchstens 2 Zigaretten, B3 : mehr als 2, aber höchstens 10
Zigaretten und B4 : mehr als 10 Zigaretten wählen.
Falls der Wertebereich nur aus wenigen möglichen Werten besteht, wird eine
1.3
Spezielle Verfahren
QM2 15
43
solche Vergröberung oft nicht nötig sein, man wird dann als Mengen Bj die einelementigen Mengen nehmen, die jeweils einen der möglichen Werte enthalten.
Mit pij sei nun die Wahrscheinlichkeit bezeichnet, dass die Zufallsvariable Yi
Werte im Bereich Bj annimmt (im Beispiel wäre p2,3 die Wahrscheinlichkeit,
dass eine zufällig aus den Frauen gezogene Person mehr als 2, aber höchstens 10
Zigaretten pro Tag raucht).
Nun können die Hypothesen formuliert werden; die Nullhypothese ist die folgende:
H0 : p1j = p2j = . . . = pIj
für alle j = 1, . . . , J
und die Alternativhypothese ist die logische Verneinung von H0 .
Die korrekte logische Verneinung lautet übrigens so:
H1 :
es gibt ein j und zwei Werte i1 und i2 mit pi1 j 6= pi2 j ,
und nicht etwa
p1j 6= p2j 6= . . . 6= pIj
für alle j = 1, . . . , J
oder ähnlich.
Wenn die Bj nicht alle einelementig sind, so ist die Vergröberung der ursprünglichen Fragestellung offensichtlich.
Zur Veranschaulichung kann man sich auch die pij in einer Tabelle aufschreiben.
Für das Zigarettenbeispiel würde man die folgende Tabelle erhalten:
0 (0, 2] (2, 10] > 10
Männer: p1,1 p1,2
p1,3
p1,4
Frauen: p2,1 p2,2
p2,3
p2,4
Hier stehen in den Zeilen die Verteilungen der durchschnittlich gerauchten Zigaretten (nach der Vergröberung) getrennt für Männer und Frauen.
Die Nullhypothese besagt dann, dass alle Wahrscheinlichkeiten in jeweils einer
Spalte gleich groß sein müssen, die Alternativhypothese sagt, dass es mindestens
eine Spalte gibt, in der sich mindestens zwei Wahrscheinlichkeiten unterscheiden
(dies ist schon wieder für den allgemeinen Fall formuliert, im hier vorliegenden
würde man natürlich formulieren, dass sich in mindestens einer Spalte die beiden
Wahrscheinlichkeiten unterscheiden).
1.3
Spezielle Verfahren
QM2 15
44
Das Verfahren zum Testen der Hypothesen besteht nun darin, dass man zunächst
unabhängig unabhängige Stichproben in den einzelnen Bedingungen zieht und
registriert, wie oft die Kategorien Bj jeweils auftreten. Man beachte, dass im
Fall von Populationen hier also eigentlich (‚unabhängige Stichproben‘) jeweils
mit Zurücklegen gezogen werden müsste!
Im Beispiel könnte es sein, dass man 30 Männer und 27 Frauen zieht, die sich wie
folgt auf die Kategorien verteilen:
0 (0, 2] (2, 10] > 10
Männer: 11
8
7
4
Frauen: 7
6
9
5
In der so entstehenden Tafel sei die Anzahl der Beobachtungen aus der i-ten
Bedingung (hier: Population), die in die Kategorie Bj fallen, mit nij bezeichnet.
Die Randhäufigkeiten seien wie üblich mit ni. und n.j bezeichnet; die Zahl ni. ist
also die Anzahl der Beobachtungen aus der i-ten Bedingung. Die Gesamtzahl der
Beobachtungen sei n. Man berechnet nun für diese Tafel den χ2 -Koeffizienten,
der hier zunächst wieder
X (fo ij − fe ij )2
c :=
fe ij
i,j
(mit fo ij = nij und fe ij = ni. n.j /n) heißen soll.
Man verwirft dann die Nullhypothese, falls
c ≥ χ2(I−1)(J−1);α
gilt, wobei α das zuvor gesetzte Signifikanzniveau ist.
Im Beispiel ergibt sich ein Wert von 1.38, der mit χ23;.05 = 7.81 zu vergleichen
ist. Die Nullhypothese kann hier also auf dem 5%-Niveau nicht zurückgewiesen
werden.
Es folgen wieder mehrere Bemerkungen:
1. Vorraussetzung für das Verfahren ist, dass in jeder Spalte j mindestens eine
Wahrscheinlichkeit pij nicht 0 ist.
2. Sowohl Nullhypothese als auch Alternativhypothese sind hier zusammengesetzt. Will man die möglichen Verteilungen unter H0 (gegebenenfalls nach
der Vergröberung) parametrisieren, so braucht man J − 1 freie Parameter
1.3
Spezielle Verfahren
QM2 15
45
(unter der Nullhypothese sollen für jedes j die pij in allen Bedingung i
gleich groß sein, so dass man sie mit dem gemeinsamen Symbol pj bezeichnen kann; die Verteilung ist dann durch diese J Parameter pj festgelegt,
wobei einer sich aus den anderen J − 1 berechnen lässt, da ja die Summe
der pj wieder 1 ist). Für eine Parametrisierung der Alternativhypothese
braucht man entsprechend I(J − 1) freie Parameter (hier kann für jede der
I Bedingungen die Verteilung unterschiedlich aussehen, weshalb man nun
in jeder Bedingung J − 1 freie Parameter hat).
3. Die Teststatistik c ist nicht mit Wahrscheinlichkeit 1 definiert (es kann
sein, dass für eines der Bj keine Beobachtungen auftreten, auch wenn alle
Wahrscheinlichkeiten größer als 0 sind).
4. Schreibt man fe ij = (n.j /n) ni. , so kann man (n.j /n) als Schätzung der
Wahrscheinlichkeit für Bj auffassen, falls H0 gilt (man kann dann die Beobachtungen in den verschiedenen Bedingungen zusammenfassen); fe ij ist
dann als erwartetete Häufigkeit von Bj in der i-ten Bedingung interpretierbar. Es ist plausibel, dass bei Gültigkeit der Nullhypothese fo ij und
fe ij etwa gleich groß sein sollten, während bei Gültigkeit der Alternativhypothese größere Diskrepanzen auftreten sollten. Damit liegt es nahe, die
Nullhypothese für große Werte der Teststatistik zu verwerfen.
5. Rechtfertigung des Verfahrens: Es gilt der Satz, dass bei Gültigkeit der Nullhypothese für jede Konstellation von wahren Wahrscheinlichkeiten pj :=
P (Bj ) 6= 0 die Verteilung von c schwach gegen eine χ2(I−1)(J−1) -Verteilung
geht, wenn man im Fall der Nichtdefiniertheit irgendeinen Wert einsetzt,
wenn die Zahlen der Beobachtungen in den einzelnen Bedingungen alle gegen ∞ gehen und wenn noch weitere technische Bedingungen erfüllt sind.
Man kann also schon bei hinreichend großer Anzahl von Beobachtungen so
tun, als wäre bei Gültigkeit der Nullhypothese c tatsächlich χ2 -verteilt.
6. Als hinreichend groß wird die Anzahl der Beobachtungen dann angesehen,
wenn die erwartete Häufigkeit in jeder Zelle ≥ 5 ist. Man hat folglich bei
der Einteilung des Wertebereichs in die Bj darauf zu achten, dass bei den
geplanten Stichprobengrößen diese Bedingung erfüllt werden kann.
7. Üblicherweise bezeichnet man aus nun naheliegenden Gründen die Teststatistik wieder mit χ2 (und nicht mit c).
8. Wegen der Vergröberung ist die hier getestete Hypothese schwächer als die
zunächst ins Auge gefasste der Gleichheit der Verteilungen.
1.3
Spezielle Verfahren
QM2 15
46
9. Die Faustregel für die Freiheitsgrade führt auch hier zum richtigen Ergebnis:
Die Anzahl der freien Parameter unter H1 ist I(J − 1), die der freien Parameter unter H0 ist J −1, die Differenz also I(J −1)−(J −1) = (I −1)(J −1),
und diese Zahl stimmt mit der Anzahl der Freiheitsgrade überein.
Auf zwei Punkte soll nun noch etwas genauer eingangen werden.
In der Beschreibung des Tests taucht die Formulierung auf, dass unabhängig unabhängige Stichproben in den Bedingungen zu ziehen seien. Hier handelt es sich
nicht um einen Druckfehler, vielmehr ist gemeint, dass in jeder einzelnen Bedingung eine unabhängige Stichprobe gezogen werden soll, und dass die Stichproben
der einzelnen Bedingungen wieder unabhängig voneinander sein sollen.
Benutzt man diese Formulierungen zur statistischen Beschreibung des Tests, so
sind sie übrigens nicht recht angemessen, da in ihnen versuchsplanerische Termini
verwendet werden, die streng genommen in der eigentlichen Statistik nichts zu suchen haben. Eine statistisch angemessene Formulierung müsste anders aussehen,
nämlich etwa folgendermaßen: Die Werte Yki (dies bezeichne jetzt den Wert der
k-ten Versuchsperson in Bedingung i), die im Experiment erhoben werden sollen,
sind vorher nicht bekannt und werden als Zufallsvariablen behandelt. Von diesen (insgesamt n) Zufallsvariablen ist dann vorauszusetzen, dass sie gemeinsam
unabhängig sind (im Sinne der W-Theorie!). Die Aussagen zu den Eigenschaften
des Tests (beispielsweise zur Konvergenz) folgen dann aus dieser Voraussetzung.
In der Versuchsplanung wird man sich nun bemühen, die Untersuchung so zu gestalten, dass man das Erfülltsein der statistischen Voraussetzungen für plausibel
halten darf. Was die geforderte Unabhängigkeit im wahrscheinlichkeitstheoretischen Sinn betrifft, so ist das unabhängige Ziehen von unabhängigen Stichproben
eine Maßnahme, um die W-theoretische Unabhängigkeit zu ‚gewährleisten‘.
Die Formulierung, dass eine Voraussetzung des Tests das unabhängige Ziehen unabhängiger Stichproben sei, ist also, fasst man ‚Voraussetzung‘ auf als Voraussetzung im mathematisch-statistischen Sinn für die Herleitung von Eigenschaften des
Tests (wie Konvergenz der Verteilung der Teststatistik gegen eine χ2 -Verteilung),
streng genommen weder korrekt noch angemessen. Da man jedoch (hoffentlich)
weiß, was eigenlich gemeint ist, und da die Formulierung das eigentlich Gemeinte
auch annähernd umschreibt, ist sie noch vertretbar, insbesondere deshalb, weil
sie, fasst man ‚Voraussetzung‘ im praktischen Sinn einer Konvention darüber auf,
wann dieser Test angewendet werden darf, durchaus korrekt ist.
1.3
Spezielle Verfahren
QM2 15
47
Der zweite Punkt, der genauer betrachtet werden soll, ist die Beziehung des Tests
auf Gleichheit von Verteilungen mit dem zuvor besprochenen χ2 -Test auf Unabhängigkeit.
Oberflächlich besteht eine große Ähnlichkeit zwischen den beiden Tests, die dann
noch größer wird, wenn man die Bedingungen als Stufen xi einer Variable X auffasst. Dann erhält man nämlich in beiden Fällen Kontingenztafeln, die praktisch
die gleiche Form haben. Das Vorgehen auf der Basis der Kontingenztafel ist dann
in beiden Fällen genau gleich (die Teststatistik wird nach der gleichen Formel
bestimmt und die kritischen Werte werden auf die gleiche Weise ermittelt).
Ein theoretisch ungebildeter Anwender wird sich also fragen, warum man denselben Test in zwei Abschnitten bespricht und nicht in einem. Es soll daher noch
einmal auf wesentliche Unterschiede hingewiesen werden.
Zunächst sind die Hypothesen unterschiedlich zu formulieren. Wählt man die Formulierung, dass untersucht wird, ob die beiden Variablen X und Y unabhängig
seien, so ist diese für den Test auf Gleichheit von Verteilungen völlig unangemessen. Was soll hier nämlich Unabhängigkeit bedeuten? Die Variable X ist im
Allgemeinen gar keine Variable, im Zusammenhang mit der der Begriff der statistischen Unabhängigkeit sinnvoll verwendet werden könnte, da X ja hier zunächst
nur eine Variable im Sinne der Versuchsplanung ist. Auch Y ist hier noch keine
Zufallsvariable, immerhin die ‚Vorstufe‘ zu den Zufallsvariablen Yi .
Auch die formale Darstellung der Hypothesen ist unterschiedlich; in beiden Fällen
geht es zwar um Wahrscheinlichkeiten pij , schon die Nullhypothese wird jedoch
ganz unterschiedlich formuliert. Ferner haben die Symbole pij auch unterschiedliche Bedeutungen, was man schon daran sieht, dass sie sich im Fall der Gleichheit
von Verteilungen in jeder Zeile zu 1 addieren, im Fall der Unabhängigkeit jedoch
nicht.
Dass es sich um ganz unterschiedliche Fälle handelt, sieht man auch bei der
ganz unterschiedlichen Bestimmung der Freiheitsgrade nach der Faustregel, wobei
jedoch die Ergebnisse übereinstimmen.
Es gibt allerdings einen Fall, in dem die Grenzen verschwimmen. Ein Beispiel ist
das der oben behandelten Frage, ob das Rauchverhalten bei Männern und Frauen
gleich oder unterschiedlich ist. Hier könnte man alternativ zur Behandlung oben
auch das Geschlecht X als Zufallsvariable auffassen und dann testen, ob X und
das Rauchverhalten Y (Y ist dann ebenfalls Zufallsvariable), unabhängig sind.
1.3
Spezielle Verfahren
QM2 15
48
Die Sichtweise ist dann eine andere als die oben, nämlich so, dass man nicht
zwei Populationen hat (Männer und Frauen), sondern nur eine, die sowohl aus
Männern als auch aus Frauen besteht. Bei zufälligem Ziehen in dieser Gesamtpopulation ist dann das Geschlecht X der zufällig gezogenen Person zufallsabhängig
ebenso wie das Rauchverhalten Y . Hier kann dann von Unabhängigkeit im statistischen Sinn gesprochen werden.
Allerdings würde zu dieser Fragestellung eine etwas andere Untersuchung gehören, nämlich eine, bei der man nun zufällig aus der Gesamtbevölkerung die
Personen zieht, zunächst ohne zu beachten, ob es sich um Männer oder Frauen
handelt, während beim Test auf Gleichheit von Verteilungen aus jeder Einzelpopulation eine Stichprobe von einem meist vorher festgelegten Umfang gezogen
wird.
Diese beiden Untersuchungsmethoden sind allerdings so ähnlich, dass die gemachten Unterscheidungen hier durchaus etwas künstlich wirken können.
In Beispielen jedoch, in denen X nur eine unabhängige Variable im Sinne der
Versuchsplanung ist, also beispielsweise die Bedingungen einer experimentelle Situation codiert, ist gar nicht daran zu denken, aus X eine Zufallsvariable zu machen, so dass hier der Test auf Unabhängigkeit auch überhaupt nicht hinpasst.
In einem Experiment, das den Einfluss von Alkohol auf die Reaktionszeit Y untersucht und bei dem die Variable X : ‚Alkoholmenge‘ in den Stufen x1 , x2 , x3
realisiert wird, die beispielsweise einem, zwei und drei Gläsern Bier entsprechen,
kann offenbar von einer zufälligen Verteilung von X nicht die Rede sein.
Fishers exakter Test auf Gleichheit von Verteilungen.
Zu dem Test auf Gleichheit von Verteilungen soll jetzt eine Alternative vorgestellt
werden, die nicht den Nachteil besitzt, nur näherungsweise das α-Niveau einzuhalten (bei den χ2 -Tests ist insbesondere damit zu rechnen, dass es überschritten
wird).
Die Alternative, Fishers exakter Test, ist allerdings in seiner üblichen Form auf
den Vergleich von zwei Verteilungen beschränkt, wobei diese beiden Verteilungen zudem nur zwei mögliche Werte besitzen. Der Test eignet sich für kleine
Stichproben, für große Stichproben wird der Rechenaufwand sehr groß.
Vorteilhaft bei diesem Test ist, dass auch gerichtete Hypothesen getestet werden
können.
1.3
Spezielle Verfahren
QM2 15
49
Für den Test auf Unabhängigkeit gibt es bei zwei dichotomen Merkmalen einen
oberflächlich gesehen gleichen Test, der ebenfalls als Fishers exakter Test bezeichnet wird; wie im Falle der χ2 -Tests sind auch hier die entsprechenden exakten
Tests oberflächlich völlig gleich (die theoretischen Zusammenhänge jedoch recht
unterschiedlich).
Der Test beruht auf der hypergeometrischen Verteilung, an die zunächst kurz
erinnert werden soll.
Zur Definition der Verteilung dient das Standardbeispiel einer Urne, in der sich
n Kugeln befinden, von denen m rot sind und der Rest blau. Es soll k Mal ohne
Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen werden. Gefragt
ist nach der Verteilung der Anzahl R von gezogenen roten Kugeln.
Diese Anzahl R hat dann eine hypergeometrische Verteilung, genauer gilt
R ∼ H(n, m, k) ,
was gerade bedeutet, dass die Wahrscheinlichkeit, r rote Kugeln zu ziehen, durch
die folgende Formel gegeben wird:
m
n−m
r
k−r
P(R = r) =
.
n
k
Es sei auch daran erinnert, dass man, um lästige Fallunterscheidungen zu vermeiden, allgemein
n
=0
für k < 0 und k > n
k
setzt (n und k sind jetzt beliebig und haben nicht die Bedeutung aus der Situation
der hypergeometrischen Verteilung).
Nach dieser Vorbereitung kann nun der exakte Test von Fisher für die Gleichheit
von zwei Verteilungen besprochen werden. Im Anschluss an die Konstruktion des
Tests und ein konkretes Beispiel wird das Vorgehen später noch einmal knapp
und anwendungsorientiert zusammengefasst.
Zur Verdeutlichung soll ein Beispiel dienen, in dem es um das Rauchverhalten in
Abhängigkeit vom Geschlecht geht.
Ausgangspunkt sei die Vermutung, dass Frauen eher rauchen als Männer. Diese Vermutung soll durch einen geeigneten Test belegt werden. Sie ist also zur
1.3
Spezielle Verfahren
QM2 15
50
Alternativhypothese zu machen, während die Nullhypothese behauptet, dass die
Anteile der RaucherInnen bei den Männern und den Frauen gleich groß sind.
Ist p1 die Wahrscheinlichkeit, dass eine zufällig gezogene Frau raucht, und p2 die,
dass ein zufällig gezogener Mann raucht (sind also anders gesagt p1 und p2 die
Anteile der RaucherInnen an den Gesamtpopulationen der Frauen und Männer),
so lauten die Hypothesen so:
H0 :
p1 = p 2
H1 :
p1 > p2
Im Unterschied zum Vorgehen beim χ2 -Test für diese Fragestellung kann die
Alternativhypothese hier also auch gerichtet sein (man könnte natürlich auch die
ungerichtete H1 testen, dass p1 6= p2 gilt, vgl. weiter unten).
Es sollen weiter zwei Stichproben von Frauen (F) und Männern (M) gezogen
worden sein, die sich wie folgt auf Raucher (R+) und Nichtraucher (R−) aufteilen:
R+ R−
F 5
2
7
M 1
7
8
6
9 15
Die Randsummen sind hier auch schon berechnet worden.
Die Stichprobenziehung ist, entsprechend der Fragestellung, so, dass 7 Frauen
und 8 Männer getrennt gezogen wurden, und nicht etwa so, dass aus der Gesamtbevölkerung zufällig 15 Personen gezogen wurden, von denen dann eben 7
Frauen waren und 8 Männer. Eine solche zweite Art der Ziehung würde vielmehr
der Frage entsprechen, ob die beiden Variablen Geschlecht und Rauchverhalten
unabhängig sind oder ob es einen Zusammenhang zwischen ihnen gibt. Hier hingegen ist die Frage die, ob das Rauchverhalten in den beiden Populationen der
Frauen und der Männer gleich ist oder nicht.
Zur Beschreibung des Tests im allgemeinen Fall soll nun eine geeignete Terminologie eingeführt werden. Es geht allgemein um eine Variable Y , die nur zwei
Werte y1 und y2 annehmen kann (im Beispiel ist Y das Rauchverhalten mit den
möglichen Werten y1 = R+ und y2 = R−).
Diese Variable Y wird nun in zwei Bedingungen untersucht, die durch die Werte
x1 und x2 einer weiteren Variable X definiert sind; diese Variable ist im Allgemeinen nur eine Variable im Sinne der Versuchsplanung, also nicht zufallsabhängig.
1.3
Spezielle Verfahren
QM2 15
51
Im Beispiel ist die Variable X das Geschlecht mit den Werten x1 = F und
x2 = M ; in diesem speziellen Fall kann die Variable X bei einer leicht geänderten Betrachtungsweise übrigens auch als Zufallsvariable aufgefasst werden –
dann wäre jedoch ein Test auf Unabhängigkeit durchzuführen und nicht einer auf
Gleichheit von Verteilungen, vgl. die entsprechenden Ausführungen beim χ2 -Test
auf Gleichheit von Verteilungen.
Die Variable Y ist zunächst keine Zufallsvariable, aus ihr werden jedoch zwei
Zufallsvariablen Y1 und Y2 , wenn zusätzlich die Bedingung xi festgelegt wird, in
der Y untersucht wird: Y1 ist die Variable in der Stufe x1 von X und Y2 die in
der Stufe x2 (im Beispiel ist Y1 das Rauchverhalten bei Frauen und Y2 das bei
Männern, jeweils als Variable mit den beiden möglichen Werten y1 = R+ und
y2 = R−).
Die Verteilungen dieser beiden Zufallsvariablen sind dann jeweils vollständig gekennzeichnet durch die Wahrscheinlichkeiten, mit denen der Wert y1 angenommen wird; diese Wahrscheinlichkeiten sollen p1 für Y1 und p2 für Y2 heißen. Von p1
und p2 wird vorausgesetzt, dass sie weder 0 noch 1 sind. Die Komplementärwahrscheinlichkeiten für den Wert y2 sollen wie üblich q1 und q2 heißen; es gilt also
q1 = 1 − p1 und q2 = 1 − p2 . Im Beispiel ist p1 die Wahrscheinlichkeit, dass eine
zufällig gezogene Frau raucht, anders ausgedrückt der Anteil der Raucherinnen
in der Population der Frauen, entsprechend ist p2 der Anteil der Raucher in der
Population der Männer.
Zu untersuchen ist, ob p1 und p2 (und damit die beiden Verteilungen insgesamt)
übereinstimmen, oder ob diese Wahrscheinlichkeiten verschieden sind. Dabei können gerichtete Alternativhypothesen formuliert werden wie p1 > p2 ; natürlich ist
auch die ungerichtete Alternativhypothese p1 6= p2 möglich.
Zur Entscheidung werden unabhängig jeweils unabhängige Stichproben für die
beiden Variablen Y1 und Y2 gezogen, deren Umfang n1 und n2 sein soll; die Gesamtzahl n1 + n2 aller Beobachtungen sei mit n bezeichnet.
In den Stichproben wird jeweils registriert, wie oft die beiden Werte y1 und y2 angenommen werden. Das Ergebnis wird dann in einer Kontingenztafel zusammengefasst. Die absoluten Häufigkeiten für den Wert y1 seien in den beiden Stichproben die Zahlen r und s, die Gesamthäufigkeit gleich k = r+s. Die Kontingenztafel
1.3
Spezielle Verfahren
QM2 15
52
sieht dann folgendermaßen aus:
X\Y
x1
x2
y1
y2
r n1 − r n1
s n2 − s n2
k n−k n
Im Beispiel wären natürlich x1 und x2 durch F und M und y1 und y2 durch R+
und R− zu ersetzen.
Die Einträge in der Kontingenztafel sind Zufallsergebnisse, da sie auf den beiden
zufälligen Stichprobenziehungen beruhen. Drei dieser Zufallsvariablen sollen für
die weitere Argumentation einen eigenen Namen bekommen: der Wert oben links
soll R heißen, der darunter S und die Summe der Werte in der ersten Spalte K
(es gilt also K = R + S). Zur Verdeutlichung dient die nächste Tabelle:
x1
x2
y1 y2
R
n1
S
n2
K
n
In der Tabelle sind auch die Zahlen n1 , n2 und n noch einmal aufgeführt, die
gleich eine wichtige Rolle spielen sollen. Im Gegensatz zu den Zufallsvariablen R,
S und K sind dies fest vorgegebene Zahlen.
Die Verteilungen der Zufallsvariablen R und S sind Binomialverteilungen, genauer gilt R ∼ B(n1 , p1 ) und S ∼ B(n2 , p2 ). Wegen der unabhängigen Ziehungen der
beiden Stichproben sind R und S unabhängig.
Die Wahrscheinlichkeit, dass R einen bestimmten Wert r annimmt und S einen
Wert s, ist also gleich dem Produkt der Einzelwahrscheinlichkeiten, nämlich
n1 r n1 −r n2 s n2 −s
n1
n2 r n1 −r s n2 −s
p1 q1
p2 q2
=
.
(1)
p1 q1
p2 q2
r
s
r
s
Da durch die beiden Werte r und s in der ersten Spalte wegen der vorgegebenen
Zeilenrandsummen alle Werte in der Kontingenztafeln eindeutig festliegen, erhält
man auf diese Weise auch für alle möglichen Kontingenztafeln die Wahrscheinlichkeit ihres Auftretens (allerdings nur unter der Voraussetzung, dass p1 und p2
bekannt sind).
1.3
Spezielle Verfahren
QM2 15
53
Es dürfte auch unmittelbar klar sein, dass man mit Hilfe der Werte von R und K
und der Zahlen n1 und n den Rest der Kontingenztafel eindeutig rekonstruieren
kann.
Nun soll die bedingte Verteilung von R ermittelt werden unter der Bedingung,
dass K einen festen Wert k besitzt; dies soll unter der Voraussetzung geschehen,
dass die Nullhypothese gilt.
Die Nullhypothese ist hier eine zusammengesetzte Hypothese, bei der die zugehörigen Verteilungen wieder gekennzeichnet sind durch die Wahrscheinlichkeiten für
den Wert y1 . Im Falle der Nullhypothese sind diese beiden Wahrscheinlichkeiten
p1 und p2 gleich groß; der gemeinsame Wert soll kurz p heißen – es gilt also nun
p1 = p2 = p. Die Komplementärwahrscheinlichkeit 1 − p soll wie üblich q heißen.
Durch den Wert von p sind nun die Verteilungen von R, S und K unter der Nullhypothese vollständig festgelegt; Wahrscheinlichkeiten in dieser Situation sollen
allgemein mit dem Symbol Pp abgekürzt werden, bei dem der Index p daran erinnert, dass es für jedes mögliche p der zusammengesetzten Nullhypothese ein
eigenes Wahrscheinlichkeitsmaß gibt.
Die Verteilungen von R und S waren allgemein Binomialverteilungen, unter der
Nullhypothese gilt spezieller R ∼ B(n1 , p) und S ∼ B(n2 , p). Die Zufallsvariable
K = R + S ergibt sich als Summe der n = n1 + n2 unabhängigen BernoulliVariablen, die mit einer 1 registrieren, ob bei der entsprechenden Beobachtung
der Wert y1 auftritt; da unter H0 alle Erfolgswahrscheinlichkeiten gleich p sind,
gilt hier K ∼ B(n, p), auch K ist dann also binomialverteilt.
Die gesuchten bedingten Wahrscheinlichkeiten lassen sich nun leicht ermitteln:
Es gilt für jeden möglichen Wert r von R die Beziehung
Pp (R = r|K = k) =
Pp (R = r, K = k)
.
Pp (K = k)
Die beiden Bedingungen R = r und K = k sind offenbar genau dann erfüllt,
wenn die beiden Bedingungen R = r und S = k − r erfüllt sind. Für den Zähler
erhält man daher durch Spezialisierung p1 = p2 = p in (1) den Wert
Pp (R = r, K = k) = Pp (R = r, S = k − r)
n1
n2
=
pr q n1 −r pk−r q n2 −k+r
r
k−r
n1
n2
=
pk q n−k .
r
k−r
1.3
Spezielle Verfahren
QM2 15
54
Für den Nenner gilt
n k n−k
Pp (K = k) =
p q
.
k
Zusammen erhält man damit
n1
n2
n1
n2
k n−k
p q
r
k−r
r
k−r
Pp (R = r|K = k) =
=
.
n k n−k
n
p q
k
k
Bemerkenswert ist hier, dass die Wahrscheinlichkeit p jetzt keine Rolle mehr
spielt; die bedingten Verteilungen von R für einen gegebenen Wert k von K
sind also unabhängig von p alle gleich. Es ergeben sich dabei hypergeometrische
Verteilungen; genauer ist die bedingte Verteilung von R unter K = k unabhängig
von p immer die H(n, n1 , k)-Verteilung.
Auf dieser Grundlage kann nun ein Test der Hypothesen konstruiert werden.
Es liegt nahe, die Nullhypothese für große Werte von R zu verwerfen, denn diese
deuten auf eine große Wahrscheinlichkeit p1 hin. Unklar ist noch, wie der kritische
Wert zu wählen ist.
Die Idee für den Test ist nun die, diesen kritischen Wert abhängig vom Wert k
von K zu wählen – es gibt dann nicht einen gemeinsamen kritischen Wert für
R, sondern für jeden möglichen Wert von K einen speziellen. Man kann den
entstehenden Test dann auch einen bedingten Test nennen, eben da der kritische
Wert für R unterschiedlich ist, je nachdem, welchen Wert K annimmt.
Der kritische Wert für R in Abhängigkeit vom Wert k von K ist dann die kleinste
Zahl, die bei der bedingten Verteilung von R, also bei der H(n, n1 , k)-Verteilung,
rechts höchstens α abschneidet, wo α das gewählte Signifikanzniveau ist. Das
Signifikanzniveau wird auf diese Weise meist nicht voll ausgeschöpft werden.
Ist „H1 “ das Ereignis, dass man sich für H1 entscheidet, dass also der Test signifikant wird, so gilt unter H0 nach Konstruktion für alle p die Ungleichung
Pp („H1 “|K = k) ≤ α .
Nach dem Satz von der totalen Wahrscheinlichkeit folgt dann unter H0 für alle
möglichen p die Beziehung
X
Pp („H1 “) =
Pp („H1 “|K = k) Pp (K = k)
k
≤
X
k
α Pp (K = k) = α
X
k
Pp (K = k) = α · 1 = α ,
1.3
Spezielle Verfahren
QM2 15
55
wobei über alle möglichen Werte k von K zu summieren ist. Das Signifikanzniveau
α wird also immer (für jedes p) eingehalten.
Der auf diese Weise konstruierte Test heißt auch Fishers exakter Test.
Nun soll für das Eingangsbeispiel dieser Test durchgeführt werden. Die Kontingenztafel war die folgende:
R+ R−
F 5
2
7
M 1
7
8
6
9 15
Hier hat R den Wert r = 5 und K den Wert k = 6, während n1 = 7 und n = 15
gilt.
Die bedingte Verteilung von R unter H0 ist bei dem Wert k = 6 von K die
H(15, 7, 6)-Verteilung. Für diese Verteilung ist der rechtsseitige kritische Wert
zum Niveau α zu ermitteln, das hier auf .05 festgesetzt sei.
Sinnvollerweise bestimmt man diesen kritischen Wert, indem man die Wahrscheinlichkeiten für die möglichen Werte r von R beginnend mit dem größten
bestimmt und sukzessive so lange aufaddiert, bis man α überschritten hat. Das
letzte r vor der Überschreitung von α ist dann der kritische Wert.
In dem konkreten Fall des Beispiels ist der größtmögliche Wert von R der Wert
6. Die Wahrscheinlichkeit für diesen Wert bestimmt sich als
7
8
7
8
7·1
6
6−6
6
0
P(R = 6) =
= =
= .0014 .
15
15
5005
6
6
Das Symbol P bezeichnet dabei die zur H(15, 7, 6)-Verteilung gehörenden Wahrscheinlichkeiten.
Der nächstkleinere Wert ist r = 5; hier erhält man entsprechend
7
8
7
8
21 · 8
5
6−5
5
1
P(R = 5) =
= =
= .0336 .
15
15
5005
6
6
1.3
Spezielle Verfahren
QM2 15
56
Für R = 4 ergibt sich
7
8
7
8
35 · 28
4
6−4
4
2
P(R = 4) =
= =
= .1958 .
15
15
5005
6
6
An dieser Stelle haben die kumulierten Wahrscheinlichkeiten den Wert von .05
offenbar überschritten, so dass die Rechnung abgebrochen werden kann. Der kritische Wert ist gleich 5. Da die tatsächliche Häufigkeit r ebenfalls 5 war, ist das
Ergebnis signifikant und H0 kann verworfen werden.
Der Übersichtlichkeit halber seien die Ergebnisse der Einzelschritte noch einmal
in einer Tabelle zusammengefasst. Die Stelle, an der die kumulierten Wahrscheinlichkeiten α überschreiten, ist durch eine Linie markiert; der kritische Wert ist
das letzte r oberhalb dieser Linie.
r P(R = r) P(R ≥ r)
6
.0014
.0014
5
.0336
.0350
4
.1958
.2308
Einen linksseitigen und einen zweiseitigen Test hätte man ganz genauso durchgeführt, mit dem Unterschied, dass beim linksseitigen Test α links und beim
zweiseitigen α/2 auf beiden Seiten abgeschnitten wird. Um uneindeutige Situationen zu vermeiden, sei vereinbart, dass die kritischen Werte beim zweiseitigen
Test jeweils höchstens α/2 abschneiden dürfen – ein Ausgleich zwischen links
und rechts in dem Sinne, dass die kumulierte Wahrscheinlichkeit auf einer Seite
auf Kosten derer auf der anderen Seite auch größer als α/2 sein darf, soll also
ausgeschlossen sein.
Es sei noch auf eine kleine mögliche Rechenerleichterung hingewiesen: Da der
Nenner bei der Berechnung der Wahrscheinlichkeiten immer der gleiche ist, näm
lich 5005 (im allgemeinen Fall nk ) hätte man sich auch auf die Kumulierung der
Zähler beschränken können; die Abbruchstelle wäre dadurch bestimmt gewesen,
dass die kumulierten Zähler den Wert 5005 · (.05) = 250.25 überschreiten. Im Beispiel sind diese Zähler der Reihe nach 7 · 1 = 7, 21 · 8 = 168, 35 · 28 = 980. Ein
Weiterrechnen ist dann nicht nötig, da die Summe der ersten beiden Zahlen unter 250.25 liegt, während dieser Wert bei Addition der dritten Zahl überschritten
wird.
1.3
Spezielle Verfahren
QM2 15
57
Es folgt nun die angekündigte knappe Zusammenfassung.
Die Fragestellung bezieht sich auf die Wahrscheinlichkeiten p1 und p2 , mit denen eine dichotome Variable Y (mit möglichen Werten y1 und y2 ) den Wert y1
annimmt in zwei Bedingungen, die durch die Werte x1 und x2 einer weiteren
Variable X kodiert werden.
Die Hypothesen sind
H0 :
p1 = p2
H1 :
p1 > p2
(Linksseitige und zweiseitige Fragestellungen werden ganz analog behandelt).
Es werden dann für Y in den beiden Bedingungen x1 und x2 unabhängig unabhängige Stichproben vom Umfang n1 und n2 gezogen, und die Häufigkeiten des
Auftretens der Werte y1 und y2 werden in einer Kontingenztafel zusammengefasst. Die folgende Kontingenztafel gibt dabei die allgemeinen Bezeichnungen für
die Häufigkeiten:
X\Y y1
y2
x1
r n1 − r n1
x2
s n2 − s n2
k n−k n
Die Nullhypothese wird auf Niveau α dann verworfen, wenn r mindestens so groß
ist wie der Wert, der bei der H(n, n1 , k)-Verteilung rechts α abschneidet (genauer
ist der kleinste Wert gemeint, der gerade noch höchstens α abschneidet).
Der kritische Wert wird dabei ökonomischerweise gefunden durch Kumulieren
der Wahrscheinlichkeiten der hypergeometrischen Verteilung, beginnend mit dem
größtmöglichen Wert.
Man kann den beschriebenen Test natürlich auch in allgemeineren Situationen
verwenden, in denen man zwei Verteilungen vergleicht, sofern man in einem ersten
Schritt wie bei vielen χ2 -Tests den Wertebereich in zwei disjunkte Teilmengen
teilt und dann die (vergröberte) Hypothese testet, ob diese beiden Teilmengen
unter den beiden Verteilungen die gleichen Wahrscheinlichkeiten besitzen.
Schließlich sei noch angemerkt, dass man der unbefriedigenden Tatsache, dass
das Signifikanzniveau meist nicht ausgeschöpft wird, durch randomisierte Tests
begegnen könnte.
1.3
Spezielle Verfahren
QM2 15
58
Fishers exakter Test auf Unabhängigkeit.
Im Falle zweier Variablen, die jeweils nur zwei Werte annehmen, gibt es ebenfalls
einen exakten Test auf Unabhängigkeit, der nun behandelt werden soll. (Man
kann den Test natürlich auch in anderen Situationen anwenden, wenn man die
jeweiligen Wertbereiche in jeweils 2 Mengen zerlegt und dann analog zum χ2 -Test
vorgeht). Am Ende des Abschnitts folgt eine kurze Zusammenfassung.
Der Test stimmt oberflächlich betrachtet mit dem zuvor besprochenen Test auf
Gleichheit von Verteilungen überein; dass es sich jedoch um ganz verschiedene
Fragen handelt, sollte bei einem Vergleich der Rechtfertigung der Testverfahren
schnell klar werden.
Wie beim Test auf Gleichheit von Verteilungen ist es auch hier so, dass der
zu besprechende Test im Vergleich zum χ2 -Test verschiedene Vorteile besitzt,
nämlich die, dass er nicht auf einer Näherung beruht, dass er auch bei kleinen
Stichproben anwendbar ist, und dass man einseitige Fragestellungen behandeln
kann.
Als erstes soll es darum gehen, wie hier einseitige Fragestellungen aussehen können.
Allgemein geht es um zwei Zvan X und Y , die beide nur zwei Werte annehmen
können, nämlich x1 und x2 bzw. y1 und y2 . Die beiden Zvan sollen auf demselben
W-Raum definiert sein, weshalb sie eine gemeinsame Verteilung besitzen, die
durch die folgende Kontingenztafel gegeben ist:
X\Y
x1
x2
y1 y2
p11 p12 p1.
p21 p22 p2.
p.1 p.2
Es sei wie üblich vorausgesetzt, dass alle Randwahrscheinlichkeiten 6= 0 sind.
Einseitige Fragestellungen formuliert man am besten mit bedingten Wahrscheinlichkeiten. Hier kann man beispielsweise die bedingten Wahrscheinlichkeiten von
Y = y1 unter X = x1 und X = x2 vergleichen. Diese Wahrscheinlichkeiten sind
P(Y = y1 |X = x1 ) = p11 /p1.
und
P(Y = y1 |X = x2 ) = p21 /p2. .
1.3
Spezielle Verfahren
QM2 15
59
Formuliert man nun die mögliche einseitige (Alternativ-)Hypothese
P(Y = y1 |X = x1 ) > P(Y = y1 |X = x2 )
um, so erhält man
p11 /p1. > p21 /p2. ,
was man durch Einsetzen und Multiplikation mit den Nennern äquivalent zu
p11 (p21 + p22 ) > p21 (p11 + p12 )
und dann zu
p11 p22 − p12 p21 > 0
umformt. Bei dem Ausdruck links handelt es sich übrigens um die Determinante
der Kontingenztafel.
Die Nullhypothese der Unabhängigkeit, die ja mit der Gleichheit der bedingten
Wahrscheinlichkeiten gleichbedeutend ist, ist analog äquivalent zu
p11 p22 − p12 p21 = 0 .
Man beachtet dabei, dass hier daraus, dass zwei bedingte Wahrscheinlichkeiten
gleich sind, sofort folgt, dass auch die beiden anderen gleich sind.
Man überzeugt sich leicht, dass die Hypothese, dass die bedingte Wahrscheinlichkeit von X = x1 unter Y = y1 größer ist als die von X = x1 unter Y = y2 mit
derselben Forderung p11 p22 − p12 p21 > 0 äquivalent ist, ebenso die Hypothese,
dass p11 größer ist als das Produkt der zugehörigen Randwahrscheinlichkeiten.
Umgekehrt stellt sich so heraus, dass p11 p22 −p12 p21 > 0 gleichbedeutend ist einerseits mit P(Y = y1 |X = x1 ) > P(Y = y1 |X = x2 ), andererseits mit der Forderung
P(X = x1 |Y = y1 ) > P(X = x1 |Y = y2 ), und andererseits auch damit, dass p11
größer ist als das Produkt der zugehörigen Randwahrscheinlichkeiten. Insgesamt
könnte man etwas vergröbernd formulieren, dass diese Forderung besagt, dass p11
größer ist, als man es bei Unabhängigkeit erwartet.
Dass p11 p22 − p12 p21 = 0 mit der Unabhängigkeit gleichbedeutend ist, hatte sich
schon gezeigt, so dass man die Hypothese der Abhängigkeit auch als p11 p22 −
p12 p21 6= 0 formulieren kann.
Insgesamt ist es auf diese Weise also möglich, auch Richtungen in der Abweichung
von der Unabhängigkeit zu untersuchen.
1.3
Spezielle Verfahren
QM2 15
60
Es geht nun darum, die Hypothesen
H0 :
p11 p22 − p12 p21 = 0
H1 :
p11 p22 − p12 p21 > 0
zu testen; dabei sind linksseitige und zweiseitige Fragestellung ganz analog zu
behandeln.
Als Beispiel könnte man wieder an die Frage denken, ob das Rauchverhalten
unabhängig vom Geschlecht ist, wobei Y das Rauchverhalten mit den Stufen R+
und R− und X das Geschlecht mit den Stufen F und M ist. Die Hypothese, dass
Frauen häufiger rauchen, als bei Unabhängigkeit erwartet, wäre dann gerade die
eben formulierte. Auf die Unterschiede zum Test auf Gleichheit von Verteilungen
wurde schon hingewiesen, insbesondere, was die Art der Datenerhebung angeht.
Naheliegend ist es, beim Testen so vorzugehen, dass man zunächst eine unabhängige Stichprobe des Umfangs n zieht, wobei jede einzelne Ziehung einen Wert
für X und einen für Y liefert. Das Ergebnis fasst man in einer Kontingenztafel
zusammen:
X\Y y1 y2
x1 n11 n12 n1.
x2 n21 n22 n2.
n.1 n.2 n
Da die Alternativhypothese die war, dass p11 größer ist als unter Unabhängigkeit erwartet, ist es naheliegend, die Nullhypothese für große Werte von n11 zu
verwerfen.
Dabei stellt sich die Frage nach dem kritischen Wert. Dieser kritische Wert ist
wie beim Test auf Gleichheit von Verteilungen wieder in Abhängigkeit von den
übrigen Werten in der Kontingenztafel zu wählen, hier in Abhängigkeit von n1.
und n.1 .
Die hier wichtigen Zahlen in der Kontingenztafel sollen wieder eigene Namen
bekommen, die ähnlich denen im schon behandelten Fall sind. Für n11 , n.1 und
n1. sollen dabei r, k und l gesetzt werden, so dass die Kontingenztafel nun folgende
1.3
Spezielle Verfahren
QM2 15
61
Gestalt bekommt:
X\Y
x1
x2
y1
y2
r
l−r
l
k−r n−k−l+r n−l
k
n−k
n
Offenbar sind die Werte in der Kontingenztafel bereits durch r, k, l und n festgelegt. Die Zvan, die r, k und l entsprechen, sollen R, K und L heißen (sie gehören
zu der Situation, in der die Ziehung noch nicht durchgeführt wurde, in der also
die Werte r, k und l noch zufallsabhängig sind).
In der neuen Terminologie besteht nun die Aufgabe in der Festlegung eines kritischen Werts für R, der abhängig sein wird von den Werten von K und L. Für
diese Festlegung braucht man – analog zum Fall des Tests auf Gleichheit von
Verteilungen – die bedingte Verteilung von R, hier bei gegebenen Werten von K
und L, wobei außerdem die Gültigkeit der Nullhypothese vorauszusetzen ist.
Die Gültigkeit von H0 soll daher für die folgenden Überlegungen vorausgesetzt
werden, ohne dass dies jetzt durch eigene Indizes verdeutlicht wird. Die Voraussetzung ist also die, dass die Wahrscheinlichkeiten p11 , p12 , p21 , p22 den Bedingungen pij = pi. p.j genügen (und alle 6= 0 sind). Die Wahrscheinlichkeiten sollen
dabei nicht beliebig sein, sondern zunächst feste Werte besitzen – es wird also zunächst nicht eine beliebige unabhängige Kontingenztafel vorausgesetzt, sondern
eine spezielle.
Nun geht es zuerst um die Frage der Verteilung der gegebenen Variablen.
Führt man nur eine einzige Ziehung durch, so sind die möglichen Ergebnisse
die vier Wertekombinationen (x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ), deren Wahrscheinlichkeiten bei einer Ziehung gleich p11 , p12 , p21 und p22 sind. Man kann die
Situation auch so betrachten, dass man nur eine Variable mit 4 Ausprägungen
hat, die mit den angegebenen Wahrscheinlichkeiten auftreten.
Nun soll ein solcher Versuch unabhängig mehrfach durchgeführt werden, wobei
die Frage ist, mit welcher Wahrscheinlichkeit die einzelnen Wertekombinationen
(x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ) mit vorgegebenen Häufigkeiten n11 , n12 , n21
und n22 auftreten (deren Summe natürlich die Zahl n der Durchführungen ist).
Betrachtet man die Situation als eine, in der eine einzige Zva (die Kombination
aus X und Y ) 4 mögliche Werte mit den gegebenen Wahrscheinlichkeiten annimmt, so ist klar, dass es die Antwort auf die Frage durch die entsprechende
1.3
Spezielle Verfahren
QM2 15
62
Multinomialverteilung geliefert wird; die Wahrscheinlichkeit, bei n unabhängigen
Ziehungen die Wertekombinationen (x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ) mit den
Häufigkeiten n11 , n12 , n21 und n22 zu erhalten, ist also gerade
n!
pn11 pn12 pn21 pn22 .
n11 !n12 !n21 !n22 ! 11 12 21 22
Setzt man die oben eingeführten Abkürzungen ein, so erhält man
P(R = r, K = k, L = l) =
n!
(l−r) (k−r) (n−l−k+r) .
pr11 p12 p21 p22
r!(l − r)!(k − r)!(n − l − k + r)!
Dies gilt allgemein; da hier jedoch Unabhängigkeit vorausgesetzt ist, können die
Wahrscheinlichkeiten pij durch pi. p.j ersetzt werden. Dann kann man den zweiten
Faktor umschreiben:
(l−r) (k−r) (n−l−k+r)
p22
pr11 p12 p21
= (p1. p.1 )r (p1. p.2 )(l−r) (p2. p.1 )(k−r) (p2. p.2 )(n−l−k+r)
(r+l−r) (r+k−r) (k−r+n−l−k+r) (l−r+n−l−k+r)
= p1.
p.1
p2 .
p .2
n−k .
= pl1. pk.1 p2n−l
. p.2
Die Wahrscheinlichkeiten für die Wert k von K und l von L ergeben sich leicht
daraus, dass die Variablen K und L binomialverteilt sind; wegen der vorausgesetzten Unabhängigkeit von X und Y sind dann auch K und L unabhängig,
woraus insgesamt
n k n−k n l n−l
P(K = k, L = l) =
p p
p p
k .1 .2
l 1. 2.
folgt.
1.3
Spezielle Verfahren
QM2 15
63
Damit ergibt sich weiter
P(R = r|K = k, L = l) =
n!
pl pk pn−l pn−k
r!(l − r)!(k − r)!(n − l − k + r)! 1. .1 2. .2
=
n k n−k n l n−l
p p
p p
k .1 .2
l 1. 2.
n!
r!(l − r)!(k − r)!(n − l − k + r)!
=
n!
n!
k!(n − k)! l!(n − l)!
l
n−l
k!(n − k)!l!(n − l)!
r k−r
=
.
n
n!r!(l − r)!(k − r)!(n − l − k + r)!
k
Diese bedingte Wahrscheinlichkeit hängt erfreulicherweise nicht mehr von den pij
ab, und als bedingte Verteilung von R unter K = k und L = l findet man eine
H(n, l, k)-Verteilung.
Damit kann ab dieser Stelle völlig analog argumentiert werden wie im Fall des
Tests auf Gleichheit von Verteilungen.
Das Ergebnis der weiteren Überlegungen fasst man schließlich wie folgt zusammen:
Es geht um die Frage, ob zwei dichotome Variable X und Y unabhängig sind, oder
ob Abhängigkeit (ggf. auch gerichtet) besteht. Die Kontingenztafel der Variablen
ist
X\Y y1 y2
x1 p11 p12 p1.
x2 p21 p22 p2.
p.1 p.2
Die Hypothesen sind
H0 :
p11 p22 − p12 p21 = 0
H1 :
p11 p22 − p12 p21 > 0
(Linksseitige und zweiseitige Fragestellungen werden ganz analog behandelt).
1.3
Spezielle Verfahren
QM2 15
64
Es wird dann für (X, Y ) eine unabhängige Stichproben vom Umfang n gezogen,
und die Häufigkeiten des Auftretens der Wertekombinationen werden in einer
Kontingenztafel zusammengefasst. Die folgende Kontingenztafel gibt dabei die
allgemeinen Bezeichnungen für die Häufigkeiten:
X\Y
x1
x2
y1
y2
r
l−r
l
k−r n−l−k+r n−l
k
n−k
n
Die Nullhypothese wird auf Niveau α dann verworfen, wenn r mindestens so groß
ist wie der Wert, der bei der H(n, l, k)-Verteilung rechts α abschneidet (genauer
ist der kleinste Wert gemeint, der gerade noch höchstens α abschneidet).
Power beim Test mit bekannter Varianz.
Die Power (allgemeiner: die Wahrscheinlichkeit Pµ („ H1 “) einer Entscheidung für
H1 in Abhängigkeit von µ) des einseitigen Einstichprobentests mit bekannter
Varianz ist gegeben durch
√ µ − µ0
n
Pµ („H1 “) := F
− uα
σ
√
√
n
n
= F
µ−
µ0 + uα
σ
σ
Dabei ist F die Verteilungsfunktion der Standardnormalverteilung.
Wie sieht das Schaubild dieser Funktion aus? Es ergibt sich in einfacher Weise
aus dem Schaubild von F , da die Funktion dadurch entsteht,
dass
√ man F auf
√
n
eine lineare Transformation von µ anwendet (nämlich auf σ µ − σn µ0 + uα ).
Zur Beantwortung der Frage soll allgemein untersucht werden, wie das Schaubild
einer Funktion F ∗ (x) := F (ax+b) aus dem Schaubild der Funktion F entsteht; die
Funktion F ist dabei beliebig, soll aber der Einfachheit halber auf den gesamten
reellen Zahlen definiert sein, außerdem soll a positiv sein.
Im Schaubild einer Funktion F ist der Graph der Funktion eingezeichnet, der
bekanntlich aus allen Punkten (x, F (x)) besteht. Die Frage ist dann, wie der
Graph von F ∗ aus dem von F entsteht.
1.3
Spezielle Verfahren
QM2 15
65
Es sei nun (x, y) ein Element des Graphen von F , weshalb F (x) = y gilt. Betrachtet man nun x0 = (1/a)x − (b/a), so gilt ax0 + b = x (x0 entsteht aus x gerade
durch die Umkehrung der linearen Transformation x 7→ ax + b). Es folgt, dass
F ∗ (x0 ) = F (ax0 + b) = F (x) = y ist. Insgesamt gehört damit (x0 , y) zum Graphen
von F ∗ .
Man erhält damit aus jedem Punkt (x, y) des Graphen von F einen Punkt des
Graphen von F ∗ , wenn man x durch x0 = (1/a)x − (b/a) ersetzt. Auf diese Weise
erhält man auch alle Punkte des Graphen von F ∗ , weil jedes reelle x0 sich als
(1/a)x − (b/a) schreiben lässt für ein geeignetes x (nämlich x = ax0 + b).
Wie entsteht aber nun der Punkt (x0 , y) aus dem Punkt (x, y)? Die zweite Koordinate bleibt erhalten, während man sich den Übergang von x zu x0 = (1/a)x−(b/a)
geometrisch so veranschaulichen kann, dass zunächst der Abstand zur y-Achse um
den Faktor 1/a verändert wird, worauf eine Verschiebung von −b/a in Richtung
der x-Achse erfolgt.
Damit erhält man insgesamt den Graphen von F ∗ aus dem von F dadurch, dass
man diesen in x-Richtung um den Faktor 1/a streckt bzw. staucht (die y-Achse
bleibt dabei fix), und das Ergebnis dann noch um −b/a in x-Richtung verschiebt.
In der folgenden Abbildung ist der Übergang vom Graphen der Verteilungsfunktion F der Standardnormalverteilung (man beachte die unterschiedliche Skalierung
der Achsen) zum Graphen der Funktion F ∗ (x) := F (.5x − .5) illustriert; hier ist
a = .5 und b = −.5, folglich 1/a = 2 und −b/a = 1. Der Graph von F ∗ entsteht
aus dem von F durch Streckung um den Faktor 2 in x-Richtung und anschließende
Verschiebung um 1 in x-Richtung.
.
......
........
.
......
........
y ...........
.
1 ..........
.............................................
.......
.....
.. ......
... ....
.. ..
... ....
....
.....
.
....
.
. ...
.
.
.. .
... ...
... ...
...
...
.....
.
.
.
.
..
.
................................................
....................................................................................
F
1
x
.
......
........
y ...........
.
1 ..........
..................
...................
... ....................
..
.. ... ............
... .. ........
.. .. .....
... ..........
..............
.
.
.
..........
.
.
.
..... ...
.
.
.
.
.... . ..
..... .. ..
...... . ...
...... ..
...
....... ....
.
.
.
.
.
.
.
.
...
.
.
....
........................
.................
...................................................................................
1
x
y ...........
.
1 ..........
...........
.......
................
........ .........
..
...............................
.
.
...
.
.. ........
..
..
.
... ... .........
............ .......
........................
.
.
.. ... ......
.
. . .
.. .......
.. ........
... ...... ..
..................................... ....
.
.
.
..
.... ..........
....
..................
.......
..........
............
.....
...................................................................................
F∗
1
x
Der Graph der Funktion Pµ („ H1 “) in Abhängigkeit von µ entsteht daher aus
dem Graphen der Verteilungsfunktion F der Standardnormalverteilung dadurch,
√
dass dieser in µ-Richtung (µ spielt jetzt die Rolle von x) um den Faktor σ/ n ge√
streckt/gestaucht wird und das Ergebnis dann um µ0 + (σ/ n)uα in µ-Richtung
1.3
Spezielle Verfahren
QM2 15
66
verschoben wird. Die strenge Monotonie bleibt dabei erhalten, wie sich nun unmittelbar aus der geometrischen Konstruktion ergibt.
Zur Nullhypothese bei einseitigen t-Tests.
Die Hypothesen
H0 : µ = µ0
H1 : µ > µ0
des einseitigen Einstichproben-t-Tests werden getestet mit der Statistik
t=
M − µ0
√ ,
s/ n
deren Verteilung eine tN −J, δ -Verteilung ist mit
δ=
µ − µ0
√ .
σ/ n
Die Entscheidungregel, nach der H0 dann zu verwerfen ist, wenn t ≥ tN −J; α gilt,
führt dazu, dass unter H0 die Wahrscheinlichkeit der Entscheidung für H1 gerade
α ist, denn dann ist δ gleich 0 und die Verteilung von t zentral.
Oft möchte man aber allgemeiner die Nullhypothese H0 : µ ≤ µ0 testen, bei
der im Vergleich zu oben das Gleichheitszeichen durch ein Ungleichheitszeichen
ersetzt ist.
Es liegt hier nahe, denselben Test zu benutzen wie im Fall H0 : µ = µ0 , wobei
sich allerdings die Frage stellt, ob das Signifikanzniveau auch dann eingehalten
wird, wenn µ < µ0 ist.
Dies ist anschaulich plausibel, soll jedoch hier kurz begründet werden. Die Verteilung von t ist in dem Fall, dass µ < µ0 gilt, eine nonzentrale t-Verteilung mit
negativem NZP δ. Die Wahrscheinlichkeit, H0 zu verwerfen, ist damit die Wahrscheinlichkeit, dass eine Variable, die tN −J, δ -verteilt ist, einen Wert annimmt, der
mindestens so groß ist wie der kritische Wert k. Dieser kritische Wert ist seinerseits so gewählt, dass die Wahrscheinlichkeit, dass eine tN −J -verteilte Variable
mindestens gleich k wird, gerade gleich α ist.
Man sieht, dass es genügt, die folgende Behauptung zu zeigen: Die Wahrscheinlichkeit, dass eine t-verteilte Variable mit negativem NZP einen Wert ≥ k annimmt, ist höchstens so groß wie die Wahrscheinlichkeit, dass eine zentral tverteilte Variable mit derselben Zahl von Freiheitsgraden einen Wert ≥ k annimmt (k ist dabei beliebig).
1.3
Spezielle Verfahren
QM2 15
67
Zur Begründung sei u eine N (0, 1)-verteilte Variable und v eine χ2 -verteilte Variable mit der gegebenen Anzahl n von Freiheitsgraden.
pDie beiden Variablen
sollen außerdem unabhängig sein. Definiert man w als (v/n), so hat die Variable tδ = (u + δ)/w definitionsgemäß eine nonzentrale t-Verteilung mit NZP δ;
hier ist δ < 0 vorausgesetzt. Die Variable t0 = u/w hat hingegen eine zentrale
t-Verteilung.
Zu zeigen ist nun, dass P(tδ ≥ k) ≤ P(t0 ≥ k) gilt. Sei dazu A das Ereignis
tδ ≥ k. Nach Definition von tδ ist dies gleichbedeutend mit (u + δ)/w ≥ k oder
u ≥ kw − δ. Ist diese Bedingung erfüllt, so gilt wegen δ < 0 auch u ≥ kw, was
wiederum gleichbedeutend zu u/w ≥ k oder t0 ≥ k ist. Bezeichnet B nun das
Ereignis t0 ≥ k, so folgt A ⊆ B, denn immer wenn A eintritt, tritt auch B ein.
Daraus folgt wieder P(A) ≤ P(B), was aber gerade die Behauptung war.
Die gerade angestellten Überlegungen lassen sich sofort auch auf andere Situationen übertragen, in denen man eine t-Statistik zu einem einseitigen Test benutzt,
beispielsweise auf die des Zweistichproben-t-Tests für unabhängige Stichproben.
t-Test mit ungleichen Varianzen.
Gegeben sei die Situation von zwei unabhängigen Stichproben. Ihre Umfänge
seien n1 und n2 , die Erwartungswerte µ1 und µ2 und die Varianzen σ12 und σ22 .
Zu testen ist beispielsweise die (Alternativ-)Hypothese, dass µ2 > µ1 gilt.
Es sollen die Verteilungsvoraussetzungen der Unabhängigkeit und Normalverteilung wie beim Zweistichproben-t-Test gelten, nicht aber die der Varianzhomogenität.
Die weiteren Bezeichnugen seien wie üblich: die Mittelwerte seien M1 und M2 ,
die korrigierten Stichprobenvarianzen s21 und s22 .
Wie üblich berechnet man die Varianz der Mittelwertdifferenz:
V (M2 − M1 ) = σ12 /n1 + σ22 /n2 .
Schätzen wird man diese Varianz naheliegenderweise, indem man die σi2 durch die
entsprechenden s2i ersetzt. Von Interesse ist nun die Varianz des so entstehenden
Varianzschätzers s21 /n1 + s22 /n2 .
Da (ni − 1)s2i /σi2 ∼ χ2ni −1 gilt, und da die Varianz einer χ2n -verteilten Variable
gleich 2n ist, gilt V (s2i ) = 2σi4 /(ni − 1), und daher
1.3
Spezielle Verfahren
V
(s21 /n1
+
QM2 15
s22 /n2 )
=2
σ24
σ14
+
(n1 − 1)n21 (n2 − 1)n22
68
Man bildet nun analog zum bekannten t-Bruch den folgenden, auch mit t bezeichneten Bruch, bei dem Rücksicht darauf genommen wird, dass die Varianzen
nicht homogen sind:
,r
σ12 σ22
(M2 − M1 )
+
n1 n2
M2 − M1
t= r 2
= s
2
2
2
2
s1
s22
s
s
σ
σ
1
2
1
2
+
+
+
n1 n2
n1 n2
n1 n2
Der Zähler des rechten Bruchs
p ist normalverteilt, wie üblich mit Varianz 1 und
Erwartungswert (µ2 − µ1 )/ σ12 /n1 + σ22 /n2 .
Der Nenner ohne Wurzel soll nun genauer betrachtet werden. Es sei dazu
2
2
s1
s22
σ1 σ22
Y :=
+
+
n1 n2
n1 n2
In der Standardsituation des t-Tests stünde hier eine durch ihre Freiheitsgrade
ν geteilte χ2 -verteilte Variable. Der Erwartungswert dieser Variablen wäre 1, die
Varianz wäre gleich 2/ν.
Der Erwartungswert von Y ist ebenfalls 1, die Varianz hingegen ist
, 2
2
σ14
σ24
σ1 σ22
+
V (Y ) = 2
+
.
(n1 − 1)n21 (n2 − 1)n22
n1 n2
Die Idee zur Behandlung dieses Falls ist nun die, so zu tun, als wäre Y eine geeignete durch ihre Freiheitsgrade ν geteilte χ2 -Variable, also von der Form U/ν
mit einem geeigneten U ∼ χ2ν . Wenn das so wäre, so hätte dann t die entsprechende tν -Verteilung. Aber auch wenn es nicht so ist, kann man hoffen, dass diese
tν -Verteilung wenigstens näherungsweise mit der tatsächlichen Verteilung von t
übereinstimmt.
Die Frage ist dabei, welche Zahl ν man für die Freiheitsgrade zu wählen hat. Naheliegend ist es, diese Zahl so zu wählen, dass dann Erwartungswert und Varianz
von Y mit dem formal gebildeten Erwartungswert (1) und der formal gebildeten
Varianz (2/ν) der hypothetischen Variable U/ν übereinstimmen. Die Forderung
1.3
Spezielle Verfahren
QM2 15
69
für den Erwartungswert ist schon erfüllt, und aus der Forderung für die Varianz
ergibt sich
, 2
2
4
4
σ1
σ1 σ22
σ2
2/ν = 2
+
+
(n1 − 1)n21 (n2 − 1)n22
n1 n2
oder
ν=
σ12 σ22
+
n1 n2
2 σ14
σ24
+
(n1 − 1)n21 (n2 − 1)n22
.
Leider hat man auch die theoretischen Varianzen nicht zur Verfügung. Daher wird
ν dadurch geschätzt, dass die σi2 durch die s2i ersetzt werden. Die Freiheitsgrade
der so schließlich (hoffentlich) approximierenden t-Verteilung sind dann
s21
s2
+ 2
n1 n2
2 s41
s42
+
(n1 − 1)n21 (n2 − 1)n22
.
Die Zahl, die sich hier ergibt, wird im allgemeinen nicht ganz sein, kommt also
als Zahl von Freiheitsgraden meist gar nicht in Betracht. Eine Möglichkeit ist
dann die, auf die nächste ganze Zahl zu runden, oder, noch vorsichtiger, die
nächstkleinere ganze Zahl zu nehmen. Dann tut man so, als hätte t unter H0 eine
t-Verteilung mit der so ermittelten Zahl ν ∗ von Freiheitsgraden.
Zum Testen benutzt man bei der geschilderten Approximation also die tν ∗ -Verteilung als H0 -Verteilung und verwirft (beim rechtsseitigen Test) die Nullhypothese
auf dem Niveau α, falls das oben gebildete t mindestens gleich tν ∗ ; α ist (linksseitiger und zweiseitiger Test entsprechend).
Vorschlag für eine Aufgabe: Gegeben seien die beiden Stichproben 5, 6, 4 und
0, 40, 10, 30, 20, 20. Man führe einen normalen t-Test durch und einen nach dem
oben geschilderten Verfahren. Dann vergleiche man die Ergebnisse mit den Outputs von Statistikprogrammen.
1.4
Varianzanalysen
1.4
1.4.1
QM2 15
70
Varianzanalysen
Einfaktorielle Varianzanalyse
Varianzzerlegung.
Gezeigt werden soll die Quadratsummenzerlegung SStot = SSb + SSw .
Man führt dazu die folgenden Umformungen durch:
SStot
nj
J X
X
=
(yij − M )2
j=1 i=1
=
XX
j
((yij − Mj ) + (Mj − M ))2
i
XX
XX
XX
=
(yij − Mj )2 + 2
(yij − Mj )(Mj − M ) +
(Mj − M )2
j
i
= SSw + 2
X
= SSw + 2
X
j
i
(Mj − M )
X
j
(yij − Mj )
+
X
i
j
i
nj (Mj − M )2
j
(Mj − M ) · 0 + SSb
j
= SSw + 0 + SSb = SSb + SSw
Hierbei wurde berücksichtigt, dass die Summen der Abweichungen vom MittelP
wert immer 0 sind ( i (yij − Mj ) = 0 ).
Erwartungswert von SSb .
Ziel ist die Bestimmung des Erwartungswerts von SSb .
Zur Berechnung wird zuerst der Erwartungswert von (Mj − M )2 bestimmt.
Diese Berechnung zerfällt in mehrere Teilschritte. Der Erwartungswert von Mj
ist zunächst gleich µj , woraus sich
E(M ) = E
J
X
nj
j=1
ergibt.
N
!
Mj
=
X nj
N
E(Mj ) =
X nj
N
µj = µ
1.4
Varianzanalysen
QM2 15
71
Dieses wichtige Teilresultat kann man auch so formulieren: M ist ein erwartungstreuer Schätzer für µ.
Unmittelbar folgt nun:
E(Mj − M ) = E(Mj ) − E(M ) = µj − µ = αj .
In Mj − M hat man also einen erwartungstreuen Schätzer für die j-te Effektgröße
αj .
Als weitere Vorbereitungen werden nun die Varianzen von Mj und M bestimmt;
die von Mj ist bereits bekannt, nämlich σ 2 /nj . Für die Varianz von
nj
J
1 XX
M=
yij
N j=1 i=1
erhält man wegen der Unabhängigkeit der yij die Beziehung
V(M ) = V(
σ2
1 XX
1 XX
1 XX 2
1
.
yij ) = 2
V(yij ) = 2
σ = 2 N σ2 =
N
N
N
N
N
Schließlich wird noch die Kovarianz von Mj und M bestimmt:
!
J
X
X nk
nk
Kov(Mj , M ) = Kov Mj ,
Mk =
Kov(Mj , Mk )
N
N
k=1
k
=
nj σ 2
nj
= σ 2 /N .
V(Mj ) =
N
N nj
Zu beachten ist bei dieser Rechnung, dass wegen der Unabhängigkeit der Mj alle
Kov(Mj , Mk ) für k 6= j gleich 0 sind, so dass beim Ausrechnen der Summe nur
Kov(Mj , Mj ) einen Beitrag 6= 0 liefert, nämlich eben V(Mj ).
Vielleicht ist es auch nicht überflüssig, darauf hinzuweisen, dass beim Ausschreiben von M als Summe der gewohnte Index j deshalb nicht verwendet werden
konnte, weil er hier bereits eine andere Bedeutung hatte; als Index wurde daher
k gewählt.
Mit den bisherigen Teilresultaten wird nun zunächst die Varianz von Mj − M
bestimmt:
σ2 σ2
σ2
1
1
2
V(Mj −M ) = V(Mj )+V(M )−2Kov(Mj , M ) =
+ −2 = σ
−
.
nj N
N
nj
N
1.4
Varianzanalysen
QM2 15
72
Mit der allgemeinen Beziehung E(X 2 ) = V(X) + (E(X))2 (umgestellte Varianzformel) erhält man schließlich
1
1
2
2
2
−
+ αj2 ,
E((Mj − M ) ) = V(Mj − M ) + (E(Mj − M )) = σ
nj
N
womit das erste Teilziel erreicht ist.
Die Berechnung von E(SSb ) ist nun einfach:
!
J
X
X 1
1
2
2
2
E(SSb ) = E
nj (Mj − M ) =
nj σ
−
+ αj
n
N
j
j=1
X
X
nj X
1−
= σ2
+
nj αj2 = σ 2 (J − 1) +
nj αj2 .
N
P
Hier wurde natürlich
nj = N ausgenutzt. Damit ist das Ziel, den Erwartungswert von SSb zu bestimmen, erreicht.
Als Erwartungswert von SSb /σ 2 erhält man nun unmittelbar
P
nj αj2
2
.
E(SSb /σ ) = (J − 1) +
σ2
Bekanntlich ist der Erwartungswert einer χ2n, δ2 -verteilten Variable gleich n + δ 2 .
Akzeptiert man die (hier nicht begründete) Tatsache, dass die Verteilung von
SSb /σ 2 eine χ2J−1, δ2 -Verteilung ist (und dass dann SSb /σ 2 den Erwartungswert
(J − 1) + δ 2 besitzt), so ergibt sich für den Nonzentralitätsparameter δ 2 aus dem
erzielten Resultat für den Erwartungswert von SSb /σ 2 durch Einsetzen sofort
P
nj αj2
2
δ =
.
σ2
1.4.2
Zweifaktorielle Varianzanalyse
Zweifaktorielles Design, mittlere Erwartungswerte.
In einem zweifaktoriellen Design werden Beobachtungen für die Kombinationen
der Stufen zweier Faktoren gemacht. Der Standardfall ist dabei der, dass für alle Stufenkombinationen sogar gleich viele Beobachtungen gemacht werden; auf
1.4
Varianzanalysen
QM2 15
73
diesen Fall beziehen sich die Formeln des Standardfalls der zweifaktoriellen Varianzanalyse.
Die beiden Faktoren seien mit A und B bezeichnet, wobei die Anzahl der Stufen
von A gleich J und die von B gleich K sei. Die Stufen von A seien mit A1 , . . . , AJ
bezeichnet und die von B mit B1 , . . . , BK .
Die möglichen Bedingungskombinationen veranschaulicht man sich dann in einem
Schema der folgenden Art (dem ‚Designschema‘):
A1
A2
..
.
AJ
B1 B2 . . . . . . BK
......
......
..
..
..
..
.
.
.
.
......
Jeder Bedingungskombination entspricht in diesem Schema eine ‚Zelle‘.
Hypothesen in derartigen Designs beziehen sich meist auf Erwartungswerte; ist
µjk der Erwartungswert der Kombination von Aj und Bk , so kann man zur Veranschaulichung die Erwartungswerte in die zugehörigen Zellen eintragen.
A1
A2
..
.
AJ
B1 B2
µ11 µ12
µ21 µ22
..
..
.
.
µJ1 µJ2
. . . . . . BK
. . . . . . µ1K
. . . . . . µ2K
..
..
.
.
. . . . . . µJK
Viele Hypothesen nehmen Bezug auf Durchschnitte von Erwartungswerten, die
gebildet werden, indem man eine Stufe eines Faktors festhält und den Mittelwert
der Erwartungswerte für alle Kombinationen dieser Stufe mit den Stufen des
anderen Faktors bildet. Hält man die Stufe Aj des ersten Faktors fest, so heißt
der zugehörige Durchschnitt µj . , hält man die Stufe Bk des zweiten Faktors fest,
so nennt man den zugehörigen Durchschnitt µ.k . Auch der Durchschnitt aller
Erwartungswerte spielt eine wichtige Rolle; er heißt kurz µ.
Formal gilt also
µj . =
1 X
µjk ,
K k
µ .k =
1X
µjk ,
J j
µ=
1 X
µjk .
JK j,k
1.4
Varianzanalysen
QM2 15
74
Zur Veranschaulichung sind diese durchschnittlichen Erwartungswerte an den entsprechenden Stellen am Rand des folgenden Schemas eingetragen; die Bezeichnung der Stufen soll ab jetzt unterbleiben.
µ11 µ12
µ21 µ22
..
..
.
.
µJ1 µJ2
µ.1 µ. 2
. . . . . . µ1K µ1.
. . . . . . µ2K µ2.
..
..
..
.
.
.
. . . . . . µJK µJ .
. . . . . . µ .K µ
Da häufig Durchschnitte gebildet werden, ist die Einführung eines entprechenden
Symbols Ø für das Verständnis hilfreich. Soll ein Durchschnitt über mehrere mit
k indizierte Werte gebildet werden, wobei die Gesamtzahl der Werte gleich K ist,
so sollen die Symbolkombinationen
Ø
1 X
K k
und
k
gleichbedeutend sein. Entsprechendes gilt, wenn der Durchschnitt von Werten
gebildet wird, die mit zwei Indizes j und k indiziert sind, wobei jede Indexkombination genau einmal auftritt und die Indizes j und k gerade J bzw. K mögliche
Werte haben; hier sind dann die Symbolkombinationen
Ø
1 X
JK j,k
und
j, k
gleichwertig. Man schreibt dann etwas suggestiver
µj . = Ø µjk ,
k
µ.k = Ø µjk ,
j
µ = Ø µjk .
j, k
Man überzeugt sich nun unmittelbar davon, dass auch
µ = Ø µj .
j
und
µ = Ø µ.k
k
gilt; der Gesamtdurchschnitt aller µjk ist also auch der Durchschnitt der Zeilendurchschnitte und der Durchschnitt der Spaltendurchschnitte (wesentlich ist
hierbei, dass die ‚Zwischendurchschnitte‘ hier alle auf gleich vielen Werten beruhen).
1.4
Varianzanalysen
QM2 15
75
Haupteffekte.
Zwei der drei Hypothesenpaare der zweifaktoriellen Varianzanalyse können jetzt
schon formuliert werden; es sind die Haupteffekthypothesen. Die Hypothesen für
den Faktor A lauten
H0A : µ1. = µ2. = . . . = µJ .
H1A : nicht H0A .
Ganz analog zur einfaktoriellen Varianzanalyse sagt die Nullhypothese hier, dass
sich die durchschnittlichen Erwartungswerte der Stufen des Faktors A nicht unterscheiden, während die Alternativhypothese das Vorhandensein irgendwelcher
Unterschiede postuliert, ohne sich genauer festzulegen, an welcher Stelle diese
Unterschiede liegen. Der Unterschied zur einfaktoriellen Varianzanalyse liegt nur
darin, dass es hier um durchschnittliche Erwartungswerte und nicht um Erwartungswerte geht.
Die durchschnittlichen Erwartungswerte, um die es hier geht, sind in der Darstellung oben die, die am rechten Rand des Designschemas liegen.
Wenn die Alternativhypothese H1A gilt, sagt man auch, dass ein Haupteffekt des
Faktors A vorliegt.
Genauso formuliert man die entsprechenden Hypothesen für den Faktor B:
H0B : µ.1 = µ.2 = . . . = µ.K
H1B : nicht H0B .
Gilt hier die Alternativhypothese, so sagt man, dass ein Haupteffekt des Faktors
B vorliegt. Die durchschnittlichen Erwartungswerte, um die es jetzt geht, sind
die unter dem Designschema.
Wieder analog zur einfaktoriellen Varianzanalyse kann man Effektgrößen definieren und diese zu einem Vektor zusammenfassen, für den der Name ‚Effekt‘ für
viele Formulierungen recht passend ist.
Für den Haupteffekt von A sind die Effektgrößen genauer die Zahlen
αj := µj . − µ ,
und ihre Zusammenfassung zum Vektor
(α1 , α2 , . . . , αJ )
1.4
Varianzanalysen
QM2 15
76
soll auch als Haupteffekt von A bezeichnet werden.
Wie sich gleich genauer zeigen wird, liegt ein Haupteffekt von A (im Sinne der
Hypothesen) nun genau dann vor, wenn nicht alle αj gleich 0 sind, wenn also der
hier kurz als Haupteffekt bezeichnete Vektor nicht der sogenannte Nullvektor ist,
der aus lauter Nullen besteht.
Im Folgenden wird oft von einer einfachen Eigenschaft des Durchschnitts Gebrauch gemacht: Für gegebene Zahlen a1 , . . . , am gilt, dass diese Zahlen genau
dann alle gleich groß sind, wenn alle genauso groß sind wie ihr Durchschnitt.
Sind nämlich alle ai gleich groß, also gleich einer Zahl a, so ist offenbar auch
der Durchschnitt dieser Zahlen gleich a und die Zahlen sind insbesondere alle
genauso groß wie ihr Durchschnitt. Sind umgekehrt alle Zahlen so groß wie ihr
Durchschnitt, so sind sie insbesondere auch alle gleich groß.
Wegen dieser Eigenschaft sind nun die µj . genau dann alle gleich groß, wenn sie
alle gleich ihrem Durchschnitt µ sind, und dies ist genau dann der Fall, wenn alle
αj = µj . − µ gleich 0 sind. Damit ist die noch ausstehende Behauptung gezeigt.
Es soll nun der Durchschnitt der αj gebildet werden; hier gilt
Ø αj = Ø (µj . − µ) = Ø µj . − Ø µ = µ − µ = 0 .
j
j
j
j
Die hier verwendeten Regeln, dass der Durchschnitt einer Differenz gleich der
Differenz der Durchschnitte ist, und dass man als Durchschnitt einer mehrfach
aufgeführten Zahl (hier µ) wieder diese Zahl erhält, folgen unmittelbar aus der
Definition des Durchschnitts. Diese und ähnliche Regeln werden im Folgenden oft
angewendet, ohne dass dies besonders kommentiert werden soll.
Offenbar ist der Durchschnitt gewisser gegebener Zahlen genau dann gleich 0,
wenn ihre Summe gleich 0 ist, so dass man die letzte Aussage äquivalent auch so
formulieren kann, dass die Summe der αj gleich 0 ist. Diese Formulierung ist in
manchen Zusammenhängen angemessener.
Ganz analog zu den Effektgrößen αj definiert man die Effektgrößen für den Haupteffekt von B als
βk := µ.k − µ
und fasst sie zu dem Vektor
(β1 , . . . , βK )
zusammen, den man auch kurz als den Haupteffekt von B bezeichnet. Wieder
1.4
Varianzanalysen
QM2 15
77
ist dieser Vektor genau dann vom Nullvektor verschieden, wenn im Sinne der
Hypothesen ein Haupteffekt von B vorhanden ist, wenn also H1B gilt.
Auch hier gilt, dass der Durchschnitt der βk gleich 0 ist, ebenso die Summe.
Bedingte Haupteffekte.
Man kann nun nicht nur danach fragen, ob sich die zu den einzelnen Stufen von A
gehörenden Erwartungswerte im Durchschnitt unterscheiden (dies ist die Frage,
ob ein Haupteffekt von A vorhanden ist), sondern auch danach, ob sie sich für
eine feste Stufe Bk des anderen Faktors B unterscheiden. Falls solche Unterschiede
vorhanden sind, spricht man auch davon, dass ein bedingter Haupteffekt von A
auf der Stufe Bk von B vorliegt, im anderen Fall sagt man, dass ein solcher
bedingter Haupteffekt nicht vorliegt.
In der Terminologie der Wirkungen (wenn sie angemessen ist) gibt ein Haupteffekt darüber Auskunft, ob die Variation von A im Durchschnitt (unterschiedlich)
wirksam ist, während es bei einem bedingten Haupteffekt darum geht, ob die
Variation von A auf einer festen Stufe Bk von B (unterschiedlich) wirksam ist.
Auch hier ist es sinnvoll, einen etwas technischeren Begriff für bedingte Haupteffekte einzuführen; als bedingte Effektgrößen von A für eine feste Stufe von Bk
von B sollen die Zahlen
(k)
αj := µjk − µ.k
bezeichnet werden, und als bedingter Haupeffekt von A auf der Stufe Bk die
Zusammenfassung dieser Größen zu einem Vektor
(k)
(k)
(k)
(α1 , α2 , . . . , αJ ) .
Hier wird im Designschema eine feste Spalte betrachtet (nämlich die k-te), und es
geht darum, ob die Erwartungswerte in dieser Spalte alle gleich sind oder nicht,
ob also in dieser Spalte ein Effekt von A vorliegt oder nicht. Wie sich gerade
gezeigt hat, ist dies die gleich Frage, wie die, ob diese Erwartungswerte alle gleich
ihrem Durchschnitt µ.k sind (der unter der betrachteten Spalte steht) oder nicht.
Die Abweichungen der einzelnen Erwartungswerte von ihrem Durchschnitt bilden dann zusammengenommen gerade den bedingten Haupteffekt von A auf der
Stufe Bk . Diese Bezeichnung steht offenbar ganz im Einklang mit den analogen
bisherigen Bezeichnungen.
Wichtig ist nun die Frage nach den Durchschnitten der bedingten Effektgrößen
1.4
Varianzanalysen
QM2 15
78
(k)
αj . Durchschnitte kann man hier entweder über j oder über k bilden. Für den
Durchschnitt über j ergibt sich
Ø αj(k) = Ø (µjk − µ.k ) = Ø µjk − Ø µ.k = µ.k − µ.k = 0 .
j
j
j
j
Damit ist natürlich auch wieder die entsprechende Summe gleich 0. Als Durchschnitt über k berechnet man
Ø αj(k) = Ø (µjk − µ.k ) = Ø µjk − Ø µ.k = µj . − µ = αj .
k
k
k
k
Dies Ergebnis kann man, wenn man die Effektgrößen wieder zu Vektoren zusammenfasst griffig auch so formulieren, dass der Durchschnitt der bedingten
Haupteffekte von A gerade der Haupteffekt von A ist.
(k)
Trägt man in das Designschema die bedingten Effektgrößen αj ein und bildet
man wie oben bei den µjk dann zeilen- und spaltenweise die Durchschnitte, so
erhält man folgendes Resultat:
(1)
α1
(1)
α2
..
.
αJ
(1)
αJ
0
α1
α2
..
.
(2)
. . . . . . α1
(K)
α1
(2)
. . . . . . α2
..
..
.
.
(K)
α2
..
.
(2)
. . . . . . αJ
(K)
αJ
0
......
0
0
Genauso, wie man bedingte Haupteffekte von A untersuchen kann, kann man
auch solche von B untersuchen. Die Effektgrößen für den bedingten Haupteffekt
von B auf der Stufe Aj von A sind dann die Zahlen
(j)
βk := µjk − µj . .
Diese Zahlen geben an, wie stark die Erwartungswerte µjk in der j-ten Zeile von
ihrem Durchschnitt µj . abweichen, der in dem entsprechenden Schema am rechten
Rand der Zeile steht.
Wie bei den bedingten Haupteffekten von A gilt hier
Ø βk(j) = 0
k
1.4
Varianzanalysen
QM2 15
79
und
Ø βk(j) = βk ,
j
wieder ist also der Haupteffekt (diesmal von B) der Durchschnitt der bedingten
Haupteffekte.
(j)
Trägt man die βk samt ihren Durchschnitten in das Designschema ein, so erhält
man folgendes Ergebnis:
(1)
β2
(2)
β2
..
.
(J)
β2
β1
β1
..
.
β1
β1
(1)
. . . . . . βK
(2)
. . . . . . βK
..
..
.
.
(J)
β2
(1)
0
(2)
0
..
.
. . . . . . βK
(J)
0
......
0
βK
Interaktionseffekt.
Zunächst ist eine weitere Gruppe von Effektgrößen zu bilden, nämlich die der
Interaktionseffektgrößen γjk , die als
γjk := µjk − (µ + αj + βk )
definiert sind. Für ein vorläufiges Verständnis kann man γjk auffassen als die
Differenz des tatsächlichen Erwartungswertes µjk in der Kombination der Stufen
Aj und Bk von dem, was man auf Grund des durchschnittlichen Erwartungswertes
µ, des Effekts αj der zugehörigen Stufe von A und des Effekts βk der zugehörigen
Stufe von B ‚erwarten‘ würde.
Nützlich ist die Zusammenfassung der Effektgrößen in folgendem Schema:
µ β1 β2
α1 γ11 γ12
α2 γ21 γ22
..
..
..
.
.
.
αJ γJ1 γJ2
. . . . . . βK
. . . . . . γ1K
. . . . . . γ2K
..
..
.
.
. . . . . . γJK
Hier erhält man den Erwartungswert µjk einer bestimmten Zelle, indem man den
Wert von γjk in dieser Zelle zu der Summe von µ (oben links), αj (links von der
Zeile) und βk (oberhalb der Spalte) addiert. Will man die γjk bestimmen, so ist
es praktisch, in dieser Tabelle zunächst µ, die αj und die βk einzutragen, um
1.4
Varianzanalysen
QM2 15
80
danach die γjk als Differenzen zwischen den µjk und den genannten Summen zu
ermitteln.
Zunächst sollen wieder die Durchschnitte der γjk zeilen- und spaltenweise gebildet
werden. Man erhält für die Zeile j die Beziehung
Ø γjk = Ø (µjk − µ − αj − βk ) = Ø µjk − Ø µ − Ø αj − Ø βk
k
k
k
k
k
k
= µj . − µ − α j − 0 = 0 ,
da ja µ + αj gerade µj . ist.
Genauso errechnet man als Durchschnitt für die Spalte k das Ergebnis
Ø γjk = Ø (µjk − µ − αj − βk ) = Ø µjk − Ø µ − Ø αj − Ø βk
j
j
j
j
j
j
= µ.k − µ − 0 − βk = 0 .
Zeilen- und spaltenweise sind die Durchschnitte der γjk also 0 (ebenso natürlich
die Summen), was zur Veranschaulichung auch wieder in das Schema eingetragen
werden soll:
γ11 γ12
γ21 γ22
..
..
.
.
γJ1 γJ2
0
0
. . . . . . γ1K
. . . . . . γ2K
..
..
.
.
. . . . . . γJK
...... 0
0
0
..
.
0
0
Alternativ kann man die γjk auch mit Hilfe der durchschnittlichen Erwartungswerte ausdrücken:
γjk = µjk − (µ + αj + βk ) = µjk − (µ + αj ) − (µ + βk ) + µ
= µjk − µj . − µ.k + µ .
Diese Formulierung ist später praktisch, wenn es um die Schätzung von γjk geht.
Schreibt man die Definition von γjk etwas um, so erhält man
γjk = µjk − (µ + αj + βk ) = µjk − (µ + βk ) − αj = (µjk − µ.k ) − αj
(k)
= αj − αj .
Diese Beziehung gibt den γjk eine weitere Bedeutung als Abweichungen der bedingten Haupteffekte von den Haupteffekten.
1.4
Varianzanalysen
QM2 15
81
Besonders interessant ist der Fall, dass die bedingten Haupteffekte von A für die
Stufen Bk von B alle gleich sind. Dies lässt nämlich oft die inhaltliche Deutung zu,
dass die Wirkung von A auf allen Stufen von B die gleiche ist (ob diese Deutung
wirklich angemessen ist, ist im Einzelfall zu diskutieren). Dieser Fall tritt genau
dann ein, wenn alle γjk gleich 0 sind.
Sind nämlich alle γjk gleich 0, so sind alle bedingten Haupteffekte von A gleich
dem Haupteffekt von A und damit insbesondere untereinander gleich. Sind umgekehrt alle bedingten Haupteffekte von A gleich, so sind sie (komponentenweise)
auch gleich ihrem Durchschnitt, der ja gerade der Haupteffekt von A ist. Die Abweichungen der bedingen Haupteffekte von A vom Haupteffekt von A sind damit
alle 0, und da diese Abweichungen gerade die γjk sind, sind dann auch alle γjk
gleich 0.
Geometrisch lässt sich die Gleichheit der bedingten Haupteffekte von A auch so
deuten, dass im A-Diagramm alle Erwartungswertverläufe parallel sind.
Betrachtet man nämlich den Abstand zweier Erwartungswertverläufe für zwei
Stufen Bk1 und Bk2 von B an der Stelle Aj , so ist dieser Abstand gleich
(k )
(k )
(k )
(k )
µjk1 − µjk2 = µ.k1 + αj 1 − µ.k2 + αj 2 = (µ.k1 − µ.k2 ) + αj 1 − αj 2 .
Der Abstand der beiden betrachteten Erwartungswertverläufe an der Stelle Aj
setzt sich also zusammen aus einem Summanden µ.k1 −µ.k2 , der von j unabhängig
(k )
(k )
ist und aus αj 1 − αj 2 . Parallel sind diese beiden Verläufe genau dann, wenn ihr
(k )
(k )
Abstand an allen Stellen Aj gleich groß ist, also genau dann, wenn alle αj 1 −αj 2
gleich sind.
(k1 )
Nun sind die αj
Durchschnitt
Ø
j
(k2 )
− αj
(k1 )
αj
genau dann für alle j gleich, wenn sie gleich ihrem
(k2 )
− αj
(k1 )
= Ø αj
j
(k2 )
− Ø αj
=0−0=0
j
(k )
(k )
sind, wenn also für alle j die Beziehung αj 1 = αj 2 gilt. Dies leuchtet übrigens
auch unmittelbar geometrisch ein, da die αjk ja gerade die Abweichungen der
µjk von ihrer durchschnittlichen Höhe µ.k sind; Parallelität bedeutet nämlich,
dass man abgesehen von der Höhe die gleiche ‚Form‘ der Erwartungswertverläufe
haben muss.
Die Parallelität der zu den Stufen Bk1 und Bk2 von B gehörenden Erwartungswertverläufe ist also gleichbedeutend dazu, dass die bedingten Haupteffekte von
1.4
Varianzanalysen
QM2 15
82
A für die Stufen Bk1 und Bk2 von B gleich sind. Parallelität aller Erwartungswertverläufe im A-Diagramm liegt folglich genau dann vor, wenn alle bedingten
Haupteffekte von A gleich sind.
Die Gleichheit aller bedingten Haupteffekte von A hat sich aber gerade als äquivalent dazu erwiesen, dass alle γjk gleich 0 sind.
Die gleichen Argumente und Beziehungen wie für den Faktor A gelten auch für
den Faktor B. Man kann nämlich die γjk auch folgendermaßen umschreiben:
γjk = µjk − (µ + αj + βk ) = µjk − (µ + αj ) − βk = (µjk − µj . ) − βk
(j)
= βk − βk .
Danach kann man genauso wie oben weiterargumentieren, wobei nur A und B
die Rollen tauschen.
Das Gesamtergebnis ist dann, dass bei den folgenden fünf Bedingungen die Gültigkeit einer jeden die der vier anderen Bedingungen nach sich zieht; die folgenden
fünf Bedingungen sind also äquivalent:
1. Alle bedingten Haupteffekte von A sind gleich.
2. Alle Erwartungswertverläufe im A-Diagramm sind parallel.
3. Alle bedingten Haupteffekte von B sind gleich.
4. Alle Erwartungswertverläufe im B-Diagramm sind parallel.
5. Alle γjk sind gleich 0.
Ist eine dieser Bedingungen verletzt (und sind es damit alle), so sagt man auch,
dass ein Interaktionseffekt vorliegt.
Damit wird die letzte der Standardhypothesen der zweifaktoriellen Varianzanalyse formulierbar, nämlich die Interaktionshypothese:
H0I : Alle γjk sind 0
H1I : nicht H0I .
Natürlich kann man hier die Nullhypothese auch so formulieren, dass alle Erwartungswertverläufe parallel sind, oder dass alle bedingten Haupteffekte gleich
sind.
1.4
Varianzanalysen
QM2 15
83
Dabei ist es gleichgültig, ob man sich auf das A-Diagramm oder das B-Diagramm
bezieht beziehungsweise auf den Faktor A oder den Faktor B, wie aus der Äquivalenz der gerade formulierten Bedingungen hervorgeht.
Interaktion und Additivität.
Manchmal wird die Nullhypothese der Interaktion auch so formuliert, dass die
Effekte von A und B additiv sind. Diese Sprechweise ist nicht ganz unproblematisch, wenn man Effekte mit Wirkungen gleichsetzt.
Auf der formalen Ebene ist die Sprechweise völlig korrekt im folgenden Sinn:
Wegen der Gleichung
µjk = µ + αj + βk + γjk ,
die nur eine Umformulierung der Definition der γjk ist, ergeben sich die µjk additiv
aus den Haupteffekten (und natürlich µ) genau dann, wenn alle γjk gleich 0 sind.
Womöglich ist man jedoch geneigt, bei dem Wort ‚Effekt‘ nicht an mehr oder
weniger künstliche additive Zerlegungen von Erwartungswerten innerhalb eines
bestimmten Designs zu denken, sondern an Wirkungen der Faktoren in einem
inhaltlichen Sinn.
Eine solche Gleichsetzung ist allgemein durch nichts gerechtfertigt. In konkreten
Fällen mag die Interpretation der statistischen Effekte als Ausdruck von Wirkungen der Faktoren (besser: der Stufen der Faktoren) jedoch gelegentlich angebracht
sein, wobei allerdings eine naive Gleichsetzung meist verfehlt ist.
Zur Erläuterung sei eine Situation betrachtet, in der man inhaltlich eine Additivität der Wirkungen von zwei Faktoren (genauer: ihrer Stufen) voraussetzen darf
im folgenden Sinn: Der Erwartungswert µjk der abhängigen Variable unter den
Stufen Aj von A und Bk von B möge sich dadurch ergeben, dass zu dem Erwartungswert µ0 für einen ‚Normalzustand‘, in dem die Faktoren nicht (oder normal)
wirken (was das heißen kann, ist inhaltlich zu klären), eine Wirkung uj der Stufe
Aj von A und eine Wirkung vk der Stufe Bk von B sich in einem additiven Sinn
so zusammenfügen, dass schließlich
µjk = µ0 + uj + vk
gilt.
Solche Vorstellungen sind vielleicht an physikalischen Bildern orientiert, wo Kräfte, die für die unterschiedlichen Faktorstufen unterschiedlich groß sind, an einem
1.4
Varianzanalysen
QM2 15
84
Objekt so angreifen, dass sich ihre Wirkungen addieren.
Wenn jedenfalls ein Modell gültig ist, bei dem sich die Wirkungen addieren, so
sind alle Interaktionseffektgrößen γjk gleich 0 und die Haupteffekte unterscheiden
sich von den Wirkungen nur um eine additive Konstante.
Berechnet man nämlich die Effektgrößen, so gilt zunächst
µj . = Ø µjk = Ø (µ0 + uj + vk ) = Ø µ0 + Ø uj + Ø vk = µ0 + uj + Ø vk
k
k
k
k
k
k
und entsprechend
µ.k = µ0 + Ø uj + vk
j
und
µ = µ0 + Ø uj + Ø vk .
j
k
Hieraus ergibt sich
αj = µj . − µ = uj − Ø uj
j
und
βk = µ.k − µ = vk − Ø vk .
k
Dies ergibt weiter
!
(µ + αj + βk ) =
(µ0 + Ø uj + Ø vk ) + (uj − Ø uj ) + (vk − Ø vk )
j
k
j
k
= µ0 + uj + vk = µjk
und schließlich
γjk = µjk − (µ + αj + βk ) = µjk − µjk = 0 .
Hat man also additive Wirkungen im beschriebenen Sinn, so sind alle γjk Null,
und die Wirkungen (uj und vk ) unterscheiden sich von den entsprechenden Haupteffektgrößen (αj und βk ) nur um additive Konstanten (die Durchschnitte der uj
bzw. vk ). Insbesondere gilt dann die Nullhypothese der Interaktion.
Umgekehrt wäre es natürlich vermessen, aus der Gültigkeit der Nullhypothese
der Interaktion darauf zu schließen, dass ein Modell mit additiven Wirkungen
(im inhaltlichen Sinn) gilt.
1.4
Varianzanalysen
QM2 15
85
Effektstärken bei der zweifaktoriellen VA.
Genau wie in der einfaktoriellen Varianzanalyse kann man auch in der zweifaktoriellen Effektstärken definieren. Hier gibt es drei Standardhypothesenpaare,
zu denen jeweils eine Effektstärke gehört. Die Effektstärken hängen wieder eng
mit den Nonzentralitätsparametern der entsprechenden Tests zusammen; in der
nächsten Tabelle sind die Nonzentralitätsparameter und die Definitionen der Effektstärken zusammengefasst. Zur Unterscheidung wird die ‚Varianzquelle‘ jeweils
als Index benutzt.
Varianzquelle
A
B
I
NZP δ 2
.
P
δA2 = nK j αj2 σ 2
βk2 / σ 2
P 2. 2
σ
δI2 = n jk γjk
δB2 = nJ
P
k
Effektstärke f 2
P
.
2
fA2 =
α
σ2
j j /J
.
P
2
2
σ2
fB =
k βk /K
.
P
2
/(JK)
σ2
fI2 =
γ
jk jk
Was die Interpretation der Effektstärken angeht, so liegen die Verhältnisse ähnlich
wie bei der einfaktoriellen Varianzanalyse. Die Nonzentralitätsparameter können
zur Bestimmung der Power bei den entsprechenden Tests genutzt werden.
Es folgen Anmerkungen zum Aufbau der Kenngrößen. Zum Zusammenhang der
δ 2 und f 2 stellt man sofort fest, dass die Effektstärken sich aus den Nonzentralitätsparametern dadurch ergeben, dass man durch N = JKn dividiert. Umgekehrt geschrieben heißt das beispielsweise δA2 = N fA2 etc., ganz analog zu den
Verhältnissen bei der einfaktoriellen Varianzanalyse.
Ebenfalls wie bei der einfaktoriellen Varianzanalyse kann man sich die Bildung
der NZP so merken, dass man für alle Beobachtungen die jeweils zugehörige Effektgröße nimmt, alle diese Effektgrößen quadriert, aufsummiert und das Ergebnis
schließlich noch durch σ 2 teilt.
Beispielsweise ist für die Varianzquelle A die zu einer Beobachtung yijk gehörende
Effektgröße gerade αj . Ersetzen aller Beobachtungen durch das zugehörige αj2 und
Aufsummieren liefert
!
J X
K X
n
K X
n X
J
K X
n
J
J
X
X
X
X
X
2
2
2
αj =
αj =
αj = nK
αj2 .
j=1 k=1 i=1
k=1 i=1 j=1
k=1 i=1
j=1
j=1
Teilt man dies noch durch σ 2 , so erhält man in der Tat δA2 .
Was die Effektstärken angeht, so kann man beispielsweise fA2 auch deuten als den
1.4
Varianzanalysen
QM2 15
86
Quotienten der Varianz der µj . und der Fehlervarianz σ 2 . Unter der Varianz der
µj . wird dabei einfach die (deskripive) Varianz dieser Zahlen verstanden. In der
Tat ist ja der Mittelwert der µj . gerade µ, die Abweichungen der einzelnen µj . von
diesem Mittelwert sind also gerade die µj . − µ = αj . Die Summe der quadrierten
P
Abweichungen ist damit gleich j αj2 , woraus man die Varianz der µj . dadurch
erhält, dass man noch durch ihre Anzahl J teilt.
Ganz analog kann man die Effektstärke von A auch deuten als Quotienten der
Varianz der αj und der Fehlervarianz σ 2 , denn der Mittelwert der αj ist ja 0.
Für fB2 kann man die gleichen Überlegungen anstellen, und bei fI2 hat man immerhin noch die Deutung als Quotient der Varianz der γjk und der Fehlervarianz
σ2.
Interessant ist es auch, eine Beziehung herzustellen zwischen den gerade besprochenen Kenngrößen bei der zweifaktoriellen Varianzanalyse und den entsprechenden Kenngrößen der assoziierten einfaktoriellen Varianzanalyse, die zur Unterscheidung nun δ12 und f12 heißen sollen. Hier gilt nämlich
δ12 = δA2 + δB2 + δI2
und
f12 = fA2 + fB2 + fI2 .
Nicht zufällig erinnern diese Gleichungen an die Quadratsummenzerlegung der
zweifaktoriellen Varianzanalyse.
Es gilt übrigens, wie leicht aus den Quadratsummenzerlegungen folgt, eine ähnliche Beziehung der Quadratsummen der zweifaktoriellen Varianzanalyse und der
Quadratsumme zwischen den Gruppen der assoziierten einfaktoriellen Varianzanalyse, die hier SS1 heißen soll, nämlich
SS1 = SSA + SSB + SSI .
Analog den Verhältnissen bei der einfaktoriellen Varianzanalyse erhält man schließlich auch etwas ‚naive‘ Schätzungen der Effektstärken aus den zugehörigen F Brüchen. So wird oft δA2 geschätzt durch (J − 1) · FA und entsprechend fA2 durch
((J − 1)/N ) · FA .
Schätzungen für δB2 und fB2 bekommt man ganz entsprechend, bei der Interaktion
liefert diese Herangehensweise die Schätzungen (J − 1)(K − 1) · FI für δI2 und
((J − 1)(K − 1)/N ) · FI für fI2 .
1.5
Kontraste
QM2 15
87
Man erhält diese Schätzungen der Nonzentralitätsparameter zusammenfassend
also, indem man die jeweiligen F -Brüche mit ihren Zählerfreiheitsgraden multipliziert; für die Schätzung der Effektstärken teilt man dann noch durch N .
1.5
Kontraste
Zur Adjustierung bei unabhängigen Tests.
Es geht hier um eine Möglichkeit der Alpha-Adjustierung für den Fall unabhängiger Tests. Genauer soll vorausgesetzt werden, dass die Teststatistiken unabhängig
sind.
Getestet werden sollen zunächst mehrere Hypothesenpaare
H01
H02
−
−
..
.
H11
H12
H0n
−
H1n ,
alle auf dem Niveau α (das möglicherweise nicht ganz ausgeschöpft wird).
Abzuschätzen ist die Wahrscheinlicheit, mindestens eine Nullhypothese fälschlicherweise zu verwerfen.
Wenn mit A das Ereignis bezeichnet wird, mindestens eine Nullhypothese fälschlicherweise zu verwerfen, und mit Ai das Ereignis, die i-te Nullhypothese zu verwerfen (hier steht nicht ‚fälschlicherweise‘ !), so geht es also darum, eine obere
Schranke für P(A) zu finden, wobei bekannt ist, dass P(Ai ) ≤ α gilt, falls H0i
richtig ist.
Es sind nun mehrere Fälle zu unterscheiden; ist der Fall k der, dass genau k
Nullhypothesen richtig sind, so kann k die Werte von 0 bis n annehmen. Die
Anzahl der möglichen Fälle ist also n + 1.
Nun soll einer dieser Fälle betrachtet werden, nämlich der Fall k. Hier sind genau
k Nullhypothesen richtig, wobei man oBdA voraussetzen kann, dass es sich dabei
um die ersten k handelt (notfalls sind die Hypothesen umzunummerieren). Da
nun genau die ersten k Nullhypothesen richtig sind, gilt
A = A1 ∪ A2 ∪ . . . ∪ Ak .
1.5
Kontraste
QM2 15
88
Bezeichnet man mit B c allgemein das Gegenereignis eines Ereignisses B, so folgt
Ac = Ac1 ∩ Ac2 ∩ . . . ∩ Ack .
Da die Teststatistiken der Einzeltests unabhängig sind, sind auch die Ereignisse
Aci unabhängig, denn sie beruhen ja jeweils nur auf dem Wert der zugehörigen
Teststatistik. Wegen P(Ai )c = 1 − P(Ai ) ≥ 1 − α folgt
P(Ac ) = P(Ac1 ) · P(Ac2 ) · . . . · P(Ack ) ≥ (1 − α)k ≥ (1 − α)n ,
wobei 0 < (1 − α) < 1 zu beachten ist.
Diese Abschätzung hängt nicht mehr von k ab, gilt also in jedem der Fälle. Wegen
P(Ac ) = 1 − P(A) folgt schließlich die gesuchte Ungleichung
P(A) ≤ 1 − (1 − α)n .
Mit dieser Ungleichung kann nun eine Alpha-Adjustierung vorgenommen werden:
Hat man das Ziel, die Niveaus α der einzelnen Tests so festzusetzen, dass die
Wahrscheinlichkeit des Ereignisses A, mindestens eine richtige Nullhypothese zu
verwerfen, höchstens gleich einem vorher festgelegten Wert αg ist (g: ‚gesamt‘),
so wählt man
α = 1 − (1 − αg )1/n ,
denn dann erhält man wegen
(1 − α)n = 1 − 1 − (1 − αg )1/n
n
= (1 − αg )1/n
n
= (1 − αg )
in der Tat die gewünschte Beziehung
P(A) ≤ 1 − (1 − α)n = 1 − (1 − αg ) = αg .
Die Formel für α bekommt man übrigens durch Umformung von 1−(1−α)n = αg .
Natürlich führt auch jede Festlegung mit α ≤ 1 − (1 − αg )1/n zum gewünschten
Resultat.
Die Adjustierung α = 1 − (1 − αg )1/n ist etwas besser als die (immer mögliche)
Adjustierung α = αg /n, weshalb diese im Vergleich zu jener bei unabhängigen
Tests konservativ ist (im Sinne eines zu starken Schutzes der Nullhypothesen).
Allerdings ist der Vorteil meist nicht besonders groß; beispielsweise erhält man
für αg = .05 bei 10 Tests mit der Bonferroni-Adjustierung
α = .05/10 = .005 ,
1.5
Kontraste
QM2 15
89
während die Methode für unabhängige Tests
α = 1 − (1 − .05)1/10 = 1 − (.95)1/10 = 1 − 0.99488 = .00512
liefert, also ein nur unwesentlich größeres adjustiertes α.
Die Effektgrößen als Kontraste.
Die Effektgrößen αk der Varianzanalyse sind Beispiele für Kontraste, wie nun
gezeigt werden soll.
P
Nach Definition gilt αk = µk − µ, und da µ seinerseits gleich (nj /N ) µj ist, ist
klar, dass µ eine Linearkombination der µj ist und damit auch αk . Zu zeigen ist
nur noch, dass die Summe der Koeffizienten gleich 0 ist.
Eingesetzt ergibt sich
α k = µk −
X
(nj /N ) µj .
Bis auf µk tauchen hier alle Erwartungswerte nur einmal auf, und zwar mit dem
Koeffizienten −nj /N . Der Erwartungswert µk hingegen taucht zweimal auf, einmal als Minuend mit dem Koeffizienten 1 und einmal in der abzuziehenden Summe mit dem Koeffizienten −nk /N (das Minuszeichen vor der Summe ist hier
schon verrechnet). Zieht man diese beiden Terme zusammen und klammert man
µk aus, so erkennt man, dass der Koeffizient bei µk insgesamt gleich 1 − nk /N ist.
Die Koeffizienten cj der µj bei der Bildung von αk sind also cj = −nj /N für
j 6= k und ck = 1 − nk /N . Bildet man die Summe der Koeffizienten und gruppiert
P
man wieder um, so ist diese Summe gleich 1 − (nj /N ) = 1 − 1 = 0, womit αk
tatsächlich ein Kontrast ist.
Vielleicht wird das Argument an einem Beispiel deutlicher: Dazu seien drei Gruppen gegeben mit Besetzungen 5, 7 und 9. Hier ist also N = 21. Bildet man α2 so
erhält man
α2 = µ2 − µ = µ2 − ((5/21)µ1 + (7/21)µ2 + (9/21)µ3 )
= (1 − (7/21))µ2 + (−5/21)µ1 + (−9/21)µ3 .
Die Summe der Koeffizienten ist
(1 − (7/21)) + (−5/21) + (−9/21) = 1 − ((7/21) + (5/21) + (9/21)) = 1 − 1 = 0 .
1.5
Kontraste
QM2 15
90
Verteilung der Kontraststatistik.
Hier geht es um die Verteilung der Statistik, mit der getestet wird, ob ein Kontrast
X
ψ=
cj µ j
einen vorgegebenen Wert ψ0 annimmt oder nicht. Der Wert ψ0 wird in den meisten
Fällen 0 sein.
Die zu testende Alternativhypothese kann einseitig oder zweiseitig sein; in jedem
Fall ist die Teststatistik die folgende:
t=
ψ̂ − ψ0
.
sψ̂
ψ̂ =
X
Dabei ist
und
s2ψ̂
cj Mj
X c2j
= k ck M Sw =
M Sw .
nj
2
Zur Herleitung der Verteilung wird die Teststatistik mit geeigneten Erweiterungen
umgeformt:
t =
(ψ̂ − ψ0 )/σψ̂
(ψ̂ − ψ0 )/σψ̂
ψ̂ − ψ0
= q
=q
sψ̂
s2ψ̂ /σψ̂2
k ck2 M Sw /(k ck2 σ 2 )
= r
(ψ̂ − ψ0 )/σψ̂
1
M Sw
(N − J) 2
N −J
σ
mit
δ=
∼ tN −J, δ
ψ − ψ0
ψ − ψ0
=
.
σψ̂
k ck σ
Erläuterung: Im ersten Schritt wurde mit 1/σψ̂ erweitert, das unter der Wurzel
im Nenner dann natürlich quadriert werden muss. Dann wurde entsprechend den
Definitionen eingesetzt und im Nenner k ck2 gekürzt. Gleichzeitig wurde unter
der Wurzel im Nenner mit 1 = (N − J)/(N − J) multipliziert.
Bei dem Ergebnis ist dann der Zähler normalverteilt, er ist nämlich eine lineare
Transformation von ψ̂ ∼ N (ψ, σψ̂2 ) (man schreibe ihn um zu (1/σψ̂ )ψ̂ − ψ0 /σψ̂ ).
1.5
Kontraste
QM2 15
91
Der Erwartungswert ist (ψ − ψ0 )/σψ̂ , da ja E(ψ̂) = ψ gilt, und die Varianz ist
(1/σψ̂ )2 σψ̂2 = 1. Insgesamt gilt also
ψ̂ − ψ0
∼ N
σψ̂
!
ψ − ψ0
, 1 .
σψ̂
Im Nenner gilt
M Sw
∼ χ2N −J ,
σ2
wobei dieser Ausdruck unabhängig vom Zähler ist, denn in den Zähler gehen nur
die Mittelwerte Mj ein, die ja von M Sw unabhängig sind.
(N − J)
Insgesamt hat man in t also einen Quotienten aus einer normalverteilten Variable mit Varianz 1 und aus der Wurzel einer davon unabhängigen χ2 -verteilten
Variable, die durch ihre Freiheitsgrade dividiert ist. Die Statistik t besitzt daher
definitionsgemäß die angegebene t-Verteilung.
Vervielfachung von Kontrasten.
Gelegentlich ist es für die Rechnung einfacher, Kontraste mit geeigneten Zahlen zu
multiplizieren und die Tests entsprechend anzupassen. Hier soll diese Möglichkeit
genauer erläutert und gerechtfertigt werden.
Als Beispiel soll eine Situation dienen, in der die Wirksamkeit von zwei Therapien untersucht wird. Die Ergebnisse sollen mit einer Kontrollgruppe verglichen
werden. Es geht also um die Erwartungswerte einer Variable Y , in der durch die
Therapien Besserung eintreten soll, in drei Bedingungen, nämlich in zwei Therapiebedingungen und einer Kontrollbedingung. Diese Erwartungswerte seien µ1
und µ2 (Therapien) und µ3 (Kontrolle).
Es werden randomisiert drei Gruppen gebildet, von denen die ersten beiden je
eine der beiden Therapien erhalten, während die dritte Gruppe als Kontrollgruppe dient. Nach Abschluss der Therapien werden die Werte in der Variable Y
erhoben, um damit einen entsprechenden Test durchzuführen. (Dieses Vorgehen
ist übrigens nicht optimal, sinnvollerweise wird man auch vor den Therapien die
Variable Y erheben, was aber dann zu einem Messwiederholungsdesign führt.)
Die Hypothese der Wirksamkeit der Therapien soll nun so präzisiert werden,
dass diese im Durchschnitt besser sind als keine Therapie, genauer, dass der
1.5
Kontraste
QM2 15
92
Durchschnitt der beiden ersten Erwartungswerte µ1 und µ2 größer ist als der
Erwartungswert µ3 der Kontrollgruppe. (Auch hier liegt die Frage nahe, ob man
nicht besser beide Therapien einzeln mit der Kontrollgruppe vergleichen würde.)
Die Erwartung an die Therapien lässt sich nun folgendermaßen formulieren:
µ1 + µ2
> µ3 .
2
Umstellung ergibt
µ1 /2 + µ2 /2 − µ3 > 0 ,
womit sich die Möglichkeit eines Tests mit einem Kontrast eröffnet. Definiert man
nämlich nun
ψ = (1/2)µ1 + (1/2)µ2 − µ3 ,
so ist ψ ein Kontrast, da die Koeffizientensumme 0 ist, und Fragestellung lässt
sich in die Hypothesen
H0 : ψ = 0
H1 : ψ > 0
übersetzen.
Der Kontrastvektor ist hier (1/2, 1/2, −1)0 , er enthält zwei Brüche, die vielleicht
die Rechnung etwas kompliziert machen. Man könnte nun auf die Idee kommen,
statt der Frage, ob
µ1 /2 + µ2 /2 − µ3 > 0
gilt, die Frage zu untersuchen, ob
µ1 + µ2 − 2µ3 > 0
gilt. Da die zweite Ungleichung aus der ersten durch Multiplikation mit 2 hervorgeht, sind diese beiden Ungleichungen äquivalent, weshalb eigentlich kein anderes
Ergebnis herauskommen sollte, wenn man mit der zweiten Möglichkeit arbeitet.
Die zweite Möglichkeit führt zu dem Kontrast
ψ̃ = µ1 + µ2 − 2µ3 ,
bei der die Schlange über ψ der Unterscheidung dient. Die Hypothesen (die zur
Unterscheidung ebenfalls eine Schlange bekommen) lauten dann
H̃0 : ψ̃ = 0
H̃1 : ψ̃ > 0 .
1.5
Kontraste
QM2 15
93
Der Kontrastvektor ist jetzt (1, 1, −2)0 und damit gerade das 2-fache des ursprünglichen. Die Brüche sind verschwunden, was eine leichtere Rechnung erwarten lässt
(in diesem einfachen Fall wird die Erleichterung nicht wesentlich sein, in anderen
Fällen mit komplizierteren Brüchen jedoch schon).
Nun soll allgemein untersucht werden, zu welchen Resultaten ein solches Vorgehen führt; es wird sich zeigen, dass die Teststatistiken für die beiden Versionen
der Fragestellung genau die gleichen Werte annehmen (eventuell bis auf das Vorzeichen) und dass es daher gleichgültig ist, welche Version man untersucht, denn
der eine Test wird nun genau dann signifikant, wenn der andere signifikant wird.
Insbesondere kann unbedenklich mit einer geeigneten Zahl multipliziert werden,
um die Rechnung zu vereinfachen.
Es sollen also nun Hypothesen
H0 : ψ = ψ0
H1 : ψ > ψ0
untersucht werden. Hier wird also allgemeiner als oben ein Vergleichswert ψ0
zugelassen, der nicht unbedingt 0 sein muss. Die Fragestellung ist einseitig, was
der etwas kompliziertere Fall ist – zweiseitige Fragestellungen behandelt man ganz
analog.
Die Frage ist, was sich ergibt, wenn an Stelle der genannten Hypothesen andere
untersucht werden, die sich aus den Originalhypothesen dadurch ergeben, dass
mit einer Zahl k > 0 multipliziert wird. (Auf die Möglichkeit k < 0 wird unten
kurz eingegangen.)
Setzt man ψ̃ = kψ und ψ̃0 = kψ0 , so ist das Paar der Originalhypothesen offenbar
äquivalent zu dem Hypothesenpaar
H̃0 : ψ̃ = ψ̃0
H̃1 : ψ̃ > ψ̃0 .
Es soll gezeigt werden, dass auch die Tests der beiden Hypothesenpaare zum
gleichen t-Wert führen. Hervorzuheben ist, dass bei der Umformulierung natürlich
auch der Vergleichswert ψ0 mit k multipliziert werden muss.
Zum Vergleich der Tests der beiden Hypothesenpaare werden zunächst einige
Bezeichnungen eingeführt. Der Koeffizientenvektor von ψ sei c = (c1 , . . . , cJ )0 , der
von ψ̃ sei c̃ = (c̃1 , . . . , c̃J )0 . Natürlich gilt dabei c̃j = kcj , denn alle Koeffizienten
sind ja beim Übergang zu den neuen Hypothesen mit k zu multiplizieren.
1.5
Kontraste
QM2 15
94
Nun werden die Bestandteile des t-Bruchs für die neuen Hypothesen bestimmt.
Hier ergibt sich
X
X
X
ψ̃ˆ =
c̃j Mj =
kcj Mj = k
cj Mj = k ψ̂
und
k c̃k2 =
X
c̃2j /nj =
X
(kcj )2 /nj =
X
k 2 c2j /nj = k 2
X
c2j /nj = k 2 k ck2
und somit
k c̃k = kk ck ,
da ja k > 0 vorausgesetzt war.
Die Teststatistik t̃ zum Testen der neuen Hypothesen ergibt sich nun zu
ψ̃ˆ − ψ̃0
k ψ̂ − kψ0
k(ψ̂ − ψ0 )
ψ̂ − ψ0
√
√
√
√
t̃ =
=
=
=
,
k c̃k M Sw
kk ck M Sw
kk ck M Sw
k ck M Sw
was genau die t-Statistik zum Testen der Originalhypothesen ist. Die Behauptung
ist damit gezeigt.
In der Argumentation oben wurde k > 0 vorausgesetzt. Man sieht aber leicht,
dass man ein analoges Ergebnis auch für k < 0 erhält; allerdings ist dabei zu
beachten, dass sich dann das Ungleichheitszeichen bei der neuen Alternativhypothese umdreht. Außerdem erhält man als neue t-Statistik das (−1)-fache der
alten. Da jedoch nun in der Alternativversion auf der anderen Seite getestet wird,
erhält man in beiden Fällen das gleiche Resultat, was Signifikanz angeht, wenn
auch bei geänderten Vorzeichen.
Ganz analog folgt, dass sich beim zweiseitigen Test bei Multiplikation mit k 6= 0
nichts an der Signifikanz oder Nicht-Signifikanz ändert, wobei natürlich auch hier
bei negativem k das Vorzeichen der t-Statistik wechselt.
Orthogonalität von Kontrasten.
Zwei (empirische) Kontraste ψ̂1 und ψ̂2 heißen orthogonal, wenn sie unkorreliert
sind.
P
P
Ist ψ̂1 =
cj Mj und ψ̂2 =
dj Mj , so lässt sich die Bedingung für Orthogonalität auch als
X cj d j
=0
nj
1.5
Kontraste
QM2 15
95
schreiben.
Die Kovarianz von ψ̂1 und ψ̂2 berechnet sich nämlich zu
!
X
X
Kov(ψ̂1 , ψ̂2 ) = Kov
cj Mj ,
dk Mk
j
=
XX
j
=
cj dk Kov(Mj , Mk ) =
nj
X
cj dj Kov(Mj , Mj )
j
k
X cj d j
j
k
σ2 .
Zu diesen Gleichungen ist zu bemerken, dass die Kovarianzen von Mj und Mk nur
dann 6= 0 sind, wenn j = k ist. Daher fallen in der Doppelsumme alle Summanden
mit k 6= j weg, und es bleibt die einfache Summe über j stehen. Da dann die
Kovarianz von Mj und Mj gleich der Varianz von Mj ist, also gleich σ 2 /nj , ergibt
sich der Rest.
Die Kovarianz und damit die Korrelation von zwei Kontrasten ist also in der Tat
genau dann gleich 0, wenn
X cj d j
=0
nj
gilt.
Kontraste sind gemeinsam normalverteilt.
Es soll gezeigt werden, dass je zwei beliebige (empirische) Kontraste ψ̂1 =
P
und ψ̂2 = dj Mj gemeinsam normalverteilt sind.
P
cj Mj
Hierzu muss gezeigt werden, dass jede Linearkombination, die nicht Varianz 0
besitzt, normalverteilt ist.
Dazu sei aψ̂1 + bψ̂2 eine solche Linearkombination. Diese Linearkombination lässt
sich umschreiben zu
X
X
X
a
cj Mj + b
dj Mj =
(acj + bdj )Mj .
In dieser Darstellung hat man aber eine Linearkombination der Mj vor sich, die
ihrerseits jeweils normalverteilt sind und außerdem gemeinsam unabhängig. Die
Mj sind daher gemeinsam normalverteilt, weshalb auch die angegebene Linearkombination (deren Varianz ja ungleich 0 war) normalverteilt ist.
1.5
Kontraste
QM2 15
96
Die gemeinsame Normalverteilung der beiden Kontraste ist damit gezeigt.
Eine Folgerung ist die, dass zwei Kontraste genau dann unabhängig sind, wenn
sie unkorreliert sind; insbesondere sind orthogonale Kontraste unabhängig.
Kontraste bei der zweifaktoriellen Varianzanalyse.
In der zweifaktoriellen Varianzanalyse gibt es spezielle Kontraste, die mit den
Standardtests eng zusammenhängen. Die genauere Darlegung dieser Sachverhalte
ist ein Teilthema dieses Abschnitts.
Allgemeiner Fall. Zunächst kann man beliebige Kontraste bilden und die entsprechenden Hypothesen testen, wenn man die zweifaktorielle Struktur des Designs vergisst und so tut, als hätte man ein einfaktorielles Design mit JK Stufen
des dann einzigen Faktors – man behandelt diese Kontraste also im ‚assoziierten
einfaktoriellen Design‘. Ein solches Vorgehen ist übrigens auch bei vielen Computerprogrammen die einzige Möglichkeit, Kontraste in einem zweifaktoriellen
Design auszuwerten.
Im Vergleich zum einfaktoriellen Design sind die einzigen Unterschiede eine leicht
veränderte Notation (wegen der doppelten Indizierung) und einige Vereinfachungen in den Formeln (wegen der hier wie üblich vorausgesetzten gleichen Zellbesetzung n).
Die Bezeichnungen seien wie üblich gewählt: Die beiden Faktoren seien A und B
mit J bzw. K Stufen, und die (überall gleiche) Besetzung einer Zelle sei n.
Ein Kontrast ist eine Linearkombination
X
ψ=
cjk µjk
der Zellenerwartungswerte, bei dem für die Summe der Kontrastkoeffizienten cjk
P
die Bedingung cjk = 0 gilt. Alle Summen sind hier natürlich über beide Indizes
j und k zu bilden.
Es ist oft hilfreich, bei der Betrachtung eines Kontrasts die Koeffizienten in die
entsprechenden Zellen des Designschemas einzutragen; die letzte Bedingung bedeutet dann, dass die Summe über alle Koeffizienten im Schema 0 sein muss.
Offenbar sind die so definierten Kontraste der zweifaktoriellen Varianzanalyse
genau die Kontraste im assoziierten einfaktoriellen Design, so dass von dort die
Formeln direkt übernommen werden können.
1.5
Kontraste
QM2 15
97
Allgemein lauten die Hypothesen zu einem bestimmten Kontrast ψ nun
H0 : ψ = ψ0
H1 : ψ > ψ0 ,
wobei in der Alternativhypothese statt des Größer-Zeichens auch ein KleinerZeichen oder ein Ungleichheitszeichen stehen kann.
Getestet werden diese Hypothesen mit Hilfe des entsprechenden empirischen Kontrastes
X
ψ̂ =
cjk Mjk ,
dessen Varianz gleich
X c2jk
σ2 X 2
cjk
n
n
ist (die erwähnte Vereinfachung der Formeln liegt in der Möglichkeit, hier den
Faktor (1/n) auszuklammern).
σψ̂2 =
σ2 =
Als erwartungstreue Schätzung von σψ̂2 wird
s2ψ̂ =
1X 2
cjk M SE
n
verwendet, wobei nur σ 2 durch die erwartungstreue Schätzung M SE ersetzt ist,
die ja mit M Sw aus der assoziierten einfaktoriellen Varianzanalyse übereinstimmt.
Der Test geschieht mit Hilfe der Statistik
t=
ψ̂ − ψ0
ψ̂ − ψ0 √
= n qP
,
√
sψ̂
c2
MS
E
jk
die eine t(n−1)JK, δ -Verteilung mit
δ=
ψ − ψ0
ψ − ψ0 √
= n qP
σψ̂
c2 σ
jk
√
besitzt. Die Schreibweise mit dem nach vorne gezogenen Faktor n wurde gewählt, um deutlich zu machen, wie der NZP betragsmäßig mit wachsender Stichprobengröße wächst, falls die Alternativhypothese gilt – analoges gilt für die
Alternativdarstellung von t.
Unter der Nullhypothese hat man eine zentrale t-Verteilung, was sofort zu dem
bekannten Test führt; die Power kann mit Hilfe des NZP bestimmt werden.
1.5
Kontraste
QM2 15
98
Als Ergänzung kann noch das Konfidenzintervall für ψ zum Niveau 1 − α angegeben werden:
ψ̂ − t(n−1)JK; α/2 sψ̂ , ψ̂ + t(n−1)JK; α/2 sψ̂ .
Die Nullhypothese ψ = ψ0 wird beim zweiseitigen Testen genau dann auf dem
Nivau α verworfen, wenn dies Vertrauensintervall den Wert ψ0 nicht enthält.
Spezielle Kontraste. Nachdem nun der allgemeine Fall abgehandelt ist, können spezielle Typen von Kontrasten behandelt werden, nämlich solche, die sich
nur auf die durchschnittlichen Erwartungswerte µj . oder µ.k beziehen, sowie die
sogenannten Interaktionskontraste.
P
P
Linearkombinationen der Form
dj µj . mit
dj = 0, die sich nur auf die durchschnittlichen Erwartungswerte der Stufen des ersten Faktors A beziehen, sollen
auch A-Kontraste genannt werden.
Mit solchen Kontrasten lassen sich Fragen behandeln wie zum Beispiel die, ob
die Erwartungswerte in der ersten Stufe des Faktors A sich im Durchschnitt von
denen in der zweiten Stufe unterscheiden.
Es ist zunächst zu klären, ob hier die Bezeichnung ‚Kontrast‘ zu Recht angewandt
wird, und dann zu untersuchen, wie die Formeln in diesem Fall aussehen.
Unmittelbar ist nicht klar, dass die A-Kontraste wirklich Kontraste im üblichen
Sinn sind, da sie sich ja gar nicht direkt auf die µjk beziehen. Aus diesem Grund
wurden die Koeffizienten auch mit dj bezeichnet. Nun sind aber die µj . als Durchschnitte der µjk Linearkombinationen dieser Erwartungswerte, so dass man durch
Einsetzen
!
X
X
X dj
1 X
dj µj . =
dj
µjk =
µjk
K k
K
j
j
j,k
P
erkennt, dass j dj µj . zumindest eine Linearkombination der µjk ist, und zwar
die mit Koeffizienten
dj
cjk =
.
K
Wegen
X
X
X dj
1 X
1
cjk =
=
dj =
K
dj = 1 · 0 = 0
K
K
K
j
j,k
j,k
j,k
ist aber die Summe der ‚eigentlichen‘ Koeffizienten cjk tatsächlich gleich 0, so
P
dass die Bezeichnung ‚Kontrast‘ für j dj µj . gerechtfertigt ist.
1.5
Kontraste
QM2 15
99
Es ist festzuhalten, dass nach der Umformulierung die Koeffizienten in jeweils
einer des Designschemas Zeile alle gleich sind, in der j-ten Zeile nämlich cj /K.
Nun lassen sich – nach der Umformulierung ausgehend vom allgemeinen Fall – für
P
ein solches ψ =
dj µj . auch leicht die Statistiken bestimmen, die zum Testen
benötigt werden. Für ψ̂ erhält man
!
X dj
X
X
1 X
ψ̂ =
Mjk =
dj
Mjk =
dj Mj .
K
K
j
j
j,k
k
und für die Varianz dieses Schätzers
2
σ 2 X dj
σ2 X 2 σ2K X 2
σ2 X 2
σ2 X 2
2
=
=
=
cjk =
d
d
d .
σψ̂ =
n j,k
n j,k K
nK 2 j,k j
nK 2 j j
nK j j
Für die erwartungstreue Schätzung der Varianz hat man nur σ 2 durch M SE zu
ersetzen und erhält
1 X 2
s2ψ̂ =
d M SE .
nK j j
Man beachte, dass die Summe hier nur den Laufindex j besitzt.
Der einseitige oder zweiseitige Test der Nullhypothese H0 : ψ = ψ0 erfolgt dann
mit der Teststatistik
√
ψ̂ − ψ0
t = nK qP √
,
2
d
M
S
E
j j
die eine t(n−1)JK, δ -Verteilung mit
δ=
ψ − ψ0
ψ − ψ0 √
= nK qP
σψ̂
2
j dj σ
besitzt.
Interessant ist, dass diese Teststatistik fast die gleiche ist wie die, die man verwenden würde, wenn man den zweiten Faktor vernachlässigen und mit denselben
Daten eine einfaktorielle Varianzanalyse mit dem Faktor A rechnen würde. Die
Zellbesetzung ist dann auch hier in allen Gruppen gleich, nämlich nK, und der
Unterschied besteht nur darin, dass jetzt M SE durch die mittlere Quadratsumme
M Sw der einfaktoriellen Varianzanalyse ersetzt würde, mit einer entsprechenden
Änderung der Freiheitsgrade.
Die Bezeichnung der besprochenen Kontraste als ‚A-Kontraste‘ ist naheliegend,
vergleichen sie doch durchschnittliche Erwartungswerte der Stufen des Faktors A
1.5
Kontraste
QM2 15
100
miteinander. Darüber hinaus besteht ein enger Zusammenhang mit dem Haupteffekt von A, der nun untersucht werden soll. Es gilt nämlich genauer der folgende
Satz:
Es liegt genau dann kein Haupteffekt von A vor, wenn alle A-Kontraste gleich 0
sind.
Umgekehrt heißt das, dass ein Haupteffekt von A genau dann vorliegt, wenn mindestens ein A-Kontrast nicht 0 ist; man erfasst in diesem Sinne den A-Haupteffekt
mit der Gesamtheit der A-Kontraste.
Die Begründung der Behauptung ist einfach: Liegt einerseits kein Haupteffekt
von A vor, so sind alle µj . gleich und damit folglich alle gleich µ. Für einen
A-Kontrast ψ mit Koeffizienten dj gilt dann
X
X
X
ψ=
dj µj . =
dj µ = µ
dj = µ · 0 = 0 ,
da ja die Summe der dj definitionsgemäß 0 ist. Sind andererseits alle A-Kontraste
0, so gilt dies insbesondere für die speziellen A-Kontraste ψj , die an der ersten
Stelle eine 1 als Koeffizienten besitzen, an der j-ten Stelle eine (−1) und sonst nur
Nullen (j = 2, . . . , J) – mit anderen Worten ist ψj gerade µ1. − µj . . Wenn aber
alle diese Kontraste 0 sind, so stimmt µ1. mit allen anderen µj . überein, weshalb
dann insgesamt alle µj . untereinander übereinstimmen müssen (j = 1, . . . J), was
gerade bedeutet, dass kein Haupteffekt von A vorliegt.
Ganz analog zu Kontrasten, die sich speziell mittlere Erwartungswerte des Faktors A beziehen, kann man Kontraste untersuchen, die sich auf die mittleren
P
Erwartungswerte µ.k beziehen. Dabei soll eine Linearkombination
dk µ.k auch
P
B-Kontrast heißen, wenn
dk = 0 gilt.
Nach der Umformulierung in eine Linearkombination der µjk sind dann alle Koeffizienten in jeweils einer Spalte gleich.
P
Ein B-Kontrast ψ = dk µ.k wird geschätzt mit der Statistik
X
ψ̂ =
dk M.k ,
k
die die Varianz
σψ̂2 =
σ2 X 2
d
nJ k k
mit der erwartungstreuen Schätzung
1 X 2
s2ψ̂ =
d M SE
nJ k k
1.5
Kontraste
QM2 15
101
besitzt.
Der einseitige oder zweiseitige Test der Nullhypothese H0 : ψ = ψ0 erfolgt dann
mit der Teststatistik
√
ψ̂ − ψ0
t = nJ pP 2 √
,
d
M
S
E
k
k
die eine t(n−1)JK, δ -Verteilung mit
ψ − ψ0 √
ψ − ψ0
= nJ pP 2
δ=
σψ̂
k dk σ
hat.
Natürlich gilt auch hier, dass genau dann kein Haupteffekt von B vorliegt, wenn
alle B-Kontraste 0 sind.
Der dritte spezielle Typ von Kontrasten bei der zweifaktoriellen Varianzanalyse ist
der der Interaktionskontraste. Diese sind dadurch definiert, dass ihre Koeffizienten
– im Designschema angeordnet – nicht nur insgesamt, sondern auch in jeder Zeile
und in jeder Spalte in der Summe 0 ergeben. Für die Koeffizienten cjk eines
P
solchen Interaktionskontrastes j,k cjk µjk müssen also die Bedingungen
X
cjk = 0
für alle j
k
und
X
cjk = 0
für alle k
j
erfüllt sein. Die Anzahl der Bedingungen ist damit J + K. Aus jeder der beiden
Gruppen folgt übrigens sofort, dass dann auch
X
cjk = 0
j,k
gilt; diese Bedingung, die ja für jeden Kontrast erfüllt sein muss, braucht also
nicht noch eigens aufgeführt werden.
Zur Veranschaulichung sind in dem folgenden Schema der Kontrastkoeffizienten
die Randsummen eines Interaktionskontrastes mit eingetragen:
A1
A2
..
.
AJ
B1 B2
c11 c12
c21 c22
..
..
.
.
cJ1 cJ2
0
0
. . . . . . BK
. . . . . . c1K
. . . . . . c2K
..
..
.
.
. . . . . . cJK
...... 0
0
0
..
.
0
0
1.5
Kontraste
QM2 15
102
Während die Angemessenheit der Bezeichnungen ‚A-Kontrast‘ und ‚B-Kontrast‘
für die zuvor besprochenen speziellen Kontraste auf der Hand liegt – sie zeigt sich
insbesondere im direkten Zusammenhang mit den entsprechenden Haupteffekten,
ist dies bei den Interaktionskontrasten nicht unmittelbar der Fall.
Dennoch besteht ein enger Zusammenhang zur Interaktion: Es liegt genau dann
keine Interaktion vor, wenn alle Interaktionskontraste 0 sind.
Umgekehrt liegt also eine Interaktion genau dann vor, wenn mindestens ein Interaktionskontrast nicht 0 ist; die Interaktionskontraste entdecken daher gewissermaßen Abweichungen von der Parallelität. Dieser Zusammenhang soll nun deutlich
gemacht werden.
Als erstes soll dazu ein spezieller besonders einfacher Interaktionskontrast ψ untersucht werden, und zwar der, dessen Koeffizienten alle 0 sind außer in den vier
Zellen links oben; die Koeffizienten sind genauer die folgenden:
A1
A2
A3
..
.
AJ
B1 B2 B3
1 −1 0
−1 1
0
0
0
0
..
..
..
.
.
.
0
0
0
0
0
0
. . . . . . BK
...... 0
...... 0
...... 0
..
...
.
...... 0
...... 0
0
0
0
..
.
0
0
Es ist offensichtlich, dass hier die Bedingungen für einen Interaktionskontrast
erfüllt sind; die Zeilensummen und Spaltensummen sind schon mit 0 eingetragen.
Ausformuliert lautet dieser Kontrast
ψ = µ11 − µ12 − µ21 + µ22 ,
was man noch umformen kann, beispielsweise zu
ψ = (µ11 − µ12 ) − (µ21 − µ22 ) .
So formuliert findet der Kontrast eine unmittelbare Deutung im B-Diagramm,
was nun veranschaulicht werden soll. Zunächst folgt der entsprechende Ausschnitt
aus einem B-Diagramm mit den Bezeichnungen.
1.5
Kontraste
QM2 15
103
.......
.........
...
....
..
...
...
...
......
.......
...
.......
.......
...
.......
.
.
.
.
.
...
.
...
...
.......
.......
...
.......
.......
...
.......
...
...
...
...
...
...
...
......
...
.............
...
.............
.............
...
.............
.
.
.
.
.
.
.
.
.
...
.
.
.
..
...
...
...
...
...
...
...
...
...
..
..............................................................................................................................................................................................................................................................................................................
...
...
...
...
...
...
...
....
.
µjk
r
µ12
A1
r
µ22
A2
µ11 r
µ21 r
B1
B2
B
Im nächsten Diagramm sind die beiden Differenzen, die zu vergleichen sind, als
Pfeile eingezeichnet; man erkennt, dass der Kontrast genau dann den Wert 0
ergibt, wenn Parallelität in dem Teildiagramm gegeben ist (im Beispiel ist dies
nicht der Fall).
.
.......
........
....
...
..
...
...
..........................
...
.......
...
.......
...
...
.......
.......
...
...
.......
.
.
.
...
.
...
.
.
.....
.
...
.
.
.
...
.
.
.....
.
.
.
.
.
.
...
.
.
...........
.....
.
.
.
.
...
.
.
.
.. ..............................................................................
...
...
...
...
...
...
...
.................................
...
.............
.
...
.............
..........
.............
...
...
.............
...
.............................................................................................
...
...
...
...
...
...
...
...
...
.
..............................................................................................................................................................................................................................................................................................................
...
...
....
..
....
...
...
....
r
µjk
µ11 − µ12
r
r
r
B1
µ21 − µ22
B2
B
Alternativ kann man ψ auch so umformen:
ψ = (µ11 − µ21 ) − (µ12 − µ22 ) .
Nun sind zwei andere Differenzen zu vergleichen, und zwar die, die im nächsten
Diagramm eingezeichnet sind.
1.5
Kontraste
QM2 15
104
.......
.........
...
....
..
...
...
...
....................................
.......
...
........
.......
.......
...
...
.......
.
.
.
.
.
...
.
...
.....
.
.
.
.
...
.
...
.
.....
.
.
.
.
.
...
.
...
.....
.
.
.
.
...
.
...
.
..............................
...
...
.........
...
...
.
..
...
...
.
...
...
...
.
...
...
...
...
...
...
...
...
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
...
.
.
........
.
.
.
.
.
.
.
.
.
...
.
...
.
.
........
.
.
.
.
.
.
.
.
.
...
.
...
.
.
..........
...
....................................
...
...
...
...
...
...
...
...
...
..
..............................................................................................................................................................................................................................................................................................................
...
...
...
...
...
...
...
....
.
r
µjk
r
µ11 − µ21
µ12 − µ22
r
r
B1
B2
B
Auch in diesem Fall sieht man, dass ψ genau dann 0 wird, wenn Parallelität in
dem entsprechenden Ausschnitt des Diagramms vorliegt (hier ist das nicht der
Fall). Parallelität im betrachteten Ausschnitt liegt nämlich genau dann vor, wenn
die Erwartungswertverläufe der beiden untersuchten Stufen von A an den Stellen
B1 und B2 den gleichen Abstand haben.
Man sieht also an beiden Umformungen, dass der Kontrast ψ die Abweichung
von Parallelität in dem Teil des Diagramms misst, der die Stufen A1 und A2 von
A auf den Stufen B1 und B2 von B betrifft; der Kontrast ist genau dann gleich
0, wenn Parallelität gegeben ist.
Ganz analog kann man die Parallelität untersuchen für die Stufen A1 und Aj von
A auf den Stufen B1 und Bk von B; der entsprechende Kontrast ist
ψjk = µ11 − µ1k − µj1 + µjk
(der gerade zuvor untersuchte Kontrast würde nun ausführlich ψ22 heißen). Offenbar erfüllen alle derartigen ψjk die Bedingung für Interaktionskontraste und
werden genau dann 0, wenn Parallelität der Erwartungswertverläufe der Stufen
A1 und Aj von A in den Stufen B1 und Bk von B vorliegt.
Liegt nun überall Parallelität vor, so müssen also insbesondere die ψjk gleich 0 sein
für alle j = 2, . . . , J und k = 2, . . . , K. Sind umgekehrt alle diese Kontraste gleich
0, so ist für jedes j der Erwartungswertverlauf der Stufe Aj von A parallel zu dem
der Stufe A1 von A, da ja die Abstände bei allen Stufen Bk von B genau so groß
sind wie der Abstand bei der Stufe B1 . Wenn aber die Erwartungswertverläufe
für die Stufen Aj von A für j = 2, . . . , J alle parallel sind zu dem für die Stufe
A1 , so sind sie auch untereinander parallel.
1.5
Kontraste
QM2 15
105
Man erhält so das Zwischenresultat, dass Parallelität im gesamten Diagramm
genau dann vorliegt, wenn alle ψjk gleich 0 sind (j = 2, . . . , J, k = 2, . . . , K).
Insbesondere folgt: Sind alle Interaktionskontraste gleich 0, so sind alle Erwartungswertverläufe parallel, denn dies folgt ja sogar schon, wenn nur alle ψjk gleich
0 sind.
Für die zentrale Aussage über die Interaktionskontraste bleibt noch die Umkehrung zu zeigen: Ist keine Interaktion vorhanden, so sind alle Interaktionskontraste
gleich 0.
Hierfür möge nun eine Situation gegeben sein, in der keine Interaktion vorliegt.
Dann sind alle Interaktionseffektgrößen γjk gleich 0 und für die Erwartungswerte
µjk gilt die Beziehung
µjk = µ + αj + βk .
Es sei weiter ein beliebiger Interaktionskontrast ψ = cjk µjk gegeben; zu zeigen
ist, dass dann ψ = 0 gilt.
Dies folgt durch eine einfache Rechnung, die die Eigenschaften der Interaktionskontraste benutzt:
X
X
ψ =
cjk µjk =
cjk (µ + αj + βk )
jk
=
jk
X
cjk µ +
jk
X
cjk αj +
X
jk
cjk βk
jk
!
= µ
X
cjk +
αj
j
jk
= µ·0+
X
X
j
αj · 0 +
X
cjk
k
X
!
+
X
k
βk
X
cjk
j
βk · 0
k
= 0.
Die Behauptung ist damit vollständig gezeigt: Es liegt genau dann keine Interaktion vor, wenn alle Interaktionskontraste gleich 0 sind.
Man könnte meinen, dass man mit den A-Kontrasten, den B-Kontrasten und den
Interaktionskontrasten alle Kontraste der zweifaktoriellen Varianzanalyse erfasst
hat. Dies ist jedoch keineswegs der Fall. Beispielsweise gehören die Vergleiche von
zwei Zellen in keine der drei Klassen.
Will man beispielsweise die ersten beiden Erwartungswerte der ersten Zeile ver-
1.5
Kontraste
QM2 15
106
gleichen, so ist der zugehörige Kontrast ψ = µ12 − µ11 ; die Koeffizienten im
Designschema sind die folgenden:
A1
A2
..
.
AJ
B1 B2 B3
−1 1 0
0
0 0
..
..
..
.
.
.
0
0 0
. . . . . . BK
...... 0
...... 0
..
..
.
.
...... 0
Dass dieser oder ähnliche Kontraste inhaltlich sehr wichtig sein können, dürfte
klar sein. Es soll hier nur noch erläutert werden, warum er in keine der drei
behandelten Klassen gehört.
Zunächst handelt es sich nicht um einen Interaktionskontrast, da zwar zeilenweise
die Koeffizientensummen 0 sind, nicht aber in den ersten beiden Spalten.
P
Bei einem A-Kontrast dj µj . sind die Koeffizienten cjk nach der Übersetzung in
einen mit Hilfe der µjk formulierten Kontrast zeilenweise alle gleich, es gilt nämlich
cjk = dj /K. Bei dem hier untersuchten Kontrast ψ sind die Koeffizienten in der
ersten Zeile jedoch nicht gleich, ψ ist also kein A-Kontrast.
Entsprechend sind bei einem B-Kontrast nach der Umformulierung die Koeffizienten in jeweils einer Spalte alle gleich. Bei ψ enthält aber sowohl die erste wie
die zweite Spalte verschiedene Koeffizienten, weshalb ψ auch kein B-Kontrast ist
und damit insgesamt weder A- noch B- noch Interaktionskontrast.
UI-Test
Im Folgenden soll für die Situation der Varianzanalyse ein allgemeines Prinzip
zur Konstruktion von Tests erläutert werden: die UI-Methode. Sie wird zwar zu
keinem neuen Test führen (das Ergebnis wird – was jedoch nicht vorauszusehen
ist – der bekannte F -Test sein), da sich der F -Test jedoch als UI-Test erweist,
wird es möglich, bei signifikanter Varianzanalyse ‚post hoc‘ zu untersuchen, worauf das signifikante Ergebnis beruht – welche Erwartungswertunterschiede dafür
verantwortlich sind. Diese Formulierung soll die grobe Richtung anzeigen, ganz
korrekt ist sie eigentlich nicht, es sei denn, man fasst das Wort ‚Erwartungswertunterschiede‘ so weit, dass auch alle Kontraste darunter fallen und nicht nur
Vergleiche von je zwei Erwartungswerten.
Zunächst geht es um die Situation der einfaktoriellen Varianzanalyse; die Bezeichnungen sind die von dort gewohnten. Untersucht werden die Erwartungswerte µj
1.5
Kontraste
QM2 15
107
einer Variablen Y in J Bedingungen; zur Untersuchung werden unabhängig Werte
von Y erhoben, die Zahl der Beobachtungen in Bedingung j ist nj . Die GesamtP
zahl der Beobachtungen ist N =
nj . Gebraucht werden die Mittelwerte Mj
von Y in den Bedingungen, die bekanntlich unabhängig sind, außerdem SSb und
SSw sowie MS b und M Sw .
Maximale Kontraststatistik.
Es geht hier darum, wie groß eine Kontraststatistik (bei gegebenen Daten) maximal werden kann, und welches die zugehörigen Koeffizienten sind.
Auf die einen Kontrast ψ definierende Bedingung, dass die Koeffizientensumme
0 ist, kann hier nicht verzichtet werden. Die zu testenden Nullhypothesen haben
immer die Form ψ = 0.
P
Ist ein Kontrast ψc =
cj µj durch einen Kontrastvektor c = (c1 , . . . , cJ )0 gegeben, so ist die Teststatistik zum Testen der Hypothesen
H0 : ψc = 0
H1 : ψc 6= 0
gleich
tc =
ψ̂
√c
.
k ck M Sw
Da hier unterschiedliche Kontraste untersucht werden sollen, wird sowohl der
Kontrast als auch die zugehörige Statistik mit c indiziert.
Die Frage, um die es hier geht, ist die, wie groß ein solches tc betragsmäßig
maximal werden kann, wenn der Kontrastvektor c beliebig gewählt werden kann.
Da der Betrag untersucht werden soll, kann man auch nach dem maximalen Wert
der quadrierten Statistik fragen, was Fallunterscheidungen je nach Vorzeichen
unnötig macht. Hat man ein c gefunden, das den maximalen Wert von t2c liefert,
so liefert dieses c auch ein maximales |tc |, das natürlich gerade die Wurzel aus
dem maximalen t2c ist.
Es ist gleich anzumerken, dass es keinesfalls selbstverständlich ist, dass ein c
existiert, das zu einem maximalen t2c führt. Dies liegt daran, dass unendlich viele
c dafür in Frage kommen (analoges Beispiel: es gibt auch keine positive Zahl mit
minimalem Kehrwert). Es wird sich allerdings herausstellen, dass ein solches c in
der hier betrachteten Situation tatsächlich existiert.
1.5
Kontraste
QM2 15
108
Aufgabe ist es also, ein c zu finden, für das
t2c =
ψ̂c2
k ck2 M Sw
maximal wird. Da der Wert von M Sw immer der gleiche ist, kann dieser Faktor
im Nenner vorläufig weggelassen werden, und die Aufgabe reduziert sich darauf,
ein c zu finden, für das
ψ̂c2
k ck2
maximal wird.
Es soll nun gezeigt werden, dass das Maximum dieser Werte gerade SSb ist und
beispielsweise für den Kontrastvektor
c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0
angenommen wird.
Zur Begründung wird zunächst ein W-Raum < Ω , P > definiert durch
Ω = {1, . . . , J}
und
P({j}) = nj /N .
Dieser W-Raum ist lediglich ein technisches Hilfsmittel für die Begründung und
hat keinerlei inhaltliche Bedeutung.
Auf Ω werden nun verschiedene Zufallsvariablen definiert, einerseits eine Zufallsvariable Y durch die Vorschrift Y (j) = Mj , und andererseits für jeden Kontrastvektor c eine Zufallsvarible Xc durch die Vorschrift Xc (j) = cj /nj .
Als erstes sollen die Erwartungswerte, die Varianzen und die Kovarianz dieser
Zufallsvariablen bestimmt werden. Für Y erhält man
X
X
nj
E(Y ) =
Y (j)P({j}) =
Mj
=M
N
und
V(Y ) =
X
X
nj
SSb
(Y (j) − E(Y ))2 P({j}) =
(Mj − M )2 =
.
N
N
Analog erhält man
E(Xc ) =
X cj nj X cj
1 X
=
=
cj = 0 ,
nj N
N
N
1.5
Kontraste
QM2 15
109
da c ja ein Kontrastvektor war, und daraus
X cj 2 nj
1 X c2j
1
V(Xc ) =
=
= k ck2 .
nj
N
N
nj
N
Schließlich ist die Kovarianz von Xc und Y gleich
X
Kov(Xc , Y ) =
(Xc (j) − E(Xc ))(Y (j) − E(Y ))P({j})
X cj
nj
1 X
MX
=
(Mj − M )
=
cj Mj −
cj
nj
N
N
N
1
=
ψ̂c ,
N
P
da ja wieder
cj = 0 gilt.
Hiermit errechnet man die quadrierte Korrelation von Xc und Y zu
ρ2 (Xc , Y ) =
ψ̂c2
(1/N 2 )ψ̂c2
Kov2 (Xc , Y )
=
=
.
V(Xc )V(Y )
(1/N )k ck2 (1/N )SSb
k ck2 SSb
Nun kann ein quadrierter Korrelationskoeffizient bekanntlich maximal 1 werden,
woraus
ψ̂c2
≤1
k ck2 SSb
oder
ψ̂c2
≤ SSb
k ck2
folgt.
Offen ist noch die Frage, ob dieses mögliche Maximum tatsächlich für ein geeignetes c angenommen wird. Bekanntlich wird aber die Korrelation von zwei Variablen
gerade dann betragsmäßig gleich 1, wenn die eine eine lineare Transformation der
anderen ist.
Wählt man nun
c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0 ,
so ist das zugehörige Xc an der Stelle j gerade
Xc (j) =
nj (Mj − M )
= (Mj − M ) = Y (j) − M .
nj
1.5
Kontraste
QM2 15
110
Mit anderen Worten gilt für dieses c die Beziehung Xc = Y − M , was bedeutet,
dass Xc aus Y durch eine lineare Transformation hervorgeht.
Für dieses c ist daher ρ2 (Xc , Y ) = 1, woraus
ψ̂c2
=1
k ck2 SSb
oder
ψ̂c2
= SSb
k ck2
folgt; das zunächst nur theoretische Maximum wird also tatsächlich durch c erreicht. Allerdings fehlt noch der Nachweis, dass dies c ein möglicher Kontrastvektor ist, dass also die Summe der Koeffizienten gleich 0 ist. Dies folgt aber
sofort:
X
X
X
nj (Mj − M ) =
nj Mj − M
nj = N M − M N = 0 .
Die Zwischenbehauptung ist damit gezeigt. Dividiert man nun noch durch das
vorläufig weggelassene M Sw , so erhält man insgesamt
t2c =
ψ̂c2
SSb
M Sb
≤
= (J − 1)
= (J − 1) F .
2
M Sw
M Sw
k ck M Sw
Insgesamt ist also für jeden Kontrastvektor c der Wert t2c der quadrierten Teststatistik höchstens gleich (J − 1)F , und dieser maximale Wert wird tatsächlich
erreicht von dem Kontrast ψc , der durch
c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0
gegeben ist.
Dieser Kontrast soll daher auch als Maximalkontrast bezeichnet werden.
Anzumerken ist noch, dassp
der so definierte Maximalkontrast auch zu einem maximalen tc führt (nämlich (J − 1)F ), da dieses tc positiv ist (was daran liegt,
dass das zugehörige ρ in der Begründung sogar gleich +1 war).
Natürlich führt auch jedes Vielfache des Maximalkontrasts zum selben (maximalen) t2c -Wert; der gefundene Kontrast ist also nur einer unter vielen anderen (die
allerdings nicht ‚substantiell‘ verschieden sind).
1.5
Kontraste
QM2 15
111
Schließlich könnte man noch einwenden, dass die Begründung nur dann korrekt
ist, wenn SSb und SSw ungleich 0 sind. Allerdings ist die Wahrscheinlichkeit,
dass eine oder beide Quadratsummen 0 sind, gleich 0, weshalb dieser kritische
Fall vernachlässigt werden kann.
Rechtfertigung von post-hoc-Tests.
In diesem Abschnitt soll es darum gehen, post-hoc-Tests nach einer signifikanten
Varianzanalyse zu rechtfertigen.
Die Regel zum Testen von Kontrasthypothesen
H0,c : ψc = 0
H1,c : ψc 6= 0
im Anschluss an eine Varianzanalyse ist die folgende:
(R.p.h.) Verwirf H0,c , falls |tc | ≥ k.
Hierbei ist ψc der zu einem Kontrastvektor c = (c1 , . . . , cJ )0 gehörende Kontrast
P
cj µj , wobei immer vorausgesetzt ist, dass nicht alle Koeffizienten cj gleich 0
sind. Das Symbol k steht abkürzend für den kritischen Wert beim post-hoc-Test:
q
k = (J − 1)FJ−1, N −J; α ,
während die Abkürzung ‚R.p.h.‘ für ‚Regel post hoc‘ steht.
Das Ereignis Ac soll das Ereignis bezeichnen, dass H0,c nach der Regel (R.p.h.)
verworfen wird, dass also |tc | ≥ k gilt.
Die Überlegungen zum F -Test als UI-Test zeigen, dass die folgende Aussage richtig ist:
!
[
PH0
Ac = α .
(2)
c
Ausformuliert bedeutet dies: Falls die Nullhypothese H0 der Varianzanalyse gilt,
ist die Wahrscheinlichkeit, bei Anwendung der Regel (R.p.h.) (mindestens) eine
H0,c zu verwerfen, gleich α.
Dabei sei daran erinnert, dass die mengentheoretische Vereinigung von Ereignissen gerade das Ereignis ist, dass (mindestens) eines der gegebenen Ereignisse
eintritt. Hier werden die Ereignisse Ac für alle c betrachtet, was das c unter dem
1.5
Kontraste
QM2 15
112
Vereinigungszeichen symbolisiert. Die Vereinigung, um die es hier geht, ist damit
eine Vereinigung von unendlich vielen Einzelmengen Ac , da es ja unendlich viele
Kontrastvektoren c gibt.
Bei oberflächlicher Betrachtung mag es scheinen, dass man mit der Aussage (2)
eine Rechtfertigung dafür hat, beliebig nach der Regel (R.p.h.) zu testen, ohne
sich um eine Alpha-Adjustierung Gedanken machen zu müssen: Die Wahrscheinlichkeit, (auch nur) eine der Nullhypothesen H0,c zu verwerfen, ist ja gleich dem
Signifikanzniveau α der Varianzanalyse.
Das Problem ist allerdings das, dass diese Aussage nur unter der Voraussetzung
gilt, dass die Nullhypothese der Varianzanalyse richtig ist. Genau diese Hypothese
wird aber beim Signifikantwerden des F -Bruchs verworfen, so dass die angegebene
Aussage gewissermaßen leer ist, da man nicht mehr an ihre Voraussetzung glaubt.
Zur Rechtfertigung von post-hoc-Tests nach der angegebenen Regel braucht man
vielmehr eine andere Aussage, nämlich die Aussage




P


[
H0,c


Ac 
≤α.

(3)
c
richtig
Diese Aussage ist so zu lesen, dass die Wahrscheinlichkeit, irgendeine richtige
H0,c zu verwerfen, höchstens gleich α ist, was genau die gewünschte Rechtfertigung darstellt. Im Unterschied zur ersten Formulierung ist hier einerseits nicht
vorausgesetzt, dass die Nullhypothese H0 der Varianzanalyse gilt, andererseits
werden nicht mehr alle Ac vereinigt, sondern nur die, für die die entsprechenden
Nullhypothesen H0,c richtig sind.
Die Gültigkeit der Beziehung (3) liefert nun tatsächlich die Begründung für die
Möglichkeit von post-hoc Tests ohne weitere Probleme mit der α-Adjustierung
im folgenden Sinn: Verfährt man nach dieser Regel, so ist die Wahrscheinlichkeit
für falsche Aussagen höchstens gleich α.
Wesentlich ist dabei, dass man im Falle eines nicht signifikanten post-hoc-Tests
gar keine Aussage macht (wie ja generell im Fall von nicht signifikanten Tests).
Eine falsche Aussage kann dann nur von der Form sein, dass man die Gültigkeit
einer H1,c behauptet, wo in Wirklichkeit H0,c gilt. Genau für diese Fälle stellt
jedoch (3) fest, dass die Wahrscheinlichkeit, dass auch nur einer von ihnen eintritt,
höchstens gleich α ist.
1.5
Kontraste
QM2 15
113
Man hat sich damit also – kurz gesagt – gegen die Möglichkeit falscher Aussagen
nach der Untersuchung insgesamt auf dem Niveau α abgesichert.
Dabei ist es gleichgültig, ob die Nullhypothese H0 der Varianzanalyse gilt oder
nicht.
Es bleibt zu begründen, dass die Aussage (3) gilt.
Diese Begründung beruht auf einer neuen Varianzanalyse mit veränderten Daten.
Die Abänderung der Daten geschieht dabei unter Verwendung der tatsächlichen
Erwartungswerte. Diese neue Varianzanalyse ist daher nur ‚fiktiv‘ in dem Sinne,
dass sie wegen der fehlenden Kenntnis der Erwartungswerte nicht konkret gerechnet werden kann. Dies ist aber für das Argument auch gar nicht nötig, es genügt,
dass man sie bei Kenntnis der Erwartungswerte durchführen könnte; man kann
sich hilfsweise also vorstellen, diese Kenntnisse zu besitzen.
Die Daten für die in diesem Sinne fiktive neue Varianzanalyse erhält man, indem
man von allen Werten den Erwartungswert der Gruppe bzw. Bedingung abzieht,
zu der die Werte gehören. Zur Unterscheidung sollen die neuen Werte mit einer
Schlange gekennzeichnet werden, ebenso die Kennwerte der neuen Varianzanalyse.
Die neuen Daten sind damit ỹij = yij − µj . Der Erwartungswert von ỹij ist dann
µ̃j = E(ỹij ) = E(yij ) − µj = µj − µj = 0 ,
und durch die Subtraktion der Konstanten µj bleibt die Varianz σ 2 und die Normalverteiltheit erhalten. Es folgt, dass ỹij ∼ N (0, σ 2 ) gilt. Durch die Subtraktion
von Konstanten geht auch die Unabhängigkeit nicht verloren, so dass mit den yij
auch die ỹij gemeinsam unabhängig sind.
Die neuen Daten ỹij erfüllen daher die Voraussetzungen der Varianzanalyse (Normalverteiltheit, Varianzhomogenität, Unabhängigkeit). Zudem sind alle Erwartungswerte µ̃j gleich 0, so dass für die fiktive Varianzanalyse mit diesen Daten
die Nullhypothese
H̃0 : µ̃1 = µ̃2 = . . . = µ̃J
gilt (die Schlange steht hier zur Unterscheidung von der Nullhypothese H0 der
Originaldaten, die ja nicht unbedingt gelten muss).
Was die Kennwerte der fiktiven Varianzanalyse angeht, so gilt für die Gruppenmittelwerte M̃j offenbar die Beziehung M̃j = Mj − µj , und da innerhalb einer
1.5
Kontraste
QM2 15
114
Gruppe j alle Werte um den gleichen Wert µj vermindert werden, bleibt die Varianz innerhalb jeder einzelnen Gruppe im Vergleich zur Originalvarianzanalyse
erhalten, weshalb auch die mittlere Quadratsumme innerhalb sich nicht ändert;
g
es gilt also M
S w = M Sw .
In der neuen Situation können auch Kontraste gebildet werden und Kontrasthypothesen getestet werden. Ist c = (c1 , . . . , cJ ) ein Kontrastvektor (ist also die
Summe der cj gleich 0), so soll der zugehörige Kontrast ψ̃c heißen; es gilt also
X
ψ̃c =
cj µ̃j .
Der Kontrast, den man mit demselben Kontrastvektor c in der Originalsituation
P
bildet, heißt zur Unterscheidung ψc , es gilt also ψc = cj µj .
Für die Kontraste ψ̃c sind die Kontrastnullhypothesen
H̃0,c : ψ̃c = 0
alle richtig, da ja H̃0 gilt.
Beim Testen dieser Nullhypothesen müssen die Kontraste ψ̃c geschätzt werden, die
P
Kontrastschätzer sind dabei ψ̃ˆc =
cj M̃j . Die Beziehung zu den ensprechenden
Kontrastschätzern mit den Originaldaten ist die folgende:
X
X
X
X
ψ̃ˆc =
cj M̃j =
cj (Mj − µj ) =
cj Mj −
cj µj = ψ̂c − ψc .
Ist H0,c richtig, so ist ψc = 0 und damit ψ̃ˆc = ψ̂c .
Will man die Nullhypothesen H̃0,c testen, so braucht man neben den Kontrastschätzern ψ̃ˆc die Schätzer sψ̃ˆ ihrer Streuung. Diese stimmen mit den Streuungsc
schätzern sψ̂ der Kontrastschätzer ψ̂c überein, denn es gilt
g
s2ˆ = k ck2 M
S w = k ck2 M Sw = s2ψ̂ .
ψ̃c
Bildet man nun die t-Statistiken zum Test der Kontrastnullhypothesen, die für die
modifizierten Daten mit t̃c und für die Originaldaten mit tc bezeichnet werden,
so gilt für alle c, für die H0,c richtig ist, die Beziehung
ψ̂c
ψ̃ˆc
t̃c =
=
= tc ,
sψ̃ˆ
sψ̂
c
1.5
Kontraste
QM2 15
115
da wegen der Gültigkeit von H0,c ja ψ̃ˆc = ψ̂c gilt.
Bezeichnet weiter Ãc das Ereignis, dass |t̃c | ≥ k gilt (was gerade bedeutet, dass
H̃0,c post hoc verworfen wird), so tritt damit für diejenigen c, für die H0,c richtig
ist, das Ereignis Ãc genau dann ein, wenn Ac eintritt, was ja gerade |tc | ≥ k
bedeutet.
Es folgt
[
H0,c
Ac
c
richtig
[
=
H0,c
Ãc
⊆
c
richtig
[
Ãc ,
c
denn bei der ersten Gleichung sind die einander entsprechenden zu vereinigenden
Ereignisse jeweils gleich, während die Inklusionsbeziehung rechts deshalb gilt, weil
in der Menge ganz rechts alle Ãc vereinigt werden, und nicht nur die, für die H0,c
gilt, wodurch die Vereinigungsmenge sich nur vergrößern kann.
Hieraus folgt aber schließlich




P


!

[

Ãc
= P
Ac 
 ≤ P
H̃0

c
c
richtig
[
H0,c
!
[
Ãc
= α,
c
was gerade die angestrebte Behauptung ist. Das erste Gleichheitszeichen gilt dabei deshalb, weil H̃0 richtig ist, die Gültigkeit des zweiten Gleichheitszeichens ist
gerade (2) für den Fall der fiktiven Varianzanalyse.
Damit sind post-hoc-Tests nach der Regel (R.p.h.) im Hinblick auf eine mögliche
α-Inflation gerechtfertigt:
Die Wahrscheinlichkeit, irgendwelche richtigen Nullhypothesen H0,c bei Anwendung der Regel (R.p.h) zu verwerfen, ist insgesamt höchstens α. Anzumerken ist, dass hier ein Punkt eigentlich noch einer weiteren Rechtfertigung
bedarf, und zwar der, dass die Vereinigung aller Ac , für die H0,c richtig ist, ein
Ereignis ist. Dies ist deshalb nicht selbstverständlich, weil es sich hier nicht um
eine endliche Vereinigung von Ereignissen handelt, sondern um eine unendliche.
Die fragliche Vereinigung ist in der Tat ein Ereignis, was aber mit den hier zur
Verfügung stehenden Hilfsmitteln hier nicht gezeigt werden kann.
1.5
Kontraste
QM2 15
116
Einseitige Interpretierbarkeit von post-hoc-Tests.
Bei post-hoc-Tests stellt sich naheliegenderweise die Frage, ob sie, obwohl von der
Konstruktion her zweiseitig angelegt, auch einseitig interpretiert werden können.
Kann man beispielsweise, nachdem der post-hoc-Test zu der Frage, ob sich µ1
und µ2 unterscheiden, signifikant geworden ist, nur die Aussage µ1 6= µ2 treffen,
oder kann man darüber hinaus eine gerichtete Aussage machen, zum Beispiel im
Fall, dass M1 größer ist als M2 , die Aussage µ1 > µ2 ?
Es soll nun ein Argument für die einseitige Interpretierbarkeit vorgestellt werden. Ganz ähnlich wie bei der Rechtfertigung von post-hoc-Tests generell ist der
Kern des Arguments die Tatsache, dass bei Anwendung einer geeigneten Regel
die Wahrscheinlichkeit, eine falsche Aussage zu machen, höchstens gleich dem
gewählten Gesamtsignifikanzniveau α ist.
Wesentlich ist dabei, dass nur Aussagen gemacht werden, die die Form von Alternativhypothesen haben (genau wie bei den post-hoc-Tests).
Es soll also um die Testung post hoc von Hypothesenpaaren der Form
0
H0,c
: ψc ≤ 0
0
H1,c
: ψc > 0
gehen.
Dies scheint zunächst eine Einschränkung zu sein, da hier nur rechtsseitige signifikante Ergebnisse vorgesehen sind. Bei genauem Hinsehen sind aber auch linksseitige Tests möglich, da man diese in rechtsseitige Tests dadurch umwandeln kann,
dass man die Hypothesen mit −1 multipliziert; hat man also eine linksseitige
0
0
Fragestellung durch H0,c
: ψc ≥ 0 und H1,c
: ψc < 0 gegeben, so wandelt man
0
diese äquivalent in eine rechtsseitige um, indem man H0,c
durch die Hypothese
0
−ψc ≤ 0 und H1,c durch die Hypothese −ψc > 0 ersetzt und dabei berücksichtigt,
dass −ψc der Kontrast ist, in dessen Kontrastvektor alle Koeffizienten durch das
(−1)-fache der entsprechenden Koeffizienten im Kontrastvektor von ψc ersetzt
sind (kurz: der Kontrastvektor von −ψc ist −c).
Die Regel für Aussagen zu den gerade genannten Hypothesen ist nun die folgende:
0
(R’.p.h.) Verwirf H0,c
, falls tc ≥ k.
Die Statistik tc ist dabei ψ̂c /sψ̂c und es gilt wieder
q
k = (J − 1)FJ−1, N −J; α .
1.5
Kontraste
QM2 15
117
Ausdrücklich sei noch einmal darauf hingewiesen, dass die Regel eine Aussage
nur im Falle eines ‚signifikanten‘ Ergebnisses ermöglicht, nicht aber in dem Fall
tc < k, in dem gar keine Aussage vorgesehen ist (wird allerdings tc ≤ −k, so ist
eine Aussage in der ‚Gegenrichtung‘ möglich).
Zur Rechtfertigung soll nun gezeigt werden, dass die Wahrscheinlichkeit, nach
0
Regel (R’.p.h.) (mindestens) eine richtige H0,c
zu verwerfen, höchstens α ist.
0
Dazu wird zunächst ein festes c betrachtet, und zwar ein solches, bei dem H0,c
richtig ist, für das also ψc ≤ 0 gilt.
In der weiteren Begründung wird auf die fiktive Varianzanalyse aus der Rechtfertigung von post-hoc-Tests Bezug genommen. Für den dort betrachteten empirischen Kontrast ψ̃ˆc = ψ̂c − ψc gilt wegen ψc ≤ 0 die Beziehung ψ̃ˆc ≥ ψ̂c .
Bezeichnet man mit A0c das Ereignis, dass tc ≥ k wird (also das Ereignis, dass
0
bei Anwendung von (R’.p.h.) verworfen wird), so gilt
H0,c
A0c tritt ein ⇒ tc ≥ k ⇒ t̃c ≥ k ⇒ Ãc tritt ein .
Die erste Folgerungsbeziehung ergibt sich dabei direkt aus der Definition von A0c ,
für die zweite berücksichtig man, dass
t̃c = ψ̃ˆc /sψ̃ˆ ≥ ψ̂c /sψ̃ˆ = ψ̂c /sψ̂c = tc
c
c
gilt (wegen ψ̃ˆc ≥ ψ̂c ), und die dritte Beziehung folgt wieder unmittelbar aus der
Definition von Ãc .
Anders formuliert bedeutet dies gerade
A0c ⊆ Ãc .
0
Diese Beziehung gilt für alle c, für die H0,c
richtig ist; hieraus folgt wiederum
durch Vereinigungsbildung
[
[
A0c
⊆
Ãc .
c
c
0
0
H0,c
richtig
H0,c
richtig
1.5
Kontraste
QM2 15
118
Bildet man nun noch die Wahrscheinlichkeiten dieser Ereignisse, so erhält man







P






[


A0c  ≤ P 
Ãc


c
c


0
richtig
richtig
H0,c
[
0
H0,c

!

[

Ãc = α ,
 ≤ P

c

wobei die vorletzte Beziehung daraus folgt, dass die Vereinigungsmenge auf ihrer
linken Seite in der auf ihrer rechten Seite enthalten ist, und wobei die letzte
Gleichheit schon aus der Rechtfertigung der post-hoc-Tests bekannt ist.
Damit ist die zur Rechtfertigung von (R’.p.h.) erforderliche Aussage gefunden:
Die Wahrscheinlichkeit, dass (mindestens) ein Ereignis A0c eintritt, für das die
0
zugehörige Nullhypothese richtig ist, dass also (mindestens) eine richtige H0,c
bei Anwendung dieser Regel verworfen wird, ist höchstens α. Damit ist auch die
Wahrscheinlichkeit, bei Anwendung dieser Regel falsche Aussagen zu machen,
höchstens α, was zu zeigen war. Die Tatsache, dass alle betrachteten Vereinigungsmengen auch wirklich Ereignisse
sind, müsste auch hier streng genommen noch gezeigt werden, was aber mit den
zur Verfügung stehenden Hilfsmitteln nicht möglich ist.
Simultane Konfidenzintervalle.
Die Problematik der α-Aufblähung beim Durchführen mehrerer Tests findet sich
in veränderter Form auch bei Kondidenzintervallen wieder, was nicht überrascht,
wenn man den engen Zusammenhang zwischen zweiseitigen Tests und Konfidenzintervallen bedenkt.
Zunächst soll die Problematik geschildert werden und eine Möglichkeit der Lösung
im Falle endlich vieler Intervalle angedeutet werden. Danach sollen die Ergebnisse
zum UI-Test dazu benutzt werden, auch bei Konstruktion von prinzipiell beliebig
vielen Intervallen dem Problem zu entkommen.
Der erste Fall, der betrachtet werden soll, ist der, dass man für zwei Parameter
τ1 und τ2 jeweils ein Konfidenzintervall hat. Die beiden Intervalle sollen I1 und
I2 heißen. Die Parameter können dabei Erwartungwerte sein oder Kontraste oder
auch (theoretische) Varianzen oder sonstige interessante theoretische Größen.
Die beiden Intervalle I1 und I2 sollen nun beides Intervalle auf dem Nivea (1 − α)
1.5
Kontraste
QM2 15
119
sein, das heißt, die Wahrscheinlichkeit, dass Ij den Parameter τj enthält, soll in
beiden Fällen ≥ (1 − α) sein.
Es sei darauf hingewiesen, dass die Wahrscheinlichkeitsaussagen natürlich als
Aussagen über potentielle Intervalle (die erst noch über eine Datenerhebung konkret zu gewinnen sind) zu verstehen sind und nicht als Aussagen über konkrete
Intervalle (die nach einer Datenerhebung vorliegen); gemeint sind also eigentlich
die Verfahren, die die Intervalle I1 und I2 liefern. Diese Verfahren sollen also,
jeweils für sich genommen, mit einer Wahrscheinlichkeit ≥ (1 − α) zu Intervallen
Ij führen, die die entsprechenden Parameter enthalten. In diesem Sinn sind auch
die folgenden Ausführungen zu verstehen.
Die Frage, die sich sofort stellt, ist die, wie wahrscheinlich es ist, dass beide Intervalle den zugehörigen Parameter enthalten.
Ist K1 das Ereignis „ τ1 ∈ I1 “ und K2 das Ereignis „ τ2 ∈ I2 “, so gilt nach
Voraussetzung P(K1 ) ≥ (1 − α) und P(K2 ) ≥ (1 − α). Gefragt ist jetzt aber
nach P(K1 ∩ K2 ), wobei K1 ∩ K2 ja gerade bedeutet, dass sowohl K1 als auch K2
eintritt.
Die Frage kann man leicht über Gegenwahrscheinlichkeiten beantworten. Sind
dazu A1 und A2 die Gegenereignisse von K1 und K2 , also die Ereignisse, dass die
Konfidenzintervalle ‚ihren‘ Parameter nicht enthalten, so gilt einerseits P(A1 ) ≤ α
und P(A2 ) ≤ α, und andererseits ist das Gegenereignis von K1 ∩K2 gerade A1 ∪A2
(das Gegenteil davon, dass beide Intervalle ihren Parameter enthalten, ist, dass
mindestens ein Intervall seinen Parameter nicht enthält).
Die Wahrscheinlichkeit von A1 ∪ A2 ist aber bekanntlich höchstens so groß wie
die Summe der Einzelwahrscheinlichkeiten, also höchstens 2α.
Aus P(A1 ∪ A2 ) ≤ 2α folgt aber P (K1 ∩ K2 ) ≥ (1 − 2α) da es sich hier wieder
um Gegenereignisse handelt. Damit ist die Antwort auf die Frage gefunden:
Die Wahrscheinlichkeit, dass beide Intervalle ‚ihren‘ Parameter enthalten, ist mindestens (1 − 2α).
Hier hat man also in der Tat eine Situation analog der der α-Inflation beim
Hypothesentesten. Konstruiert man beispielsweise zwei 95%-Konfidenzintervalle
für unterschiedliche Parameter, so kann man über die Wahrscheinlichkeit, dass
beide Intervalle ihren Parameter enthalten, nur noch die Aussage machen, dass
sie mindestens 90% ist.
1.5
Kontraste
QM2 15
120
Hieraus ergibt sich aber unmittelbar eine Möglichkeit, das Problem zu vermeiden:
Möchte man mit einer Wahrscheinlichkeit von 1 − αg beide Parameter mit ihren
Konfidenzintervallen erfassen, so hat man nur α = αg /2 zu wählen.
Möchte man also beispielsweise, dass mit einer Wahrscheinlichkeit von 95% beide
Parameter in ihren Konfidenzintervallen liegen, so muss man zwei Einzelintervalle
zum Niveau 97.5% benutzen (hier ist αg = .05 und daher α = .025).
Es ist klar, dass dies unmittelbar auf mehr als zwei Intervalle verallgemeinert
werden kann:
Möchte man Konfidenzintervalle für n Parameter τ1 , . . . , τn herstellen, die die
Eigenschaft haben, dass die Wahrscheinlichkeit, dass alle Intervalle ‚ihren‘ Parameter τj enthalten, mindestens gleich (1 − αg ) ist, so gelingt das, wenn man die
Einzelintervalle zum Niveau (1 − αg /n) wählt.
Offenbar entspricht diese Adjustierung gerade der Bonferroni-Adjustierung beim
Hypothesentesten.
In dem Fall, dass die Statistiken, die zum Konstruieren der Intervalle benutzt
werden, unabhängig sind, kann man, analog zum entsprechenden Fall beim Hypothesentesten, auch leicht eine Methode finden, bei der das α für die Einzelintervalle etwas (meist allerdings nur unbedeutend) größer ist als das eben benutzte;
die Intervalle werden dann vergleichsweise etwas kleiner.
Nach diesen Vorbemerkungen sollen nun, aufbauend auf den UI-Überlegungen
Konfidenzintervalle für alle Kontraste ψ konstruiert werden, die die Eigenschaft
haben, dass die Wahrscheinlichkeit, dass alle Intervalle ihr zugehöriges ψ enthalten, gerade (1 − α) ist (α ist dabei vorgegeben).
Man nennt diese Intervalle aus naheliegenden Gründen dann auch simultane Konfidenzintervalle, eine andere Bezeichnung ist Scheffé-Intervalle.
Zur Konstruktion wird an die Situation der fiktiven Varianzanalyse angeknüpft,
bei der die Ereignisse Ãc durch die Bedingung definiert waren, dass |t̃c | ≥ k galt.
Hierbei war t̃c die Statistik (ψ̂c − ψc )/sψ̂c für den durch den Kontrastvektor c
definierten Konstrast ψc und
q
k = (J − 1)FJ−1, N −J; α .
1.5
Kontraste
QM2 15
121
Für die Ereignisse Ãc hatte sich dabei die Beziehung
[ P
Ãc = α
ergeben, die Wahrscheinlichkeit, dass mindestens eines der Ereignisse Ãc eintritt,
war also gerade α. Die Vereinigung ist hier über alle Kontrastvektoren c zu bilden.
Ist nun Kc das Gegenereignis zu Ãc , also das Ereignis, dass |t̃c | < k gilt, so ist
S
T
das Gegenereignis zu Ãc gerade Kc (dies ist die Abkürzung für das Ereignis,
dass alle Ereignisse Kc eintreten). Diese Tatsache sei noch einmal ausführlich
formuliert: Das Gegenteil davon, dass mindestens ein Ãc eintritt, ist, dass keines
der Ãc eintritt, was gerade bedeutet, dass für alle Ãc das Gegenteil Kc eintritt,
dass also alle Kc eintreten.
T
S
Da Kc das Gegenereignis zu Ãc ist, folgt
\
P( Kc ) = 1 − α ,
die Wahrscheinlichkeit, dass alle Kc eintreten, ist also (1 − α).
Nun müssen nur noch die Ereignis Kc so umformuliert werden, dass sie zu Aussagen über die angestrebten Vertrauensintervalle werden. Nach Definition ist Kc
das Ereignis, dass |t̃c | < k gilt, was gleichbedeutend damit ist, dass
−k < (ψ̂c − ψc )/sψ̂c < k
gilt, oder (mit den bekannten Umformungen) dass
ψ̂c − ksψ̂c < ψc < ψ̂c + ksψ̂c
gilt, dass also ψc in dem Intervall (ψ̂c − ksψ̂c , ψ̂c + ksψ̂c ) liegt.
Damit sind die erstrebten simultanen Konfidenzintervalle gewonnen, denn die
Überlegungen lassen sich nun folgendermaßen zusammenfassen:
Die Wahrscheinlichkeit, dass für alle Kontraste ψc die Beziehung
ψc ∈ ψ̂c − ksψ̂c , ψ̂c + ksψ̂c
gilt, ist (1 − α).
Die simultanen Konfidenzintervalle (ψ̂c − ksψ̂c , ψ̂c + ksψ̂c ) ähneln stark den bekannten Konfidenzintervallen für die ψc , bei denen ja nur k durch den kleineren
Wert tN −J; α/2 zu ersetzen ist.
1.5
Kontraste
QM2 15
122
Daran, dass die simultanen Intervalle im Vergleich zu den Intervallen bei der
Einzeluntersuchung breiter werden, erkennt man den Preis, den man dafür zahlen
muss, dass man sich nicht nur für einen Kontrast interessiert, sondern gleich für
alle auf einmal.
Der bekannte Zusammenhang zwischen Vertrauensintervallen und zweiseitigen
Tests zeigt sich auch hier. Der zweiseitige Test der Hypothesen
H0,c : ψc = 0
H1,c : ψc 6= 0
nach der Regel (R.p.h.) wird nämlich genau dann signifikant, wenn |tc | ≥ k gilt,
wenn also (wegen tc = ψ̂c /sψ̂c ) die Beziehung |ψ̂c | ≥ ksψ̂c gilt. Dies ist offenbar
genau dann der Fall, wenn das simultane Konfidenzintervall für ψc den Wert 0
nicht enthält.
Zusammenfassend gilt also, dass der zweiseitige post-hoc-Test der Nullhypothese
H0,c : ψc = 0 genau dann signifikant wird, wenn das simultane Konfidenzintervall
für ψc den Wert 0 nicht enthält.
Unterräume von Kontrasten und zugehörige UI-Tests. In diesem Abschnitt geht es um bestimmte Situationen, in denen nicht alle Kontraste interessant sind. Falls die interessanten Kontraste sich durch gewisse Eigenschaften
definieren lassen, kann man einen UI-Test konstruieren, der nur diese Kontraste
untersucht, und kann die Kontraste gegebenenfalls post hoc testen. In diesem
Sinn geht es auch um eine Möglichkeit der Alpha-Adjustierung.
Um dies alles genauer formulieren zu können, sind einige Begriffe aus der Linearen Algebra hilfreich, die dabei vorgestellt werden sollen. Es ist allerdings nicht
sinnvoll, an dieser Stelle die zugehörige Theorie zu entwickeln, weshalb über entsprechende Sachverhalte nur – ohne Begründung – berichtet werden soll.
Anwendung sollen diese Überlegungen vornehmlich in der zweifaktoriellen Varianzanalyse finden, dennoch wird zunächst die Situation der einfaktoriellen Varianzanalyse vorausgesetzt (von der die zweifaktorielle ja in gewisser Weise –
assoziierte einfaktorielle Varianzanalyse – ein Spezialfall ist).
Es sollen also unter den Voraussetzungen der einfaktoriellen Varianzanalyse Daten in J Bedingungen erhoben werden. Die Fragen drehen sich dabei um die
zu diesen Bedingungen gehörenden Erwartungswerte µj . Viele spezifische Fragen
werden dann mit Hilfe von Kontrasten formuliert und untersucht.
1.5
Kontraste
QM2 15
123
P
P
Sind nun zwei Kontraste ψ1 =
c1j µj und ψ2 =
c2j µj gegeben, so kann man
die Summe ψ1 +ψ2 dieser Kontraste bilden, die dann diejenige Linearkombination
der µj ist, deren Koeffizienten die Summe der entsprechenden Koeffizienten der
Ausgangskontraste sind.
Ist beispielsweise ψ1 = µ2 − µ1 und ψ2 = µ3 − µ2 , so ist die Summe ψ1 + ψ2 gleich
(µ2 − µ1 ) + (µ3 − µ2 ) = µ3 − µ1 . Der Koeffizientenvektor (−1, 0, 1, 0, . . . , 0)0 der
Summe ist dabei die (komponentenweise gebildete) Summe der Koeffizientenvektoren (−1, 1, 0, 0, . . . , 0)0 und (0, −1, 1, 0, . . . , 0)0 . Hier ist die Summe wieder ein
Kontrast (die Summe der Koeffizienten ist 0), was jedoch kein Zufall ist, sondern
immer so sein muss, denn in der allgemeinen Notation sind die Koeffizienten von
ψ1 + ψ2 gerade die Zahlen c1j + c2j , und für deren Summe gilt
X
X
X
(c1j + c2j ) =
c1j +
c2j = 0 + 0 = 0 ,
da ja ψ1 und ψ2 Kontraste sind.
Hier taucht eine kleine Schwierigkeit auf, die die Linearkombination betrifft, bei
der alle Koeffizienten gleich 0 sind, also ψ0 = 0µ1 + . . . + 0µJ = 0. Es ist zur Vermeidung umständlicher Formulierungen sinnvoll, diese Linearkombination auch
zu den Kontrasten zu rechnen, obwohl man keine inhaltlich sinnvolle Fragestellung damit verbinden kann, und obwohl Tests mit ihr weder sinnvoll noch möglich
sind.
Die bisherigen Überlegungen haben gezeigt, dass die Summe von zwei Kontrasten
ebenfalls wieder ein Kontrast ist. Analog zeigt man, dass auch ein Vielfaches
aψ eines Kontrastes ψ immer wieder ein Kontrast ist. Das Vielfache aψ eines
Kontrastes ψ ist dabei naheligenderweise dadurch definiert, dass alle Koeffizienten
mit der a zu multiplizieren sind; der Kontrastvektor von aψ ist also gerade der
(komponentenweise) mit a multiplizierte Kontrastvektor von ψ.
Beispielsweise ist für ψ = µ2 − µ1 das Vielfache 2ψ gerade gleich 2µ2 − 2µ1 ;
entsprechend ist (−1)ψ gleich −(µ2 − µ1 ) = µ1 − µ2 .
Da nun in der Menge der Kontraste sowohl Summen als auch Vielfache gebildet werden können, ohne dass man diese Menge verlässt, werden auch durch
beliebige Kombinationen dieser Operationen immer wieder Kontraste hergestellt.
Mit mehrfacher Anwendung von Summenbildung und Vervielfachung stellt man
aber gerade Linearkombinationen her; eine Linearkombination von gewissen KonP
trasten ψ1 , . . . , ψm ist dabei eine Summe der Form ak ψk mit irgendwelchen Koeffizienten ak . Der Koeffizientenvektor der Linearkombination ist dann übrigens
1.5
Kontraste
QM2 15
124
die entsprechende Linearkombination der Koeffizientenvektoren der Ausgangskontraste. Man beachte, dass die hier betrachteten Linearkombinationen keine
additive Konstante besitzen.
Ist beispielsweise ψ1 = µ2 − µ1 , ψ2 = µ3 − µ2 und ψ3 = µ1 + µ2 − 2µ3 , so ist
2ψ1 + ψ2 − ψ3 gerade 3µ3 − 3µ1 .
Eine Menge, in der man, ohne die Menge zu verlassen, beliebig Summen und
Vielfache und damit auch Linearkombinationen bilden kann, nennt man auch
einen Vektorraum. Die Menge aller Kontraste bildet in dieser Sprechweise damit
einen solchen Vektorraum.
Oft interessieren nicht alle Kontraste, sondern nur bestimmte Teilmengen.
Hat nun eine (nichtleere) Teilmenge U eines Vektorraums V die Eigenschaft,
dass man auch in U beliebig Summen, Vielfache und damit Linearkombinationen
bilden kann ohne U zu verlassen, so nennt man U auch einen Unterraum oder
Untervektorraum. In dieser Sprechweise ist übrigens auch V selbst ein Unterraum,
eine Sprechweise, die vielleicht zunächst verwirrend, dann aber doch praktisch ist.
Hier soll es nun um Situationen gehen, in denen gerade alle Kontraste aus einem
solchen Unterraum interessant sind.
Die eigentlich interessanten Beispiele für solche Situationen finden sich in der
zweifaktoriellen Varianzanalyse (oder in Varianzanalysen mit noch mehr Faktoren), hier könnte man als Beispiel eine Situation nehmen, in der man aus Versehen
zu viele Bedingungen untersucht hat. Genauer könnte es sein, dass eigentlich nur
Kontraste interessant sind, die die ersten K Erwartungswerte betreffen, wo K irgendeine Zahl mit K < J ist. Die zugehörigen Kontrastvektoren sind dann gerade
die, bei denen die letzten J − K Komponenten alle 0 sind. Es sollte klar sein, dass
bei Summen und Vielfachen solcher Kontraste die letzten J −K Erwartungswerte
dann auch nicht (genauer: mit Koeffizient 0) auftreten, weshalb die betrachteten
Kontraste tatsächlich einen Unterraum bilden.
Wie sich oben schon gezeigt hat, kann man durch das Bilden von Linearkombinationen aus Kontrasten andere Kontraste herstellen. Wenn es nun möglich ist,
in einem Unterraum U von Kontrasten eine Menge von Kontrasten ψ1 , . . . , ψm so
zu finden, dass alle Kontraste aus U Linearkombinationen von ψ1 , . . . , ψm sind,
wobei zusätzlich die Darstellung eines ψ aus U als Linearkombination dieser ψk
nur auf eine einzige Weise möglich ist, so nennt man ψ1 , . . . , ψm eine Basis von
U und bezeichnet die Zahl m dieser Kontraste auch als die Dimension von U .
1.5
Kontraste
QM2 15
125
In der Linearen Algebra wird nun gezeigt, dass jeder Unterraum (mindestens)
eine solche Basis besitzt, und dass die Dimension eindeutig bestimmt ist. Die
Dimension eines Unterraums ist dabei höchstens gleich der Dimension des Ausgangsvektorraums (der seinerseits auch eine Basis und eine Dimension besitzt).
Im hier betrachteten Fall hat der Raum aller Kontraste die Dimension J − 1, was
man sich beispielsweise dadurch klar machen kann, dass man zeigt, dass die zu
den Koeffizientenvektoren (−1, 1, 0, . . . , 0)0 , (−1, 0, 1, . . . , 0)0 , . . . , (−1, 0, 0, . . . , 1)0
gehörenden Kontraste eine Basis bilden. Dass J − 1 gerade die Zahl der Zählerfreiheitsgrade des F -Bruchs ist, ist natürlich kein Zufall.
Es sei nun die Situation gegeben, dass im Rahmen einer einfaktoriellen Untersuchung mit J Bedingungen nur Kontraste interessieren, die zu einem Unterraum
U der Dimension m gehören.
Man kann dann einen UI-Test konstruieren, der die Nullhypothese testet, dass alle
Kontraste aus U gleich 0 sind. Dieser Test wird in ähnlicher Weise wie der UI-Test
für den Fall aller Kontraste konstruiert, der ja den bekannten F -Bruch liefert.
Der entscheidende Schritt ist der, dass man sich wieder überlegt, wie groß die
(quadrierte) Teststatistik eines Einzelkontrasttests maximal werden kann, wobei
jetzt die Einschränkung gilt, dass nur Kontraste aus U betrachtet werden.
Die UI-Teststatistik ist wieder die maximale quadrierte Teststatistik für einen
Kontrast aus U , diesmal geteilt durch m. Bei Gültigkeit der Nullhypothese,
dass alle Kontraste aus U gleich 0 sind, besitzt sie eine F -Verteilung mit m
Zählerfreiheitsgraden (Dimension von U ) und N − J Nennerfreiheitsgraden (N
ist wieder die Gesamtzahl der Beobachtungen).
Meist wird die Teststatistik als ein Quotient geschrieben, dessen Nenner die bekannte Quadratsumme M Sw ist, während der Zähler von den speziellen Eigenschaften von U abhängt.
In dem Beispiel, in dem nicht alle J Erwartungswerte interessieren, sondern nur
die ersten K, ist die UI-Nullhypothese äquivalent zu der, dass alle diese K Erwartungswerte gleich sind. Die Dimension des zugehörigen Unterraums von Kontrasten ist K − 1 (es handelt sich um die Kontraste, bei denen die letzten J − K
Erwartungswerte alle den Koeffizienten 0 besitzen), und als Teststatistik erhält
man den Quotienten der M Sb , die man bei einer Varianzanalyse nur der ersten
K Gruppen ermitteln würde, und der M Sw aus der Varianzanalyse mit allen
J Gruppen. Unter der Nullhypothese hat dieser Quotient eine F -Verteilung mit
1.5
Kontraste
QM2 15
126
K − 1 Zähler- und N − J Nennerfreiheitsgraden.
Ein Hauptzweck bei der UI-Strategie ist die Ermöglichung von post-hoc-Tests. Zusatzüberlegungen analog zu den oben für die einfaktorielle Varianzanalyse durchgeführten zeigen, dass es auch hier möglich ist, eine Regel für post-hoc-Tests
einzuführen. Diese besagt dann, dass (auf Gesamtniveau α) eine Kontrastnullhypothese dann zu verwerfen ist, wenn ihre Teststatistik betragsmäßig mindestens
p
gleich m Fm,N −J;α ist. Wesentlich ist dabei, dass jetzt nur Kontraste aus U
zugelassen sind.
Einerseits gilt dann, dass der UI-Test genau dann signifikant wird, wenn nach der
post-hoc-Regel mindestens eine Kontrasthypothese (mit Kontrast aus U ) verworfen werden kann, andererseits ist die Wahrscheinlichkeit, bei Anwendung dieser
Regel auch nur eine Kontrastnullhypothese (mit Kontrast aus U ) fälschlicherweise
zu verwerfen, höchstens gleich α.
Man findet also genau die gleichen Verhältnisse wie bei der einfaktoriellen Varianzanalyse mit den Unterschieden, dass nun nicht alle Kontraste in die Betrachtung
eingezogen werden, sondern nur die aus U , und dass die Anzahl der Zählerfreiheitsgrade nicht die Dimension J − 1 des Raums aller Kontraste ist, sondern nur
die Dimension m des betrachteten Unterraums U .
Vergleicht man die p
kritischen Werte für post-hoc-Tests, so hat man bei der Varianzanalyse den Wert (J − 1) FJ−1,N −J;α und bei der Einschränkung auf Kontraste
p
aus U den Wert m Fm,N −J;α . Handelt es sich um eine echte Einschränkung der
Fragestellung, ist also m < (J − 1), so wird der zweite kritische Wert kleiner sein
als der erste. Dies bedeutet, dass derjenige, der weniger globale und in diesem
Sinn präzisere Fragen stellt, dadurch belohnt wird, dass er eher signifikante Ergebnisse bekommt – der Preis, der dafür zu zahlen ist, ist allerdings der, dass
eben nur Kontraste aus U untersucht werden können und nicht mehr alle.
Es sei schließlich noch angemerkt, dass – auch abgesehen von dem Globaltest – die
post-hoc-Regel eine mögliche Alpha-Adjustierung darstellt, die zur BonferroniAdjustierung in Konkurrenz treten kann, und die in dem Fall, dass man ziemlich viele Kontraste untersuchen will, die alle aus U stammen, der BonferroniAdjustierung oft überlegen sein wird.
Schließlich kann man auch noch simultane Konfidenzintervalle für die Kontraste
aus U konstruieren; dies geht genauso wie im Fall der einfaktoriellen Varianzp
analyse, außer dass für das dort verwendete k nun wieder m Fm,N −J;α (statt
1.5
Kontraste
QM2 15
127
p
(J − 1) FJ−1,N −J;α ) einzusetzen ist. Der Vergleich der simultanen Konfidenzintervalle für alle Kontraste mit denen für Kontraste aus U zeigt dann, dass die für
Kontraste aus U weniger breit sind. Auch hier wird also die Einschränkung der
Fragestellung belohnt, allerdings eben um den Preis, dass jetzt nur noch Aussagen
über Kontraste aus U gemacht werden können.
Der Zusammenhang zwischen post-hoc-Tests und simultanen Konfindenzintervallen ist ganz analog zu dem bei der Untersuchung aller Kontraste.
Post-hoc-Tests bei der zweifaktoriellen Varianzanalyse. Die Überlegungen
des letzten Abschnitts lassen sich auf mehrere Fragestellungen im Rahmen der
zweifaktoriellen Varianzanalyse anwenden.
Die Möglichkeit der Anwendung liegt darin begründet, dass in der Situation der
zweifaktoriellen Varianzanalyse ja auch alle Voraussetzungen einer einfaktoriellen
Varianzanalyse gelten (der assoziierten einfaktoriellen nämlich).
Betrachtet man dann beispielsweise die A-Kontraste, so findet man leicht, dass
es sich dabei um einen Unterraum aller Kontraste handelt, der die Dimension
J − 1 hat (es gilt hier wieder die Notation aus der zweifaktoriellen Varianzanalyse: Faktor A hat J Stufen, Faktor B hat K Stufen und pro Zelle werden n
Beobachtungen gemacht).
Man kann also einen UI-Test für alle A-Kontraste konstruieren; es sollte nicht
überraschen, dass sich dabei der bekannte Test für den Haupteffekt von A ergibt.
Neu ist jedoch bei dieser Betrachtungsweise, dass es nun auch möglich ist, posthoc-Tests durchzuführen. Als kritischen Wert für post-hoc-Tests von A-Kontrasten
erhält man dann entsprechend den allgemeinen Ausführungen oben den Wert
p
(J − 1) FJ−1,JK(n−1);α .
Im Übrigen gelten die oben für den allgemeinen Fall gemachten Bemerkungen.
Natürlich gelten diese Aussagen analog für B-Kontraste; die Dimension des Unterraums der B-Kontraste ist K − 1, der kritische Wert für post-hoc-Tests von
p
B-Kontrasten die Zahl (K − 1) FK−1,JK(n−1);α .
Auch die Interaktionskontraste bilden einen Unterraum, was man sich am besten an den in Matrixform aufgeschriebenen Koeffizientenvektoren klar macht,
bei denen ja zeilen- und spaltenweise die Summen gleich 0 sein müssen. Da
der Koeffizientenvektor einer Summe die Summe der Koeffizientenvektoren ist,
1.5
Kontraste
QM2 15
128
erbt der Koeffizientenvektor der Summe die gerade erwähnte Eigenschaft von
den Summanden; analog argumentiert man für Vielfache von Interaktionskontrasten. Die Summe von zwei Interaktionskontrasten ist also wieder Interaktionskontrast, ebenso das Vielfache eines Interaktionskontrasts. Damit bilden die
Interaktionskontraste tatsächlich einen Unterraum, dessen Dimension sich dann
zu (J − 1)(K − 1) bestimmt.
Dass die Nullhypothese der Interaktionsfragestellung genau dann gilt, wenn alle
Interaktionskontraste 0 sind hatte sich oben schon gezeigt; es kann damit ein
UI-Test für die Interaktion konstruiert werden.
Auch hier ist dieser UI-Test wieder der schon bekannte Test auf Interaktion; der
kritische Wert für post-hoc-Tests von Interaktionskontrasten ist entsprechend die
p
Zahl (J − 1)(K − 1) F(J−1)(K−1),JK(n−1);α .
Als weiteres Anwendungsbeispiel seien die Tests auf einfache Effekte erwähnt,
also beispielsweise der Test, ob die Erwartungswerte von B in der ersten Stufe
von A alle gleich sind (also alle Erwartungswerte in der ersten Zeile). Zu dieser
Frage gehören dann gerade die Kontraste, die höchstens diese Erwartungswerte
mit einem Koeffizienten 6= 0 enthalten; sie bilden einen Unterraum der Dimension
K − 1. Offenbar sind die Erwartungswerte der ersten Stufe von A genau dann
alle gleich, wenn alle diese Kontraste 0 sind, was wieder die Möglichkeit zur
Konstruktion eines UI-Tests gibt.
Der UI-Test zu dieser Frage ist der bereits bekannte Test auf einen einfachen
Effekt von B auf der ersten Stufe von A; der zugehörige F -Bruch ist der, den
man erhält, wenn man die M Sb der isoliert betrachteten ersten Stufe von A (man
hat hier dann K Zellen, die den Stufen von B entsprechen) durch M SE teilt.
Die Anzahl der Freiheitsgrade ist K − 1 für den Zähler und JK(n − 1) für den
Nenner.
Der kritische Wert für post-hoc-Tests auf der ersten Stufe von A ist entsprechend
p
(K − 1) FK−1,JK(n−1);α .
Es handelt sich hier übrigens – unter dem Blickwinkel der assoziierten einfaktoriellen Varianzanalyse – um einen Fall, bei dem es nur um eine Teilmenge aller
Erwartungswerte geht, das entsprechende bei der allgemeinen Erörterung benutzte Beispiel stellt sich nun also als gar nicht so künstlich heraus.
Ganz analog verfährt man natürlich, wenn es um einen einfachen Effekt von B
auf einer anderen Stufe von A geht oder um einen einfachen Effekt von A auf
1.5
Kontraste
QM2 15
129
irgendeiner festen Stufe von B.
Adjustierung bei der zweifaktoriellen Varianzanalyse. Interessanterweise
wird, was die Tests der Haupteffekte und des Interaktionseffekts bei der zweifaktoriellen Varianzanalyse angeht, traditionellerweise nicht adjustiert, teilweise mit
merkwürdigen Begründungen.
Entsprechend unterlässt man die Adjustierung dann auch bei den post-hoc-Tests.
Oft ist es so, dass man immerhin für A-Kontraste, B-Kontraste und Interaktionskontraste für sich genommen die oben beschriebene Adjustiermethode verwendet,
nicht jedoch übergreifend adjustiert.
Für diese Vorgehensweise hat man den schönen Ausdruck geprägt, dass man familienweise adjustiert, wobei die A-, B- und Interaktionskontraste je eine Familie
bilden.
Nun sind bei der zweifaktoriellen Varianzanalyse aber auch gerade Vergleiche von
einzelnen Zellen interessant. Bei diesen hat sich oben gezeigt, dass sie zu keiner
der genannten ‚Familien‘ gehören. Die Untersuchung solcher ‚Waisen‘ wird meist
zu weiterer Alphaaufblähung führen.
Die Vermeidung dieser Alphainflationen (mit der besprochenen UI-Technik) wäre
nicht besonders schwierig. Entsprechende Vorschriften würden jedoch die Anzahl
signifikanter Ergebnisse deutlich vermindern (in noch stärkerem Ausmaß bei Varianzanalysen mit drei oder mehr Faktoren). Das mag ein Grund sein, weshalb
sie nicht bekannt sind oder keine Anwendung finden. Daher wird auch hier nicht
näher auf dieses Thema eingegangen.