QM2 15 1 1.1 1 Ergänzungen zu Statistik II Stichprobenverteilungen Produkträume. In diesem Abschnitt geht es darum, einen geeigneten Wahrscheinlichkeitsraum für die unabhängige Durchführung zweier Experimente zu konstruieren. Die Konstruktion soll nur an einem Beispiel durchgeführt werden, wobei jedoch klar werden dürfte, wie diese Konstruktion dann im allgemeinen Fall aussieht. Die Experimente sollen hier das Werfen eines unfairen Würfels und das einer unfairen Münze sein. Zunächst werden die Wahrscheinlichkeitsräume für die Einzelexperimente angegeben. Beim Würfeln ist die Grundgesamtheit Ω1 = {1, . . . , 6}, wobei das Wahrscheinlichkeitsmaß P1 gegeben sei durch die folgende Wahrscheinlichkeitsfunktion f1 : ω1 f1 (ω1 ) 1 .1 2 .1 . .1 3 4 .1 5 .1 6 .5 Beim Münzwurf ist die Grundgesamtheit Ω2 = {W, Z}, und das zugehörige Wahrscheinlichkeitsmaß P2 sei durch die Wahrscheinlichkeitsfunktion f2 gegeben: ω2 f2 (ω2 ) . W .3 Z .7 Für die unabhängige Durchführung beider Experimente wird man als Grundgesamtheit Ω naheliegenderweise Ω1 × Ω2 wählen. Als angemessenes Wahrscheinlichkeitsmaß erweist sich eine Art Produkt der einzelnen Maße; die Wahrscheinlichkeitsfunktion wählt man nämlich als Produkt der gegebenen beiden einzelnen Wahrscheinlichkeitsfunktionen. In der folgenden Tabelle ist diese Wahrscheinlichkeitsfunktion angegeben, außer- 1.1 Stichprobenverteilungen QM2 15 2 dem stehen die ‚Faktoren‘ am Rand der Tabelle: ω1 \ω2 1 2 3 4 5 6 W .03 .03 .03 .03 .03 .15 .3 Z .07 .07 .07 .07 .07 .35 .7 .1 .1 .1 . .1 .1 .5 1 Dass die durch die Tabelle gegebene Funktion auf Ω1 × Ω2 tatsächlich eine Wahrscheinlichkeitsfunktion ist, rechnet man unmittelbar nach (die Summe der Zahlen ist 1). Man macht sich auch leicht klar, dass dies so sein muss, denn zunächst ergeben sich die Zahlen am rechten und unteren Rand durch zeilen- bzw. spaltenweises Aufsummieren (was nach Konstruktion offenbar so sein muss), und dann ist die Summe dieser Summen jeweils 1, da ja jeweils die Werte einer Wahrscheinlichkeitsfunktion aufsummiert werden. Betrachtet man auf dem so definierten Wahrscheinlichkeitsraum nun die beiden ‚Projektionen‘, die einem Paar (ω1 , ω2 ) einerseits ω1 und andererseits ω2 zuordnen (inhaltlich heißt das, dass die Ergebnisse der Teilversuche isoliert betrachtet werden), so erhält man als Kontingenztafel dieser beiden Zufallsvariablen genau die gerade untersuchte Tabelle. Man beachte allerdings, dass mit den beiden formal gleich aussehenden Tabellen konzeptuell verschiedene Sachverhalte beschrieben werden: einmal wird ein Wahrscheinlichkeitsmaß definiert und einmal eine Kontingenztafel zweier Zufallsvariablen angegeben. Um dies auch formal korrekt aufzuschreiben, seien K1 und K2 die Funktionen auf Ω1 ×Ω2 , die gerade die erste bzw. zweite Komponente eines Elementes von Ω1 ×Ω2 liefern; es gilt also K1 (ω1 , ω2 ) = ω1 und K2 (ω1 , ω2 ) = ω2 (eigentlich müsste man K1 ((ω1 , ω2 )) schreiben). Die Funktionen K1 und K2 sind dann Zufallsvariablen auf Ω1 × Ω2 mit Werten in Ω1 bzw. Ω2 . Die Tabelle oben kann dann auch als die Kontingenztafel der gemeinsamen Verteilung von K1 und K2 gelesen werden. Da in der Tabelle, als Kontingenztafel aufgefasst, sich die Zahlen als Produkte der Randsummen ergeben, sind die beiden Projektionen unabhängig. Man hat also insgesamt einen Wahrscheinlichkeitsraum für das zusammengesetzte Experiment definiert, bei dem die beiden Zufallsvariablen, die das Ergebnis der beiden Teilexperimente angeben, einerseits unabhängig sind und andererseits die gleiche 1.1 Stichprobenverteilungen QM2 15 3 Verteilung haben, wie die Ergebnisse der isoliert betrachteten Teilexperimente. Damit erweist sich die Konstruktion des Wahrscheinlichkeitsmaßes auf Ω1 × Ω2 als angemessen, da dieses Wahrscheinlichkeitsmaß nun genau die Bedingungen erfüllt, die sinnvoll von ihm zu fordern sind. Das so konstruierte Maß bezeichnet man auch als das Produktmaß von P1 und P2 . Als Abkürzung dient oft die Schreibweise P1 ⊗ P2 . Nun mögen für das Würfeln und für das Münzwerfen zwei Gewinnspiele durch zwei Zufallsvariablen definiert sein. Die Zufallsvariable X1 auf Ω1 und die Zufallsvariable X2 auf Ω2 sollen durch die folgenden Tabellen gegeben sein: ω1 X1 (ω1 ) 1 0 2 −2 3 −2 3 4 5 −2 6 3 ω2 X2 (ω2 ) . W −1 1 Z Die Zufallsvariablen geben den Gewinn bzw. Verlust bei den einzelnen Spielen an. Wären Würfel und Münze fair, so wären auch diese Spiele fair; so sind sie es offenbar nicht. Es geht nun darum, wie man das Spiel beschreibt, das aus den beiden einzelnen Spielen zusammengesetzt ist, bei dem also jedesmal sowohl ein Würfel als auch eine Münze geworfen werden. Auch hier sollen die beiden Einzelgewinne durch zwei Zufallsvariable gegeben sein, die jetzt allerdings auf Ω1 × Ω2 definiert sein sollen. Ist das Ergebnis des zusammengesetzten Experiments gleich (ω1 , ω2 ), so soll natürlich der Gewinn des Würfelanteils des Spiels gleich X1 (ω1 ) sein und der des Münzwurfanteils gleich X2 (ω2 ). Ist das Ergebnis des zusammengesetzten Experiments also beispielsweise (3, W ), so ist der Gewinn aus dem Würfelteil gleich X1 (3) = −2 und der Gewinn aus dem Münzteil gleich X2 (W ) = −1. Die Einzelgewinne aus dem zusammengesetzten Experiement sollen der Deutlichkeit halber hier mit X10 und X20 bezeichnet werden. Dies ist eine etwas umständliche Formulierung, die jedoch den momentanen Zwecken angemessen ist. 1.1 Stichprobenverteilungen QM2 15 4 Normalerweise würde man die Einzelgewinne wieder mit X1 und X2 bezeichnen, was allerdings nicht ganz korrekt ist, da die Symbole X1 und X2 schon verbraucht sind (die verständige Leserin entnähme aber leicht dem Kontext, was jeweils gemeint ist). Der Unterschied, auf den hier aufmerksam gemacht werden soll, liegt im Definitionsbereich; der Definitionsbereich von X10 und X20 ist Ω1 × Ω2 , während die Definitionsbereiche von X1 und X2 hingegen Ω1 und Ω2 sind. Der Zusammenhang ist jedoch eng: es gilt Xi0 (ω1 , ω2 ) = Xi (ωi ) (eigentlich wäre Xi0 ((ω1 , ω2 )) zu schreiben). Es gilt dann also beispielsweise X10 (3, W ) = X1 (3) = −2. Die gemeinsame Verteilung der beiden neuen (auf Ω1 × Ω2 definierten) Zufallsvariablen X10 und X20 lässt sich nun leicht angeben: x1 \x2 −2 0 3 −1 1 .09 .21 .3 .03 .07 .1 . .18 .42 .6 .3 .7 1 Man prüft sofort nach, dass die beiden Zufallsvariablen unabhängig sind und die gleichen Verteilungen besitzen wie die entsprechenden Zufallsvariablen aus den Einzelversuchen. Die Unabhängigkeit ist natürlich keineswegs zufällig. Vielmehr liegt hier ein Spezialfall einer etwas allgemeineren Tatsache vor, die nun zunächst ergänzend behandelt werden soll. Sind nämlich X und Y zwei unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum Ω, und sind g(X) und h(Y ) zwei Funktionen dieser Zufallsvariablen (also neue Zufallsvariablen), so sind auch g(X) und h(Y ) unabhängig. Zur Begründung hat man für zwei beliebige Mengen A und B aus dem Wertebereich von g und h die Unabhängigkeitsbedingung nachzuweisen, also zu zeigen, dass (g(X))−1 (A) und (h(Y ))−1 (B) unabhängig sind. Nun ist aber (g(X))−1 (A) = X −1 (g −1 (A)), da für ein Element ω ∈ Ω offenbar (g(X))(ω) = g(X(ω)) genau dann in A liegt, wenn X(ω) in g −1 (A) liegt, denn dies bedeutet ja genau, dass g(X(ω)) ∈ A gilt. Entsprechend ist (h(Y ))−1 (B) = Y −1 (h−1 (B)). Aus der Unabhängigkeit von X und Y folgt nun aber sofort die Unabhängigkeit von 1.1 Stichprobenverteilungen QM2 15 5 X −1 (g −1 (A)) und Y −1 (h−1 (B)) und damit die Gesamtbehauptung. Um diese allgemeine Tatsache nun auf den vorliegenden Fall anzuwenden, seien die beiden ‚Projektionen‘ von Ω1 × Ω2 auf Ω1 und Ω2 wieder mit K1 und K2 bezeichnet. Die beiden untersuchten Variablen sind dann X10 = X1 (K1 ) und X20 = X2 (K2 ) (es gilt ja offenbar X10 (ω1 , ω2 ) = X1 (ω1 ) = X1 (K1 (ω1 , ω2 )) = (X1 (K1 ))(ω1 , ω1 ), entsprechend für X2 ). Damit folgt die Unabhängigkeit von X10 und X20 aus der Unabhängigkeit von K1 und K2 gemäß der gerade behandelten allgemeineren Tatsache, wenn man dort X = K1 , Y = K2 , g = X1 und h = X2 setzt. Insgesamt ist es so gelungen, für zwei isolierte Experimente, deren (für einen bestimmten Zweck - im Beispiel das Budget des Spielers) wesentliche Resultate durch zwei Zufallsvariablen beschrieben werden, einen Wahrscheinlichkeitsraum zu konstruieren, der die gemeinsame unabhängige Durchführung der Experimente beschreibt, und auf diesem zwei Zufallsvariablen zu definieren, die wieder die wesentlichen Resultate der Einzelexperimente beschreiben, und die zusätzlich unabhängig sind. Der Unterschied zwischen X1 und X10 (ebenso zwischen X2 und X20 ) liegt im Grunde nur darin, dass bei X10 noch ein weiteres Experiment sozusagen im Hintergrund mit abläuft und bei X1 nicht, was in den unterschiedlichen Definitionsbereichen zum Ausdruck kommt. Die Verteilungen von X1 und X10 sind hingegen gleich. Genau auf die gleiche Art kann man für mehr als zwei Einzelexperimente einen Wahrscheinlichkeitsraum definieren, der deren gemeinsame unabhängige Durchführung beschreibt; auch hier können wesentliche Resultate durch dann unabhängige Zufallsvariablen hervorgehoben werden. Insbesondere ist es möglich, für vorgegebene Verteilungen einen Wahrscheinlichkeitsraum zu konstruieren, auf dem Zufallsvariablen definiert werden können, die gerade die gegebenen Verteilungen besitzen und die zusätzlich unabhängig sind. Dies ist für theoretische Zwecke, beispielsweise bei der Definition neuer Verteilungen, von entscheidender Wichtigkeit. Ein Spezialfall kommt besonders häufig vor, nämlich der, dass dasselbe Experiment unabhängig mehrfach wiederholt wird. In diesem Fall sei der angemessene Wahrscheinlichkeitsraum für die einmalige Durchführung Ω0 mit dem Wahrscheinlichkeitsmaß P0 ; ein wesentliches Resultat 1.1 Stichprobenverteilungen QM2 15 6 sei durch eine Zufallsvariable X gegeben. Der Wahrscheinlichkeitsraum für die n-malige unabhängige Durchführung des Experiments ist dann Ω = Ωn0 , versehen mit dem entsprechend den obigen Überlegungen zu definierenden Wahrscheinlichkeitsmaß P = P0 ⊗ P0 ⊗ . . . ⊗ P0 . Die für die Versuche wesentlichen Resultate können dann durch Zufallsvariablen X1 , . . . , Xn beschrieben werden, von denen Xi gerade das Resultat des i-ten Teilversuchs liefert; genauer gilt also Xi (ω1 , . . . , ωn ) = X(ωi ) . Diese Zufallsvariablen X1 , . . . , Xn sind gemeinsam unabhängig und besitzen alle die gleiche Verteilung wie X. Für diese Situation benutzt man auch abkürzend die Sprechweise, dass X1 , . . . , Xn unabhängige Versionen von X sind. Stichprobenverteilung von Varianzen und Kovarianzen. Als Ausgangssituation seien X1 , . . . , Xn unabhängige Versionen einer Zufallsvariable X mit E(X) = µ und V(X) = σ 2 . Beschreibt man mit diesen Variablen die Resultate von n unabhängigen Durchführungen eines Zufallsversuchs, so handelt es sich hier um eine Stichprobe (die allerdings erst noch zu erheben ist). Auf der Grundlage dieser Werte kann man dann die Varianz S2 = 1X (Xi − M )2 n mit M= 1X Xi n 2 mit den Xi also eine Zufallsvariable. bilden. Hier ist SX Für den Erwartungswert von S 2 gilt dann E(S 2 ) = n−1 2 σ , n wie nun gezeigt werden soll. Zunächst sei daran erinnert, dass für jede Zufallsvariable X die Beziehung E(X 2 ) = V(X) + (E(X))2 (1) gilt; dies ist nur die Umstellung der bekannten Formel V(X) = E(X 2 ) − (E(X))2 . 1.1 Stichprobenverteilungen QM2 15 7 Die Varianz S 2 lässt sich nun bekanntlich auch schreiben als S 2 = MX 2 − (MX )2 , woraus für den Erwartungswert die Beziehung E(S 2 ) = E(MX 2 ) − E((MX )2 ) (2) folgt; es sollen daher nun die beiden Erwartungswerte auf der rechten Seite dieser Gleichung bestimmt und dann subtrahiert werden. Zuerst geht es um MX 2 , also um den Mittelwert der Xi2 . Da die Xi unabhängige Versionen von X sind, sind auch die Xi2 unabhängige Versionen von X 2 : da die Verteilungen von Xi und X gleich sind, sind auch die Verteilungen von Xi2 und X 2 gleich, und da die Xi unabhängig sind, sind auch die Xi2 unabhängig (vgl. den Abschnitt über Produkträume für die Begründung im Fall von zwei Variablen). Es folgt, dass der Erwartungswert von MX 2 gleich dem Erwartungswert von X 2 ist, womit sich nach (1) insgesamt E(MX 2 ) = E(X 2 ) = σ 2 + µ2 (3) ergibt. Der nächste zu bestimmende Wert ist E((MX )2 ). Bekannt ist die Varianz von MX , nämlich σ 2 /n. Setzt man in (1) für X den Mittelwert MX ein, so erhält man E((MX )2 ) = V(MX ) + (E(MX ))2 = σ2 + µ2 . n (4) Durch Einsetzen von (3) und (4) in (2) erhält man nun schließlich das gewünschte Resultat E(S 2 ) = E(MX 2 ) − E((MX )2 ) 2 σ σ2 n−1 2 2 2 2 = σ +µ − +µ = σ2 − = σ . n n n Die Stichprobenvarianz S 2 ist also kein erwartungstreuer Schätzer für σ 2 , was sich aber leicht korrigieren lässt: die korrigierte Stichprobenvarianz s2 = n S2 n−1 1.1 Stichprobenverteilungen QM2 15 8 schätzt σ 2 erwartungstreu. Es liegt damit die Frage nahe, ob man etwas über den Erwartungswert von s aussagen kann. Da Varianzen nichtnegativ sind, gilt immerhin 0 ≤ V(s) = E(s2 ) − (E(s))2 , woraus über (E(s))2 ≤ E(s2 ) die Beziehung √ p p E(s) = (E(s))2 ≤ E(s2 ) = σ 2 = σ folgt. Gleichheit gilt hier nur in dem Fall, dass V(s) = 0 gilt, was nur dann eintritt, wenn die möglichen Stichproben mit Wahrscheinlichkeit 1 die Varianz 0 haben, also aus lauter gleichen Werten bestehen, was wiederum nur dann möglich ist, wenn X nur einen möglichen Wert (mit Wahrscheinlichkeit 1) annehmen kann. Der Fall der Gleichheit tritt also nur für völlig uninteressante Zufallsvariablen X auf, die fast sicher konstant sind. Bei Zufallsvariablen, die nicht (f.s.) konstant sind, gilt daher immer E(s) < σ , durch s wird σ also ‚systematisch‘ unterschätzt. Schließlich soll noch die Frage nach dem Erwartungswert der Stichprobenkovarianz beantwortet werden. Man kann diese Frage auf die schon bekannten Ergebnisse über die Varianz zurückführen, indem man die folgende Beziehung ausnutzt: V(X + Y ) − V(X − Y ) = V(X) + V(Y ) + 2 Kov(X, Y ) − (V(X) + V(Y ) − 2 Kov(X, Y )) = 4 Kov(X, Y ) . Die Kovarianz lässt sich also auch mit Hilfe der Varianz der Summe und der Differenz ausdrücken. Ganz analog erhält man auf empirischer Ebene die Formel 2 2 SX+Y − SX−Y = 4 KovX,Y . 1.1 Stichprobenverteilungen QM2 15 9 Mit Hilfe dieser Formeln kann nun der Erwartungswert der Stichprobenkovarianz bestimmt werden. Vorausgesetzt sind dabei wieder n unabhängige Versuche, in denen nun zwei Variablen X und Y erhoben werden sollen. Schreibt man für die Resultate der einzelnen Durchgänge wieder Xi und Yi , so kann man diese Voraussetzung formal auch so schreiben, dass (X1 , Y1 ), . . . , (Xn , Yn ) unabhängige Versionen der (nun ‚zweidimensionalen‘) Zufallsvariable (X, Y ) sein sollen. Der Erwartungswert der Stichprobenkovarianz ist nun 1 2 1 2 2 2 E(KovX,Y ) = E (SX+Y − SX−Y ) = E(SX+Y ) − E(SX−Y ) 4 4 n−1 1 n−1 V(X + Y ) − V(X − Y ) = 4 n n n−1 1 = (V(X + Y ) − V(X − Y )) n 4 n−1 Kov(X, Y ) . = n Auch hier ist es also so, dass die Stichprobenkovarianz (im Betrag) die theoretische Kovarianz systematisch unterschätzt, was man leicht dadurch korrigieren kann, dass man zur korrigierten Stichprobenkovarianz n KovX,Y n−1 übergeht, die dann für Kov(X, Y ) erwartungstreu ist; die korrigierte Stichprobenkovarianz errechnet man dabei genauso wie die unkorrigierte, außer dass man im letzten Schritt nicht durch n sondern durch (n − 1) dividiert. Anmerkung zur Definition der Binomialverteilung. Sind X1 , . . . , Xn unabhängige Versionen einer Variable X, die Bernoulli-verteilt ist mit Erfolgswahrscheinlichkeit p, und ist Y = n X Xi , i=1 so heißt die Verteilung von Y auch Binomialverteilung mit den Parametern n und p. Die Abkürzung für diese Verteilung ist B(n, p). 1.1 Stichprobenverteilungen QM2 15 10 Hat eine Variable U die B(n, p)-Verteilung, so schreibt man dafür auch kurz U ∼ B(n, p). Zu der Definition der Binomialverteilung ist anzumerken, dass hier eine Verteilung definiert wird dadurch, dass eine Variable konstruiert wird, die diese Verteilung besitzt (nämlich Y ). Es geht dabei um die Definition einer Verteilung und nicht etwa um die Definition einer binomialverteilten Variable. Eine binomialverteilte Variable ist eine Variable, deren Verteilung eine Binomialverteilung ist; keinesfalls muss eine solche Variable gleich einer Summe unabhängiger Bernoulli-verteilter Variablen sein (auch wenn dies in vielen Fällen so sein wird). Will man nun Eigenschaften von binomialverteilten Variablen zeigen (beispielsweise eine Formel für den Erwartungswert angeben), so genügt es oft, eine spezielle binomialverteilte Variable wie die Variable Y in der Definition zu benutzen; sind die Eigenschaften nämlich nur abhängig von der Verteilung, so ist es gleichgültig, welche Variable bei der Argumentation benutzt wird, da das Ergebnis bei allen Variablen das gleiche sein muss. Der Erwartungswert lässt sich beispielsweise auch nur auf der Grundlage der Verteilung berechnen (ist f die Wahrscheinlichkeitsfunktion der Verteilung, so P ist der Erwartungswert gleich xf (x), wobei über alle möglichen Werte x der Verteilung summiert wird). Daher haben alle Zufallsvariablen, die die gleiche Verteilung besitzen, auch den gleichen Erwartungswert – in diesem Sinn hängt der Erwartungswert nur über die Verteilung von der Zufallsvariable ab. Man kann deshalb auch (nicht ganz korrekt) vom Erwartungswert der Binomialverteilung sprechen (obwohl streng genommen nicht Verteilungen Erwartungswerte besitzen, sondern Zufallsvariablen). Um den Erwartungswert der B(n, p)-Verteilung (in diesem Sinn) zu bestimmen, genügt es also, eine spezielle Variable mit dieser Verteilung zu benutzen (wie die Variable Y in der Definition) und von dieser Variable den Erwartungswert zu bilden (der sich für Y sofort zu n · p berechnet); jede andere Variable mit der B(n, p)-Verteilung hat dann ebenfalls diesen Erwartungswert. Als ein weiteres Beispiel soll gezeigt werden, dass die Verteilung von zwei unabhängigen binomialverteilten Variablen mit gleicher Erfolgswahrscheinlichkeit wieder binomialverteilt ist. Sind nämlich genauer Y1 ∼ B(n1 , p) und Y1 ∼ B(n2 , p) 1.1 Stichprobenverteilungen QM2 15 11 unabhängig, und ist Y = Y1 + Y2 , so gilt Y ∼ B(n1 + n2 , p) . Zur Begründung seien X1 , . . . , Xn1 , Xn1 +1 , . . . , Xn1 +n2 unabhängige Bernoulli-verteilte Variablen mit Erfolgswahrscheinlichkeit p. Dass es solche Variablen gibt, ist vielleicht nicht ganz selbstverständlich – man konstruiert sie jedoch beispielsweise mit den bei den Produkträumen skizzierten Methoden. Mit den Variablen Xi bildet man nun neue Variablen U1 und U2 als U1 := n1 X i=1 Xi und U2 := nX 1 +n2 Xi . i=n1 +1 Dann gilt U1 ∼ B(n1 , p) und U1 ∼ B(n2 , p), U1 und U2 haben also die gleichen Verteilungen wie Y1 und Y2 . Außerdem sind U1 und U2 unabhängig, was plausibel ist, da ja die Xi , deren Summe sie jeweils sind, unabhängig sind (streng genommen müsste dies allerdings auch noch genauer gezeigt werden). Damit haben auch U1 und U2 die gleiche gemeinsame Verteilung wie Y1 und Y2 , denn die gemeinsame Verteilung ist durch die Einzelverteilungen und die Tatsache der Unabhängigkeit schon vollständig bestimmt. Schließlich ist auch die Verteilung von U = U1 + U2 gleich der von Y = Y1 + Y2 , denn es handelt sich bei diesen beiden Verteilungen um die Bildmaße der gleichen W-Maße (Verteilungen von (U1 , U2 ) bzw. (Y1 , Y2 )) unter der gleichen Funktion (Addition der beiden Komponenten). P 1 +n2 Da jedoch nun U = ni=1 Xi die Summe von n1 + n2 unabhängigen BernoulliVariablen ist, ist die Verteilung von U eine B(n1 + n2 , p)-Verteilung und damit auch die von Y . Multinomialverteilung. Die Binomialverteilung kann verallgemeinert werden für den Fall, dass ein Versuch nicht nur zwei mögliche Ergebnisse hat, sondern mehrere, nämlich e1 . . . , em , die mit Wahrscheinlichkeiten p1 , . . . , pm auftreten. Gefragt ist nach den Wahrscheinlichkeiten, mit denen bei n unabhängigen VersuP chen die Werte ei jeweils genau ni Mal auftreten (dabei muss natürlich ni = n gelten). 1.1 Stichprobenverteilungen QM2 15 12 Die gesuchte Verteilung ermittelt man völlig analog zum Vorgehen bei der Binomialverteilung; die Frage ist zunächst die, mit welcher Wahrscheinlichkeit ein bestimmtes Gesamtergebnis auftritt, bei dem die Einzelwerte ei mit vorgegebenen Häufigkeiten ni auftreten, wobei zusätzlich noch vorgeschrieben ist, bei welchem Versuchsdurchgang welches Einzelergebnis auftreten soll. Wegen der Unabhängigkeit der Ziehungen ist die Wahrscheinlichkeit für jede solche spezielle Konstallation gleich pn1 1 pn2 2 . . . pnmm ; die Begründung ist völlig analog zu der im Fall der Binomialverteilung. Die als nächstes zu beantwortende Frage ist die, wieviele derartige Gesamtergebnisse es gibt, bei denen vorgeschrieben ist, dass die Einzelergebnisse ei mit den Häufigkeiten ni auftreten, wobei es nun jedoch gleichgültig ist, an welcher Stelle welches Einzelergebnis auftritt. Ganz analog zu den Überlegungen bei der Binomialverteilung ergibt sich hier als Anzahl der Multinomialkoeffizient n! . n1 !n2 ! . . . nm ! Man fragt sich zur Begründung beispielsweise, auf wieviele Arten man die Menge G der Nummern der Ziehungen so auf m Mengen Gi aufteilen kann, dass diese Mengen jeweils genau ni Elemente enthalten. Die Menge Gi soll dabei gerade die Nummern der Ziehungen enthalten, in denen das Ergebnis ei ist. Insgesamt ist damit die Wahrscheinlichkeit, bei n unabhängigen Ziehungen die Wertekombinationen ei mit den Häufigkeiten ni zu erhalten, gerade n! pn1 1 pn2 2 . . . pnmm . n1 !n2 ! . . . nm ! Die Verteilung, die sich auf diese Weise ergibt, heißt auch Multinomialverteilung, wobei offensichtlich ist, dass die Binomialverteilung gerade der Spezialfall ist, in der die betrachtete Variable zwei mögliche Werte besitzt. Zur Kontrolle kann man sich fragen, ob die Summe dieser Wahrscheinlichkeiten über alle möglichen Häufigkeitskombinationen n1 , . . . , nm auch wirklich gleich 1 ist; dies folgt jedoch wie im Fall der Binomialverteilung aus der beim Multinomialkoeffizienten behandelten Gleichung !n m X X n! pn1 1 pn2 2 . . . pnmm , 1 = 1n = pi = n ! n ! . . . n ! 1 2 m i=1 (n1 ,...,nm ) in der über alle m-Tupel (n1 , . . . , nm ) summiert wird, die aus nichtnegativen ganzen Zahlen bestehen, deren Summe n ist. 1.2 1.2 Stetige Verteilungen QM2 15 13 Stetige Verteilungen Die Einführung stetiger Zufallsvariablen erfordert einige Erweiterungen und Modifikationen der bisher betrachteten Wahrscheinlichkeitstheorie, die ja nur für endliche Grundgesamtheiten galt. Diese Modifikationen erfordern mathematische Voraussetzungen, die hier nicht zur Verfügung stehen. Trotzdem soll nun ein ungefährer Eindruck gegeben werden, welcher Art sie sind. Die wesentliche Änderung ist die, dass nun unendliche Grundgesamtheiten zugelassen werden müssen, da Zufallsvariablen auf endlichen Grundgesamtheiten nicht stetig sein können. Man hat also den Begriff des Wahrscheinlichkeitsraums zu verallgemeinern in der Weise, dass keine Einschränkungen über die Zahl der Ergebnisse gemacht werden. Die Grundgesamtheiten Ω können also nun auch aus unendlich vielen Elementen (Ergebnissen) bestehen. Es können dann die Wahrscheinlichkeiten einiger oder sogar aller Ergebnisse gleich 0 sein (die Formulierung ist nicht ganz korrekt, gemeint sind natürlich die Wahrscheinlichkeiten von Ereignissen, die aus nur einem Ergebnis bestehen). Um Widersprüche zu vermeiden, muss man die Gleichsetzung von Ereignissen mit Teilmengen von Ω aufgeben: Nur noch gewisse Teilmengen von Ω sind Ereignisse und nicht mehr alle. Zu Widersprüchen in einer ähnlichen Situation führt beispielsweise die Annahme der Existenz eines Flächenmaßes auf dem R2 , das für alle Teilmengen definiert ist und drei Eigenschaften besitzt, die man intuitiv von einem Flächenmaß fordern würde. Diese drei Eigenschaften sind die folgenden: Erstens soll das Maß für Rechtecke sich als Breite mal Höhe berechnen. Zweitens soll das Maß einer abzählbaren Vereinigung von disjunkten Teilmengen gleich der Summe der Maße der einzelnen Mengen sein (dies verallgemeinert das Analogon zum dritten Axiom für endliche W-Räume). Drittens soll das Maß ‚translationsinvariant‘ sein in dem Sinne, dass das Maß einer Menge (Fläche) sich nicht ändert, wenn man diese Menge verschiebt. Gäbe es nun ein Flächenmaß mit diesen Eigenschaften, so könnte man eine Teilmenge ‚konstruieren‘, deren Maß sowohl 0 als auch größer als 0 sein müsste. Hieraus folgt, dass ein derartiges Flächenmaß, das für alle Teilmengen definiert ist, nicht existieren kann. Wenn nun nicht mehr alle Teilmengen Ereignisse sein können, so wird man von den Ereignissen immerhin fordern, dass die Mengenoperationen der Vereinigung, 1.2 Stetige Verteilungen QM2 15 14 Durchschnittsbildung und Komplementbildung von Ereignissen wieder zu Ereignissen führen, denn diese Operationen haben ja für Ereignisse eine inhaltliche Interpretation. Genauer fordert man, dass man beim Bilden von Komplementen und von abzählbar unendlichen Vereinigungen immer wieder Ereignisse erhält (ferner soll ∅ immer ein Ereigis sein). Die Menge der Teilmengen, die dann Ereignisse sind, erhält durch diese Forderung eine Struktur, nämlich die einer sogenannten σ-Algebra. Sie heißt daher auch manchmal Ereignisalgebra. Die Definition eines Wahrscheinlichkeitsmaßes im allgemeinen Fall ist etwas komplizierter als im endlichen Fall; betroffen ist das dritte Axiom. Hier wird nun gefordert, dass die Wahrscheinlichkeit einer abzählbar unendlichen Vereinigung von disjunkten Ereignissen gleich der Summe der Wahrscheinlichkeiten dieser Ereignisse ist; statt um nur endlich viele Mengen geht es also jetzt um abzählbar unendlich viele. Die Begriffe des Erwartungswertes und der Varianz können nun auch nicht mehr einfach durch Summationen definiert werden, vielmehr ist hierfür die Konstruktion eines geeigneten Integrals nötig. Für den Erwartungswert und die Varianz (deren Definition nun einen geeigneten Integralbegriff voraussetzt), gelten dann weitgehend die gleichen Regeln und Gesetze wie im endlichen Fall, so dass man die im endlichen Fall gewonnenen Intuitionen weiter verwenden kann. Allerdings gibt es auch hier neue Probleme. So gibt es nun gelegentlich reelle Zufallsvariablen, die keinen Erwartungswert besitzen oder solche, deren Varianz unendlich groß ist. Was die Unabhängigkeit von Zufallsvariablen angeht, so ist nun die alte Definition nicht mehr tauglich. Nach dieser Definition waren ja zwei Zufallsvariablen X und Y unabhängig, wenn für alle möglichen Werte x und y die Beziehung P(X = x, Y = y) = P(X = x) P(Y = y) galt. Da es nun möglich ist, dass alle denkbaren Werte x und y die Wahrscheinlichkeit 0 haben, wird diese Definition unbrauchbar. Die Definition der Unabhängigkeit im allgemeinen Fall ist die, dass für ‚zulässige‘ Teilmengen A und B nun immer die Beziehung P(X ∈ A, Y ∈ B) = P(X ∈ A) P(Y ∈ B) gelten soll. Da diese Eigenschaft für endliche Wahrscheinlichkeitsräume sich als äquivalent zur dortigen Definition erwiesen hatte, stehen die beiden Definitionen 1.2 Stetige Verteilungen QM2 15 15 nicht im Widerspruch zueinander, vielmehr ist die frühere ein Spezialfall der allgemeineren. Die Multinormalverteilung. Die Zufallsvariablen X1 , . . . , Xn heißen multinormalverteilt oder gemeinsam normalverteilt, wenn jede Linearkombination dieser Variablen, die nicht Varianz 0 besitzt, normalverteilt ist. P Jede Variable der Form ai Xi + b, deren Varianz nicht 0 ist, soll also normalverteilt sein. Insbesondere sind dann Summen oder Differenzen gemeinsam normalverteilter Variablen normalverteilt, sofern ihre Varianz nicht 0 ist. Das gleiche gilt für die Variablen Xi selber, da beispielsweise X1 = 1 · X1 + 0 · X2 + . . . + 0 · Xn + 0 eine solche Linearkombination ist (entsprechend auch die anderen Xi ). Sind X1 , . . . , Xn multinormalverteilt, so sind also alle einzelnen Xi normalverteilt. Die Umkehrung gilt keinesfalls: Aus der Normalverteiltheit der Variablen X1 , . . . , Xn folgt nicht notwendigerweise deren gemeinsame Normalverteiltheit. Der hier eingeführte Begriff der Multinormalverteilung ist für die multivariate Statistik wohl die praktischste Verallgemeinerung der Normalverteilung auf mehrere Dimensionen. Leider ist für den Fall n = 1 eine (allerdings unbedeutende) Inkonsistenz zu konstatieren: Eine einzelne Variable X, deren Varianz 0 ist, gilt auch als multinormalverteilt, obgleich sie natürlich nicht normalverteilt ist. Einzelne normalverteilte Variablen sind hingegen immer auch multinormalverteilt. Die Forderung in der Definition der Multinormalverteilung ist recht stark, so dass es zunächst fraglich ist, ob es überhaupt multinormalverteilte Variablen gibt. Hier gilt jedoch der folgende (hier nicht begründbare) Satz: Sind X1 , . . . , Xn unabhängig und normalverteilt, so sind sie auch gemeinsam normalverteilt. Darüber hinaus gilt die folgende bemerkenswerte Feststellung (die hier ebenfalls nicht gezeigt werden kann): Sind X und Y gemeinsam normalverteilt und unkorreliert, so sind sie unabhängig. Für gemeinsam normalverteilte Variablen fallen also die Begriffe der Unabhängigkeit und der Unkorreliertheit zusammen, was ein Beleg dafür ist, wie stark der 1.2 Stetige Verteilungen QM2 15 16 Begriff der gemeinsamen Normalverteiltheit ist, denn allgemein folgt ja nur aus der Unabhängigkeit die Unkorreliertheit, nicht aber aus der Unkorreliertheit die Unabhängigkeit. Allgemeiner gilt für mehrere gemeinsam normalverteilte Variablen X1 , . . . , Xn , dass sie genau dann (gemeinsam) unabhängig sind, wenn sie paarweise unkorreliert sind. Zur χ2 -Verteilung. Für die Herleitung vieler Verteilungen von besonderer Wichtigkeit ist der folgende Satz: Sind X1 , . . . , Xn unabhängige Versionen von X ∼ N (µ, σ 2 ) und sind n M= 1X Xi n i=1 n und s2 = 1 X (Xi − M )2 n − 1 i=1 Stichprobenmittelwert und korrigierte Stichprobenvarianz, so sind M und s2 unabhängig und es gilt M ∼ N (µ, σ 2 /n) und (n − 1)s2 ∼ χ2n−1 . σ2 Die Begründung soll hier wenigstens für den Fall n = 2 gegeben werden. Hierzu sei Y = (X1 − X2 ). Als erstes soll gezeigt werden, dass M und Y gemeinsam normalverteilt und unabhängig sind. Um die gemeinsame Normalverteilung nachzuweisen, muss gezeigt werden, dass jede Linearkombination dieser Variablen normalverteilt ist oder Varianz 0 besitzt. Sei also a1 M + a2 Y eine beliebige Linearkombination (es ist klar, dass additive Konstanten hier irrelevant sind). Dann kann man dies umschreiben zu a1 M + a2 Y = a1 (X1 + X2 )/2 + a2 (X1 − X2 ) = (a1 /2 + a2 )X1 + (a1 /2 − a2 )X2 . Die gegebene Linearkombination ist also auch eine Linearkombination von X1 und X2 . Da X1 und X2 jedoch unabhängig und normalverteilt sind, sind sie auch gemeinsam normalverteilt, weshalb jede Linearkombination (also auch die gerade untersuchte) wieder normalverteilt ist oder Varianz 0 besitzt. Es folgt, wie gewünscht, die gemeinsame Normalverteilung von M und Y . 1.2 Stetige Verteilungen QM2 15 17 Die Kovarianz von M und Y bestimmt man zu Kov(M, Y ) = Kov((1/2)(X1 + X2 ), X1 − X2 ) = (1/2)Kov(X1 + X2 , X1 − X2 )) = (1/2) (Kov(X1 , X1 ) − Kov(X1 , X2 ) + Kov(X2 , X1 ) − Kov(X2 , X2 )) = (1/2)(σ 2 − σ 2 ) = 0 , da ja Kov(X1 , X1 ) = Kov(X2 , X2 ) = σ 2 gilt. Die Variablen M und Y sind also unkorreliert. Da M und Y auch gemeinsam normalverteilt sind, folgt aus der Unkorreliertheit sogar die Unabhängigkeit von M und Y . Als nächstes soll gezeigt werden, dass s2 eine Funktion von Y ist; dann vererbt sich nämlich die Unabhängigkeit von M und Y auf M und s2 . In der Tat gilt s2 = 1 (X1 − M )2 + (X2 − M )2 , (2 − 1) wobei 1 1 1 (X1 + X2 ) = (X1 − X2 ) = Y 2 2 2 ist und entsprechend X2 − M = (1/2)(X2 − X1 ) = (−1/2)Y . Es folgt 2 2 Y Y2 −Y Y2 2 s = = . + =2 2 2 4 2 X1 − M = X 1 − Nun bleiben nur noch die Aussagen über die Verteilungen von M und s2 . Die Verteilung von M ist schon bekannt, und für s2 bemerkt man zunächst, dass Y ∼ N (0, 2σ 2 ) gilt, denn einerseits ist der Erwartungswert von Y gleich E(Y ) = E(X1 − X2 ) = E(X1 ) − E(X2 ) = µ − µ = 0 , andererseits ist die Varianz von Y wegen der Unabhängigkeit von X1 und X2 gleich der Summe der Varianzen von X1 und X2 , also 2σ 2 . Da dies ungleich 0 ist, folgt auch noch die Normalverteilung von Y aus der gemeinsamen Normalverteilung von X1 und X2 . √ Aus Y ∼ N (0, 2σ 2 ) folgt direkt Y /( 2σ) ∼ N (0, 1), woraus sich schließlich 2 (n − 1)s2 (2 − 1)s2 s2 Y2 Y ∼ χ21 = = 2 = 2 = √ 2 2 σ σ σ 2σ 2σ 1.2 Stetige Verteilungen QM2 15 18 ergibt, da ja das Quadrat einer standardnormalverteilten Variable definitionsgemäß χ21 -verteilt ist. Als Ergänzung soll nun noch die Begründung für den Fall n = 3 skizziert werden; sie lässt ahnen, wie die Begründung für den allgemeinen Fall etwa aussehen würde. Allerdings kann man – mit geeigneten Hilfsmitteln, die hier noch nicht zur Verfügung stehen – die nötigen Schritte auch viel eleganter, kürzer und vor allem durchsichtiger formulieren. Im Fall n = 3 bildet man neben dem Mittelwert M = (X1 + X2 + X3 )/3 zwei geeignete neue Variablen, beispielsweise die Variablen 1 Y1 = √ (2X1 − X2 − X3 ) 6 1 Y2 = √ (X2 − X3 ) . 2 Zunächst zeigt man dann analog wie oben, dass M , Y1 und Y2 gemeinsam normalverteilt sind. Dann bestimmt man – wieder genau wie oben – die Varianzen und Kovarianzen, wobei sich herausstellt, dass die Kovarianzen alle 0 sind und die Varianzen von Y1 und Y2 gleich σ 2 . Man folgert wieder, dass M , Y1 und Y2 gemeinsam unabhängig sind. Aus Y1 und Y2 stellt man als nächstes eine weitere Variable U her als U = Y12 + Y22 , wobei sich die Unabhängigkeit von M , Y1 und Y2 auf M und U vererbt. Bildet man andererseits als Vorstufe zur Varianz den Ausdruck (X1 − M )2 + (X2 − M )2 + (X3 − M )2 , setzt man M = (X1 + X2 + X3 )/3 ein und formt das Ergebnis um, so stellt man fest, dass es sich dabei gerade um U handelt (wobei auch U nach Einsetzen der Ausdrücke für Y1 und Y2 entsprechend umzuformen ist). Als Ergebnis erhält man s2 = 1 2 1 1 (X1 − M )2 + (X2 − M )2 + (X3 − M )2 = U = 2 2 Y12 + Y22 , und hat damit (bis auf den Faktor 1/2) die Varianz s2 nicht mehr als eine Summe von drei Termen dargestellt, sondern als eine Summe von zwei unabhängigen 1.2 Stetige Verteilungen QM2 15 19 quadrierten normalverteilten Variablen. Dies ist die Stelle, an der sich die Zahl der Freiheitsgerade bestimmt. Berücksichtigt man, dass die Erwartungswerte von Y1 und Y2 beide 0 sind, so folgt, dass Z1 = Y1 /σ und Z2 = Y2 /σ standardnormalverteilt und ebenfalls unabhängig sind. An der Umformung (n − 1) s2 2 s2 U Y12 Y22 = = = + 2 = Z12 + Z22 σ2 σ2 σ2 σ2 σ erkennt man schließlich noch, dass (n − 1)s2 /σ 2 auch in diesem Fall χ2 verteilt ist, und zwar – wie behauptet – mit 2 Freiheitsgraden. Was die Zahl der sogenannten Freiheitsgrade angeht, so lädt der Name dazu ein, Assoziationen zu produzieren. Solche Assoziationen können natürlich nicht die (eher technische) Definition und die formalen Ableitungen ersetzen, sie sind jedoch als Merkhinweise durchaus nützlich und weisen bisweilen auch in die richtige Richtung. Bei den Freiheitsgraden der letzten Feststellung gibt es in der Tat eine recht eingängige (Pseudo)-Argumentation: In der ursprünglichen Situation können alle n Beobachtungen Xi unabhängig voneinander variieren, sie hätten in diesem Sinn n ‚Grade der Freiheit‘. Beim Bilden von s2 werden zunächst die Abweichungen der Xi vom Mittelwert M gebildet, also die Werte (Xi − M ), die dann quadriert und aufsummiert werden. Diese Werte (Xi − M ) können jedoch nun nicht mehr so unabhängig voneinander variieren wie die Xi , da ja bekanntlich die Summe der Abweichungen vom Mittelwert immer 0 ist. So ist durch die ersten n − 1 Werte (Xi − M ) der letzte Wert (Xn − M ) eindeutig festgelegt und hat gewissermaßen im Vergleich zu Xn seine Bewegungsfreiheit verloren. Von den ursprünglich n ‚Graden der Freiheit‘ bleiben ‚also‘ nun nur noch n − 1 übrig. Diese Argumentation veranschaulicht schön den ‚Verlust eines Freiheitsgrades‘ und ist in dieser Hinsicht nützlich. Sie ist auch harmlos, wenn man sie nicht mit einer Begründung verwechselt. Die korrekte Begründung (die einen hier nicht vertretbaren mathematischen Aufwand erfordert) sieht natürlich anders aus, wobei sich allerdings durchaus Elemente der betrachteten Argumentation wiederfinden. In diesem Sinn ist die Argumentation nicht nur als Merkhinweis nützlich, sondern weist sogar auch noch in die richtige Richtung. Eine bemerkenswerte Eigenschaft der χ2 -Verteilungen ist ihr Verhalten beim Addieren: 1.2 Stetige Verteilungen QM2 15 20 Sind Y1 ∼ χ2m und Y2 ∼ χ2n unabhängig, so gilt Y1 + Y2 ∼ χ2m+n . Die Summe unabhängiger χ2 -verteilter Variablen ist also wieder χ2 -verteilt, wobei sich die Freiheitsgrade addieren. Um interessierten Leserinnen eine Vorstellung zu geben, wie derartige Aussagen zu beweisen sind, soll hier skizzenhaft eine Begründung gegeben werden, die im Wesentlichen korrekt ist (und vielleicht etwas komplizierter, als man erwarten würde). Bei einigen Schritten fehlt die Rechtfertigung, wenngleich diese Schritte intuitiv einsichtig sind; eine solche Rechtfertigung würde einige Vorarbeiten hinsichtlich Eigenschaften unabhängiger Variablen und gemeinsamer Verteilungen erfordern. Um das Unterscheidungsvermögen für korrekte und nur plausibilisierende Argumentationen zu schulen, sind solche Stellen mit (∗) markiert. Zur Begründung seien nun also X1 , . . . , Xm , Xm+1 , . . . , Xm+n unabhängige normalverteilte Zufallsvariablen. Man definiert dann neue Zufallsvariablen Ỹ1 und Ỹ2 als m m+n X X 2 Ỹ1 = Xi und Ỹ2 = Xi2 . i=1 i=m+1 Diese Variablen sind dann definitionsgemäß χ2 -verteilt mit m und n Freiheitsgraden und zusätzlich unabhängig, da die Gruppen der Xi , aus denen sie gebildet sind, voneinander unabhängig sind (∗). Die Variablen Ỹ1 und Ỹ2 haben also die gleichen Verteilungen wie Y1 und Y2 . Da die gemeinsame Verteilung von zwei unabhängigen Variablen durch die Einzelverteilungen bereits vollständig festliegt (∗), ist auch die gemeinsame Verteilung von Ỹ1 und Ỹ2 gleich der gemeinsamen Verteilung von Y1 und Y2 (für diskrete Variablen ist diese plausible Tatsache bekannt – die gemeinsame W-Funktion ist das Produkt der Rand-W-Funktionen – und bei stetigen Variablen mit Dichte gilt ja ein ähnlicher Satz). Da die Verteilung einer Funktion f (X) einer Variablen X durch die Verteilung der Variablen selbst vollständig bestimmt ist (∗) (für diskrete Variablen ist dies bekannt), stimmen die Verteilungen von Ỹ1 + Ỹ2 und Y1 +Y2 überein (die Funktion f ist hier die auf R × R definierte Addition, und die Rolle der Variablen X wird hier einmal von (Ỹ1 , Ỹ2 ) und einmal von (Y1 , Y2 ) übernommen – die Variablen, auf die die Funktion wirkt, sind also hier jeweils schon ‚zweidimensional‘). 1.2 Stetige Verteilungen QM2 15 21 Die Verteilung von Ỹ1 + Ỹ2 = n+m X Xi2 i=1 ist jedoch defintionsgemäß eine die Behauptung gezeigt ist. χ2m+n -Verteilung, also auch die von Y1 +Y2 , womit Zur F -Verteilung. Sind X ∼ χ2n und Y ∼ χ2m unabhängig, und ist U= X/n , Y /m so heißt die Verteilung von U auch F -Verteilung mit n Zähler- und m Nennerfreiheitsgraden. Die Abkürzung für diese Verteilung ist Fn,m . Die F -Verteilungen mit einem Zählerfreiheitsgrad sind eng mit den t-Verteilungen verwandt: Gilt V ∼ tn , so gilt V 2 ∼ F1,n . 2 Zur Begründung seien p X ∼ N (0, 1) und Y ∼ χn unabhängig. Dann ist die Verteilung von W = X/ Y /n eine tn -Verteilung, die Verteilung von W stimmt also mit der von V überein. Daher stimmt auch die Verteilung von W 2 mit der von V 2 überein (vgl. hierzu die Anmerkungen zur Verteilung der Summe zweier unabhängiger χ2 -Variablen). Die Variable W 2 ist aber gleich X 2 /(Y /n) = (X 2 /1)/(Y /n). Da X 2 als Quadrat einer standardnormalverteilten Variablen eine χ21 -Verteilung besitzt, und da mit X und Y auch Zähler und Nenner von W 2 unabhängig sind, hat W 2 definitionsgemäß eine F1,n -Verteilung. Folglich besitzt auch V 2 diese Verteilung. Kehrwerte von F -verteilten Variablen sind wieder F -verteilt: Gilt U ∼ Fn,m , so gilt 1/U ∼ Fm,n . Zur Begründung seien X ∼ χ2n und Y ∼ χ2m unabhängig, W = (X/n)/(Y /m). Dann besitzt W definitionsgemäß eine Fn,m -Verteilung, also die gleiche Verteilung wie U . Folglich besitzen auch 1/U und 1/W die gleiche Verteilung. Wegen 1/W = (Y /m)/(X/n) ist jedoch die Verteilung von 1/W eine Fm,n -Verteilung, und damit auch die Verteilung von 1/U . 1.3 1.3 Spezielle Verfahren QM2 15 22 Spezielle Verfahren Anpassungstests. Zum χ2 -Test auf eine feste Verteilung. Bei Anpassungstests geht es um die Frage, ob eine gegebene Variable eine spezielle Verteilung oder eine Verteilung aus einer bestimmten Klasse besitzt (beispielsweise eine Normalverteilung mit nicht spezifiziertem Erwartungswert und nicht spezifizierter Varianz). Hier wird zunächst der einfachere Fall behandelt, dass die Verteilung, um die es geht, fest vorgegeben ist (beispielsweise eine spezielle Normalverteilung wie N (100, 225)). Die Nullhypothese ist die, dass die Verteilung der untersuchten Variable X gleich dieser Verteilung V0 ist, die Alternativhypothese besagt hingegen, dass die Verteilung von X nicht V0 ist. Beim χ2 -Test geht man in diesem Fall bekanntlich so vor, dass man zunächst den Wertebereich der Variable X in J disjunkte Teilmengen Aj einteilt. Die Wahrscheinlichkeiten dieser Teilmengen unter H0 seien die Zahlen pj0 . Unter H0 gilt also P(X ∈ Aj ) = pj0 . Die pj0 müssen dabei alle 6= 0 sein. Im allgemeinen Fall, in dem die Verteilung von X nicht spezifiziert wird, sollen diese Wahrscheinlichkeiten P(X ∈ Aj ) nur pj heißen. Nach dieser Einteilung zieht man von der Variable X eine große unabhängige Stichprobe vom Umfang N und ermittelt die Häufigkeiten fo,j , mit denen Werte in diesen Teilmengen Aj auftreten. Diese Häufigkeiten werden verglichen mit den Häufigkeiten fe,j = N pj0 , die man unter H0 ‚erwartet‘. (Eine unabhängige Stichprobe ist natürlich eine solche, bei der die einzelnen Ziehungen durch das Modell unabhängiger Zufallsvariablen beschrieben werden können; praktisch wird man zur Rechtfertigung einer solchen Annahme zu gewährleisten suchen, dass die Ergebnisse der einzelnen Ziehungen sich in keiner Weise gegenseitig beeinflussen können.) Der Vergleich wird mit der vorläufig als cN bezeichneten Statistik J X (fo,j − fe,j )2 cN = fe,j j=1 1.3 Spezielle Verfahren QM2 15 23 durchgeführt; die Nullhypothese wird auf dem Niveau α verworfen, wenn cN ≥ χ2J−1; α gilt. Zur Rechtfertigung des Verfahrens ist zunächst klar, dass große Werte von cN gegen die Nullhypothese sprechen, weil in ihnen eine deutliche Diskrepanz zwischen den erwarteten und den tatsächlichen Häufigkeiten zum Ausdruck kommt. Die Form der Entscheidungsregel wird also auf jeden Fall die sein, dass die Nullhypothese dann zu verwerfen ist, wenn cN ≥ k gilt für einen kritischen Wert k, der noch geeignet zu wählen ist. Die Wahl von k muss dann so geschehen, dass die Wahrscheinlichkeit, H0 fälschlicherweise zu verwerfen, höchstens gleich dem gegebenen Signifikanzniveau α ist – mit anderen Worten sollte k bei der Verteilung von cN unter H0 rechts α abschneiden. Im hier vorliegenden Fall einer festen Verteilung V0 unter der Nullhypothese könnte man die Verteilung von cN unter H0 mit kombinatorischen Hilfsmitteln exakt bestimmen, der Aufwand wäre allerdings meist sehr hoch. Erfreulicherweise konvergiert die Verteilung von cN jedoch für N → ∞ schwach gegen eine χ2J−1 Verteilung, wenn die Nullhypothese gilt. Diese Konvergenzaussage kann hier nicht allgemein begründet werden; immerhin soll gleich die Skizze einer Begründung für den Fall J = 2 gegeben werden. Setzt man jedoch diese Konvergenz voraus, so hat man eine Rechtfertigung für die oben gegebene Entscheidungsregel: Für hinreichend großes N sollten sich die Verteilung von cN und die χ2J−1 -Verteilung nicht mehr allzustark unterscheiden (im Hinblick auf ihre Verteilungsfunktionen), so dass die Zahl χ2J−1; α , die bei der χ2J−1 -Verteilung rechts α abschneidet, auch bei der Verteilung von cN rechts ungefähr α abschneiden wird. Mit anderen Worten ist der Fehler, den man macht, wenn man als kritischen Wert k die Zahl χ2J−1; α wählt, nicht allzu groß – genauer ist die Wahrscheinlichkeit eines Fehlers erster Art zwar dann nicht genau α, aber (hoffentlich) von α auch nicht allzustark verschieden. Der geschilderte Test ist also wenigstens näherungsweise ein Test zum Niveau α. Es folgt nun die angekündigte skizzenhafte Begründung der Konvergenzaussage für den Fall J = 2. Hier geht es um den Fall mit zwei Bereichen Aj ; abkürzend sei p = p10 die 1.3 Spezielle Verfahren QM2 15 24 Wahrscheinlichkeit für Werte in A1 . Die Wahrscheinlichkeit p20 für Werte in A2 ist dann natürlich 1 − p, was wie üblich mit q abgekürzt sei. Wegen des unabhängigen Ziehens ist dann die Häufigkeit fo,1 von Ergebnissen in A1 binomialverteilt, genauer gilt: fo,1 ∼ B(N, p). Da sich fo,1 und fo,2 zu N ergänzen, gilt fo,2 = N − fo,1 . Die erwarteten Häufigkeiten sind fe,1 = N p und fe,2 = N q = N − N p. Damit erhält man cN = = = = = (fo,1 − N p)2 (fo,2 − N q)2 + Np Nq 2 (N − fo,1 − (N − N p))2 (fo,1 − N p) + Np Nq 2 (fo,1 − N p) 1 1 + N p q (fo,1 − N p)2 1 N pq 2 (fo,1 − N p) √ , N pq wobei (N p − fo,1 )2 = (fo,1 − N p)2 und p + q = 1 benutzt wurden. Der Ausdruck (fo,1 − N p) √ N pq ist aber gerade die z-Transformierte der Summe von N unabhängigen B(1, p)Variablen; wegen des zentralen Grenzwertsatzes konvergiert die Verteilung dieses Ausdrucks daher für N → ∞ schwach gegen die N (0, 1)-Verteilung. Es ist daher plausibel (und auch richtig), dass die Verteilung des Quadrats des Ausdrucks (also von cN ) schwach gegen die Verteilung des Quadrats einer standardnormalverteilten Variable konvergiert, also gegen eine χ21 -Verteilung. Es folgen nun mehrere Bemerkungen zu diesem χ2 -Test. 1. Die Teststatistik cN hat meist den Namen χ2 . Die Bezeichnung cN wurde hier nur deshalb verwendet, um voreilige Fehlassoziationen zu vermeiden und um einige Tatsachen, beispielsweise im Zusammenhang mit der Konvergenz, besser formulieren zu können. 1.3 Spezielle Verfahren QM2 15 25 2. In vielen Fällen findet hier eine ‚Vergröberung‘ der Hypothesen statt, nämlich in all den Fällen, in denen die Mengen Aj nicht alle nur aus einem Element bestehen. Was nämlich untersucht wird, ist, ob die Häufigkeiten für Beobachtungen in den Aj mit dem harmonieren, was man auf der Basis der Wahrscheinlichkeiten pj0 dieser Mengen unter H0 erwartet. Die Verteilung V0 unter H0 kommt also nur auf dem Umweg über die Wahrscheinlichkeiten pj0 ins Spiel, und man würde für alle Verteilungen V , die mit der H0 -Verteilung in diesen Wahrscheinlichkeiten übereinstimmen, die gleichen Testwerte und Entscheidungen erhalten, wenn man sie zur H0 Verteilung machen würde. Mit anderen Worten unterscheidet dieser Test nicht zwischen V0 und allen weiteren Verteilungen, unter denen die Aj gleiche Wahrscheinlichkeiten besitzen wie unter V0 . Diese Verteilungen sollen der Kürze halber in der weiteren Diskussion als bei den gegebenen Aj zu V0 äquivalente Verteilungen bezeichnet werden. Man kann dies auch so ausdrücken, dass eigentlich nicht H0 getestet wird, sondern die (schwächere, in diesem Sinn ‚vergröberte‘ oder ‚verwässerte‘) Hypothese, dass die Wahrscheinlichkeiten der Aj gerade die pj0 sind, zu denen V0 führt (aber eben auch viele andere Verteilungen). Formal wird also eigentlich das modifizierte Hypothesenpaar H00 : pj = pj0 H10 : nicht für alle j = 1, . . . , J H00 getestet. Das Verhältnis der alten zu den neuen Hypothesen ist nun so, dass aus der Richtigkeit von H0 die von H00 folgt, aber nicht umgekehrt (außer in dem Fall, dass die Aj alle nur ein Element enthalten) – hierin liegt die ‚Verwässerung‘. Entsprechend folgt aus der Gültigkeit von H10 die von H1 , aber wieder – außer in dem Sonderfall – nicht umgekehrt. (Man benutzt hier die allgemeine logische Regel, dass „A → B“ und „(nicht B) → (nicht A)“ äquivalent sind.) Die Vergröberung ist unkritisch, wenn man ein signifikantes Ergebnis erzielt, da die dann akzeptierte H10 auch H1 impliziert. Probleme wirft hingegen ein nichtsignifikantes Ergebnis auf, wie weiter unten ausgeführt wird. 3. Was die Zahl der Freiheitsgrade angeht, so gibt es für diesen und ähnliche Fälle eine Faustregel, die folgendermaßen lautet: # df = # FP(H1 ) − # FP(H0 ) , 1.3 Spezielle Verfahren QM2 15 26 wobei das Zeichen ‚#‘ als Abkürzung für ‚Anzahl‘ steht, und wobei ‚df‘ und ‚FP‘ Abkürzungen für ‚Freiheitsgrade (degrees of freedom)‘ und ‚Freie Parameter‘ sind. Die Faustregel lautet ausführlich dann so: Die Anzahl der Freiheitsgrade ist die Differenz aus der Anzahl der freien Parameter unter H1 und unter H0 . Im hier betrachteten Fall ist zunächst zu klären, was unter ‚freien Parametern‘ zu verstehen ist. Parameter sind immer gewisse Kennwerte, die eine Verteilung für einen bestimmten Zweck hinreichend genau charakterisieren. Berücksichtigt man, dass im Sinne der Anmerkung 2 eigentlich die ‚vergröberte‘ oder ‚verwässerte‘ neue Nullhypothese H00 getestet wird, so ist in dieser Formulierung naheliegend, die Wahrscheinlichkeiten p1 , . . . , pJ als Parameter zu bezeichnen. Unter H00 sind diese Wahrscheinlichkeiten festgelegt (nämlich zu pj0 ), unter H10 hingegen nicht. Die Zahl der ‚freien‘ Parameter ist unter H00 also 0, während sie unter H10 zunächst gleich J zu sein scheint. Allerdings können die pj nicht völlig beliebige Werte annehmen, vielmehr muss ihre Summe stets 1 ergeben. Dadurch ist immer ein Parameter durch die Werte der restlichen J − 1 Parameter vollständig bestimmt. ‚Frei‘ sind also nur J − 1 der pj . Die Faustregel führt nach diesen Erläuterungen zur Anzahl (J − 1) − 0 = J − 1 von Freiheitsgraden, was tatsächlich die richtige Anzahl ist; die Faustregel hat in diesem Fall also recht. Bei näherem Hinsehen sind die gerade gegebenen Erläuterungen sicher nicht befriedigend, da es an präzisen Definitionen (beispielsweise des Begriffs ‚Parameter‘) fehlt. Für eine genauere Behandlung der aufgeworfenen Fragen fehlen allerdings hier die Grundlagen, und da die Faustregel auch nur als Faustregel und nicht mehr zu verstehen ist, sollte das Gesagte ausreichen. 4. Was die Approximation angeht (in Wahrheit ist die Teststatistik cN nur näherungsweise χ2 -verteilt, man tut aber so, als hätte sie diese Verteilung), so wird sie meist als ausreichend angesehen, wenn alle fe,j mindestens 5 sind. 5. Es gibt Korrekturformeln für kleine Stichprobengrößen. 6. Gelingt es nicht, die Nullhypothese zu verwerfen, so kann das eigentlich nicht als Beleg dafür gewertet werden, dass diese Nullhypothese richtig ist. 1.3 Spezielle Verfahren QM2 15 27 Einerseits nämlich ist über den β-Fehler nichts bekannt (er wird sehr groß sein, wenn die tatsächliche Verteilung sich kaum von der unter H0 unterscheidet), und andererseits wird im Grunde nicht die eigentliche Nullhypothese H0 getestet, sondern nur die Vergröberung H00 , die nicht mehr zwischen der Verteilung V0 und allen anderen Verteilungen unterscheidet, die bei den gegebenen Aj zu V0 äquivalent sind. Auch wenn man also ein nicht signifikantes Ergebnis als Stützung für die Nullhypothese werten wollte, wäre dies nur eine Stützung für die ‚verwässerte‘ Nullhypothese H00 , aus der H0 ja im Allgemeinen nicht folgt. Etwas rigoroser formuliert kann man also ein nicht signifikantes Ergebnis nicht ernsthaft als Beleg für H00 werten und als Beleg für H0 schon gar nicht. 7. Unglücklicherweise richtet sich jedoch das Interesse in vielen Situationen, in denen der χ2 -Test angewendet wird, gerade auf eine ‚Stützung‘ der Nullhypothese (man möchte beispielsweise eine Normalverteilungsannahme, auf der ein folgender Test beruht, rechtfertigen). Das Vorgehen in solchen Fällen ist meist so, dass man das Testniveau hochsetzt (also vielleicht von 5% auf 20%) und hofft, dass sich dennoch kein signifikantes Ergebnis einstellt. Auf diese Weise hat man dann den unbekannten β-Fehler wenigstens etwas verkleinert. 8. In Programmen und in der Literatur findet sich bekanntlich statt einer Angabe zum Signifikanzniveau ein p-Wert, der angibt, auf welchem Niveau die gegebenen Daten gerade noch zu einem signifikanten Ergebnis geführt hätten. In dem Fall, dass H0 ‚gestützt‘ werden soll, wird man also hoffen, dass dieser Wert möglichst hoch ist (also vielleicht mindestens .2, besser größer). Die naheliegende Regel ‚ je höher p, umso besser die Anpassung‘ ist in dieser naiven Form freilich nicht haltbar. 9. Für jede konkrete Verteilung V , die nicht bei den gegebenen Aj mit V0 äquivalent ist, gilt, dass die Power des Tests gegen 1 geht mit N → ∞, falls V die wahre Verteilung von X ist. Falls also H10 (die Formulierung aus der ‚Vergröberung‘) stimmt, wird man bei großen Stichproben mit sehr großer Wahrscheinlichkeit H0 zurückweisen. 10. Der noch zu besprechende Test von Kolmogoroff und Smirnoff ist bei stetigen Verteilungen eine Alternative zum χ2 -Test. Delikat ist die Situation eines Forschers, der eine Nullhypothese stützen will, an die er eigentlich gar nicht glaubt. Beispielsweise könnte diese Hypothese die 1.3 Spezielle Verfahren QM2 15 28 sein, dass eine Variable eine bestimmte Normalverteilung besitzt. Wird zum Testen dieser Hypothese nun der χ2 -Test verwendet, so darf die Stichprobe nicht zu klein sein, da ja der Test nur approximativ korrekt ist. Andererseits darf die Stichprobe auch nicht zu groß werden, denn sonst wird die Wahrscheinlichkeit eines (unerwünschten) signifikanten Ergebnisses hoch, da ja die Nullhypothese streng genommen nicht gilt, und da deshalb mit wachsendem N diese Wahrscheinlichkeit gegen 1 geht (außer in dem Fall, in dem zwar nicht H0 , jedoch die vergröberte H00 stimmt). Man fragt sich womöglich, was ein solcher Forscher eigentlich tut, wenn er den Test durchführt. Vielleicht wird er, um Auskunft gebeten, antworten, dass er zu belegen versucht, dass die Abweichung der tatsächlichen Verteilung von X von der unter der Nullhypothese angenommenen nicht allzu groß und daher harmlos ist. Ob sein Vorgehen zu diesem Zweck jedoch tauglich ist, hängt von einer genaueren Spezifikation dessen ab, was unter tolerierbaren Abweichungen zu verstehen ist. An eine solche Spezifikation müssten sich dann weitere Überlegungen anschließen... Die Situation, dass die Richtigkeit eines theoretisches Modell belegt werden soll, das aus formal-technischen Gründen die Rolle der Nullhypothese spielen muss, ist keineswegs selten; die Schwierigkeiten sind dann immer ähnlich zu den hier beschriebenen, und sie verschärfen sich, wenn bei genauerem Hinsehen gar nicht erwartet wird, dass das Modell exakt stimmt, sondern es nur ‚ungefähr‘ stimmen soll. Die Lösungsversuche sind meist ähnlich wie sie hier für den Test auf das Vorliegen einer bestimmten Verteilung besprochen wurden. Anzumerken ist übrigens, dass in sehr vielen anderen Fällen, in denen in dieser Art ein Modell als Nullhypothese getestet wird, die Teststatistik ebenfalls approximativ χ2 -verteilt ist. Der χ2 -Test für eine Verteilungsklasse. Hier geht es um die Frage, wie man testen kann, ob die Verteilung einer Zufallsvariable X einer bestimmten Klasse angehört, ob X beispielsweise normalverteilt ist, ohne dass diese Normalverteilung (durch Angabe von Erwartungswert und Varianz) genau spezifiziert würde. Der Test geht mit zwei Modifikationen genau so wie im Fall einer festen Verteilung unter H0 . Diese Modifikationen sind die, dass erstens die Parameter der Verteilung unter H0 geschätzt werden, worauf die zugehörige Verteilung die Rolle der festen 1.3 Spezielle Verfahren QM2 15 29 Verteilung übernimmt, und dass zweitens die Zahl der Freiheitsgrade der χ2 Verteilung, die zur Festlegung des kritischen Wertes benutzt wird, um die Zahl dieser geschätzten Parameter vermindert wird. Dies soll am Beispiel des Tests auf Normalverteilung genauer erläutert werden; es soll dabei zur Illustration ein konkreter hypothetischer Fall herangezogen werden. Es geht in diesem Fall um die Frage, ob die Intelligenz X in einer bestimmten Subpopulation (beispielsweise von Studierenden eines bestimmten Fachs) normalverteilt ist oder nicht (das Problem, dass X streng genommen gar nicht normalverteilt sein kann, sei hier ausgeklammert). Die Hypothesen sind also die folgenden: H0 : X ist normalverteilt H1 : X ist nicht normalverteilt Das Signifikanzniveau wird auf 5% festgelegt. Die Normalverteilungen sind bekanntlich durch Erwartungswert µ und Varianz σ 2 gekennzeichnet; diese beiden Zahlen sind die Parameter der Verteilung. Hier bleiben bei H0 beide Werte offen. Es sind auch andere Fälle denkbar, in denen man sich auf einen der beiden Parameter festlegt – es könnte beispielsweise sein, dass die Varianz 225 generell vorausgesetzt wird. Es soll später eine unabhängige Stichprobe vom Umfang 25 gezogen werden. Der erste Schritt ist die Einteilung des Wertebereichs von X in geeignete Intervalle. Die Häufigkeiten von Beobachtungen in diesen Intervallen sollen hinterher nach Möglichkeit mindestens 5 sein, weshalb eine Einteilung in 4 Intervalle sinnvoll erscheint. Da man sicher ungefähre Vorstellungen von Erwartungswert und Varianz von X hat, wird man die Intervalle so wählen, dass mit nicht wesentlich weniger als 5 Beobachtungen pro Intervall gerechnet werden kann. Hier soll die Intervalleinteilung folgendermaßen aussehen: j Untergrenze von Aj 1 −∞ 2 91.5 3 99.5 4 107.5 Obergrenze von Aj 91.5 99.5 107.5 ∞ 1.3 Spezielle Verfahren QM2 15 30 Es ist eigentlich noch festzulegen, wie Werte auf den Intervallgrenzen zuzuordnen sind. Einerseits ist das aber eigentlich unerheblich, wenn man an die Voraussetzung einer stetigen Verteilung glaubt, denn dann treten Werte auf den Grenzen ja nur mit Wahrscheinlichkeit 0 auf. Andererseits umgeht die gegebene Einteilung das Problem, da nur ganzzahlige Intelligenzwerte auftreten können (dies zeigt nur wieder, dass man an die Normalverteiltheit von X gar nicht glauben kann). Nun wird eine unabhängige Stichprobe gezogen. Als X-Werte mögen sich dabei die folgenden Zahlen ergeben: 80, 115, 97, 102, 93, 120, 118, 83, 86, 100, 106, 92, 85, 118, 81, 82, 117, 115, 92, 117, 84, 99, 109, 118, 85 Von diesen Daten werden Mittelwert M und korrigierte Stichprobenstreuung s ermittelt; die Ergebnisse sind M = 99.76 und s = 14.408. Die zu diesen Parameterschätzungen gehörende Normalverteilung wird nun so verwendet wie die H0 -Verteilung in der Situation des χ2 -Tests einer festen Verteilung. Der nächste Schritt ist daher die Ermittlung der Wahrscheinlichkeiten der Aj unter der Voraussetzung einer Normalverteilung mit Erwartungswert 99.76 und Streuung 14.408. Zu diesem Zweck müssen die Intervallgrenzen z-transformiert werden, worauf eine geeignete Tabelle die Werte der Verteilungsfunktion F der Standardnormalverteilung für diese z-Werte liefert. Man bekommt das folgende Ergebnis: x z F (z) 91.5 −.57 .28 99.5 −.02 .49 107.5 .54 .71 Durch Differenzbildung ermittelt man nun leicht die Wahrscheinlichkeiten der Aj . Da diese Wahrscheinlichkeiten auf Schätzungen beruhen, sollen sie mit p̂j0 bezeichnet werden – ein Dach ( ˆ ) weist ja oft darauf hin, dass der Kennwert darunter geschätzt wurde. 1.3 Spezielle Verfahren QM2 15 31 Die geschätzten Wahrscheinlichkeiten sind damit die folgenden: Aj ( −∞, 91.5 ) ( 91.5, 99.5 ) ( 99.5, 107.5 ) ( 107.5, ∞ ) p̂j0 .28 .21 .22 .29 Durch Multiplikation dieser Wahrscheinlichkeiten mit der gegebenen Stichprobengröße N = 25 erhält man die erwarteten Häufigkeiten fe,j , während man die beobachteten Häufigkeiten einfach durch Auszählen ermittelt. Mit diesen Zahlen können gleich auch die Summanden der Teststatistik cN bestimmt werden: j fo,j fe,j (fo,j 1 8 7 2 5 5.25 3 3 5.5 4 9 7.25 − fe,j )2 /fe,j 0.1428 0.0119 1.1364 0.4224 Durch Summation der letzten Spalte erhält man schließlich für die Teststatistik den Wert 1.7135. Üblicherweise ist der Name dieser Teststatistik χ2 , so dass das Ergebnis meist als χ2 = 1.7135 notiert würde (die vorläufige Bezeichnung cN dient nur der Bequemlichkeit bei einigen Formulierungen). Der Test besteht nun darin, dass man diesen Wert mit dem 5%-Fraktil der χ21 Verteilung vergleicht. Dieser kritische Wert ist 3.841, weshalb das Ergebnis nicht signifikant ist. Dass hier die χ2 -Statistik mit einem Freiheitsgrad verwendet wird, liegt daran, dass zwei Verteilungsparameter geschätzt wurden, wodurch im Vergleich zur Situation einer festen Verteilung unter H0 eben gerade zwei Freiheitsgrade verloren gehen. Hätte man hingegen beispielsweise grundsätzlich eine Varianz von 225 vorausgesetzt, so hätte man nur den Erwartungswert geschätzt und für die Streuung 15 eingesetzt. In diesem Fall wäre also nur ein Parameter geschätzt worden, weshalb zur Ermittlung des kritischen Wertes die χ2 -Verteilung mit 2 Freiheitsgraden zu verwenden gewesen wäre. Die Nullhypothese kann also nicht verworfen werden, was jedoch natürlich keineswegs bedeutet, dass man sich für ihre Richtigkeit entscheiden könnte (zu einem solchen Ergebnis könnte man höchstens kommen, wenn man die Power des Tests kennen würde und diese hinreichend hoch wäre; davon kann bei der denkbar unexakten Alternativhypothese hier nicht die Rede sein). 1.3 Spezielle Verfahren QM2 15 32 In vielen Situationen möchte man nun allerdings die Nullhypothese stützen, beispielsweise, weil man die Voraussetzung der Normalverteiltheit für weitere Tests benötigt. Bekanntlich geht man dabei so vor, dass man ein höheres Signifikanzniveau wählt und hofft, dass der Test dennoch nicht signifikant wird (dieser Satz ist deskriptiv und nicht normativ gemeint). Wäre eine solche Stützung der Nullhypothese hier das Ziel gewesen, so hätte man vielleicht α = .25 gewählt und als kritischen Wert 1.32330 erhalten. Der erhaltene Wert 1.7135 wäre nun leider signifikant, womit auch nichts erreicht wäre, nichts im Sinne der H0 und auch nichts im Sinne der H1 , da ja ein signifikantes Ergebnis auf dem 25%-Niveau nichts wert ist. Viele Computerprogramme hätten im vorliegenden Fall zu dem errechneten Wert χ2 = 1.7135 einen p-Wert von .1905 ausgegeben. Da dieser Wert nahe an .2 liegt, wären womöglich manche Praktiker damit zufrieden und würden sich berechtigt fühlen, hinfort von der Normalverteiltheit von X auszugehen. Es folgen noch einige Anmerkungen. 1. Die Faustregel ‚Anzahl der freien Parameter unter H1 minus Anzahl der freien Parameter unter H0 ‘ für die Zahl der Freiheitsgrade liefert auch hier die richtige Zahl – siehe jedoch Anmerkung 3. 2. Es gibt weitere Verfahren, die dem hier vorgestellten ähnlich sind; beispielsweise werden manchmal nicht die Grenzen der Aj vorgegeben, sondern gleich deren z-Werte. 3. Zur Rechtfertigung des behandelten χ2 -Tests braucht man wieder eine Aussage über das Verhalten der Teststatistik cN für N → ∞. In der Tat konvergiert diese Teststatistik bei Vorliegen einer Verteilung aus der Verteilungsklasse der H0 wieder schwach gegen die χ2 -Verteilung mit den angegebenen Freiheitsgraden, sofern eine passende Methode der Parameterschätzung verwendet wird. Die hier referierte (und weitgehend übliche) Methode, Mittelwert und korrigierte Stichprobenvarianz zu verwenden, gehört jedoch leider nicht zu diesen passenden Methoden. In diesem Sinn ist das oben geschilderte Verfahren nicht gerechtfertigt. Passende Methoden der Parameterschätzung sind beispielsweise die sogenannte ‚Minimum-χ2 -Methode‘ oder eine ‚Maximum-Likelihood-Methode‘, die auf den beobachteten Häufigkeiten in den Aj beruht. Diese Methoden werden allerdings praktisch wohl kaum verwendet und werden daher hier auch nur erwähnt. 1.3 Spezielle Verfahren QM2 15 33 4. Gelegentlich werden auch in dieser Testsituation geeignete Adaptationen des Kolmogoroff-Smirnoff-Tests benutzt. Der Kolmogoroff-Smirnoff-Test. Eine Alternative zum χ2 -Test für eine feste Verteilung bietet oft der KolmogoroffSmirnoff-Test. Vorausgesetzt ist dabei, dass es sich bei der untersuchten Variable X um eine reelle Zufallsvariable handelt. Unter der Nullhypothese soll die Verteilung zudem stetig sein. Die Nullhypothese ist also wieder die, dass die Verteilung von X gleich einer stetigen fest vorgegebenen Verteilung V0 mit Verteilungsfunktion F0 ist, während die Alternativhypothese sagt, dass die Verteilung von X nicht V0 ist. Als Daten werden die Werte von X bei einer unabhängigen Stichprobe vom Umfang N verwendet. Die Idee des Tests ist nun sehr naheliegend: Man vergleicht die kumulierten relativen Häufigkeiten Fe (e: empirisch) der Stichprobe mit der Verteilungsfunktion F0 und lehnt die Nullhypothese bei großen Diskrepanzen ab. Die Durchführung des Tests soll an einem Beispiel illustriert werden. Hier sei die Nullhypothese die, dass die Variable X eine N (1, 4)-Verteilung besitzt, dass X also normalverteilt ist mit Erwartungswert 1 und Varianz 4. Als Stichprobe sollen die Werte −1.8, 2.5, 3.8, 3.3, 3.5 vorliegen. Die Gegenüberstellung der kumulierten relativen Häufigkeiten Fe und der Verteilungsfunktion F0 der N (1, 4)-Verteilung ergibt folgendes Bild: 1 . ........ ........ .... ... ... . ................................................................. .................. .......................... ................... ................ . . . . . . . . . . . . ........ . . . . . . . . . .. .......... ................. ......... ......... ......... ........ . . . . . . . ...... . . . . . . . ........ ....... ........... ....... ....... ....... . . . . . . .... . . . . . . .. ....... ....... ....... ........................................... ....... ....... . . . . . . . ........ ........ . . . . . . ... ........ ........ .................................................................................................................................................................................................................................................. ......... . . . . . . . . . . . ............ .............. ................. ..................... ................................. ....................................................................................................................................................................................................................................................................................................................................................................................................................................................... F0 .5 Fe x 1.3 Spezielle Verfahren QM2 15 34 Die Teststatistik K ist nun die maximale absolute Abweichung zwischen den beiden Graphen. Es sollte unmittelbar klar sein, dass eine maximale Abweichung immer an einer der Stellen vorliegen wird, an denen Fe einen Sprung macht, also gerade an einer der durch die Daten gegebenen Stellen. Bei der Suche nach dem maximalen Abstand braucht man also nur diese x-Werte berücksichtigen. Dort werden dann die Niveaus zu beiden Seiten der Sprungstelle mit dem Wert der Verteilungsfunktion verglichen (es wird also zu dem Graphen der kumulierten relativen Häufigkeitsverteilung Fe sozusagen noch der untere ‚Absprungspunkt‘ hinzugefügt, der ja streng genommen nicht dazugehört – nur durch diese Hinzufügung ist übrigens garantiert, dass der ‚maximale Abstand‘ immer auch an (mindestens) einer Stelle wirklich vorliegt). Die größere der beiden absoluten Diffenzen ist dann ein Kandidat für die maximale absolute Differenz insgesamt. Beispielsweise macht die empirische kumulative Häufigkeitsverteilung einen Sprung an der Stelle x = 2.5, nämlich von .2 auf .4. Diese beiden Werte werden nun mit dem Wert .7734 verglichen, den man für F0 an der Stelle 2.5 berechnet. Die beiden absoluten Abstände (die Richtung der Abweichung wird also nicht berücksichtigt) sind dann .5734 und .3734. Als Kandidat für den insgesamt maximalen Abstand kommt natürlich nur der größere der beiden Werte, also .5734, in Frage. In der folgenden Tabelle ist entsprechend für alle Datenpunkte der maximale absolute Abstand D bestimmt: x Fe (x) -1.8 0.2 2.5 0.4 0.6 3.3 3.5 0.8 3.8 1. F0 (x) 0.0808 0.7734 0.8749 0.8944 0.9192 D(x) 0.1192 0.5734 0.4749 0.2944 0.1192 Der maximale Abstand insgesamt ist nun offenbar .5734, er liegt an der Stelle x = 2.5 vor. Damit ist der Wert der Teststatistik K ermittelt: es gilt K = .5734. Die Frage ist nun die, ob dieser Wert groß genug ist, um die Nullhypothese zu verwerfen. Hierzu braucht man die Verteilung von K unter H0 . Bemerkenswert ist, dass diese Verteilung nicht mehr von dem speziellen V0 abhängt; vielmehr ist die Verteilung von K bei festem N in allen Situationen die 1.3 Spezielle Verfahren QM2 15 35 gleiche, in denen die Nullhypothese gilt, gleichgültig, welche Verteilung X dann besitzt (natürlich muss diese Verteilung stetig sein). Kritische Werte für K findet man in geeigneten Tabellen. Für den hier vorliegenden Fall liefert eine solche Tabelle für das 5%-Niveau den Wert .563. Da der Wert K = .5734 größer ist als dieser kritische Wert, kann die Nullhypothese verworfen werden; die Entscheidung lautet also, dass X keine N (1, 4)-Verteilung besitzt. In vielen Tabellen sind eigentlich nicht die kritischen Werte für den hier beschriebenen ‚zweiseitigen‘ Test aufgeführt, sondern die für gewisse hier nicht behandelte einseitige Tests, in denen man nur Abweichungen in eine Richtung (nach oben oder nach unten) berücksichtigt. Wichtig ist nun, dass kritische Werte für diese einseitigen Tests auf dem Niveau α auch für den zweiseitigen Test benutzt werden können, allerdings auf dem Niveau 2α. Dies dürfte den Aufbau solcher Tabellen etwas klarer machen. Ganz genau betrachtet ist es so, dass bei einer solchen Benutzung der einseitigen kritischen Werte die Wahrscheinlichkeit eines Fehlers erster Art beim zweiseitigen Test oft sogar etwas kleiner ist als 2α. Dies hat zur Folge, dass der Test das vorgegebene Niveau 2α einhält und in diesem Sinne korrekt ist. Es bedeutet aber auch, dass dieses Niveau von 2α womöglich nicht ganz ausgeschöpft wird und daher der Test durch eine Verkleinerung des kritischen Wertes vielleicht noch etwas verbessert werden könnte (im Sinne der Power), ohne das vorgegebene Niveau von 2α zu überschreiten. Da die Verbesserung im Allgemeinen jedoch nicht besonders groß wäre, wird aus Ökonomiegründen oft auf eine eigene Tabellierung der kritischen Werte für zweiseitige Tests verzichtet. Die Tests, die man dann mit der beschriebenen Verwendung der einseitigen kritischen Werte für den zweiseitigen Fall erhält, schützen in vielen Fällen gewissermaßen die Nullhypothese stärker als es eigentlich nötig wäre. Tests mit der Eigenschaft, die Nullhypothese zu stark zu schützen, nennt man auch konservativ. Wenn man abschließend bei der Frage, ob eine Variable X eine bestimmte Verteilung V0 hat, die beiden Testmöglichkeiten χ2 und KS (Kolmogoroff-Smirnoff) vergleicht, so spricht eigentlich fast alles für KS. Zunächst ist dies ein exakter Test (die genaue Verteilung der Teststatistik unter H0 ist bekannt, weshalb die kritischen Werte die Einhaltung des Signifikanznive- 1.3 Spezielle Verfahren QM2 15 36 aus gewährleisten), während der χ2 -Test nur näherungsweise korrekt ist. Demgemäß ist der KS-Test auch bei kleinen Stichproben anwendbar, wo der χ2 Test – wegen der (möglicherweise) schlechten Übereinstimmung der Verteilung der Teststatistik cN unter H0 mit der tatsächlich benutzten χ2 -Verteilung – nicht vertretbar erscheint. Beim KS-Test hat man auch keine Vergröberung der Hypothesen. Allerdings setzt der KS-Test eine stetige Verteilung von X voraus; der χ2 -Test hingegen ist darauf nicht angewiesen, er ist vielmehr auch in Situationen anwendbar, wo die Variable X noch nicht einmal reelle Werte annimmt (man kann beispielsweise testen, ob die Haarfarben rot, braun, blond und schwarz in einer bestimmten Population alle mit Wahrscheinlichkeit 1/4 vorkommen – weniger alberne Beispiele findet man leicht in der Genetik). Für den Fall, dass die Nullhypothese unexakt ist und eine ganze Klasse von Verteilungen umfasst, wenn also beispielsweise getestet werden soll, ob eine bestimmte Variable normalverteilt ist, ohne dass Erwartungswert und Varianz spezifiziert werden, kann der χ2 -Test passend verallgemeinert werden, während dies beim KS-Test nicht so einfach möglich ist. Eine etwas „hemdsärmelige“ Methode beim KS-Test, bei der auf eine Ausschöpfung des Niveaus verzichtet wird, und die damit wieder konservativ ist, wäre die, die Parameter der H0 -Verteilung so zu schätzen, dass der maximale Abstand der zugehörigen Verteilungsfunktion zu der Funktion der kumulierten relativen Häufigkeiten minimal wird, und dann die kritischen Werte für den Normalfall (einer festen Verteilung unter H0 ) zu benutzen. Man überzeugt sich unschwer davon, dass dies Verfahren tatsächlich das gegebene Niveau einhält. Zum χ2 -Test auf Unabhängigkeit. Es geht um die Frage, ob zwei Zufallsvariablen X und Y unabhängig sind. Für diese Frage gibt es einen Test, der auf dem bekannten χ2 -Kennwert für Kontingenztafeln beruht. Wenn die Zufallsvariablen nicht diskret sind, oder wenn sie zu viele Werte annehmen können, ist der erste Schritt wieder eine Vergröberung: Man unterteilt den Wertebereich von X und Y in J disjunkte Bereiche Ai , . . . , AI und B1 , . . . , Bj ein. Sind die theoretischen Wahrscheinlichkeiten für die Kombinationen von Ai und 1.3 Spezielle Verfahren QM2 15 37 Bj gleich pij , so erhält man für diese Kombinationen die folgende theoretische Kontingenztafel: B1 . . . BJ A1 p11 . . . p1J p1. .. .. .. .. . . . . AI pI1 . . . pIJ pI . p . 1 . . . p. J Es ist generell vorauszusetzen, dass alle pi. und alle p.j von 0 verschieden sind. Nun kann als Nullhypothese die Hypothese formuliert werden, dass für alle pij die Gleichung pij = pi. p.j gilt. Offenbar ist das nur dann gleichbedeutend mit der Hypothese der Unabhängigkeit von X und Y , wenn alle Ai und Bj nur einen Wert enthalten; sonst besagt die Nullyhpothese eigentlich nur, dass diejenigen neuen Variablen unabhängig sind, die durch die Vergröberung entstehen, bei der nur noch registriert wird, in welchem Ai bzw. Bj das jeweilige Ergebnis von X bzw. Y liegt. Diese Nullhypothese folgt dann natürlich aus der Unabhängigkeit von X und Y , umgekehrt folgt jedoch die Unabhängigkeit von X und Y keineswegs aus der Nullhypothese; in diesem Sinn wird die eigentlich zu untersuchende Hypothese (Unabhängigkeit von X und Y ) abgeschwächt. Die Alternativhypothese ist natürlich die, dass für mindestens ein Paar (i, j) die Gleichung pij = pi. p.j nicht gilt. Das Experiment besteht dann darin, eine unabhängige Stichprobe vom Umfang n zu ziehen und jeweils zu registrieren, in welchem Ai bzw. Bj der Wert von X bzw. Y liegt. Das Ergebnis ist eine (I × J)-Kontingenztafel mit insgesamt n Beobachtungen, in der die Anzahl des Auftretens der Kombination (Ai , Bj ) wie üblich mit nij bezeichnet wird: A1 .. . AI B1 . . . BJ n11 . . . n1J n1. .. .. .. . . . nI1 . . . nIJ nI . n.1 . . . n.J n Mit den Bezeichnungen fo,i,j = nij und fe,i,j = ni. n.j n 1.3 Spezielle Verfahren QM2 15 38 definiert man die Teststatistik cn = X (fo,i,j − fe,i,j )2 , f e,i,j i,j bei der es sich gerade um den bekannten χ2 -Koeffizienten aus der deskriptiven Statistik handelt. Meist wird diese Teststatistik auch mit χ2 bezeichnet, die vorläufige Bezeichnung cn dient nur zur bequemeren Formulierung einiger Sachverhalte. Dass man diese Statistik zum Testen benutzt, ist bei den bekannten Eigenschaften des χ2 -Koeffizienten naheliegend; die Regel des Tests ist die, dass H0 verworfen wird, wenn cn ≥ χ2(I−1)(J−1); α gilt, wo α das gewählte Signifikanzniveau ist. Zur Rechtfertigung dieser Regel interessiert die Verteilung der Teststatistik cn unter H0 . Dabei treten zwei Schwierigkeiten auf. Die erste Schwierigkeit ist die, dass H0 zusammengesetzt ist; die Verteilung der zu untersuchenden Variablen ist nämlich – nach der eventuellen Vergröberung – durch die theoretische Kontingenztafel der pij vollständig charakterisiert, und der Nullhypothese enspricht dann nicht nur eine Kontingenztafel, sondern sehr viele, nämlich alle, in denen die Unabhängigkeitsbedingung gilt. Es gibt also nicht die Verteilung von cn unter H0 , vielmehr führt jede ‚unabhängige‘ Kontingenztafel zu einer eigenen Verteilung. Nun tritt jedoch noch eine zweite Schwierigkeit auf: Die Statistik cn ist gar nicht mit Wahrscheinlichkeit 1 definiert. Der Fall, dass entweder in einer Zeile oder in einer Spalte gar keine Beobachtungen gemacht werden, hat nämlich immer eine positive Wahrscheinlichkeit, und in diesem Fall treten bei der Berechnung von cn Summanden der Form 0/0 auf, wodurch das Ergebnis undefiniert wird. Man kann die zweite Schwierigkeit dadurch lösen, dass man für solche Fälle irgendeinen Ausnahmewert vorsieht, beispielsweise −1 oder 999. Die Rechtfertigung des Testverfahrens liegt dann in folgendem nicht ganz leicht zu beweisendem Satz: Gilt für die wahre Kontingenztafel der (vergröberten) Variablen die Unabhängigkeitsbedingung, so geht die Verteilung von cn schwach gegen eine χ2(I−1)(J−1) - 1.3 Spezielle Verfahren QM2 15 39 Verteilung, gleichgültig durch welchen Wert nicht definierte Werte von cn ersetzt werden. Dass die Wahl des Ausnahmewerts keine Rolle spielt, liegt daran, dass die Wahrscheinlichkeit, dass eine Ausnahme eintritt, gegen 0 geht für n → ∞. Zu bemerken ist ferner, dass der Satz unter der Voraussetzung einer festen Verteilung formuliert ist, die der Unabhängigkeitsbedingung genügt; für jede solche feste Verteilung findet Konvergenz statt. Die Konvergenz kann dabei allerdings – beispielsweise was die ‚Geschwindigkeit‘ angeht – für verschiedene derartige feste Verteilungen recht verschieden aussehen (wenngleich die ‚Grenzverteilung‘ immer die gleiche ist). Es folgen mehrere Anmerkungen: 1. Auf die Abschwächung der Nullhypothese durch eine eventuelle Vergröberung wurde schon hingewiesen. 2. Auch in diesem Fall führt die oben angegebene Faustregel für die Zahl der Freiheitsgrade auf das richtige Ergebnis. Man hat sich dazu nur zu überlegen, welches die freien Parameter unter H0 und H1 sind. Nach der Vergröberung ist die gemeinsame Verteilung der beiden Variablen vollständig durch die theoretische Kontingenztafel charakterisiert, also durch die Werte pij . Unter Gültigkeit von H1 braucht man zur Beschreibung alle diese Werte bis auf einen, da die Summe der Wahrscheinlichkeiten ja 1 ergeben muss. Die Anzahl der freien Parameter unter H1 ist also IJ − 1. Unter H0 hingegen reicht die Angabe der Randverteilungen zur Konstruktion der gesamten Tafel aus, und diese Randverteilungen sich durch die I Werte pi. und die J Werte p.j vollständig gekennzeichnet. Auch hier ist aber jeweils wieder eine Randwahrscheinlichkeit durch die übrigen determiniert, da ja die Summe gleich 1 sein muss, so dass unter H0 insgesamt I + J − 2 freie Parameter übrig bleiben. Nach der Faustregel ergibt sich als Zahl der Freiheitsgrade dann (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1) , und dies ist in der Tat die korrekte Anzahl. 3. Man kann die Formel für die fe,i,j noch so umschreiben, dass die Ähnlichkeit zu den zuvor besprochenen χ2 -Tests noch größer wird: ni. n.j ni. n.j fe,i,j = = n = (p̂i. p̂.j ) n , n n n 1.3 Spezielle Verfahren QM2 15 40 wobei p̂i. = ni. /n und p̂.j = n.j /n gesetzt ist. Offenbar sind dann p̂i. und p̂.j naheliegende Schätzer für pi. und p.j so dass ihr Produkt bei Gültigkeit von H0 ein Schätzer für die Wahrscheinlichkeit pij = pi. p.j ist. Damit hat dann fe,i,j wieder die Form eines Produkts aus einer – hier allerdings nur geschätzten – Wahrscheinlichkeit und dem Stichprobenumfang und kann in diesem Sinne als erwartete Häufigkeit unter H0 interpretiert werden. 4. Der beschriebene Test ist nur näherungsweise korrekt (im Sinne der Einhaltung des Signifikanzniveaus). Die Näherung wird als ausreichend angesehen, wenn alle fe,i,j mindestens 5 sind. 5. Für kleine Stichprobenumfänge gibt es Korrekturen zur Kompensation der womöglich unbefriedigenden Näherung. Ferner gibt es für (2 × 2)-Tafeln auch einen einfachen exakten Test, der später besprochen wird. 6. Unter H1 ist die Verteilung der Teststatistik auch eine näherungsweise χ2 verteilte mit der gleichen Zahl von Freiheitsgraden, allerdings eine nonzentrale. In den NZP gehen die Stichprobengröße ein und ein geeignetes Maß der Abweichung von der Unabhängigkeit. 7. Auch hier geht die Power gegen 1 für n → ∞, falls die (vergröberte) Nullyhpothese nicht stimmt. 8. Die Bezeichnung cn war nur vorläufig und zur besseren Formulierbarkeit einiger Sachverhalte. Üblicherweise wird die Teststatistik mit χ2 bezeichnet. 9. Unter Annahme einer bivariaten Normalverteilung (also unter der Annahme, dass die beiden gegebenen Variablen eine gemeinsame Normalverteilung besitzen) ist der Test auf Nullkorrelation gleichzeitig ein Test auf Unabhängigkeit, denn bei gemeinsam normalverteilten Variablen sind ja Unabhängigkeit und Unkorreliertheit äquivalent. 10. Der hier besprochene Test auf Unabhängigkeit ist oberflächlich gleich zu einem anderen Test, der untersucht, ob eine Variable in unterschiedlichen Bedingungen die gleiche Verteilung besitzt oder nicht. Konzeptuell und in ihrer Konstruktion sind diese beiden Tests jedoch ganz verschieden. Der Test auf Gleichheit von Verteilungen wird anschließend behandelt. 1.3 Spezielle Verfahren QM2 15 41 Tests auf Gleichheit von Verteilungen. In der Situation, dass mehrere Zufallsvariablen Y1 ,. . . ,YI mit dem gleichen Wertebereich gegeben sind, geht es um die Frage, ob die Verteilungen von Y1 ,. . . ,YI alle gleich sind. Zunächst folgen einige Beispiele: 1. Eine Variable Y (z.B. eine Reaktionszeit), wird in I verschiedenen experimentellen Bedingungen erhoben. Die Frage ist, ob sich diese Variable in den I Bedingungen in gleicher Weise verteilt oder nicht. Plausibel ist es nun, das Ergebnis einer Beobachtung in jeder einzelnen Bedingung als Resultat auch eines Zufallsprozesses anzusehen, der jedoch in den einzelnen Bedingungen verschieden aussehen kann. Daher wird man diese zufalligen Ergebnisse in jeder Bedingung i durch eine eigene Zufallsvariable Yi modellieren. Aus der Variable Y werden so I Zufallsvariablen Yi , deren Verteilungen die Besonderheiten der Bedingungen wiederspiegeln sollen. Die Variable Y selbst ist dabei keine Zufallsvariable, allerdings immerhin die Vorstufe zu Zufallsvariablen; zu einer Zufallsvariablen fehlt gewissermaßen der Zufall, genauer die Verteilung. Wesentlich ist, dass man im Hinblick auf Y nicht sinnvoll von Wahrscheinlichkeiten sprechen kann (also beispielsweise von der Wahrscheinlichkeit einer Reaktionszeit > 500ms), sondern diese Frage erst dann sinnvoll ist, wenn feststeht, unter welcher Bedingung i die Variable Y erhoben werden soll – dann ist aber eigentlich schon von der Zufallsvariable Yi die Rede und nicht mehr von Y . Die Frage, um die es geht, ist dann die, ob diese Zufallsvariablen Yi alle dieselbe Verteilung haben oder nicht; Unterschiede in den Verteilungen wären auf Unterschiede in den Bedingungen zurückzuführen. 2. Eine Variable Y kann in unterschiedlichen Populationen erhoben werden. Die Frage ist, ob die Verteilung von Y in diesen Populationen gleich ist. Beispielsweise kann es hier darum gehen, ob die Intelligenz in unterschiedlichen Bevölkerungsgruppen gleich verteilt ist oder nicht (ein oft untersuchtes Beispiel sind die unterschiedlichen ‚Rassen‘ in den USA). Das W-Modell kann in diesem Fall so aussehen, dass auf jeder Population zunächst ein W-Maß gegeben ist, das die zufällige Auswahl einer Person aus dieser Population beschreibt. Auf der i-ten Population wird dann wieder die Zufallsvariable Yi definiert als der Wert, den die zufällig gezogene Person in der Variable Y hat. Die Bemerkungen zum ersten Beispiel gelten nun analog. 1.3 Spezielle Verfahren QM2 15 42 Es sei angemerkt, dass die Formulierung ‚die Verteilung von Y in der Population i‘ eigentlich nicht ganz korrekt ist (korrekt wäre ‘die Verteilung von Yi ‘), trotzdem sollte die Formulierung einerseits verständlich sein und andererseits womöglich sogar verständlicher als die korrekte Formulierung – jedenfalls am Anfang. 3. Ein ganz konkretes Beispiel: Unterscheiden sich Männer und Frauen in ihrem Rauchverhalten? Die Populationen sind hier die Männer und die Frauen, auf jeder der Populationen ist eine Zufallsvariable definiert (Y1 für die Männer, Y2 für die Frauen), die angibt, wieviele Zigaretten eine jeweils zufällig gezogene Person im Durchschnitt pro Tag raucht. Gelegentlich fasst man die Bedingungen auch als Werte einer Variable X auf; statt von der i-ten Bedingung redet man dann davon, dass die Variable X den Wert xi annimmt, wo xi für die i-te Bedingung steht. In den Beispielen oben wäre im ersten Fall X die experimentell manipulierte Variable und hätte als Werte die unterschiedlichen Versuchsbedingungen, die dann x1 , . . . , xI heißen statt mit 1 bis I durchnummeriert zu werden. Im zweiten Fall wäre X die Variable, die die Teilpopulationen definiert (beispielsweise die Variable ‚Rasse‘) und die xi wären die Stufen dieser Variable. Im konkreten dritten Beispiel wäre X die Variable ‚Geschlecht‘ mit den Stufen ‚männlich‘ und ‚weiblich‘. Eine solche Sprechweise ist im Rahmen der Versuchsplanung üblich, es sei jedoch darauf hingewiesen, dass X dann eine Variable eben im Sinne der Versuchsplanung ist, nicht aber im statistischen Sinn; insbesondere ist X im Allgemeinen keine Zufallsvariable und auch nicht die Vorstufe einer solchen (wie Y in den Beispielen). Ein oft verwendetes Verfahren, die Hypothese der Gleichheit verschiedener Verteilungen zu testen, führt zu einem χ2 -Test; hiervon soll zunächst die praktische Durchführung beschrieben werden. Der erste Schritt der Untersuchung besteht oft in einer Vergröberung der Fragestellung: Der gemeinsame Wertebereich der Variablen Yi wird in J disjunkte Mengen Bj eingeteilt. Im dritten Beispiel könnte man zum Beispiel die Einteilung B1 : 0 Zigaretten, B2 : mehr als 0, aber höchstens 2 Zigaretten, B3 : mehr als 2, aber höchstens 10 Zigaretten und B4 : mehr als 10 Zigaretten wählen. Falls der Wertebereich nur aus wenigen möglichen Werten besteht, wird eine 1.3 Spezielle Verfahren QM2 15 43 solche Vergröberung oft nicht nötig sein, man wird dann als Mengen Bj die einelementigen Mengen nehmen, die jeweils einen der möglichen Werte enthalten. Mit pij sei nun die Wahrscheinlichkeit bezeichnet, dass die Zufallsvariable Yi Werte im Bereich Bj annimmt (im Beispiel wäre p2,3 die Wahrscheinlichkeit, dass eine zufällig aus den Frauen gezogene Person mehr als 2, aber höchstens 10 Zigaretten pro Tag raucht). Nun können die Hypothesen formuliert werden; die Nullhypothese ist die folgende: H0 : p1j = p2j = . . . = pIj für alle j = 1, . . . , J und die Alternativhypothese ist die logische Verneinung von H0 . Die korrekte logische Verneinung lautet übrigens so: H1 : es gibt ein j und zwei Werte i1 und i2 mit pi1 j 6= pi2 j , und nicht etwa p1j 6= p2j 6= . . . 6= pIj für alle j = 1, . . . , J oder ähnlich. Wenn die Bj nicht alle einelementig sind, so ist die Vergröberung der ursprünglichen Fragestellung offensichtlich. Zur Veranschaulichung kann man sich auch die pij in einer Tabelle aufschreiben. Für das Zigarettenbeispiel würde man die folgende Tabelle erhalten: 0 (0, 2] (2, 10] > 10 Männer: p1,1 p1,2 p1,3 p1,4 Frauen: p2,1 p2,2 p2,3 p2,4 Hier stehen in den Zeilen die Verteilungen der durchschnittlich gerauchten Zigaretten (nach der Vergröberung) getrennt für Männer und Frauen. Die Nullhypothese besagt dann, dass alle Wahrscheinlichkeiten in jeweils einer Spalte gleich groß sein müssen, die Alternativhypothese sagt, dass es mindestens eine Spalte gibt, in der sich mindestens zwei Wahrscheinlichkeiten unterscheiden (dies ist schon wieder für den allgemeinen Fall formuliert, im hier vorliegenden würde man natürlich formulieren, dass sich in mindestens einer Spalte die beiden Wahrscheinlichkeiten unterscheiden). 1.3 Spezielle Verfahren QM2 15 44 Das Verfahren zum Testen der Hypothesen besteht nun darin, dass man zunächst unabhängig unabhängige Stichproben in den einzelnen Bedingungen zieht und registriert, wie oft die Kategorien Bj jeweils auftreten. Man beachte, dass im Fall von Populationen hier also eigentlich (‚unabhängige Stichproben‘) jeweils mit Zurücklegen gezogen werden müsste! Im Beispiel könnte es sein, dass man 30 Männer und 27 Frauen zieht, die sich wie folgt auf die Kategorien verteilen: 0 (0, 2] (2, 10] > 10 Männer: 11 8 7 4 Frauen: 7 6 9 5 In der so entstehenden Tafel sei die Anzahl der Beobachtungen aus der i-ten Bedingung (hier: Population), die in die Kategorie Bj fallen, mit nij bezeichnet. Die Randhäufigkeiten seien wie üblich mit ni. und n.j bezeichnet; die Zahl ni. ist also die Anzahl der Beobachtungen aus der i-ten Bedingung. Die Gesamtzahl der Beobachtungen sei n. Man berechnet nun für diese Tafel den χ2 -Koeffizienten, der hier zunächst wieder X (fo ij − fe ij )2 c := fe ij i,j (mit fo ij = nij und fe ij = ni. n.j /n) heißen soll. Man verwirft dann die Nullhypothese, falls c ≥ χ2(I−1)(J−1);α gilt, wobei α das zuvor gesetzte Signifikanzniveau ist. Im Beispiel ergibt sich ein Wert von 1.38, der mit χ23;.05 = 7.81 zu vergleichen ist. Die Nullhypothese kann hier also auf dem 5%-Niveau nicht zurückgewiesen werden. Es folgen wieder mehrere Bemerkungen: 1. Vorraussetzung für das Verfahren ist, dass in jeder Spalte j mindestens eine Wahrscheinlichkeit pij nicht 0 ist. 2. Sowohl Nullhypothese als auch Alternativhypothese sind hier zusammengesetzt. Will man die möglichen Verteilungen unter H0 (gegebenenfalls nach der Vergröberung) parametrisieren, so braucht man J − 1 freie Parameter 1.3 Spezielle Verfahren QM2 15 45 (unter der Nullhypothese sollen für jedes j die pij in allen Bedingung i gleich groß sein, so dass man sie mit dem gemeinsamen Symbol pj bezeichnen kann; die Verteilung ist dann durch diese J Parameter pj festgelegt, wobei einer sich aus den anderen J − 1 berechnen lässt, da ja die Summe der pj wieder 1 ist). Für eine Parametrisierung der Alternativhypothese braucht man entsprechend I(J − 1) freie Parameter (hier kann für jede der I Bedingungen die Verteilung unterschiedlich aussehen, weshalb man nun in jeder Bedingung J − 1 freie Parameter hat). 3. Die Teststatistik c ist nicht mit Wahrscheinlichkeit 1 definiert (es kann sein, dass für eines der Bj keine Beobachtungen auftreten, auch wenn alle Wahrscheinlichkeiten größer als 0 sind). 4. Schreibt man fe ij = (n.j /n) ni. , so kann man (n.j /n) als Schätzung der Wahrscheinlichkeit für Bj auffassen, falls H0 gilt (man kann dann die Beobachtungen in den verschiedenen Bedingungen zusammenfassen); fe ij ist dann als erwartetete Häufigkeit von Bj in der i-ten Bedingung interpretierbar. Es ist plausibel, dass bei Gültigkeit der Nullhypothese fo ij und fe ij etwa gleich groß sein sollten, während bei Gültigkeit der Alternativhypothese größere Diskrepanzen auftreten sollten. Damit liegt es nahe, die Nullhypothese für große Werte der Teststatistik zu verwerfen. 5. Rechtfertigung des Verfahrens: Es gilt der Satz, dass bei Gültigkeit der Nullhypothese für jede Konstellation von wahren Wahrscheinlichkeiten pj := P (Bj ) 6= 0 die Verteilung von c schwach gegen eine χ2(I−1)(J−1) -Verteilung geht, wenn man im Fall der Nichtdefiniertheit irgendeinen Wert einsetzt, wenn die Zahlen der Beobachtungen in den einzelnen Bedingungen alle gegen ∞ gehen und wenn noch weitere technische Bedingungen erfüllt sind. Man kann also schon bei hinreichend großer Anzahl von Beobachtungen so tun, als wäre bei Gültigkeit der Nullhypothese c tatsächlich χ2 -verteilt. 6. Als hinreichend groß wird die Anzahl der Beobachtungen dann angesehen, wenn die erwartete Häufigkeit in jeder Zelle ≥ 5 ist. Man hat folglich bei der Einteilung des Wertebereichs in die Bj darauf zu achten, dass bei den geplanten Stichprobengrößen diese Bedingung erfüllt werden kann. 7. Üblicherweise bezeichnet man aus nun naheliegenden Gründen die Teststatistik wieder mit χ2 (und nicht mit c). 8. Wegen der Vergröberung ist die hier getestete Hypothese schwächer als die zunächst ins Auge gefasste der Gleichheit der Verteilungen. 1.3 Spezielle Verfahren QM2 15 46 9. Die Faustregel für die Freiheitsgrade führt auch hier zum richtigen Ergebnis: Die Anzahl der freien Parameter unter H1 ist I(J − 1), die der freien Parameter unter H0 ist J −1, die Differenz also I(J −1)−(J −1) = (I −1)(J −1), und diese Zahl stimmt mit der Anzahl der Freiheitsgrade überein. Auf zwei Punkte soll nun noch etwas genauer eingangen werden. In der Beschreibung des Tests taucht die Formulierung auf, dass unabhängig unabhängige Stichproben in den Bedingungen zu ziehen seien. Hier handelt es sich nicht um einen Druckfehler, vielmehr ist gemeint, dass in jeder einzelnen Bedingung eine unabhängige Stichprobe gezogen werden soll, und dass die Stichproben der einzelnen Bedingungen wieder unabhängig voneinander sein sollen. Benutzt man diese Formulierungen zur statistischen Beschreibung des Tests, so sind sie übrigens nicht recht angemessen, da in ihnen versuchsplanerische Termini verwendet werden, die streng genommen in der eigentlichen Statistik nichts zu suchen haben. Eine statistisch angemessene Formulierung müsste anders aussehen, nämlich etwa folgendermaßen: Die Werte Yki (dies bezeichne jetzt den Wert der k-ten Versuchsperson in Bedingung i), die im Experiment erhoben werden sollen, sind vorher nicht bekannt und werden als Zufallsvariablen behandelt. Von diesen (insgesamt n) Zufallsvariablen ist dann vorauszusetzen, dass sie gemeinsam unabhängig sind (im Sinne der W-Theorie!). Die Aussagen zu den Eigenschaften des Tests (beispielsweise zur Konvergenz) folgen dann aus dieser Voraussetzung. In der Versuchsplanung wird man sich nun bemühen, die Untersuchung so zu gestalten, dass man das Erfülltsein der statistischen Voraussetzungen für plausibel halten darf. Was die geforderte Unabhängigkeit im wahrscheinlichkeitstheoretischen Sinn betrifft, so ist das unabhängige Ziehen von unabhängigen Stichproben eine Maßnahme, um die W-theoretische Unabhängigkeit zu ‚gewährleisten‘. Die Formulierung, dass eine Voraussetzung des Tests das unabhängige Ziehen unabhängiger Stichproben sei, ist also, fasst man ‚Voraussetzung‘ auf als Voraussetzung im mathematisch-statistischen Sinn für die Herleitung von Eigenschaften des Tests (wie Konvergenz der Verteilung der Teststatistik gegen eine χ2 -Verteilung), streng genommen weder korrekt noch angemessen. Da man jedoch (hoffentlich) weiß, was eigenlich gemeint ist, und da die Formulierung das eigentlich Gemeinte auch annähernd umschreibt, ist sie noch vertretbar, insbesondere deshalb, weil sie, fasst man ‚Voraussetzung‘ im praktischen Sinn einer Konvention darüber auf, wann dieser Test angewendet werden darf, durchaus korrekt ist. 1.3 Spezielle Verfahren QM2 15 47 Der zweite Punkt, der genauer betrachtet werden soll, ist die Beziehung des Tests auf Gleichheit von Verteilungen mit dem zuvor besprochenen χ2 -Test auf Unabhängigkeit. Oberflächlich besteht eine große Ähnlichkeit zwischen den beiden Tests, die dann noch größer wird, wenn man die Bedingungen als Stufen xi einer Variable X auffasst. Dann erhält man nämlich in beiden Fällen Kontingenztafeln, die praktisch die gleiche Form haben. Das Vorgehen auf der Basis der Kontingenztafel ist dann in beiden Fällen genau gleich (die Teststatistik wird nach der gleichen Formel bestimmt und die kritischen Werte werden auf die gleiche Weise ermittelt). Ein theoretisch ungebildeter Anwender wird sich also fragen, warum man denselben Test in zwei Abschnitten bespricht und nicht in einem. Es soll daher noch einmal auf wesentliche Unterschiede hingewiesen werden. Zunächst sind die Hypothesen unterschiedlich zu formulieren. Wählt man die Formulierung, dass untersucht wird, ob die beiden Variablen X und Y unabhängig seien, so ist diese für den Test auf Gleichheit von Verteilungen völlig unangemessen. Was soll hier nämlich Unabhängigkeit bedeuten? Die Variable X ist im Allgemeinen gar keine Variable, im Zusammenhang mit der der Begriff der statistischen Unabhängigkeit sinnvoll verwendet werden könnte, da X ja hier zunächst nur eine Variable im Sinne der Versuchsplanung ist. Auch Y ist hier noch keine Zufallsvariable, immerhin die ‚Vorstufe‘ zu den Zufallsvariablen Yi . Auch die formale Darstellung der Hypothesen ist unterschiedlich; in beiden Fällen geht es zwar um Wahrscheinlichkeiten pij , schon die Nullhypothese wird jedoch ganz unterschiedlich formuliert. Ferner haben die Symbole pij auch unterschiedliche Bedeutungen, was man schon daran sieht, dass sie sich im Fall der Gleichheit von Verteilungen in jeder Zeile zu 1 addieren, im Fall der Unabhängigkeit jedoch nicht. Dass es sich um ganz unterschiedliche Fälle handelt, sieht man auch bei der ganz unterschiedlichen Bestimmung der Freiheitsgrade nach der Faustregel, wobei jedoch die Ergebnisse übereinstimmen. Es gibt allerdings einen Fall, in dem die Grenzen verschwimmen. Ein Beispiel ist das der oben behandelten Frage, ob das Rauchverhalten bei Männern und Frauen gleich oder unterschiedlich ist. Hier könnte man alternativ zur Behandlung oben auch das Geschlecht X als Zufallsvariable auffassen und dann testen, ob X und das Rauchverhalten Y (Y ist dann ebenfalls Zufallsvariable), unabhängig sind. 1.3 Spezielle Verfahren QM2 15 48 Die Sichtweise ist dann eine andere als die oben, nämlich so, dass man nicht zwei Populationen hat (Männer und Frauen), sondern nur eine, die sowohl aus Männern als auch aus Frauen besteht. Bei zufälligem Ziehen in dieser Gesamtpopulation ist dann das Geschlecht X der zufällig gezogenen Person zufallsabhängig ebenso wie das Rauchverhalten Y . Hier kann dann von Unabhängigkeit im statistischen Sinn gesprochen werden. Allerdings würde zu dieser Fragestellung eine etwas andere Untersuchung gehören, nämlich eine, bei der man nun zufällig aus der Gesamtbevölkerung die Personen zieht, zunächst ohne zu beachten, ob es sich um Männer oder Frauen handelt, während beim Test auf Gleichheit von Verteilungen aus jeder Einzelpopulation eine Stichprobe von einem meist vorher festgelegten Umfang gezogen wird. Diese beiden Untersuchungsmethoden sind allerdings so ähnlich, dass die gemachten Unterscheidungen hier durchaus etwas künstlich wirken können. In Beispielen jedoch, in denen X nur eine unabhängige Variable im Sinne der Versuchsplanung ist, also beispielsweise die Bedingungen einer experimentelle Situation codiert, ist gar nicht daran zu denken, aus X eine Zufallsvariable zu machen, so dass hier der Test auf Unabhängigkeit auch überhaupt nicht hinpasst. In einem Experiment, das den Einfluss von Alkohol auf die Reaktionszeit Y untersucht und bei dem die Variable X : ‚Alkoholmenge‘ in den Stufen x1 , x2 , x3 realisiert wird, die beispielsweise einem, zwei und drei Gläsern Bier entsprechen, kann offenbar von einer zufälligen Verteilung von X nicht die Rede sein. Fishers exakter Test auf Gleichheit von Verteilungen. Zu dem Test auf Gleichheit von Verteilungen soll jetzt eine Alternative vorgestellt werden, die nicht den Nachteil besitzt, nur näherungsweise das α-Niveau einzuhalten (bei den χ2 -Tests ist insbesondere damit zu rechnen, dass es überschritten wird). Die Alternative, Fishers exakter Test, ist allerdings in seiner üblichen Form auf den Vergleich von zwei Verteilungen beschränkt, wobei diese beiden Verteilungen zudem nur zwei mögliche Werte besitzen. Der Test eignet sich für kleine Stichproben, für große Stichproben wird der Rechenaufwand sehr groß. Vorteilhaft bei diesem Test ist, dass auch gerichtete Hypothesen getestet werden können. 1.3 Spezielle Verfahren QM2 15 49 Für den Test auf Unabhängigkeit gibt es bei zwei dichotomen Merkmalen einen oberflächlich gesehen gleichen Test, der ebenfalls als Fishers exakter Test bezeichnet wird; wie im Falle der χ2 -Tests sind auch hier die entsprechenden exakten Tests oberflächlich völlig gleich (die theoretischen Zusammenhänge jedoch recht unterschiedlich). Der Test beruht auf der hypergeometrischen Verteilung, an die zunächst kurz erinnert werden soll. Zur Definition der Verteilung dient das Standardbeispiel einer Urne, in der sich n Kugeln befinden, von denen m rot sind und der Rest blau. Es soll k Mal ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen werden. Gefragt ist nach der Verteilung der Anzahl R von gezogenen roten Kugeln. Diese Anzahl R hat dann eine hypergeometrische Verteilung, genauer gilt R ∼ H(n, m, k) , was gerade bedeutet, dass die Wahrscheinlichkeit, r rote Kugeln zu ziehen, durch die folgende Formel gegeben wird: m n−m r k−r P(R = r) = . n k Es sei auch daran erinnert, dass man, um lästige Fallunterscheidungen zu vermeiden, allgemein n =0 für k < 0 und k > n k setzt (n und k sind jetzt beliebig und haben nicht die Bedeutung aus der Situation der hypergeometrischen Verteilung). Nach dieser Vorbereitung kann nun der exakte Test von Fisher für die Gleichheit von zwei Verteilungen besprochen werden. Im Anschluss an die Konstruktion des Tests und ein konkretes Beispiel wird das Vorgehen später noch einmal knapp und anwendungsorientiert zusammengefasst. Zur Verdeutlichung soll ein Beispiel dienen, in dem es um das Rauchverhalten in Abhängigkeit vom Geschlecht geht. Ausgangspunkt sei die Vermutung, dass Frauen eher rauchen als Männer. Diese Vermutung soll durch einen geeigneten Test belegt werden. Sie ist also zur 1.3 Spezielle Verfahren QM2 15 50 Alternativhypothese zu machen, während die Nullhypothese behauptet, dass die Anteile der RaucherInnen bei den Männern und den Frauen gleich groß sind. Ist p1 die Wahrscheinlichkeit, dass eine zufällig gezogene Frau raucht, und p2 die, dass ein zufällig gezogener Mann raucht (sind also anders gesagt p1 und p2 die Anteile der RaucherInnen an den Gesamtpopulationen der Frauen und Männer), so lauten die Hypothesen so: H0 : p1 = p 2 H1 : p1 > p2 Im Unterschied zum Vorgehen beim χ2 -Test für diese Fragestellung kann die Alternativhypothese hier also auch gerichtet sein (man könnte natürlich auch die ungerichtete H1 testen, dass p1 6= p2 gilt, vgl. weiter unten). Es sollen weiter zwei Stichproben von Frauen (F) und Männern (M) gezogen worden sein, die sich wie folgt auf Raucher (R+) und Nichtraucher (R−) aufteilen: R+ R− F 5 2 7 M 1 7 8 6 9 15 Die Randsummen sind hier auch schon berechnet worden. Die Stichprobenziehung ist, entsprechend der Fragestellung, so, dass 7 Frauen und 8 Männer getrennt gezogen wurden, und nicht etwa so, dass aus der Gesamtbevölkerung zufällig 15 Personen gezogen wurden, von denen dann eben 7 Frauen waren und 8 Männer. Eine solche zweite Art der Ziehung würde vielmehr der Frage entsprechen, ob die beiden Variablen Geschlecht und Rauchverhalten unabhängig sind oder ob es einen Zusammenhang zwischen ihnen gibt. Hier hingegen ist die Frage die, ob das Rauchverhalten in den beiden Populationen der Frauen und der Männer gleich ist oder nicht. Zur Beschreibung des Tests im allgemeinen Fall soll nun eine geeignete Terminologie eingeführt werden. Es geht allgemein um eine Variable Y , die nur zwei Werte y1 und y2 annehmen kann (im Beispiel ist Y das Rauchverhalten mit den möglichen Werten y1 = R+ und y2 = R−). Diese Variable Y wird nun in zwei Bedingungen untersucht, die durch die Werte x1 und x2 einer weiteren Variable X definiert sind; diese Variable ist im Allgemeinen nur eine Variable im Sinne der Versuchsplanung, also nicht zufallsabhängig. 1.3 Spezielle Verfahren QM2 15 51 Im Beispiel ist die Variable X das Geschlecht mit den Werten x1 = F und x2 = M ; in diesem speziellen Fall kann die Variable X bei einer leicht geänderten Betrachtungsweise übrigens auch als Zufallsvariable aufgefasst werden – dann wäre jedoch ein Test auf Unabhängigkeit durchzuführen und nicht einer auf Gleichheit von Verteilungen, vgl. die entsprechenden Ausführungen beim χ2 -Test auf Gleichheit von Verteilungen. Die Variable Y ist zunächst keine Zufallsvariable, aus ihr werden jedoch zwei Zufallsvariablen Y1 und Y2 , wenn zusätzlich die Bedingung xi festgelegt wird, in der Y untersucht wird: Y1 ist die Variable in der Stufe x1 von X und Y2 die in der Stufe x2 (im Beispiel ist Y1 das Rauchverhalten bei Frauen und Y2 das bei Männern, jeweils als Variable mit den beiden möglichen Werten y1 = R+ und y2 = R−). Die Verteilungen dieser beiden Zufallsvariablen sind dann jeweils vollständig gekennzeichnet durch die Wahrscheinlichkeiten, mit denen der Wert y1 angenommen wird; diese Wahrscheinlichkeiten sollen p1 für Y1 und p2 für Y2 heißen. Von p1 und p2 wird vorausgesetzt, dass sie weder 0 noch 1 sind. Die Komplementärwahrscheinlichkeiten für den Wert y2 sollen wie üblich q1 und q2 heißen; es gilt also q1 = 1 − p1 und q2 = 1 − p2 . Im Beispiel ist p1 die Wahrscheinlichkeit, dass eine zufällig gezogene Frau raucht, anders ausgedrückt der Anteil der Raucherinnen in der Population der Frauen, entsprechend ist p2 der Anteil der Raucher in der Population der Männer. Zu untersuchen ist, ob p1 und p2 (und damit die beiden Verteilungen insgesamt) übereinstimmen, oder ob diese Wahrscheinlichkeiten verschieden sind. Dabei können gerichtete Alternativhypothesen formuliert werden wie p1 > p2 ; natürlich ist auch die ungerichtete Alternativhypothese p1 6= p2 möglich. Zur Entscheidung werden unabhängig jeweils unabhängige Stichproben für die beiden Variablen Y1 und Y2 gezogen, deren Umfang n1 und n2 sein soll; die Gesamtzahl n1 + n2 aller Beobachtungen sei mit n bezeichnet. In den Stichproben wird jeweils registriert, wie oft die beiden Werte y1 und y2 angenommen werden. Das Ergebnis wird dann in einer Kontingenztafel zusammengefasst. Die absoluten Häufigkeiten für den Wert y1 seien in den beiden Stichproben die Zahlen r und s, die Gesamthäufigkeit gleich k = r+s. Die Kontingenztafel 1.3 Spezielle Verfahren QM2 15 52 sieht dann folgendermaßen aus: X\Y x1 x2 y1 y2 r n1 − r n1 s n2 − s n2 k n−k n Im Beispiel wären natürlich x1 und x2 durch F und M und y1 und y2 durch R+ und R− zu ersetzen. Die Einträge in der Kontingenztafel sind Zufallsergebnisse, da sie auf den beiden zufälligen Stichprobenziehungen beruhen. Drei dieser Zufallsvariablen sollen für die weitere Argumentation einen eigenen Namen bekommen: der Wert oben links soll R heißen, der darunter S und die Summe der Werte in der ersten Spalte K (es gilt also K = R + S). Zur Verdeutlichung dient die nächste Tabelle: x1 x2 y1 y2 R n1 S n2 K n In der Tabelle sind auch die Zahlen n1 , n2 und n noch einmal aufgeführt, die gleich eine wichtige Rolle spielen sollen. Im Gegensatz zu den Zufallsvariablen R, S und K sind dies fest vorgegebene Zahlen. Die Verteilungen der Zufallsvariablen R und S sind Binomialverteilungen, genauer gilt R ∼ B(n1 , p1 ) und S ∼ B(n2 , p2 ). Wegen der unabhängigen Ziehungen der beiden Stichproben sind R und S unabhängig. Die Wahrscheinlichkeit, dass R einen bestimmten Wert r annimmt und S einen Wert s, ist also gleich dem Produkt der Einzelwahrscheinlichkeiten, nämlich n1 r n1 −r n2 s n2 −s n1 n2 r n1 −r s n2 −s p1 q1 p2 q2 = . (1) p1 q1 p2 q2 r s r s Da durch die beiden Werte r und s in der ersten Spalte wegen der vorgegebenen Zeilenrandsummen alle Werte in der Kontingenztafeln eindeutig festliegen, erhält man auf diese Weise auch für alle möglichen Kontingenztafeln die Wahrscheinlichkeit ihres Auftretens (allerdings nur unter der Voraussetzung, dass p1 und p2 bekannt sind). 1.3 Spezielle Verfahren QM2 15 53 Es dürfte auch unmittelbar klar sein, dass man mit Hilfe der Werte von R und K und der Zahlen n1 und n den Rest der Kontingenztafel eindeutig rekonstruieren kann. Nun soll die bedingte Verteilung von R ermittelt werden unter der Bedingung, dass K einen festen Wert k besitzt; dies soll unter der Voraussetzung geschehen, dass die Nullhypothese gilt. Die Nullhypothese ist hier eine zusammengesetzte Hypothese, bei der die zugehörigen Verteilungen wieder gekennzeichnet sind durch die Wahrscheinlichkeiten für den Wert y1 . Im Falle der Nullhypothese sind diese beiden Wahrscheinlichkeiten p1 und p2 gleich groß; der gemeinsame Wert soll kurz p heißen – es gilt also nun p1 = p2 = p. Die Komplementärwahrscheinlichkeit 1 − p soll wie üblich q heißen. Durch den Wert von p sind nun die Verteilungen von R, S und K unter der Nullhypothese vollständig festgelegt; Wahrscheinlichkeiten in dieser Situation sollen allgemein mit dem Symbol Pp abgekürzt werden, bei dem der Index p daran erinnert, dass es für jedes mögliche p der zusammengesetzten Nullhypothese ein eigenes Wahrscheinlichkeitsmaß gibt. Die Verteilungen von R und S waren allgemein Binomialverteilungen, unter der Nullhypothese gilt spezieller R ∼ B(n1 , p) und S ∼ B(n2 , p). Die Zufallsvariable K = R + S ergibt sich als Summe der n = n1 + n2 unabhängigen BernoulliVariablen, die mit einer 1 registrieren, ob bei der entsprechenden Beobachtung der Wert y1 auftritt; da unter H0 alle Erfolgswahrscheinlichkeiten gleich p sind, gilt hier K ∼ B(n, p), auch K ist dann also binomialverteilt. Die gesuchten bedingten Wahrscheinlichkeiten lassen sich nun leicht ermitteln: Es gilt für jeden möglichen Wert r von R die Beziehung Pp (R = r|K = k) = Pp (R = r, K = k) . Pp (K = k) Die beiden Bedingungen R = r und K = k sind offenbar genau dann erfüllt, wenn die beiden Bedingungen R = r und S = k − r erfüllt sind. Für den Zähler erhält man daher durch Spezialisierung p1 = p2 = p in (1) den Wert Pp (R = r, K = k) = Pp (R = r, S = k − r) n1 n2 = pr q n1 −r pk−r q n2 −k+r r k−r n1 n2 = pk q n−k . r k−r 1.3 Spezielle Verfahren QM2 15 54 Für den Nenner gilt n k n−k Pp (K = k) = p q . k Zusammen erhält man damit n1 n2 n1 n2 k n−k p q r k−r r k−r Pp (R = r|K = k) = = . n k n−k n p q k k Bemerkenswert ist hier, dass die Wahrscheinlichkeit p jetzt keine Rolle mehr spielt; die bedingten Verteilungen von R für einen gegebenen Wert k von K sind also unabhängig von p alle gleich. Es ergeben sich dabei hypergeometrische Verteilungen; genauer ist die bedingte Verteilung von R unter K = k unabhängig von p immer die H(n, n1 , k)-Verteilung. Auf dieser Grundlage kann nun ein Test der Hypothesen konstruiert werden. Es liegt nahe, die Nullhypothese für große Werte von R zu verwerfen, denn diese deuten auf eine große Wahrscheinlichkeit p1 hin. Unklar ist noch, wie der kritische Wert zu wählen ist. Die Idee für den Test ist nun die, diesen kritischen Wert abhängig vom Wert k von K zu wählen – es gibt dann nicht einen gemeinsamen kritischen Wert für R, sondern für jeden möglichen Wert von K einen speziellen. Man kann den entstehenden Test dann auch einen bedingten Test nennen, eben da der kritische Wert für R unterschiedlich ist, je nachdem, welchen Wert K annimmt. Der kritische Wert für R in Abhängigkeit vom Wert k von K ist dann die kleinste Zahl, die bei der bedingten Verteilung von R, also bei der H(n, n1 , k)-Verteilung, rechts höchstens α abschneidet, wo α das gewählte Signifikanzniveau ist. Das Signifikanzniveau wird auf diese Weise meist nicht voll ausgeschöpft werden. Ist „H1 “ das Ereignis, dass man sich für H1 entscheidet, dass also der Test signifikant wird, so gilt unter H0 nach Konstruktion für alle p die Ungleichung Pp („H1 “|K = k) ≤ α . Nach dem Satz von der totalen Wahrscheinlichkeit folgt dann unter H0 für alle möglichen p die Beziehung X Pp („H1 “) = Pp („H1 “|K = k) Pp (K = k) k ≤ X k α Pp (K = k) = α X k Pp (K = k) = α · 1 = α , 1.3 Spezielle Verfahren QM2 15 55 wobei über alle möglichen Werte k von K zu summieren ist. Das Signifikanzniveau α wird also immer (für jedes p) eingehalten. Der auf diese Weise konstruierte Test heißt auch Fishers exakter Test. Nun soll für das Eingangsbeispiel dieser Test durchgeführt werden. Die Kontingenztafel war die folgende: R+ R− F 5 2 7 M 1 7 8 6 9 15 Hier hat R den Wert r = 5 und K den Wert k = 6, während n1 = 7 und n = 15 gilt. Die bedingte Verteilung von R unter H0 ist bei dem Wert k = 6 von K die H(15, 7, 6)-Verteilung. Für diese Verteilung ist der rechtsseitige kritische Wert zum Niveau α zu ermitteln, das hier auf .05 festgesetzt sei. Sinnvollerweise bestimmt man diesen kritischen Wert, indem man die Wahrscheinlichkeiten für die möglichen Werte r von R beginnend mit dem größten bestimmt und sukzessive so lange aufaddiert, bis man α überschritten hat. Das letzte r vor der Überschreitung von α ist dann der kritische Wert. In dem konkreten Fall des Beispiels ist der größtmögliche Wert von R der Wert 6. Die Wahrscheinlichkeit für diesen Wert bestimmt sich als 7 8 7 8 7·1 6 6−6 6 0 P(R = 6) = = = = .0014 . 15 15 5005 6 6 Das Symbol P bezeichnet dabei die zur H(15, 7, 6)-Verteilung gehörenden Wahrscheinlichkeiten. Der nächstkleinere Wert ist r = 5; hier erhält man entsprechend 7 8 7 8 21 · 8 5 6−5 5 1 P(R = 5) = = = = .0336 . 15 15 5005 6 6 1.3 Spezielle Verfahren QM2 15 56 Für R = 4 ergibt sich 7 8 7 8 35 · 28 4 6−4 4 2 P(R = 4) = = = = .1958 . 15 15 5005 6 6 An dieser Stelle haben die kumulierten Wahrscheinlichkeiten den Wert von .05 offenbar überschritten, so dass die Rechnung abgebrochen werden kann. Der kritische Wert ist gleich 5. Da die tatsächliche Häufigkeit r ebenfalls 5 war, ist das Ergebnis signifikant und H0 kann verworfen werden. Der Übersichtlichkeit halber seien die Ergebnisse der Einzelschritte noch einmal in einer Tabelle zusammengefasst. Die Stelle, an der die kumulierten Wahrscheinlichkeiten α überschreiten, ist durch eine Linie markiert; der kritische Wert ist das letzte r oberhalb dieser Linie. r P(R = r) P(R ≥ r) 6 .0014 .0014 5 .0336 .0350 4 .1958 .2308 Einen linksseitigen und einen zweiseitigen Test hätte man ganz genauso durchgeführt, mit dem Unterschied, dass beim linksseitigen Test α links und beim zweiseitigen α/2 auf beiden Seiten abgeschnitten wird. Um uneindeutige Situationen zu vermeiden, sei vereinbart, dass die kritischen Werte beim zweiseitigen Test jeweils höchstens α/2 abschneiden dürfen – ein Ausgleich zwischen links und rechts in dem Sinne, dass die kumulierte Wahrscheinlichkeit auf einer Seite auf Kosten derer auf der anderen Seite auch größer als α/2 sein darf, soll also ausgeschlossen sein. Es sei noch auf eine kleine mögliche Rechenerleichterung hingewiesen: Da der Nenner bei der Berechnung der Wahrscheinlichkeiten immer der gleiche ist, näm lich 5005 (im allgemeinen Fall nk ) hätte man sich auch auf die Kumulierung der Zähler beschränken können; die Abbruchstelle wäre dadurch bestimmt gewesen, dass die kumulierten Zähler den Wert 5005 · (.05) = 250.25 überschreiten. Im Beispiel sind diese Zähler der Reihe nach 7 · 1 = 7, 21 · 8 = 168, 35 · 28 = 980. Ein Weiterrechnen ist dann nicht nötig, da die Summe der ersten beiden Zahlen unter 250.25 liegt, während dieser Wert bei Addition der dritten Zahl überschritten wird. 1.3 Spezielle Verfahren QM2 15 57 Es folgt nun die angekündigte knappe Zusammenfassung. Die Fragestellung bezieht sich auf die Wahrscheinlichkeiten p1 und p2 , mit denen eine dichotome Variable Y (mit möglichen Werten y1 und y2 ) den Wert y1 annimmt in zwei Bedingungen, die durch die Werte x1 und x2 einer weiteren Variable X kodiert werden. Die Hypothesen sind H0 : p1 = p2 H1 : p1 > p2 (Linksseitige und zweiseitige Fragestellungen werden ganz analog behandelt). Es werden dann für Y in den beiden Bedingungen x1 und x2 unabhängig unabhängige Stichproben vom Umfang n1 und n2 gezogen, und die Häufigkeiten des Auftretens der Werte y1 und y2 werden in einer Kontingenztafel zusammengefasst. Die folgende Kontingenztafel gibt dabei die allgemeinen Bezeichnungen für die Häufigkeiten: X\Y y1 y2 x1 r n1 − r n1 x2 s n2 − s n2 k n−k n Die Nullhypothese wird auf Niveau α dann verworfen, wenn r mindestens so groß ist wie der Wert, der bei der H(n, n1 , k)-Verteilung rechts α abschneidet (genauer ist der kleinste Wert gemeint, der gerade noch höchstens α abschneidet). Der kritische Wert wird dabei ökonomischerweise gefunden durch Kumulieren der Wahrscheinlichkeiten der hypergeometrischen Verteilung, beginnend mit dem größtmöglichen Wert. Man kann den beschriebenen Test natürlich auch in allgemeineren Situationen verwenden, in denen man zwei Verteilungen vergleicht, sofern man in einem ersten Schritt wie bei vielen χ2 -Tests den Wertebereich in zwei disjunkte Teilmengen teilt und dann die (vergröberte) Hypothese testet, ob diese beiden Teilmengen unter den beiden Verteilungen die gleichen Wahrscheinlichkeiten besitzen. Schließlich sei noch angemerkt, dass man der unbefriedigenden Tatsache, dass das Signifikanzniveau meist nicht ausgeschöpft wird, durch randomisierte Tests begegnen könnte. 1.3 Spezielle Verfahren QM2 15 58 Fishers exakter Test auf Unabhängigkeit. Im Falle zweier Variablen, die jeweils nur zwei Werte annehmen, gibt es ebenfalls einen exakten Test auf Unabhängigkeit, der nun behandelt werden soll. (Man kann den Test natürlich auch in anderen Situationen anwenden, wenn man die jeweiligen Wertbereiche in jeweils 2 Mengen zerlegt und dann analog zum χ2 -Test vorgeht). Am Ende des Abschnitts folgt eine kurze Zusammenfassung. Der Test stimmt oberflächlich betrachtet mit dem zuvor besprochenen Test auf Gleichheit von Verteilungen überein; dass es sich jedoch um ganz verschiedene Fragen handelt, sollte bei einem Vergleich der Rechtfertigung der Testverfahren schnell klar werden. Wie beim Test auf Gleichheit von Verteilungen ist es auch hier so, dass der zu besprechende Test im Vergleich zum χ2 -Test verschiedene Vorteile besitzt, nämlich die, dass er nicht auf einer Näherung beruht, dass er auch bei kleinen Stichproben anwendbar ist, und dass man einseitige Fragestellungen behandeln kann. Als erstes soll es darum gehen, wie hier einseitige Fragestellungen aussehen können. Allgemein geht es um zwei Zvan X und Y , die beide nur zwei Werte annehmen können, nämlich x1 und x2 bzw. y1 und y2 . Die beiden Zvan sollen auf demselben W-Raum definiert sein, weshalb sie eine gemeinsame Verteilung besitzen, die durch die folgende Kontingenztafel gegeben ist: X\Y x1 x2 y1 y2 p11 p12 p1. p21 p22 p2. p.1 p.2 Es sei wie üblich vorausgesetzt, dass alle Randwahrscheinlichkeiten 6= 0 sind. Einseitige Fragestellungen formuliert man am besten mit bedingten Wahrscheinlichkeiten. Hier kann man beispielsweise die bedingten Wahrscheinlichkeiten von Y = y1 unter X = x1 und X = x2 vergleichen. Diese Wahrscheinlichkeiten sind P(Y = y1 |X = x1 ) = p11 /p1. und P(Y = y1 |X = x2 ) = p21 /p2. . 1.3 Spezielle Verfahren QM2 15 59 Formuliert man nun die mögliche einseitige (Alternativ-)Hypothese P(Y = y1 |X = x1 ) > P(Y = y1 |X = x2 ) um, so erhält man p11 /p1. > p21 /p2. , was man durch Einsetzen und Multiplikation mit den Nennern äquivalent zu p11 (p21 + p22 ) > p21 (p11 + p12 ) und dann zu p11 p22 − p12 p21 > 0 umformt. Bei dem Ausdruck links handelt es sich übrigens um die Determinante der Kontingenztafel. Die Nullhypothese der Unabhängigkeit, die ja mit der Gleichheit der bedingten Wahrscheinlichkeiten gleichbedeutend ist, ist analog äquivalent zu p11 p22 − p12 p21 = 0 . Man beachtet dabei, dass hier daraus, dass zwei bedingte Wahrscheinlichkeiten gleich sind, sofort folgt, dass auch die beiden anderen gleich sind. Man überzeugt sich leicht, dass die Hypothese, dass die bedingte Wahrscheinlichkeit von X = x1 unter Y = y1 größer ist als die von X = x1 unter Y = y2 mit derselben Forderung p11 p22 − p12 p21 > 0 äquivalent ist, ebenso die Hypothese, dass p11 größer ist als das Produkt der zugehörigen Randwahrscheinlichkeiten. Umgekehrt stellt sich so heraus, dass p11 p22 −p12 p21 > 0 gleichbedeutend ist einerseits mit P(Y = y1 |X = x1 ) > P(Y = y1 |X = x2 ), andererseits mit der Forderung P(X = x1 |Y = y1 ) > P(X = x1 |Y = y2 ), und andererseits auch damit, dass p11 größer ist als das Produkt der zugehörigen Randwahrscheinlichkeiten. Insgesamt könnte man etwas vergröbernd formulieren, dass diese Forderung besagt, dass p11 größer ist, als man es bei Unabhängigkeit erwartet. Dass p11 p22 − p12 p21 = 0 mit der Unabhängigkeit gleichbedeutend ist, hatte sich schon gezeigt, so dass man die Hypothese der Abhängigkeit auch als p11 p22 − p12 p21 6= 0 formulieren kann. Insgesamt ist es auf diese Weise also möglich, auch Richtungen in der Abweichung von der Unabhängigkeit zu untersuchen. 1.3 Spezielle Verfahren QM2 15 60 Es geht nun darum, die Hypothesen H0 : p11 p22 − p12 p21 = 0 H1 : p11 p22 − p12 p21 > 0 zu testen; dabei sind linksseitige und zweiseitige Fragestellung ganz analog zu behandeln. Als Beispiel könnte man wieder an die Frage denken, ob das Rauchverhalten unabhängig vom Geschlecht ist, wobei Y das Rauchverhalten mit den Stufen R+ und R− und X das Geschlecht mit den Stufen F und M ist. Die Hypothese, dass Frauen häufiger rauchen, als bei Unabhängigkeit erwartet, wäre dann gerade die eben formulierte. Auf die Unterschiede zum Test auf Gleichheit von Verteilungen wurde schon hingewiesen, insbesondere, was die Art der Datenerhebung angeht. Naheliegend ist es, beim Testen so vorzugehen, dass man zunächst eine unabhängige Stichprobe des Umfangs n zieht, wobei jede einzelne Ziehung einen Wert für X und einen für Y liefert. Das Ergebnis fasst man in einer Kontingenztafel zusammen: X\Y y1 y2 x1 n11 n12 n1. x2 n21 n22 n2. n.1 n.2 n Da die Alternativhypothese die war, dass p11 größer ist als unter Unabhängigkeit erwartet, ist es naheliegend, die Nullhypothese für große Werte von n11 zu verwerfen. Dabei stellt sich die Frage nach dem kritischen Wert. Dieser kritische Wert ist wie beim Test auf Gleichheit von Verteilungen wieder in Abhängigkeit von den übrigen Werten in der Kontingenztafel zu wählen, hier in Abhängigkeit von n1. und n.1 . Die hier wichtigen Zahlen in der Kontingenztafel sollen wieder eigene Namen bekommen, die ähnlich denen im schon behandelten Fall sind. Für n11 , n.1 und n1. sollen dabei r, k und l gesetzt werden, so dass die Kontingenztafel nun folgende 1.3 Spezielle Verfahren QM2 15 61 Gestalt bekommt: X\Y x1 x2 y1 y2 r l−r l k−r n−k−l+r n−l k n−k n Offenbar sind die Werte in der Kontingenztafel bereits durch r, k, l und n festgelegt. Die Zvan, die r, k und l entsprechen, sollen R, K und L heißen (sie gehören zu der Situation, in der die Ziehung noch nicht durchgeführt wurde, in der also die Werte r, k und l noch zufallsabhängig sind). In der neuen Terminologie besteht nun die Aufgabe in der Festlegung eines kritischen Werts für R, der abhängig sein wird von den Werten von K und L. Für diese Festlegung braucht man – analog zum Fall des Tests auf Gleichheit von Verteilungen – die bedingte Verteilung von R, hier bei gegebenen Werten von K und L, wobei außerdem die Gültigkeit der Nullhypothese vorauszusetzen ist. Die Gültigkeit von H0 soll daher für die folgenden Überlegungen vorausgesetzt werden, ohne dass dies jetzt durch eigene Indizes verdeutlicht wird. Die Voraussetzung ist also die, dass die Wahrscheinlichkeiten p11 , p12 , p21 , p22 den Bedingungen pij = pi. p.j genügen (und alle 6= 0 sind). Die Wahrscheinlichkeiten sollen dabei nicht beliebig sein, sondern zunächst feste Werte besitzen – es wird also zunächst nicht eine beliebige unabhängige Kontingenztafel vorausgesetzt, sondern eine spezielle. Nun geht es zuerst um die Frage der Verteilung der gegebenen Variablen. Führt man nur eine einzige Ziehung durch, so sind die möglichen Ergebnisse die vier Wertekombinationen (x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ), deren Wahrscheinlichkeiten bei einer Ziehung gleich p11 , p12 , p21 und p22 sind. Man kann die Situation auch so betrachten, dass man nur eine Variable mit 4 Ausprägungen hat, die mit den angegebenen Wahrscheinlichkeiten auftreten. Nun soll ein solcher Versuch unabhängig mehrfach durchgeführt werden, wobei die Frage ist, mit welcher Wahrscheinlichkeit die einzelnen Wertekombinationen (x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ) mit vorgegebenen Häufigkeiten n11 , n12 , n21 und n22 auftreten (deren Summe natürlich die Zahl n der Durchführungen ist). Betrachtet man die Situation als eine, in der eine einzige Zva (die Kombination aus X und Y ) 4 mögliche Werte mit den gegebenen Wahrscheinlichkeiten annimmt, so ist klar, dass es die Antwort auf die Frage durch die entsprechende 1.3 Spezielle Verfahren QM2 15 62 Multinomialverteilung geliefert wird; die Wahrscheinlichkeit, bei n unabhängigen Ziehungen die Wertekombinationen (x1 , y1 ), (x1 , y2 ), (x2 , y1 ) und (x2 , y2 ) mit den Häufigkeiten n11 , n12 , n21 und n22 zu erhalten, ist also gerade n! pn11 pn12 pn21 pn22 . n11 !n12 !n21 !n22 ! 11 12 21 22 Setzt man die oben eingeführten Abkürzungen ein, so erhält man P(R = r, K = k, L = l) = n! (l−r) (k−r) (n−l−k+r) . pr11 p12 p21 p22 r!(l − r)!(k − r)!(n − l − k + r)! Dies gilt allgemein; da hier jedoch Unabhängigkeit vorausgesetzt ist, können die Wahrscheinlichkeiten pij durch pi. p.j ersetzt werden. Dann kann man den zweiten Faktor umschreiben: (l−r) (k−r) (n−l−k+r) p22 pr11 p12 p21 = (p1. p.1 )r (p1. p.2 )(l−r) (p2. p.1 )(k−r) (p2. p.2 )(n−l−k+r) (r+l−r) (r+k−r) (k−r+n−l−k+r) (l−r+n−l−k+r) = p1. p.1 p2 . p .2 n−k . = pl1. pk.1 p2n−l . p.2 Die Wahrscheinlichkeiten für die Wert k von K und l von L ergeben sich leicht daraus, dass die Variablen K und L binomialverteilt sind; wegen der vorausgesetzten Unabhängigkeit von X und Y sind dann auch K und L unabhängig, woraus insgesamt n k n−k n l n−l P(K = k, L = l) = p p p p k .1 .2 l 1. 2. folgt. 1.3 Spezielle Verfahren QM2 15 63 Damit ergibt sich weiter P(R = r|K = k, L = l) = n! pl pk pn−l pn−k r!(l − r)!(k − r)!(n − l − k + r)! 1. .1 2. .2 = n k n−k n l n−l p p p p k .1 .2 l 1. 2. n! r!(l − r)!(k − r)!(n − l − k + r)! = n! n! k!(n − k)! l!(n − l)! l n−l k!(n − k)!l!(n − l)! r k−r = . n n!r!(l − r)!(k − r)!(n − l − k + r)! k Diese bedingte Wahrscheinlichkeit hängt erfreulicherweise nicht mehr von den pij ab, und als bedingte Verteilung von R unter K = k und L = l findet man eine H(n, l, k)-Verteilung. Damit kann ab dieser Stelle völlig analog argumentiert werden wie im Fall des Tests auf Gleichheit von Verteilungen. Das Ergebnis der weiteren Überlegungen fasst man schließlich wie folgt zusammen: Es geht um die Frage, ob zwei dichotome Variable X und Y unabhängig sind, oder ob Abhängigkeit (ggf. auch gerichtet) besteht. Die Kontingenztafel der Variablen ist X\Y y1 y2 x1 p11 p12 p1. x2 p21 p22 p2. p.1 p.2 Die Hypothesen sind H0 : p11 p22 − p12 p21 = 0 H1 : p11 p22 − p12 p21 > 0 (Linksseitige und zweiseitige Fragestellungen werden ganz analog behandelt). 1.3 Spezielle Verfahren QM2 15 64 Es wird dann für (X, Y ) eine unabhängige Stichproben vom Umfang n gezogen, und die Häufigkeiten des Auftretens der Wertekombinationen werden in einer Kontingenztafel zusammengefasst. Die folgende Kontingenztafel gibt dabei die allgemeinen Bezeichnungen für die Häufigkeiten: X\Y x1 x2 y1 y2 r l−r l k−r n−l−k+r n−l k n−k n Die Nullhypothese wird auf Niveau α dann verworfen, wenn r mindestens so groß ist wie der Wert, der bei der H(n, l, k)-Verteilung rechts α abschneidet (genauer ist der kleinste Wert gemeint, der gerade noch höchstens α abschneidet). Power beim Test mit bekannter Varianz. Die Power (allgemeiner: die Wahrscheinlichkeit Pµ („ H1 “) einer Entscheidung für H1 in Abhängigkeit von µ) des einseitigen Einstichprobentests mit bekannter Varianz ist gegeben durch √ µ − µ0 n Pµ („H1 “) := F − uα σ √ √ n n = F µ− µ0 + uα σ σ Dabei ist F die Verteilungsfunktion der Standardnormalverteilung. Wie sieht das Schaubild dieser Funktion aus? Es ergibt sich in einfacher Weise aus dem Schaubild von F , da die Funktion dadurch entsteht, dass √ man F auf √ n eine lineare Transformation von µ anwendet (nämlich auf σ µ − σn µ0 + uα ). Zur Beantwortung der Frage soll allgemein untersucht werden, wie das Schaubild einer Funktion F ∗ (x) := F (ax+b) aus dem Schaubild der Funktion F entsteht; die Funktion F ist dabei beliebig, soll aber der Einfachheit halber auf den gesamten reellen Zahlen definiert sein, außerdem soll a positiv sein. Im Schaubild einer Funktion F ist der Graph der Funktion eingezeichnet, der bekanntlich aus allen Punkten (x, F (x)) besteht. Die Frage ist dann, wie der Graph von F ∗ aus dem von F entsteht. 1.3 Spezielle Verfahren QM2 15 65 Es sei nun (x, y) ein Element des Graphen von F , weshalb F (x) = y gilt. Betrachtet man nun x0 = (1/a)x − (b/a), so gilt ax0 + b = x (x0 entsteht aus x gerade durch die Umkehrung der linearen Transformation x 7→ ax + b). Es folgt, dass F ∗ (x0 ) = F (ax0 + b) = F (x) = y ist. Insgesamt gehört damit (x0 , y) zum Graphen von F ∗ . Man erhält damit aus jedem Punkt (x, y) des Graphen von F einen Punkt des Graphen von F ∗ , wenn man x durch x0 = (1/a)x − (b/a) ersetzt. Auf diese Weise erhält man auch alle Punkte des Graphen von F ∗ , weil jedes reelle x0 sich als (1/a)x − (b/a) schreiben lässt für ein geeignetes x (nämlich x = ax0 + b). Wie entsteht aber nun der Punkt (x0 , y) aus dem Punkt (x, y)? Die zweite Koordinate bleibt erhalten, während man sich den Übergang von x zu x0 = (1/a)x−(b/a) geometrisch so veranschaulichen kann, dass zunächst der Abstand zur y-Achse um den Faktor 1/a verändert wird, worauf eine Verschiebung von −b/a in Richtung der x-Achse erfolgt. Damit erhält man insgesamt den Graphen von F ∗ aus dem von F dadurch, dass man diesen in x-Richtung um den Faktor 1/a streckt bzw. staucht (die y-Achse bleibt dabei fix), und das Ergebnis dann noch um −b/a in x-Richtung verschiebt. In der folgenden Abbildung ist der Übergang vom Graphen der Verteilungsfunktion F der Standardnormalverteilung (man beachte die unterschiedliche Skalierung der Achsen) zum Graphen der Funktion F ∗ (x) := F (.5x − .5) illustriert; hier ist a = .5 und b = −.5, folglich 1/a = 2 und −b/a = 1. Der Graph von F ∗ entsteht aus dem von F durch Streckung um den Faktor 2 in x-Richtung und anschließende Verschiebung um 1 in x-Richtung. . ...... ........ . ...... ........ y ........... . 1 .......... ............................................. ....... ..... .. ...... ... .... .. .. ... .... .... ..... . .... . . ... . . .. . ... ... ... ... ... ... ..... . . . . .. . ................................................ .................................................................................... F 1 x . ...... ........ y ........... . 1 .......... .................. ................... ... .................... .. .. ... ............ ... .. ........ .. .. ..... ... .......... .............. . . . .......... . . . ..... ... . . . . .... . .. ..... .. .. ...... . ... ...... .. ... ....... .... . . . . . . . . ... . . .... ........................ ................. ................................................................................... 1 x y ........... . 1 .......... ........... ....... ................ ........ ......... .. ............................... . . ... . .. ........ .. .. . ... ... ......... ............ ....... ........................ . . .. ... ...... . . . . .. ....... .. ........ ... ...... .. ..................................... .... . . . .. .... .......... .... .................. ....... .......... ............ ..... ................................................................................... F∗ 1 x Der Graph der Funktion Pµ („ H1 “) in Abhängigkeit von µ entsteht daher aus dem Graphen der Verteilungsfunktion F der Standardnormalverteilung dadurch, √ dass dieser in µ-Richtung (µ spielt jetzt die Rolle von x) um den Faktor σ/ n ge√ streckt/gestaucht wird und das Ergebnis dann um µ0 + (σ/ n)uα in µ-Richtung 1.3 Spezielle Verfahren QM2 15 66 verschoben wird. Die strenge Monotonie bleibt dabei erhalten, wie sich nun unmittelbar aus der geometrischen Konstruktion ergibt. Zur Nullhypothese bei einseitigen t-Tests. Die Hypothesen H0 : µ = µ0 H1 : µ > µ0 des einseitigen Einstichproben-t-Tests werden getestet mit der Statistik t= M − µ0 √ , s/ n deren Verteilung eine tN −J, δ -Verteilung ist mit δ= µ − µ0 √ . σ/ n Die Entscheidungregel, nach der H0 dann zu verwerfen ist, wenn t ≥ tN −J; α gilt, führt dazu, dass unter H0 die Wahrscheinlichkeit der Entscheidung für H1 gerade α ist, denn dann ist δ gleich 0 und die Verteilung von t zentral. Oft möchte man aber allgemeiner die Nullhypothese H0 : µ ≤ µ0 testen, bei der im Vergleich zu oben das Gleichheitszeichen durch ein Ungleichheitszeichen ersetzt ist. Es liegt hier nahe, denselben Test zu benutzen wie im Fall H0 : µ = µ0 , wobei sich allerdings die Frage stellt, ob das Signifikanzniveau auch dann eingehalten wird, wenn µ < µ0 ist. Dies ist anschaulich plausibel, soll jedoch hier kurz begründet werden. Die Verteilung von t ist in dem Fall, dass µ < µ0 gilt, eine nonzentrale t-Verteilung mit negativem NZP δ. Die Wahrscheinlichkeit, H0 zu verwerfen, ist damit die Wahrscheinlichkeit, dass eine Variable, die tN −J, δ -verteilt ist, einen Wert annimmt, der mindestens so groß ist wie der kritische Wert k. Dieser kritische Wert ist seinerseits so gewählt, dass die Wahrscheinlichkeit, dass eine tN −J -verteilte Variable mindestens gleich k wird, gerade gleich α ist. Man sieht, dass es genügt, die folgende Behauptung zu zeigen: Die Wahrscheinlichkeit, dass eine t-verteilte Variable mit negativem NZP einen Wert ≥ k annimmt, ist höchstens so groß wie die Wahrscheinlichkeit, dass eine zentral tverteilte Variable mit derselben Zahl von Freiheitsgraden einen Wert ≥ k annimmt (k ist dabei beliebig). 1.3 Spezielle Verfahren QM2 15 67 Zur Begründung sei u eine N (0, 1)-verteilte Variable und v eine χ2 -verteilte Variable mit der gegebenen Anzahl n von Freiheitsgraden. pDie beiden Variablen sollen außerdem unabhängig sein. Definiert man w als (v/n), so hat die Variable tδ = (u + δ)/w definitionsgemäß eine nonzentrale t-Verteilung mit NZP δ; hier ist δ < 0 vorausgesetzt. Die Variable t0 = u/w hat hingegen eine zentrale t-Verteilung. Zu zeigen ist nun, dass P(tδ ≥ k) ≤ P(t0 ≥ k) gilt. Sei dazu A das Ereignis tδ ≥ k. Nach Definition von tδ ist dies gleichbedeutend mit (u + δ)/w ≥ k oder u ≥ kw − δ. Ist diese Bedingung erfüllt, so gilt wegen δ < 0 auch u ≥ kw, was wiederum gleichbedeutend zu u/w ≥ k oder t0 ≥ k ist. Bezeichnet B nun das Ereignis t0 ≥ k, so folgt A ⊆ B, denn immer wenn A eintritt, tritt auch B ein. Daraus folgt wieder P(A) ≤ P(B), was aber gerade die Behauptung war. Die gerade angestellten Überlegungen lassen sich sofort auch auf andere Situationen übertragen, in denen man eine t-Statistik zu einem einseitigen Test benutzt, beispielsweise auf die des Zweistichproben-t-Tests für unabhängige Stichproben. t-Test mit ungleichen Varianzen. Gegeben sei die Situation von zwei unabhängigen Stichproben. Ihre Umfänge seien n1 und n2 , die Erwartungswerte µ1 und µ2 und die Varianzen σ12 und σ22 . Zu testen ist beispielsweise die (Alternativ-)Hypothese, dass µ2 > µ1 gilt. Es sollen die Verteilungsvoraussetzungen der Unabhängigkeit und Normalverteilung wie beim Zweistichproben-t-Test gelten, nicht aber die der Varianzhomogenität. Die weiteren Bezeichnugen seien wie üblich: die Mittelwerte seien M1 und M2 , die korrigierten Stichprobenvarianzen s21 und s22 . Wie üblich berechnet man die Varianz der Mittelwertdifferenz: V (M2 − M1 ) = σ12 /n1 + σ22 /n2 . Schätzen wird man diese Varianz naheliegenderweise, indem man die σi2 durch die entsprechenden s2i ersetzt. Von Interesse ist nun die Varianz des so entstehenden Varianzschätzers s21 /n1 + s22 /n2 . Da (ni − 1)s2i /σi2 ∼ χ2ni −1 gilt, und da die Varianz einer χ2n -verteilten Variable gleich 2n ist, gilt V (s2i ) = 2σi4 /(ni − 1), und daher 1.3 Spezielle Verfahren V (s21 /n1 + QM2 15 s22 /n2 ) =2 σ24 σ14 + (n1 − 1)n21 (n2 − 1)n22 68 Man bildet nun analog zum bekannten t-Bruch den folgenden, auch mit t bezeichneten Bruch, bei dem Rücksicht darauf genommen wird, dass die Varianzen nicht homogen sind: ,r σ12 σ22 (M2 − M1 ) + n1 n2 M2 − M1 t= r 2 = s 2 2 2 2 s1 s22 s s σ σ 1 2 1 2 + + + n1 n2 n1 n2 n1 n2 Der Zähler des rechten Bruchs p ist normalverteilt, wie üblich mit Varianz 1 und Erwartungswert (µ2 − µ1 )/ σ12 /n1 + σ22 /n2 . Der Nenner ohne Wurzel soll nun genauer betrachtet werden. Es sei dazu 2 2 s1 s22 σ1 σ22 Y := + + n1 n2 n1 n2 In der Standardsituation des t-Tests stünde hier eine durch ihre Freiheitsgrade ν geteilte χ2 -verteilte Variable. Der Erwartungswert dieser Variablen wäre 1, die Varianz wäre gleich 2/ν. Der Erwartungswert von Y ist ebenfalls 1, die Varianz hingegen ist , 2 2 σ14 σ24 σ1 σ22 + V (Y ) = 2 + . (n1 − 1)n21 (n2 − 1)n22 n1 n2 Die Idee zur Behandlung dieses Falls ist nun die, so zu tun, als wäre Y eine geeignete durch ihre Freiheitsgrade ν geteilte χ2 -Variable, also von der Form U/ν mit einem geeigneten U ∼ χ2ν . Wenn das so wäre, so hätte dann t die entsprechende tν -Verteilung. Aber auch wenn es nicht so ist, kann man hoffen, dass diese tν -Verteilung wenigstens näherungsweise mit der tatsächlichen Verteilung von t übereinstimmt. Die Frage ist dabei, welche Zahl ν man für die Freiheitsgrade zu wählen hat. Naheliegend ist es, diese Zahl so zu wählen, dass dann Erwartungswert und Varianz von Y mit dem formal gebildeten Erwartungswert (1) und der formal gebildeten Varianz (2/ν) der hypothetischen Variable U/ν übereinstimmen. Die Forderung 1.3 Spezielle Verfahren QM2 15 69 für den Erwartungswert ist schon erfüllt, und aus der Forderung für die Varianz ergibt sich , 2 2 4 4 σ1 σ1 σ22 σ2 2/ν = 2 + + (n1 − 1)n21 (n2 − 1)n22 n1 n2 oder ν= σ12 σ22 + n1 n2 2 σ14 σ24 + (n1 − 1)n21 (n2 − 1)n22 . Leider hat man auch die theoretischen Varianzen nicht zur Verfügung. Daher wird ν dadurch geschätzt, dass die σi2 durch die s2i ersetzt werden. Die Freiheitsgrade der so schließlich (hoffentlich) approximierenden t-Verteilung sind dann s21 s2 + 2 n1 n2 2 s41 s42 + (n1 − 1)n21 (n2 − 1)n22 . Die Zahl, die sich hier ergibt, wird im allgemeinen nicht ganz sein, kommt also als Zahl von Freiheitsgraden meist gar nicht in Betracht. Eine Möglichkeit ist dann die, auf die nächste ganze Zahl zu runden, oder, noch vorsichtiger, die nächstkleinere ganze Zahl zu nehmen. Dann tut man so, als hätte t unter H0 eine t-Verteilung mit der so ermittelten Zahl ν ∗ von Freiheitsgraden. Zum Testen benutzt man bei der geschilderten Approximation also die tν ∗ -Verteilung als H0 -Verteilung und verwirft (beim rechtsseitigen Test) die Nullhypothese auf dem Niveau α, falls das oben gebildete t mindestens gleich tν ∗ ; α ist (linksseitiger und zweiseitiger Test entsprechend). Vorschlag für eine Aufgabe: Gegeben seien die beiden Stichproben 5, 6, 4 und 0, 40, 10, 30, 20, 20. Man führe einen normalen t-Test durch und einen nach dem oben geschilderten Verfahren. Dann vergleiche man die Ergebnisse mit den Outputs von Statistikprogrammen. 1.4 Varianzanalysen 1.4 1.4.1 QM2 15 70 Varianzanalysen Einfaktorielle Varianzanalyse Varianzzerlegung. Gezeigt werden soll die Quadratsummenzerlegung SStot = SSb + SSw . Man führt dazu die folgenden Umformungen durch: SStot nj J X X = (yij − M )2 j=1 i=1 = XX j ((yij − Mj ) + (Mj − M ))2 i XX XX XX = (yij − Mj )2 + 2 (yij − Mj )(Mj − M ) + (Mj − M )2 j i = SSw + 2 X = SSw + 2 X j i (Mj − M ) X j (yij − Mj ) + X i j i nj (Mj − M )2 j (Mj − M ) · 0 + SSb j = SSw + 0 + SSb = SSb + SSw Hierbei wurde berücksichtigt, dass die Summen der Abweichungen vom MittelP wert immer 0 sind ( i (yij − Mj ) = 0 ). Erwartungswert von SSb . Ziel ist die Bestimmung des Erwartungswerts von SSb . Zur Berechnung wird zuerst der Erwartungswert von (Mj − M )2 bestimmt. Diese Berechnung zerfällt in mehrere Teilschritte. Der Erwartungswert von Mj ist zunächst gleich µj , woraus sich E(M ) = E J X nj j=1 ergibt. N ! Mj = X nj N E(Mj ) = X nj N µj = µ 1.4 Varianzanalysen QM2 15 71 Dieses wichtige Teilresultat kann man auch so formulieren: M ist ein erwartungstreuer Schätzer für µ. Unmittelbar folgt nun: E(Mj − M ) = E(Mj ) − E(M ) = µj − µ = αj . In Mj − M hat man also einen erwartungstreuen Schätzer für die j-te Effektgröße αj . Als weitere Vorbereitungen werden nun die Varianzen von Mj und M bestimmt; die von Mj ist bereits bekannt, nämlich σ 2 /nj . Für die Varianz von nj J 1 XX M= yij N j=1 i=1 erhält man wegen der Unabhängigkeit der yij die Beziehung V(M ) = V( σ2 1 XX 1 XX 1 XX 2 1 . yij ) = 2 V(yij ) = 2 σ = 2 N σ2 = N N N N N Schließlich wird noch die Kovarianz von Mj und M bestimmt: ! J X X nk nk Kov(Mj , M ) = Kov Mj , Mk = Kov(Mj , Mk ) N N k=1 k = nj σ 2 nj = σ 2 /N . V(Mj ) = N N nj Zu beachten ist bei dieser Rechnung, dass wegen der Unabhängigkeit der Mj alle Kov(Mj , Mk ) für k 6= j gleich 0 sind, so dass beim Ausrechnen der Summe nur Kov(Mj , Mj ) einen Beitrag 6= 0 liefert, nämlich eben V(Mj ). Vielleicht ist es auch nicht überflüssig, darauf hinzuweisen, dass beim Ausschreiben von M als Summe der gewohnte Index j deshalb nicht verwendet werden konnte, weil er hier bereits eine andere Bedeutung hatte; als Index wurde daher k gewählt. Mit den bisherigen Teilresultaten wird nun zunächst die Varianz von Mj − M bestimmt: σ2 σ2 σ2 1 1 2 V(Mj −M ) = V(Mj )+V(M )−2Kov(Mj , M ) = + −2 = σ − . nj N N nj N 1.4 Varianzanalysen QM2 15 72 Mit der allgemeinen Beziehung E(X 2 ) = V(X) + (E(X))2 (umgestellte Varianzformel) erhält man schließlich 1 1 2 2 2 − + αj2 , E((Mj − M ) ) = V(Mj − M ) + (E(Mj − M )) = σ nj N womit das erste Teilziel erreicht ist. Die Berechnung von E(SSb ) ist nun einfach: ! J X X 1 1 2 2 2 E(SSb ) = E nj (Mj − M ) = nj σ − + αj n N j j=1 X X nj X 1− = σ2 + nj αj2 = σ 2 (J − 1) + nj αj2 . N P Hier wurde natürlich nj = N ausgenutzt. Damit ist das Ziel, den Erwartungswert von SSb zu bestimmen, erreicht. Als Erwartungswert von SSb /σ 2 erhält man nun unmittelbar P nj αj2 2 . E(SSb /σ ) = (J − 1) + σ2 Bekanntlich ist der Erwartungswert einer χ2n, δ2 -verteilten Variable gleich n + δ 2 . Akzeptiert man die (hier nicht begründete) Tatsache, dass die Verteilung von SSb /σ 2 eine χ2J−1, δ2 -Verteilung ist (und dass dann SSb /σ 2 den Erwartungswert (J − 1) + δ 2 besitzt), so ergibt sich für den Nonzentralitätsparameter δ 2 aus dem erzielten Resultat für den Erwartungswert von SSb /σ 2 durch Einsetzen sofort P nj αj2 2 δ = . σ2 1.4.2 Zweifaktorielle Varianzanalyse Zweifaktorielles Design, mittlere Erwartungswerte. In einem zweifaktoriellen Design werden Beobachtungen für die Kombinationen der Stufen zweier Faktoren gemacht. Der Standardfall ist dabei der, dass für alle Stufenkombinationen sogar gleich viele Beobachtungen gemacht werden; auf 1.4 Varianzanalysen QM2 15 73 diesen Fall beziehen sich die Formeln des Standardfalls der zweifaktoriellen Varianzanalyse. Die beiden Faktoren seien mit A und B bezeichnet, wobei die Anzahl der Stufen von A gleich J und die von B gleich K sei. Die Stufen von A seien mit A1 , . . . , AJ bezeichnet und die von B mit B1 , . . . , BK . Die möglichen Bedingungskombinationen veranschaulicht man sich dann in einem Schema der folgenden Art (dem ‚Designschema‘): A1 A2 .. . AJ B1 B2 . . . . . . BK ...... ...... .. .. .. .. . . . . ...... Jeder Bedingungskombination entspricht in diesem Schema eine ‚Zelle‘. Hypothesen in derartigen Designs beziehen sich meist auf Erwartungswerte; ist µjk der Erwartungswert der Kombination von Aj und Bk , so kann man zur Veranschaulichung die Erwartungswerte in die zugehörigen Zellen eintragen. A1 A2 .. . AJ B1 B2 µ11 µ12 µ21 µ22 .. .. . . µJ1 µJ2 . . . . . . BK . . . . . . µ1K . . . . . . µ2K .. .. . . . . . . . . µJK Viele Hypothesen nehmen Bezug auf Durchschnitte von Erwartungswerten, die gebildet werden, indem man eine Stufe eines Faktors festhält und den Mittelwert der Erwartungswerte für alle Kombinationen dieser Stufe mit den Stufen des anderen Faktors bildet. Hält man die Stufe Aj des ersten Faktors fest, so heißt der zugehörige Durchschnitt µj . , hält man die Stufe Bk des zweiten Faktors fest, so nennt man den zugehörigen Durchschnitt µ.k . Auch der Durchschnitt aller Erwartungswerte spielt eine wichtige Rolle; er heißt kurz µ. Formal gilt also µj . = 1 X µjk , K k µ .k = 1X µjk , J j µ= 1 X µjk . JK j,k 1.4 Varianzanalysen QM2 15 74 Zur Veranschaulichung sind diese durchschnittlichen Erwartungswerte an den entsprechenden Stellen am Rand des folgenden Schemas eingetragen; die Bezeichnung der Stufen soll ab jetzt unterbleiben. µ11 µ12 µ21 µ22 .. .. . . µJ1 µJ2 µ.1 µ. 2 . . . . . . µ1K µ1. . . . . . . µ2K µ2. .. .. .. . . . . . . . . . µJK µJ . . . . . . . µ .K µ Da häufig Durchschnitte gebildet werden, ist die Einführung eines entprechenden Symbols Ø für das Verständnis hilfreich. Soll ein Durchschnitt über mehrere mit k indizierte Werte gebildet werden, wobei die Gesamtzahl der Werte gleich K ist, so sollen die Symbolkombinationen Ø 1 X K k und k gleichbedeutend sein. Entsprechendes gilt, wenn der Durchschnitt von Werten gebildet wird, die mit zwei Indizes j und k indiziert sind, wobei jede Indexkombination genau einmal auftritt und die Indizes j und k gerade J bzw. K mögliche Werte haben; hier sind dann die Symbolkombinationen Ø 1 X JK j,k und j, k gleichwertig. Man schreibt dann etwas suggestiver µj . = Ø µjk , k µ.k = Ø µjk , j µ = Ø µjk . j, k Man überzeugt sich nun unmittelbar davon, dass auch µ = Ø µj . j und µ = Ø µ.k k gilt; der Gesamtdurchschnitt aller µjk ist also auch der Durchschnitt der Zeilendurchschnitte und der Durchschnitt der Spaltendurchschnitte (wesentlich ist hierbei, dass die ‚Zwischendurchschnitte‘ hier alle auf gleich vielen Werten beruhen). 1.4 Varianzanalysen QM2 15 75 Haupteffekte. Zwei der drei Hypothesenpaare der zweifaktoriellen Varianzanalyse können jetzt schon formuliert werden; es sind die Haupteffekthypothesen. Die Hypothesen für den Faktor A lauten H0A : µ1. = µ2. = . . . = µJ . H1A : nicht H0A . Ganz analog zur einfaktoriellen Varianzanalyse sagt die Nullhypothese hier, dass sich die durchschnittlichen Erwartungswerte der Stufen des Faktors A nicht unterscheiden, während die Alternativhypothese das Vorhandensein irgendwelcher Unterschiede postuliert, ohne sich genauer festzulegen, an welcher Stelle diese Unterschiede liegen. Der Unterschied zur einfaktoriellen Varianzanalyse liegt nur darin, dass es hier um durchschnittliche Erwartungswerte und nicht um Erwartungswerte geht. Die durchschnittlichen Erwartungswerte, um die es hier geht, sind in der Darstellung oben die, die am rechten Rand des Designschemas liegen. Wenn die Alternativhypothese H1A gilt, sagt man auch, dass ein Haupteffekt des Faktors A vorliegt. Genauso formuliert man die entsprechenden Hypothesen für den Faktor B: H0B : µ.1 = µ.2 = . . . = µ.K H1B : nicht H0B . Gilt hier die Alternativhypothese, so sagt man, dass ein Haupteffekt des Faktors B vorliegt. Die durchschnittlichen Erwartungswerte, um die es jetzt geht, sind die unter dem Designschema. Wieder analog zur einfaktoriellen Varianzanalyse kann man Effektgrößen definieren und diese zu einem Vektor zusammenfassen, für den der Name ‚Effekt‘ für viele Formulierungen recht passend ist. Für den Haupteffekt von A sind die Effektgrößen genauer die Zahlen αj := µj . − µ , und ihre Zusammenfassung zum Vektor (α1 , α2 , . . . , αJ ) 1.4 Varianzanalysen QM2 15 76 soll auch als Haupteffekt von A bezeichnet werden. Wie sich gleich genauer zeigen wird, liegt ein Haupteffekt von A (im Sinne der Hypothesen) nun genau dann vor, wenn nicht alle αj gleich 0 sind, wenn also der hier kurz als Haupteffekt bezeichnete Vektor nicht der sogenannte Nullvektor ist, der aus lauter Nullen besteht. Im Folgenden wird oft von einer einfachen Eigenschaft des Durchschnitts Gebrauch gemacht: Für gegebene Zahlen a1 , . . . , am gilt, dass diese Zahlen genau dann alle gleich groß sind, wenn alle genauso groß sind wie ihr Durchschnitt. Sind nämlich alle ai gleich groß, also gleich einer Zahl a, so ist offenbar auch der Durchschnitt dieser Zahlen gleich a und die Zahlen sind insbesondere alle genauso groß wie ihr Durchschnitt. Sind umgekehrt alle Zahlen so groß wie ihr Durchschnitt, so sind sie insbesondere auch alle gleich groß. Wegen dieser Eigenschaft sind nun die µj . genau dann alle gleich groß, wenn sie alle gleich ihrem Durchschnitt µ sind, und dies ist genau dann der Fall, wenn alle αj = µj . − µ gleich 0 sind. Damit ist die noch ausstehende Behauptung gezeigt. Es soll nun der Durchschnitt der αj gebildet werden; hier gilt Ø αj = Ø (µj . − µ) = Ø µj . − Ø µ = µ − µ = 0 . j j j j Die hier verwendeten Regeln, dass der Durchschnitt einer Differenz gleich der Differenz der Durchschnitte ist, und dass man als Durchschnitt einer mehrfach aufgeführten Zahl (hier µ) wieder diese Zahl erhält, folgen unmittelbar aus der Definition des Durchschnitts. Diese und ähnliche Regeln werden im Folgenden oft angewendet, ohne dass dies besonders kommentiert werden soll. Offenbar ist der Durchschnitt gewisser gegebener Zahlen genau dann gleich 0, wenn ihre Summe gleich 0 ist, so dass man die letzte Aussage äquivalent auch so formulieren kann, dass die Summe der αj gleich 0 ist. Diese Formulierung ist in manchen Zusammenhängen angemessener. Ganz analog zu den Effektgrößen αj definiert man die Effektgrößen für den Haupteffekt von B als βk := µ.k − µ und fasst sie zu dem Vektor (β1 , . . . , βK ) zusammen, den man auch kurz als den Haupteffekt von B bezeichnet. Wieder 1.4 Varianzanalysen QM2 15 77 ist dieser Vektor genau dann vom Nullvektor verschieden, wenn im Sinne der Hypothesen ein Haupteffekt von B vorhanden ist, wenn also H1B gilt. Auch hier gilt, dass der Durchschnitt der βk gleich 0 ist, ebenso die Summe. Bedingte Haupteffekte. Man kann nun nicht nur danach fragen, ob sich die zu den einzelnen Stufen von A gehörenden Erwartungswerte im Durchschnitt unterscheiden (dies ist die Frage, ob ein Haupteffekt von A vorhanden ist), sondern auch danach, ob sie sich für eine feste Stufe Bk des anderen Faktors B unterscheiden. Falls solche Unterschiede vorhanden sind, spricht man auch davon, dass ein bedingter Haupteffekt von A auf der Stufe Bk von B vorliegt, im anderen Fall sagt man, dass ein solcher bedingter Haupteffekt nicht vorliegt. In der Terminologie der Wirkungen (wenn sie angemessen ist) gibt ein Haupteffekt darüber Auskunft, ob die Variation von A im Durchschnitt (unterschiedlich) wirksam ist, während es bei einem bedingten Haupteffekt darum geht, ob die Variation von A auf einer festen Stufe Bk von B (unterschiedlich) wirksam ist. Auch hier ist es sinnvoll, einen etwas technischeren Begriff für bedingte Haupteffekte einzuführen; als bedingte Effektgrößen von A für eine feste Stufe von Bk von B sollen die Zahlen (k) αj := µjk − µ.k bezeichnet werden, und als bedingter Haupeffekt von A auf der Stufe Bk die Zusammenfassung dieser Größen zu einem Vektor (k) (k) (k) (α1 , α2 , . . . , αJ ) . Hier wird im Designschema eine feste Spalte betrachtet (nämlich die k-te), und es geht darum, ob die Erwartungswerte in dieser Spalte alle gleich sind oder nicht, ob also in dieser Spalte ein Effekt von A vorliegt oder nicht. Wie sich gerade gezeigt hat, ist dies die gleich Frage, wie die, ob diese Erwartungswerte alle gleich ihrem Durchschnitt µ.k sind (der unter der betrachteten Spalte steht) oder nicht. Die Abweichungen der einzelnen Erwartungswerte von ihrem Durchschnitt bilden dann zusammengenommen gerade den bedingten Haupteffekt von A auf der Stufe Bk . Diese Bezeichnung steht offenbar ganz im Einklang mit den analogen bisherigen Bezeichnungen. Wichtig ist nun die Frage nach den Durchschnitten der bedingten Effektgrößen 1.4 Varianzanalysen QM2 15 78 (k) αj . Durchschnitte kann man hier entweder über j oder über k bilden. Für den Durchschnitt über j ergibt sich Ø αj(k) = Ø (µjk − µ.k ) = Ø µjk − Ø µ.k = µ.k − µ.k = 0 . j j j j Damit ist natürlich auch wieder die entsprechende Summe gleich 0. Als Durchschnitt über k berechnet man Ø αj(k) = Ø (µjk − µ.k ) = Ø µjk − Ø µ.k = µj . − µ = αj . k k k k Dies Ergebnis kann man, wenn man die Effektgrößen wieder zu Vektoren zusammenfasst griffig auch so formulieren, dass der Durchschnitt der bedingten Haupteffekte von A gerade der Haupteffekt von A ist. (k) Trägt man in das Designschema die bedingten Effektgrößen αj ein und bildet man wie oben bei den µjk dann zeilen- und spaltenweise die Durchschnitte, so erhält man folgendes Resultat: (1) α1 (1) α2 .. . αJ (1) αJ 0 α1 α2 .. . (2) . . . . . . α1 (K) α1 (2) . . . . . . α2 .. .. . . (K) α2 .. . (2) . . . . . . αJ (K) αJ 0 ...... 0 0 Genauso, wie man bedingte Haupteffekte von A untersuchen kann, kann man auch solche von B untersuchen. Die Effektgrößen für den bedingten Haupteffekt von B auf der Stufe Aj von A sind dann die Zahlen (j) βk := µjk − µj . . Diese Zahlen geben an, wie stark die Erwartungswerte µjk in der j-ten Zeile von ihrem Durchschnitt µj . abweichen, der in dem entsprechenden Schema am rechten Rand der Zeile steht. Wie bei den bedingten Haupteffekten von A gilt hier Ø βk(j) = 0 k 1.4 Varianzanalysen QM2 15 79 und Ø βk(j) = βk , j wieder ist also der Haupteffekt (diesmal von B) der Durchschnitt der bedingten Haupteffekte. (j) Trägt man die βk samt ihren Durchschnitten in das Designschema ein, so erhält man folgendes Ergebnis: (1) β2 (2) β2 .. . (J) β2 β1 β1 .. . β1 β1 (1) . . . . . . βK (2) . . . . . . βK .. .. . . (J) β2 (1) 0 (2) 0 .. . . . . . . . βK (J) 0 ...... 0 βK Interaktionseffekt. Zunächst ist eine weitere Gruppe von Effektgrößen zu bilden, nämlich die der Interaktionseffektgrößen γjk , die als γjk := µjk − (µ + αj + βk ) definiert sind. Für ein vorläufiges Verständnis kann man γjk auffassen als die Differenz des tatsächlichen Erwartungswertes µjk in der Kombination der Stufen Aj und Bk von dem, was man auf Grund des durchschnittlichen Erwartungswertes µ, des Effekts αj der zugehörigen Stufe von A und des Effekts βk der zugehörigen Stufe von B ‚erwarten‘ würde. Nützlich ist die Zusammenfassung der Effektgrößen in folgendem Schema: µ β1 β2 α1 γ11 γ12 α2 γ21 γ22 .. .. .. . . . αJ γJ1 γJ2 . . . . . . βK . . . . . . γ1K . . . . . . γ2K .. .. . . . . . . . . γJK Hier erhält man den Erwartungswert µjk einer bestimmten Zelle, indem man den Wert von γjk in dieser Zelle zu der Summe von µ (oben links), αj (links von der Zeile) und βk (oberhalb der Spalte) addiert. Will man die γjk bestimmen, so ist es praktisch, in dieser Tabelle zunächst µ, die αj und die βk einzutragen, um 1.4 Varianzanalysen QM2 15 80 danach die γjk als Differenzen zwischen den µjk und den genannten Summen zu ermitteln. Zunächst sollen wieder die Durchschnitte der γjk zeilen- und spaltenweise gebildet werden. Man erhält für die Zeile j die Beziehung Ø γjk = Ø (µjk − µ − αj − βk ) = Ø µjk − Ø µ − Ø αj − Ø βk k k k k k k = µj . − µ − α j − 0 = 0 , da ja µ + αj gerade µj . ist. Genauso errechnet man als Durchschnitt für die Spalte k das Ergebnis Ø γjk = Ø (µjk − µ − αj − βk ) = Ø µjk − Ø µ − Ø αj − Ø βk j j j j j j = µ.k − µ − 0 − βk = 0 . Zeilen- und spaltenweise sind die Durchschnitte der γjk also 0 (ebenso natürlich die Summen), was zur Veranschaulichung auch wieder in das Schema eingetragen werden soll: γ11 γ12 γ21 γ22 .. .. . . γJ1 γJ2 0 0 . . . . . . γ1K . . . . . . γ2K .. .. . . . . . . . . γJK ...... 0 0 0 .. . 0 0 Alternativ kann man die γjk auch mit Hilfe der durchschnittlichen Erwartungswerte ausdrücken: γjk = µjk − (µ + αj + βk ) = µjk − (µ + αj ) − (µ + βk ) + µ = µjk − µj . − µ.k + µ . Diese Formulierung ist später praktisch, wenn es um die Schätzung von γjk geht. Schreibt man die Definition von γjk etwas um, so erhält man γjk = µjk − (µ + αj + βk ) = µjk − (µ + βk ) − αj = (µjk − µ.k ) − αj (k) = αj − αj . Diese Beziehung gibt den γjk eine weitere Bedeutung als Abweichungen der bedingten Haupteffekte von den Haupteffekten. 1.4 Varianzanalysen QM2 15 81 Besonders interessant ist der Fall, dass die bedingten Haupteffekte von A für die Stufen Bk von B alle gleich sind. Dies lässt nämlich oft die inhaltliche Deutung zu, dass die Wirkung von A auf allen Stufen von B die gleiche ist (ob diese Deutung wirklich angemessen ist, ist im Einzelfall zu diskutieren). Dieser Fall tritt genau dann ein, wenn alle γjk gleich 0 sind. Sind nämlich alle γjk gleich 0, so sind alle bedingten Haupteffekte von A gleich dem Haupteffekt von A und damit insbesondere untereinander gleich. Sind umgekehrt alle bedingten Haupteffekte von A gleich, so sind sie (komponentenweise) auch gleich ihrem Durchschnitt, der ja gerade der Haupteffekt von A ist. Die Abweichungen der bedingen Haupteffekte von A vom Haupteffekt von A sind damit alle 0, und da diese Abweichungen gerade die γjk sind, sind dann auch alle γjk gleich 0. Geometrisch lässt sich die Gleichheit der bedingten Haupteffekte von A auch so deuten, dass im A-Diagramm alle Erwartungswertverläufe parallel sind. Betrachtet man nämlich den Abstand zweier Erwartungswertverläufe für zwei Stufen Bk1 und Bk2 von B an der Stelle Aj , so ist dieser Abstand gleich (k ) (k ) (k ) (k ) µjk1 − µjk2 = µ.k1 + αj 1 − µ.k2 + αj 2 = (µ.k1 − µ.k2 ) + αj 1 − αj 2 . Der Abstand der beiden betrachteten Erwartungswertverläufe an der Stelle Aj setzt sich also zusammen aus einem Summanden µ.k1 −µ.k2 , der von j unabhängig (k ) (k ) ist und aus αj 1 − αj 2 . Parallel sind diese beiden Verläufe genau dann, wenn ihr (k ) (k ) Abstand an allen Stellen Aj gleich groß ist, also genau dann, wenn alle αj 1 −αj 2 gleich sind. (k1 ) Nun sind die αj Durchschnitt Ø j (k2 ) − αj (k1 ) αj genau dann für alle j gleich, wenn sie gleich ihrem (k2 ) − αj (k1 ) = Ø αj j (k2 ) − Ø αj =0−0=0 j (k ) (k ) sind, wenn also für alle j die Beziehung αj 1 = αj 2 gilt. Dies leuchtet übrigens auch unmittelbar geometrisch ein, da die αjk ja gerade die Abweichungen der µjk von ihrer durchschnittlichen Höhe µ.k sind; Parallelität bedeutet nämlich, dass man abgesehen von der Höhe die gleiche ‚Form‘ der Erwartungswertverläufe haben muss. Die Parallelität der zu den Stufen Bk1 und Bk2 von B gehörenden Erwartungswertverläufe ist also gleichbedeutend dazu, dass die bedingten Haupteffekte von 1.4 Varianzanalysen QM2 15 82 A für die Stufen Bk1 und Bk2 von B gleich sind. Parallelität aller Erwartungswertverläufe im A-Diagramm liegt folglich genau dann vor, wenn alle bedingten Haupteffekte von A gleich sind. Die Gleichheit aller bedingten Haupteffekte von A hat sich aber gerade als äquivalent dazu erwiesen, dass alle γjk gleich 0 sind. Die gleichen Argumente und Beziehungen wie für den Faktor A gelten auch für den Faktor B. Man kann nämlich die γjk auch folgendermaßen umschreiben: γjk = µjk − (µ + αj + βk ) = µjk − (µ + αj ) − βk = (µjk − µj . ) − βk (j) = βk − βk . Danach kann man genauso wie oben weiterargumentieren, wobei nur A und B die Rollen tauschen. Das Gesamtergebnis ist dann, dass bei den folgenden fünf Bedingungen die Gültigkeit einer jeden die der vier anderen Bedingungen nach sich zieht; die folgenden fünf Bedingungen sind also äquivalent: 1. Alle bedingten Haupteffekte von A sind gleich. 2. Alle Erwartungswertverläufe im A-Diagramm sind parallel. 3. Alle bedingten Haupteffekte von B sind gleich. 4. Alle Erwartungswertverläufe im B-Diagramm sind parallel. 5. Alle γjk sind gleich 0. Ist eine dieser Bedingungen verletzt (und sind es damit alle), so sagt man auch, dass ein Interaktionseffekt vorliegt. Damit wird die letzte der Standardhypothesen der zweifaktoriellen Varianzanalyse formulierbar, nämlich die Interaktionshypothese: H0I : Alle γjk sind 0 H1I : nicht H0I . Natürlich kann man hier die Nullhypothese auch so formulieren, dass alle Erwartungswertverläufe parallel sind, oder dass alle bedingten Haupteffekte gleich sind. 1.4 Varianzanalysen QM2 15 83 Dabei ist es gleichgültig, ob man sich auf das A-Diagramm oder das B-Diagramm bezieht beziehungsweise auf den Faktor A oder den Faktor B, wie aus der Äquivalenz der gerade formulierten Bedingungen hervorgeht. Interaktion und Additivität. Manchmal wird die Nullhypothese der Interaktion auch so formuliert, dass die Effekte von A und B additiv sind. Diese Sprechweise ist nicht ganz unproblematisch, wenn man Effekte mit Wirkungen gleichsetzt. Auf der formalen Ebene ist die Sprechweise völlig korrekt im folgenden Sinn: Wegen der Gleichung µjk = µ + αj + βk + γjk , die nur eine Umformulierung der Definition der γjk ist, ergeben sich die µjk additiv aus den Haupteffekten (und natürlich µ) genau dann, wenn alle γjk gleich 0 sind. Womöglich ist man jedoch geneigt, bei dem Wort ‚Effekt‘ nicht an mehr oder weniger künstliche additive Zerlegungen von Erwartungswerten innerhalb eines bestimmten Designs zu denken, sondern an Wirkungen der Faktoren in einem inhaltlichen Sinn. Eine solche Gleichsetzung ist allgemein durch nichts gerechtfertigt. In konkreten Fällen mag die Interpretation der statistischen Effekte als Ausdruck von Wirkungen der Faktoren (besser: der Stufen der Faktoren) jedoch gelegentlich angebracht sein, wobei allerdings eine naive Gleichsetzung meist verfehlt ist. Zur Erläuterung sei eine Situation betrachtet, in der man inhaltlich eine Additivität der Wirkungen von zwei Faktoren (genauer: ihrer Stufen) voraussetzen darf im folgenden Sinn: Der Erwartungswert µjk der abhängigen Variable unter den Stufen Aj von A und Bk von B möge sich dadurch ergeben, dass zu dem Erwartungswert µ0 für einen ‚Normalzustand‘, in dem die Faktoren nicht (oder normal) wirken (was das heißen kann, ist inhaltlich zu klären), eine Wirkung uj der Stufe Aj von A und eine Wirkung vk der Stufe Bk von B sich in einem additiven Sinn so zusammenfügen, dass schließlich µjk = µ0 + uj + vk gilt. Solche Vorstellungen sind vielleicht an physikalischen Bildern orientiert, wo Kräfte, die für die unterschiedlichen Faktorstufen unterschiedlich groß sind, an einem 1.4 Varianzanalysen QM2 15 84 Objekt so angreifen, dass sich ihre Wirkungen addieren. Wenn jedenfalls ein Modell gültig ist, bei dem sich die Wirkungen addieren, so sind alle Interaktionseffektgrößen γjk gleich 0 und die Haupteffekte unterscheiden sich von den Wirkungen nur um eine additive Konstante. Berechnet man nämlich die Effektgrößen, so gilt zunächst µj . = Ø µjk = Ø (µ0 + uj + vk ) = Ø µ0 + Ø uj + Ø vk = µ0 + uj + Ø vk k k k k k k und entsprechend µ.k = µ0 + Ø uj + vk j und µ = µ0 + Ø uj + Ø vk . j k Hieraus ergibt sich αj = µj . − µ = uj − Ø uj j und βk = µ.k − µ = vk − Ø vk . k Dies ergibt weiter ! (µ + αj + βk ) = (µ0 + Ø uj + Ø vk ) + (uj − Ø uj ) + (vk − Ø vk ) j k j k = µ0 + uj + vk = µjk und schließlich γjk = µjk − (µ + αj + βk ) = µjk − µjk = 0 . Hat man also additive Wirkungen im beschriebenen Sinn, so sind alle γjk Null, und die Wirkungen (uj und vk ) unterscheiden sich von den entsprechenden Haupteffektgrößen (αj und βk ) nur um additive Konstanten (die Durchschnitte der uj bzw. vk ). Insbesondere gilt dann die Nullhypothese der Interaktion. Umgekehrt wäre es natürlich vermessen, aus der Gültigkeit der Nullhypothese der Interaktion darauf zu schließen, dass ein Modell mit additiven Wirkungen (im inhaltlichen Sinn) gilt. 1.4 Varianzanalysen QM2 15 85 Effektstärken bei der zweifaktoriellen VA. Genau wie in der einfaktoriellen Varianzanalyse kann man auch in der zweifaktoriellen Effektstärken definieren. Hier gibt es drei Standardhypothesenpaare, zu denen jeweils eine Effektstärke gehört. Die Effektstärken hängen wieder eng mit den Nonzentralitätsparametern der entsprechenden Tests zusammen; in der nächsten Tabelle sind die Nonzentralitätsparameter und die Definitionen der Effektstärken zusammengefasst. Zur Unterscheidung wird die ‚Varianzquelle‘ jeweils als Index benutzt. Varianzquelle A B I NZP δ 2 . P δA2 = nK j αj2 σ 2 βk2 / σ 2 P 2. 2 σ δI2 = n jk γjk δB2 = nJ P k Effektstärke f 2 P . 2 fA2 = α σ2 j j /J . P 2 2 σ2 fB = k βk /K . P 2 /(JK) σ2 fI2 = γ jk jk Was die Interpretation der Effektstärken angeht, so liegen die Verhältnisse ähnlich wie bei der einfaktoriellen Varianzanalyse. Die Nonzentralitätsparameter können zur Bestimmung der Power bei den entsprechenden Tests genutzt werden. Es folgen Anmerkungen zum Aufbau der Kenngrößen. Zum Zusammenhang der δ 2 und f 2 stellt man sofort fest, dass die Effektstärken sich aus den Nonzentralitätsparametern dadurch ergeben, dass man durch N = JKn dividiert. Umgekehrt geschrieben heißt das beispielsweise δA2 = N fA2 etc., ganz analog zu den Verhältnissen bei der einfaktoriellen Varianzanalyse. Ebenfalls wie bei der einfaktoriellen Varianzanalyse kann man sich die Bildung der NZP so merken, dass man für alle Beobachtungen die jeweils zugehörige Effektgröße nimmt, alle diese Effektgrößen quadriert, aufsummiert und das Ergebnis schließlich noch durch σ 2 teilt. Beispielsweise ist für die Varianzquelle A die zu einer Beobachtung yijk gehörende Effektgröße gerade αj . Ersetzen aller Beobachtungen durch das zugehörige αj2 und Aufsummieren liefert ! J X K X n K X n X J K X n J J X X X X X 2 2 2 αj = αj = αj = nK αj2 . j=1 k=1 i=1 k=1 i=1 j=1 k=1 i=1 j=1 j=1 Teilt man dies noch durch σ 2 , so erhält man in der Tat δA2 . Was die Effektstärken angeht, so kann man beispielsweise fA2 auch deuten als den 1.4 Varianzanalysen QM2 15 86 Quotienten der Varianz der µj . und der Fehlervarianz σ 2 . Unter der Varianz der µj . wird dabei einfach die (deskripive) Varianz dieser Zahlen verstanden. In der Tat ist ja der Mittelwert der µj . gerade µ, die Abweichungen der einzelnen µj . von diesem Mittelwert sind also gerade die µj . − µ = αj . Die Summe der quadrierten P Abweichungen ist damit gleich j αj2 , woraus man die Varianz der µj . dadurch erhält, dass man noch durch ihre Anzahl J teilt. Ganz analog kann man die Effektstärke von A auch deuten als Quotienten der Varianz der αj und der Fehlervarianz σ 2 , denn der Mittelwert der αj ist ja 0. Für fB2 kann man die gleichen Überlegungen anstellen, und bei fI2 hat man immerhin noch die Deutung als Quotient der Varianz der γjk und der Fehlervarianz σ2. Interessant ist es auch, eine Beziehung herzustellen zwischen den gerade besprochenen Kenngrößen bei der zweifaktoriellen Varianzanalyse und den entsprechenden Kenngrößen der assoziierten einfaktoriellen Varianzanalyse, die zur Unterscheidung nun δ12 und f12 heißen sollen. Hier gilt nämlich δ12 = δA2 + δB2 + δI2 und f12 = fA2 + fB2 + fI2 . Nicht zufällig erinnern diese Gleichungen an die Quadratsummenzerlegung der zweifaktoriellen Varianzanalyse. Es gilt übrigens, wie leicht aus den Quadratsummenzerlegungen folgt, eine ähnliche Beziehung der Quadratsummen der zweifaktoriellen Varianzanalyse und der Quadratsumme zwischen den Gruppen der assoziierten einfaktoriellen Varianzanalyse, die hier SS1 heißen soll, nämlich SS1 = SSA + SSB + SSI . Analog den Verhältnissen bei der einfaktoriellen Varianzanalyse erhält man schließlich auch etwas ‚naive‘ Schätzungen der Effektstärken aus den zugehörigen F Brüchen. So wird oft δA2 geschätzt durch (J − 1) · FA und entsprechend fA2 durch ((J − 1)/N ) · FA . Schätzungen für δB2 und fB2 bekommt man ganz entsprechend, bei der Interaktion liefert diese Herangehensweise die Schätzungen (J − 1)(K − 1) · FI für δI2 und ((J − 1)(K − 1)/N ) · FI für fI2 . 1.5 Kontraste QM2 15 87 Man erhält diese Schätzungen der Nonzentralitätsparameter zusammenfassend also, indem man die jeweiligen F -Brüche mit ihren Zählerfreiheitsgraden multipliziert; für die Schätzung der Effektstärken teilt man dann noch durch N . 1.5 Kontraste Zur Adjustierung bei unabhängigen Tests. Es geht hier um eine Möglichkeit der Alpha-Adjustierung für den Fall unabhängiger Tests. Genauer soll vorausgesetzt werden, dass die Teststatistiken unabhängig sind. Getestet werden sollen zunächst mehrere Hypothesenpaare H01 H02 − − .. . H11 H12 H0n − H1n , alle auf dem Niveau α (das möglicherweise nicht ganz ausgeschöpft wird). Abzuschätzen ist die Wahrscheinlicheit, mindestens eine Nullhypothese fälschlicherweise zu verwerfen. Wenn mit A das Ereignis bezeichnet wird, mindestens eine Nullhypothese fälschlicherweise zu verwerfen, und mit Ai das Ereignis, die i-te Nullhypothese zu verwerfen (hier steht nicht ‚fälschlicherweise‘ !), so geht es also darum, eine obere Schranke für P(A) zu finden, wobei bekannt ist, dass P(Ai ) ≤ α gilt, falls H0i richtig ist. Es sind nun mehrere Fälle zu unterscheiden; ist der Fall k der, dass genau k Nullhypothesen richtig sind, so kann k die Werte von 0 bis n annehmen. Die Anzahl der möglichen Fälle ist also n + 1. Nun soll einer dieser Fälle betrachtet werden, nämlich der Fall k. Hier sind genau k Nullhypothesen richtig, wobei man oBdA voraussetzen kann, dass es sich dabei um die ersten k handelt (notfalls sind die Hypothesen umzunummerieren). Da nun genau die ersten k Nullhypothesen richtig sind, gilt A = A1 ∪ A2 ∪ . . . ∪ Ak . 1.5 Kontraste QM2 15 88 Bezeichnet man mit B c allgemein das Gegenereignis eines Ereignisses B, so folgt Ac = Ac1 ∩ Ac2 ∩ . . . ∩ Ack . Da die Teststatistiken der Einzeltests unabhängig sind, sind auch die Ereignisse Aci unabhängig, denn sie beruhen ja jeweils nur auf dem Wert der zugehörigen Teststatistik. Wegen P(Ai )c = 1 − P(Ai ) ≥ 1 − α folgt P(Ac ) = P(Ac1 ) · P(Ac2 ) · . . . · P(Ack ) ≥ (1 − α)k ≥ (1 − α)n , wobei 0 < (1 − α) < 1 zu beachten ist. Diese Abschätzung hängt nicht mehr von k ab, gilt also in jedem der Fälle. Wegen P(Ac ) = 1 − P(A) folgt schließlich die gesuchte Ungleichung P(A) ≤ 1 − (1 − α)n . Mit dieser Ungleichung kann nun eine Alpha-Adjustierung vorgenommen werden: Hat man das Ziel, die Niveaus α der einzelnen Tests so festzusetzen, dass die Wahrscheinlichkeit des Ereignisses A, mindestens eine richtige Nullhypothese zu verwerfen, höchstens gleich einem vorher festgelegten Wert αg ist (g: ‚gesamt‘), so wählt man α = 1 − (1 − αg )1/n , denn dann erhält man wegen (1 − α)n = 1 − 1 − (1 − αg )1/n n = (1 − αg )1/n n = (1 − αg ) in der Tat die gewünschte Beziehung P(A) ≤ 1 − (1 − α)n = 1 − (1 − αg ) = αg . Die Formel für α bekommt man übrigens durch Umformung von 1−(1−α)n = αg . Natürlich führt auch jede Festlegung mit α ≤ 1 − (1 − αg )1/n zum gewünschten Resultat. Die Adjustierung α = 1 − (1 − αg )1/n ist etwas besser als die (immer mögliche) Adjustierung α = αg /n, weshalb diese im Vergleich zu jener bei unabhängigen Tests konservativ ist (im Sinne eines zu starken Schutzes der Nullhypothesen). Allerdings ist der Vorteil meist nicht besonders groß; beispielsweise erhält man für αg = .05 bei 10 Tests mit der Bonferroni-Adjustierung α = .05/10 = .005 , 1.5 Kontraste QM2 15 89 während die Methode für unabhängige Tests α = 1 − (1 − .05)1/10 = 1 − (.95)1/10 = 1 − 0.99488 = .00512 liefert, also ein nur unwesentlich größeres adjustiertes α. Die Effektgrößen als Kontraste. Die Effektgrößen αk der Varianzanalyse sind Beispiele für Kontraste, wie nun gezeigt werden soll. P Nach Definition gilt αk = µk − µ, und da µ seinerseits gleich (nj /N ) µj ist, ist klar, dass µ eine Linearkombination der µj ist und damit auch αk . Zu zeigen ist nur noch, dass die Summe der Koeffizienten gleich 0 ist. Eingesetzt ergibt sich α k = µk − X (nj /N ) µj . Bis auf µk tauchen hier alle Erwartungswerte nur einmal auf, und zwar mit dem Koeffizienten −nj /N . Der Erwartungswert µk hingegen taucht zweimal auf, einmal als Minuend mit dem Koeffizienten 1 und einmal in der abzuziehenden Summe mit dem Koeffizienten −nk /N (das Minuszeichen vor der Summe ist hier schon verrechnet). Zieht man diese beiden Terme zusammen und klammert man µk aus, so erkennt man, dass der Koeffizient bei µk insgesamt gleich 1 − nk /N ist. Die Koeffizienten cj der µj bei der Bildung von αk sind also cj = −nj /N für j 6= k und ck = 1 − nk /N . Bildet man die Summe der Koeffizienten und gruppiert P man wieder um, so ist diese Summe gleich 1 − (nj /N ) = 1 − 1 = 0, womit αk tatsächlich ein Kontrast ist. Vielleicht wird das Argument an einem Beispiel deutlicher: Dazu seien drei Gruppen gegeben mit Besetzungen 5, 7 und 9. Hier ist also N = 21. Bildet man α2 so erhält man α2 = µ2 − µ = µ2 − ((5/21)µ1 + (7/21)µ2 + (9/21)µ3 ) = (1 − (7/21))µ2 + (−5/21)µ1 + (−9/21)µ3 . Die Summe der Koeffizienten ist (1 − (7/21)) + (−5/21) + (−9/21) = 1 − ((7/21) + (5/21) + (9/21)) = 1 − 1 = 0 . 1.5 Kontraste QM2 15 90 Verteilung der Kontraststatistik. Hier geht es um die Verteilung der Statistik, mit der getestet wird, ob ein Kontrast X ψ= cj µ j einen vorgegebenen Wert ψ0 annimmt oder nicht. Der Wert ψ0 wird in den meisten Fällen 0 sein. Die zu testende Alternativhypothese kann einseitig oder zweiseitig sein; in jedem Fall ist die Teststatistik die folgende: t= ψ̂ − ψ0 . sψ̂ ψ̂ = X Dabei ist und s2ψ̂ cj Mj X c2j = k ck M Sw = M Sw . nj 2 Zur Herleitung der Verteilung wird die Teststatistik mit geeigneten Erweiterungen umgeformt: t = (ψ̂ − ψ0 )/σψ̂ (ψ̂ − ψ0 )/σψ̂ ψ̂ − ψ0 = q =q sψ̂ s2ψ̂ /σψ̂2 k ck2 M Sw /(k ck2 σ 2 ) = r (ψ̂ − ψ0 )/σψ̂ 1 M Sw (N − J) 2 N −J σ mit δ= ∼ tN −J, δ ψ − ψ0 ψ − ψ0 = . σψ̂ k ck σ Erläuterung: Im ersten Schritt wurde mit 1/σψ̂ erweitert, das unter der Wurzel im Nenner dann natürlich quadriert werden muss. Dann wurde entsprechend den Definitionen eingesetzt und im Nenner k ck2 gekürzt. Gleichzeitig wurde unter der Wurzel im Nenner mit 1 = (N − J)/(N − J) multipliziert. Bei dem Ergebnis ist dann der Zähler normalverteilt, er ist nämlich eine lineare Transformation von ψ̂ ∼ N (ψ, σψ̂2 ) (man schreibe ihn um zu (1/σψ̂ )ψ̂ − ψ0 /σψ̂ ). 1.5 Kontraste QM2 15 91 Der Erwartungswert ist (ψ − ψ0 )/σψ̂ , da ja E(ψ̂) = ψ gilt, und die Varianz ist (1/σψ̂ )2 σψ̂2 = 1. Insgesamt gilt also ψ̂ − ψ0 ∼ N σψ̂ ! ψ − ψ0 , 1 . σψ̂ Im Nenner gilt M Sw ∼ χ2N −J , σ2 wobei dieser Ausdruck unabhängig vom Zähler ist, denn in den Zähler gehen nur die Mittelwerte Mj ein, die ja von M Sw unabhängig sind. (N − J) Insgesamt hat man in t also einen Quotienten aus einer normalverteilten Variable mit Varianz 1 und aus der Wurzel einer davon unabhängigen χ2 -verteilten Variable, die durch ihre Freiheitsgrade dividiert ist. Die Statistik t besitzt daher definitionsgemäß die angegebene t-Verteilung. Vervielfachung von Kontrasten. Gelegentlich ist es für die Rechnung einfacher, Kontraste mit geeigneten Zahlen zu multiplizieren und die Tests entsprechend anzupassen. Hier soll diese Möglichkeit genauer erläutert und gerechtfertigt werden. Als Beispiel soll eine Situation dienen, in der die Wirksamkeit von zwei Therapien untersucht wird. Die Ergebnisse sollen mit einer Kontrollgruppe verglichen werden. Es geht also um die Erwartungswerte einer Variable Y , in der durch die Therapien Besserung eintreten soll, in drei Bedingungen, nämlich in zwei Therapiebedingungen und einer Kontrollbedingung. Diese Erwartungswerte seien µ1 und µ2 (Therapien) und µ3 (Kontrolle). Es werden randomisiert drei Gruppen gebildet, von denen die ersten beiden je eine der beiden Therapien erhalten, während die dritte Gruppe als Kontrollgruppe dient. Nach Abschluss der Therapien werden die Werte in der Variable Y erhoben, um damit einen entsprechenden Test durchzuführen. (Dieses Vorgehen ist übrigens nicht optimal, sinnvollerweise wird man auch vor den Therapien die Variable Y erheben, was aber dann zu einem Messwiederholungsdesign führt.) Die Hypothese der Wirksamkeit der Therapien soll nun so präzisiert werden, dass diese im Durchschnitt besser sind als keine Therapie, genauer, dass der 1.5 Kontraste QM2 15 92 Durchschnitt der beiden ersten Erwartungswerte µ1 und µ2 größer ist als der Erwartungswert µ3 der Kontrollgruppe. (Auch hier liegt die Frage nahe, ob man nicht besser beide Therapien einzeln mit der Kontrollgruppe vergleichen würde.) Die Erwartung an die Therapien lässt sich nun folgendermaßen formulieren: µ1 + µ2 > µ3 . 2 Umstellung ergibt µ1 /2 + µ2 /2 − µ3 > 0 , womit sich die Möglichkeit eines Tests mit einem Kontrast eröffnet. Definiert man nämlich nun ψ = (1/2)µ1 + (1/2)µ2 − µ3 , so ist ψ ein Kontrast, da die Koeffizientensumme 0 ist, und Fragestellung lässt sich in die Hypothesen H0 : ψ = 0 H1 : ψ > 0 übersetzen. Der Kontrastvektor ist hier (1/2, 1/2, −1)0 , er enthält zwei Brüche, die vielleicht die Rechnung etwas kompliziert machen. Man könnte nun auf die Idee kommen, statt der Frage, ob µ1 /2 + µ2 /2 − µ3 > 0 gilt, die Frage zu untersuchen, ob µ1 + µ2 − 2µ3 > 0 gilt. Da die zweite Ungleichung aus der ersten durch Multiplikation mit 2 hervorgeht, sind diese beiden Ungleichungen äquivalent, weshalb eigentlich kein anderes Ergebnis herauskommen sollte, wenn man mit der zweiten Möglichkeit arbeitet. Die zweite Möglichkeit führt zu dem Kontrast ψ̃ = µ1 + µ2 − 2µ3 , bei der die Schlange über ψ der Unterscheidung dient. Die Hypothesen (die zur Unterscheidung ebenfalls eine Schlange bekommen) lauten dann H̃0 : ψ̃ = 0 H̃1 : ψ̃ > 0 . 1.5 Kontraste QM2 15 93 Der Kontrastvektor ist jetzt (1, 1, −2)0 und damit gerade das 2-fache des ursprünglichen. Die Brüche sind verschwunden, was eine leichtere Rechnung erwarten lässt (in diesem einfachen Fall wird die Erleichterung nicht wesentlich sein, in anderen Fällen mit komplizierteren Brüchen jedoch schon). Nun soll allgemein untersucht werden, zu welchen Resultaten ein solches Vorgehen führt; es wird sich zeigen, dass die Teststatistiken für die beiden Versionen der Fragestellung genau die gleichen Werte annehmen (eventuell bis auf das Vorzeichen) und dass es daher gleichgültig ist, welche Version man untersucht, denn der eine Test wird nun genau dann signifikant, wenn der andere signifikant wird. Insbesondere kann unbedenklich mit einer geeigneten Zahl multipliziert werden, um die Rechnung zu vereinfachen. Es sollen also nun Hypothesen H0 : ψ = ψ0 H1 : ψ > ψ0 untersucht werden. Hier wird also allgemeiner als oben ein Vergleichswert ψ0 zugelassen, der nicht unbedingt 0 sein muss. Die Fragestellung ist einseitig, was der etwas kompliziertere Fall ist – zweiseitige Fragestellungen behandelt man ganz analog. Die Frage ist, was sich ergibt, wenn an Stelle der genannten Hypothesen andere untersucht werden, die sich aus den Originalhypothesen dadurch ergeben, dass mit einer Zahl k > 0 multipliziert wird. (Auf die Möglichkeit k < 0 wird unten kurz eingegangen.) Setzt man ψ̃ = kψ und ψ̃0 = kψ0 , so ist das Paar der Originalhypothesen offenbar äquivalent zu dem Hypothesenpaar H̃0 : ψ̃ = ψ̃0 H̃1 : ψ̃ > ψ̃0 . Es soll gezeigt werden, dass auch die Tests der beiden Hypothesenpaare zum gleichen t-Wert führen. Hervorzuheben ist, dass bei der Umformulierung natürlich auch der Vergleichswert ψ0 mit k multipliziert werden muss. Zum Vergleich der Tests der beiden Hypothesenpaare werden zunächst einige Bezeichnungen eingeführt. Der Koeffizientenvektor von ψ sei c = (c1 , . . . , cJ )0 , der von ψ̃ sei c̃ = (c̃1 , . . . , c̃J )0 . Natürlich gilt dabei c̃j = kcj , denn alle Koeffizienten sind ja beim Übergang zu den neuen Hypothesen mit k zu multiplizieren. 1.5 Kontraste QM2 15 94 Nun werden die Bestandteile des t-Bruchs für die neuen Hypothesen bestimmt. Hier ergibt sich X X X ψ̃ˆ = c̃j Mj = kcj Mj = k cj Mj = k ψ̂ und k c̃k2 = X c̃2j /nj = X (kcj )2 /nj = X k 2 c2j /nj = k 2 X c2j /nj = k 2 k ck2 und somit k c̃k = kk ck , da ja k > 0 vorausgesetzt war. Die Teststatistik t̃ zum Testen der neuen Hypothesen ergibt sich nun zu ψ̃ˆ − ψ̃0 k ψ̂ − kψ0 k(ψ̂ − ψ0 ) ψ̂ − ψ0 √ √ √ √ t̃ = = = = , k c̃k M Sw kk ck M Sw kk ck M Sw k ck M Sw was genau die t-Statistik zum Testen der Originalhypothesen ist. Die Behauptung ist damit gezeigt. In der Argumentation oben wurde k > 0 vorausgesetzt. Man sieht aber leicht, dass man ein analoges Ergebnis auch für k < 0 erhält; allerdings ist dabei zu beachten, dass sich dann das Ungleichheitszeichen bei der neuen Alternativhypothese umdreht. Außerdem erhält man als neue t-Statistik das (−1)-fache der alten. Da jedoch nun in der Alternativversion auf der anderen Seite getestet wird, erhält man in beiden Fällen das gleiche Resultat, was Signifikanz angeht, wenn auch bei geänderten Vorzeichen. Ganz analog folgt, dass sich beim zweiseitigen Test bei Multiplikation mit k 6= 0 nichts an der Signifikanz oder Nicht-Signifikanz ändert, wobei natürlich auch hier bei negativem k das Vorzeichen der t-Statistik wechselt. Orthogonalität von Kontrasten. Zwei (empirische) Kontraste ψ̂1 und ψ̂2 heißen orthogonal, wenn sie unkorreliert sind. P P Ist ψ̂1 = cj Mj und ψ̂2 = dj Mj , so lässt sich die Bedingung für Orthogonalität auch als X cj d j =0 nj 1.5 Kontraste QM2 15 95 schreiben. Die Kovarianz von ψ̂1 und ψ̂2 berechnet sich nämlich zu ! X X Kov(ψ̂1 , ψ̂2 ) = Kov cj Mj , dk Mk j = XX j = cj dk Kov(Mj , Mk ) = nj X cj dj Kov(Mj , Mj ) j k X cj d j j k σ2 . Zu diesen Gleichungen ist zu bemerken, dass die Kovarianzen von Mj und Mk nur dann 6= 0 sind, wenn j = k ist. Daher fallen in der Doppelsumme alle Summanden mit k 6= j weg, und es bleibt die einfache Summe über j stehen. Da dann die Kovarianz von Mj und Mj gleich der Varianz von Mj ist, also gleich σ 2 /nj , ergibt sich der Rest. Die Kovarianz und damit die Korrelation von zwei Kontrasten ist also in der Tat genau dann gleich 0, wenn X cj d j =0 nj gilt. Kontraste sind gemeinsam normalverteilt. Es soll gezeigt werden, dass je zwei beliebige (empirische) Kontraste ψ̂1 = P und ψ̂2 = dj Mj gemeinsam normalverteilt sind. P cj Mj Hierzu muss gezeigt werden, dass jede Linearkombination, die nicht Varianz 0 besitzt, normalverteilt ist. Dazu sei aψ̂1 + bψ̂2 eine solche Linearkombination. Diese Linearkombination lässt sich umschreiben zu X X X a cj Mj + b dj Mj = (acj + bdj )Mj . In dieser Darstellung hat man aber eine Linearkombination der Mj vor sich, die ihrerseits jeweils normalverteilt sind und außerdem gemeinsam unabhängig. Die Mj sind daher gemeinsam normalverteilt, weshalb auch die angegebene Linearkombination (deren Varianz ja ungleich 0 war) normalverteilt ist. 1.5 Kontraste QM2 15 96 Die gemeinsame Normalverteilung der beiden Kontraste ist damit gezeigt. Eine Folgerung ist die, dass zwei Kontraste genau dann unabhängig sind, wenn sie unkorreliert sind; insbesondere sind orthogonale Kontraste unabhängig. Kontraste bei der zweifaktoriellen Varianzanalyse. In der zweifaktoriellen Varianzanalyse gibt es spezielle Kontraste, die mit den Standardtests eng zusammenhängen. Die genauere Darlegung dieser Sachverhalte ist ein Teilthema dieses Abschnitts. Allgemeiner Fall. Zunächst kann man beliebige Kontraste bilden und die entsprechenden Hypothesen testen, wenn man die zweifaktorielle Struktur des Designs vergisst und so tut, als hätte man ein einfaktorielles Design mit JK Stufen des dann einzigen Faktors – man behandelt diese Kontraste also im ‚assoziierten einfaktoriellen Design‘. Ein solches Vorgehen ist übrigens auch bei vielen Computerprogrammen die einzige Möglichkeit, Kontraste in einem zweifaktoriellen Design auszuwerten. Im Vergleich zum einfaktoriellen Design sind die einzigen Unterschiede eine leicht veränderte Notation (wegen der doppelten Indizierung) und einige Vereinfachungen in den Formeln (wegen der hier wie üblich vorausgesetzten gleichen Zellbesetzung n). Die Bezeichnungen seien wie üblich gewählt: Die beiden Faktoren seien A und B mit J bzw. K Stufen, und die (überall gleiche) Besetzung einer Zelle sei n. Ein Kontrast ist eine Linearkombination X ψ= cjk µjk der Zellenerwartungswerte, bei dem für die Summe der Kontrastkoeffizienten cjk P die Bedingung cjk = 0 gilt. Alle Summen sind hier natürlich über beide Indizes j und k zu bilden. Es ist oft hilfreich, bei der Betrachtung eines Kontrasts die Koeffizienten in die entsprechenden Zellen des Designschemas einzutragen; die letzte Bedingung bedeutet dann, dass die Summe über alle Koeffizienten im Schema 0 sein muss. Offenbar sind die so definierten Kontraste der zweifaktoriellen Varianzanalyse genau die Kontraste im assoziierten einfaktoriellen Design, so dass von dort die Formeln direkt übernommen werden können. 1.5 Kontraste QM2 15 97 Allgemein lauten die Hypothesen zu einem bestimmten Kontrast ψ nun H0 : ψ = ψ0 H1 : ψ > ψ0 , wobei in der Alternativhypothese statt des Größer-Zeichens auch ein KleinerZeichen oder ein Ungleichheitszeichen stehen kann. Getestet werden diese Hypothesen mit Hilfe des entsprechenden empirischen Kontrastes X ψ̂ = cjk Mjk , dessen Varianz gleich X c2jk σ2 X 2 cjk n n ist (die erwähnte Vereinfachung der Formeln liegt in der Möglichkeit, hier den Faktor (1/n) auszuklammern). σψ̂2 = σ2 = Als erwartungstreue Schätzung von σψ̂2 wird s2ψ̂ = 1X 2 cjk M SE n verwendet, wobei nur σ 2 durch die erwartungstreue Schätzung M SE ersetzt ist, die ja mit M Sw aus der assoziierten einfaktoriellen Varianzanalyse übereinstimmt. Der Test geschieht mit Hilfe der Statistik t= ψ̂ − ψ0 ψ̂ − ψ0 √ = n qP , √ sψ̂ c2 MS E jk die eine t(n−1)JK, δ -Verteilung mit δ= ψ − ψ0 ψ − ψ0 √ = n qP σψ̂ c2 σ jk √ besitzt. Die Schreibweise mit dem nach vorne gezogenen Faktor n wurde gewählt, um deutlich zu machen, wie der NZP betragsmäßig mit wachsender Stichprobengröße wächst, falls die Alternativhypothese gilt – analoges gilt für die Alternativdarstellung von t. Unter der Nullhypothese hat man eine zentrale t-Verteilung, was sofort zu dem bekannten Test führt; die Power kann mit Hilfe des NZP bestimmt werden. 1.5 Kontraste QM2 15 98 Als Ergänzung kann noch das Konfidenzintervall für ψ zum Niveau 1 − α angegeben werden: ψ̂ − t(n−1)JK; α/2 sψ̂ , ψ̂ + t(n−1)JK; α/2 sψ̂ . Die Nullhypothese ψ = ψ0 wird beim zweiseitigen Testen genau dann auf dem Nivau α verworfen, wenn dies Vertrauensintervall den Wert ψ0 nicht enthält. Spezielle Kontraste. Nachdem nun der allgemeine Fall abgehandelt ist, können spezielle Typen von Kontrasten behandelt werden, nämlich solche, die sich nur auf die durchschnittlichen Erwartungswerte µj . oder µ.k beziehen, sowie die sogenannten Interaktionskontraste. P P Linearkombinationen der Form dj µj . mit dj = 0, die sich nur auf die durchschnittlichen Erwartungswerte der Stufen des ersten Faktors A beziehen, sollen auch A-Kontraste genannt werden. Mit solchen Kontrasten lassen sich Fragen behandeln wie zum Beispiel die, ob die Erwartungswerte in der ersten Stufe des Faktors A sich im Durchschnitt von denen in der zweiten Stufe unterscheiden. Es ist zunächst zu klären, ob hier die Bezeichnung ‚Kontrast‘ zu Recht angewandt wird, und dann zu untersuchen, wie die Formeln in diesem Fall aussehen. Unmittelbar ist nicht klar, dass die A-Kontraste wirklich Kontraste im üblichen Sinn sind, da sie sich ja gar nicht direkt auf die µjk beziehen. Aus diesem Grund wurden die Koeffizienten auch mit dj bezeichnet. Nun sind aber die µj . als Durchschnitte der µjk Linearkombinationen dieser Erwartungswerte, so dass man durch Einsetzen ! X X X dj 1 X dj µj . = dj µjk = µjk K k K j j j,k P erkennt, dass j dj µj . zumindest eine Linearkombination der µjk ist, und zwar die mit Koeffizienten dj cjk = . K Wegen X X X dj 1 X 1 cjk = = dj = K dj = 1 · 0 = 0 K K K j j,k j,k j,k ist aber die Summe der ‚eigentlichen‘ Koeffizienten cjk tatsächlich gleich 0, so P dass die Bezeichnung ‚Kontrast‘ für j dj µj . gerechtfertigt ist. 1.5 Kontraste QM2 15 99 Es ist festzuhalten, dass nach der Umformulierung die Koeffizienten in jeweils einer des Designschemas Zeile alle gleich sind, in der j-ten Zeile nämlich cj /K. Nun lassen sich – nach der Umformulierung ausgehend vom allgemeinen Fall – für P ein solches ψ = dj µj . auch leicht die Statistiken bestimmen, die zum Testen benötigt werden. Für ψ̂ erhält man ! X dj X X 1 X ψ̂ = Mjk = dj Mjk = dj Mj . K K j j j,k k und für die Varianz dieses Schätzers 2 σ 2 X dj σ2 X 2 σ2K X 2 σ2 X 2 σ2 X 2 2 = = = cjk = d d d . σψ̂ = n j,k n j,k K nK 2 j,k j nK 2 j j nK j j Für die erwartungstreue Schätzung der Varianz hat man nur σ 2 durch M SE zu ersetzen und erhält 1 X 2 s2ψ̂ = d M SE . nK j j Man beachte, dass die Summe hier nur den Laufindex j besitzt. Der einseitige oder zweiseitige Test der Nullhypothese H0 : ψ = ψ0 erfolgt dann mit der Teststatistik √ ψ̂ − ψ0 t = nK qP √ , 2 d M S E j j die eine t(n−1)JK, δ -Verteilung mit δ= ψ − ψ0 ψ − ψ0 √ = nK qP σψ̂ 2 j dj σ besitzt. Interessant ist, dass diese Teststatistik fast die gleiche ist wie die, die man verwenden würde, wenn man den zweiten Faktor vernachlässigen und mit denselben Daten eine einfaktorielle Varianzanalyse mit dem Faktor A rechnen würde. Die Zellbesetzung ist dann auch hier in allen Gruppen gleich, nämlich nK, und der Unterschied besteht nur darin, dass jetzt M SE durch die mittlere Quadratsumme M Sw der einfaktoriellen Varianzanalyse ersetzt würde, mit einer entsprechenden Änderung der Freiheitsgrade. Die Bezeichnung der besprochenen Kontraste als ‚A-Kontraste‘ ist naheliegend, vergleichen sie doch durchschnittliche Erwartungswerte der Stufen des Faktors A 1.5 Kontraste QM2 15 100 miteinander. Darüber hinaus besteht ein enger Zusammenhang mit dem Haupteffekt von A, der nun untersucht werden soll. Es gilt nämlich genauer der folgende Satz: Es liegt genau dann kein Haupteffekt von A vor, wenn alle A-Kontraste gleich 0 sind. Umgekehrt heißt das, dass ein Haupteffekt von A genau dann vorliegt, wenn mindestens ein A-Kontrast nicht 0 ist; man erfasst in diesem Sinne den A-Haupteffekt mit der Gesamtheit der A-Kontraste. Die Begründung der Behauptung ist einfach: Liegt einerseits kein Haupteffekt von A vor, so sind alle µj . gleich und damit folglich alle gleich µ. Für einen A-Kontrast ψ mit Koeffizienten dj gilt dann X X X ψ= dj µj . = dj µ = µ dj = µ · 0 = 0 , da ja die Summe der dj definitionsgemäß 0 ist. Sind andererseits alle A-Kontraste 0, so gilt dies insbesondere für die speziellen A-Kontraste ψj , die an der ersten Stelle eine 1 als Koeffizienten besitzen, an der j-ten Stelle eine (−1) und sonst nur Nullen (j = 2, . . . , J) – mit anderen Worten ist ψj gerade µ1. − µj . . Wenn aber alle diese Kontraste 0 sind, so stimmt µ1. mit allen anderen µj . überein, weshalb dann insgesamt alle µj . untereinander übereinstimmen müssen (j = 1, . . . J), was gerade bedeutet, dass kein Haupteffekt von A vorliegt. Ganz analog zu Kontrasten, die sich speziell mittlere Erwartungswerte des Faktors A beziehen, kann man Kontraste untersuchen, die sich auf die mittleren P Erwartungswerte µ.k beziehen. Dabei soll eine Linearkombination dk µ.k auch P B-Kontrast heißen, wenn dk = 0 gilt. Nach der Umformulierung in eine Linearkombination der µjk sind dann alle Koeffizienten in jeweils einer Spalte gleich. P Ein B-Kontrast ψ = dk µ.k wird geschätzt mit der Statistik X ψ̂ = dk M.k , k die die Varianz σψ̂2 = σ2 X 2 d nJ k k mit der erwartungstreuen Schätzung 1 X 2 s2ψ̂ = d M SE nJ k k 1.5 Kontraste QM2 15 101 besitzt. Der einseitige oder zweiseitige Test der Nullhypothese H0 : ψ = ψ0 erfolgt dann mit der Teststatistik √ ψ̂ − ψ0 t = nJ pP 2 √ , d M S E k k die eine t(n−1)JK, δ -Verteilung mit ψ − ψ0 √ ψ − ψ0 = nJ pP 2 δ= σψ̂ k dk σ hat. Natürlich gilt auch hier, dass genau dann kein Haupteffekt von B vorliegt, wenn alle B-Kontraste 0 sind. Der dritte spezielle Typ von Kontrasten bei der zweifaktoriellen Varianzanalyse ist der der Interaktionskontraste. Diese sind dadurch definiert, dass ihre Koeffizienten – im Designschema angeordnet – nicht nur insgesamt, sondern auch in jeder Zeile und in jeder Spalte in der Summe 0 ergeben. Für die Koeffizienten cjk eines P solchen Interaktionskontrastes j,k cjk µjk müssen also die Bedingungen X cjk = 0 für alle j k und X cjk = 0 für alle k j erfüllt sein. Die Anzahl der Bedingungen ist damit J + K. Aus jeder der beiden Gruppen folgt übrigens sofort, dass dann auch X cjk = 0 j,k gilt; diese Bedingung, die ja für jeden Kontrast erfüllt sein muss, braucht also nicht noch eigens aufgeführt werden. Zur Veranschaulichung sind in dem folgenden Schema der Kontrastkoeffizienten die Randsummen eines Interaktionskontrastes mit eingetragen: A1 A2 .. . AJ B1 B2 c11 c12 c21 c22 .. .. . . cJ1 cJ2 0 0 . . . . . . BK . . . . . . c1K . . . . . . c2K .. .. . . . . . . . . cJK ...... 0 0 0 .. . 0 0 1.5 Kontraste QM2 15 102 Während die Angemessenheit der Bezeichnungen ‚A-Kontrast‘ und ‚B-Kontrast‘ für die zuvor besprochenen speziellen Kontraste auf der Hand liegt – sie zeigt sich insbesondere im direkten Zusammenhang mit den entsprechenden Haupteffekten, ist dies bei den Interaktionskontrasten nicht unmittelbar der Fall. Dennoch besteht ein enger Zusammenhang zur Interaktion: Es liegt genau dann keine Interaktion vor, wenn alle Interaktionskontraste 0 sind. Umgekehrt liegt also eine Interaktion genau dann vor, wenn mindestens ein Interaktionskontrast nicht 0 ist; die Interaktionskontraste entdecken daher gewissermaßen Abweichungen von der Parallelität. Dieser Zusammenhang soll nun deutlich gemacht werden. Als erstes soll dazu ein spezieller besonders einfacher Interaktionskontrast ψ untersucht werden, und zwar der, dessen Koeffizienten alle 0 sind außer in den vier Zellen links oben; die Koeffizienten sind genauer die folgenden: A1 A2 A3 .. . AJ B1 B2 B3 1 −1 0 −1 1 0 0 0 0 .. .. .. . . . 0 0 0 0 0 0 . . . . . . BK ...... 0 ...... 0 ...... 0 .. ... . ...... 0 ...... 0 0 0 0 .. . 0 0 Es ist offensichtlich, dass hier die Bedingungen für einen Interaktionskontrast erfüllt sind; die Zeilensummen und Spaltensummen sind schon mit 0 eingetragen. Ausformuliert lautet dieser Kontrast ψ = µ11 − µ12 − µ21 + µ22 , was man noch umformen kann, beispielsweise zu ψ = (µ11 − µ12 ) − (µ21 − µ22 ) . So formuliert findet der Kontrast eine unmittelbare Deutung im B-Diagramm, was nun veranschaulicht werden soll. Zunächst folgt der entsprechende Ausschnitt aus einem B-Diagramm mit den Bezeichnungen. 1.5 Kontraste QM2 15 103 ....... ......... ... .... .. ... ... ... ...... ....... ... ....... ....... ... ....... . . . . . ... . ... ... ....... ....... ... ....... ....... ... ....... ... ... ... ... ... ... ... ...... ... ............. ... ............. ............. ... ............. . . . . . . . . . ... . . . .. ... ... ... ... ... ... ... ... ... .. .............................................................................................................................................................................................................................................................................................................. ... ... ... ... ... ... ... .... . µjk r µ12 A1 r µ22 A2 µ11 r µ21 r B1 B2 B Im nächsten Diagramm sind die beiden Differenzen, die zu vergleichen sind, als Pfeile eingezeichnet; man erkennt, dass der Kontrast genau dann den Wert 0 ergibt, wenn Parallelität in dem Teildiagramm gegeben ist (im Beispiel ist dies nicht der Fall). . ....... ........ .... ... .. ... ... .......................... ... ....... ... ....... ... ... ....... ....... ... ... ....... . . . ... . ... . . ..... . ... . . . ... . . ..... . . . . . . ... . . ........... ..... . . . . ... . . . .. .............................................................................. ... ... ... ... ... ... ... ................................. ... ............. . ... ............. .......... ............. ... ... ............. ... ............................................................................................. ... ... ... ... ... ... ... ... ... . .............................................................................................................................................................................................................................................................................................................. ... ... .... .. .... ... ... .... r µjk µ11 − µ12 r r r B1 µ21 − µ22 B2 B Alternativ kann man ψ auch so umformen: ψ = (µ11 − µ21 ) − (µ12 − µ22 ) . Nun sind zwei andere Differenzen zu vergleichen, und zwar die, die im nächsten Diagramm eingezeichnet sind. 1.5 Kontraste QM2 15 104 ....... ......... ... .... .. ... ... ... .................................... ....... ... ........ ....... ....... ... ... ....... . . . . . ... . ... ..... . . . . ... . ... . ..... . . . . . ... . ... ..... . . . . ... . ... . .............................. ... ... ......... ... ... . .. ... ... . ... ... ... . ... ... ... ... ... ... ... ... ........... . . . . . . . . . . . . . . . . . . . . ... . ... . . ........ . . . . . . . . . ... . ... . . ........ . . . . . . . . . ... . ... . . .......... ... .................................... ... ... ... ... ... ... ... ... ... .. .............................................................................................................................................................................................................................................................................................................. ... ... ... ... ... ... ... .... . r µjk r µ11 − µ21 µ12 − µ22 r r B1 B2 B Auch in diesem Fall sieht man, dass ψ genau dann 0 wird, wenn Parallelität in dem entsprechenden Ausschnitt des Diagramms vorliegt (hier ist das nicht der Fall). Parallelität im betrachteten Ausschnitt liegt nämlich genau dann vor, wenn die Erwartungswertverläufe der beiden untersuchten Stufen von A an den Stellen B1 und B2 den gleichen Abstand haben. Man sieht also an beiden Umformungen, dass der Kontrast ψ die Abweichung von Parallelität in dem Teil des Diagramms misst, der die Stufen A1 und A2 von A auf den Stufen B1 und B2 von B betrifft; der Kontrast ist genau dann gleich 0, wenn Parallelität gegeben ist. Ganz analog kann man die Parallelität untersuchen für die Stufen A1 und Aj von A auf den Stufen B1 und Bk von B; der entsprechende Kontrast ist ψjk = µ11 − µ1k − µj1 + µjk (der gerade zuvor untersuchte Kontrast würde nun ausführlich ψ22 heißen). Offenbar erfüllen alle derartigen ψjk die Bedingung für Interaktionskontraste und werden genau dann 0, wenn Parallelität der Erwartungswertverläufe der Stufen A1 und Aj von A in den Stufen B1 und Bk von B vorliegt. Liegt nun überall Parallelität vor, so müssen also insbesondere die ψjk gleich 0 sein für alle j = 2, . . . , J und k = 2, . . . , K. Sind umgekehrt alle diese Kontraste gleich 0, so ist für jedes j der Erwartungswertverlauf der Stufe Aj von A parallel zu dem der Stufe A1 von A, da ja die Abstände bei allen Stufen Bk von B genau so groß sind wie der Abstand bei der Stufe B1 . Wenn aber die Erwartungswertverläufe für die Stufen Aj von A für j = 2, . . . , J alle parallel sind zu dem für die Stufe A1 , so sind sie auch untereinander parallel. 1.5 Kontraste QM2 15 105 Man erhält so das Zwischenresultat, dass Parallelität im gesamten Diagramm genau dann vorliegt, wenn alle ψjk gleich 0 sind (j = 2, . . . , J, k = 2, . . . , K). Insbesondere folgt: Sind alle Interaktionskontraste gleich 0, so sind alle Erwartungswertverläufe parallel, denn dies folgt ja sogar schon, wenn nur alle ψjk gleich 0 sind. Für die zentrale Aussage über die Interaktionskontraste bleibt noch die Umkehrung zu zeigen: Ist keine Interaktion vorhanden, so sind alle Interaktionskontraste gleich 0. Hierfür möge nun eine Situation gegeben sein, in der keine Interaktion vorliegt. Dann sind alle Interaktionseffektgrößen γjk gleich 0 und für die Erwartungswerte µjk gilt die Beziehung µjk = µ + αj + βk . Es sei weiter ein beliebiger Interaktionskontrast ψ = cjk µjk gegeben; zu zeigen ist, dass dann ψ = 0 gilt. Dies folgt durch eine einfache Rechnung, die die Eigenschaften der Interaktionskontraste benutzt: X X ψ = cjk µjk = cjk (µ + αj + βk ) jk = jk X cjk µ + jk X cjk αj + X jk cjk βk jk ! = µ X cjk + αj j jk = µ·0+ X X j αj · 0 + X cjk k X ! + X k βk X cjk j βk · 0 k = 0. Die Behauptung ist damit vollständig gezeigt: Es liegt genau dann keine Interaktion vor, wenn alle Interaktionskontraste gleich 0 sind. Man könnte meinen, dass man mit den A-Kontrasten, den B-Kontrasten und den Interaktionskontrasten alle Kontraste der zweifaktoriellen Varianzanalyse erfasst hat. Dies ist jedoch keineswegs der Fall. Beispielsweise gehören die Vergleiche von zwei Zellen in keine der drei Klassen. Will man beispielsweise die ersten beiden Erwartungswerte der ersten Zeile ver- 1.5 Kontraste QM2 15 106 gleichen, so ist der zugehörige Kontrast ψ = µ12 − µ11 ; die Koeffizienten im Designschema sind die folgenden: A1 A2 .. . AJ B1 B2 B3 −1 1 0 0 0 0 .. .. .. . . . 0 0 0 . . . . . . BK ...... 0 ...... 0 .. .. . . ...... 0 Dass dieser oder ähnliche Kontraste inhaltlich sehr wichtig sein können, dürfte klar sein. Es soll hier nur noch erläutert werden, warum er in keine der drei behandelten Klassen gehört. Zunächst handelt es sich nicht um einen Interaktionskontrast, da zwar zeilenweise die Koeffizientensummen 0 sind, nicht aber in den ersten beiden Spalten. P Bei einem A-Kontrast dj µj . sind die Koeffizienten cjk nach der Übersetzung in einen mit Hilfe der µjk formulierten Kontrast zeilenweise alle gleich, es gilt nämlich cjk = dj /K. Bei dem hier untersuchten Kontrast ψ sind die Koeffizienten in der ersten Zeile jedoch nicht gleich, ψ ist also kein A-Kontrast. Entsprechend sind bei einem B-Kontrast nach der Umformulierung die Koeffizienten in jeweils einer Spalte alle gleich. Bei ψ enthält aber sowohl die erste wie die zweite Spalte verschiedene Koeffizienten, weshalb ψ auch kein B-Kontrast ist und damit insgesamt weder A- noch B- noch Interaktionskontrast. UI-Test Im Folgenden soll für die Situation der Varianzanalyse ein allgemeines Prinzip zur Konstruktion von Tests erläutert werden: die UI-Methode. Sie wird zwar zu keinem neuen Test führen (das Ergebnis wird – was jedoch nicht vorauszusehen ist – der bekannte F -Test sein), da sich der F -Test jedoch als UI-Test erweist, wird es möglich, bei signifikanter Varianzanalyse ‚post hoc‘ zu untersuchen, worauf das signifikante Ergebnis beruht – welche Erwartungswertunterschiede dafür verantwortlich sind. Diese Formulierung soll die grobe Richtung anzeigen, ganz korrekt ist sie eigentlich nicht, es sei denn, man fasst das Wort ‚Erwartungswertunterschiede‘ so weit, dass auch alle Kontraste darunter fallen und nicht nur Vergleiche von je zwei Erwartungswerten. Zunächst geht es um die Situation der einfaktoriellen Varianzanalyse; die Bezeichnungen sind die von dort gewohnten. Untersucht werden die Erwartungswerte µj 1.5 Kontraste QM2 15 107 einer Variablen Y in J Bedingungen; zur Untersuchung werden unabhängig Werte von Y erhoben, die Zahl der Beobachtungen in Bedingung j ist nj . Die GesamtP zahl der Beobachtungen ist N = nj . Gebraucht werden die Mittelwerte Mj von Y in den Bedingungen, die bekanntlich unabhängig sind, außerdem SSb und SSw sowie MS b und M Sw . Maximale Kontraststatistik. Es geht hier darum, wie groß eine Kontraststatistik (bei gegebenen Daten) maximal werden kann, und welches die zugehörigen Koeffizienten sind. Auf die einen Kontrast ψ definierende Bedingung, dass die Koeffizientensumme 0 ist, kann hier nicht verzichtet werden. Die zu testenden Nullhypothesen haben immer die Form ψ = 0. P Ist ein Kontrast ψc = cj µj durch einen Kontrastvektor c = (c1 , . . . , cJ )0 gegeben, so ist die Teststatistik zum Testen der Hypothesen H0 : ψc = 0 H1 : ψc 6= 0 gleich tc = ψ̂ √c . k ck M Sw Da hier unterschiedliche Kontraste untersucht werden sollen, wird sowohl der Kontrast als auch die zugehörige Statistik mit c indiziert. Die Frage, um die es hier geht, ist die, wie groß ein solches tc betragsmäßig maximal werden kann, wenn der Kontrastvektor c beliebig gewählt werden kann. Da der Betrag untersucht werden soll, kann man auch nach dem maximalen Wert der quadrierten Statistik fragen, was Fallunterscheidungen je nach Vorzeichen unnötig macht. Hat man ein c gefunden, das den maximalen Wert von t2c liefert, so liefert dieses c auch ein maximales |tc |, das natürlich gerade die Wurzel aus dem maximalen t2c ist. Es ist gleich anzumerken, dass es keinesfalls selbstverständlich ist, dass ein c existiert, das zu einem maximalen t2c führt. Dies liegt daran, dass unendlich viele c dafür in Frage kommen (analoges Beispiel: es gibt auch keine positive Zahl mit minimalem Kehrwert). Es wird sich allerdings herausstellen, dass ein solches c in der hier betrachteten Situation tatsächlich existiert. 1.5 Kontraste QM2 15 108 Aufgabe ist es also, ein c zu finden, für das t2c = ψ̂c2 k ck2 M Sw maximal wird. Da der Wert von M Sw immer der gleiche ist, kann dieser Faktor im Nenner vorläufig weggelassen werden, und die Aufgabe reduziert sich darauf, ein c zu finden, für das ψ̂c2 k ck2 maximal wird. Es soll nun gezeigt werden, dass das Maximum dieser Werte gerade SSb ist und beispielsweise für den Kontrastvektor c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0 angenommen wird. Zur Begründung wird zunächst ein W-Raum < Ω , P > definiert durch Ω = {1, . . . , J} und P({j}) = nj /N . Dieser W-Raum ist lediglich ein technisches Hilfsmittel für die Begründung und hat keinerlei inhaltliche Bedeutung. Auf Ω werden nun verschiedene Zufallsvariablen definiert, einerseits eine Zufallsvariable Y durch die Vorschrift Y (j) = Mj , und andererseits für jeden Kontrastvektor c eine Zufallsvarible Xc durch die Vorschrift Xc (j) = cj /nj . Als erstes sollen die Erwartungswerte, die Varianzen und die Kovarianz dieser Zufallsvariablen bestimmt werden. Für Y erhält man X X nj E(Y ) = Y (j)P({j}) = Mj =M N und V(Y ) = X X nj SSb (Y (j) − E(Y ))2 P({j}) = (Mj − M )2 = . N N Analog erhält man E(Xc ) = X cj nj X cj 1 X = = cj = 0 , nj N N N 1.5 Kontraste QM2 15 109 da c ja ein Kontrastvektor war, und daraus X cj 2 nj 1 X c2j 1 V(Xc ) = = = k ck2 . nj N N nj N Schließlich ist die Kovarianz von Xc und Y gleich X Kov(Xc , Y ) = (Xc (j) − E(Xc ))(Y (j) − E(Y ))P({j}) X cj nj 1 X MX = (Mj − M ) = cj Mj − cj nj N N N 1 = ψ̂c , N P da ja wieder cj = 0 gilt. Hiermit errechnet man die quadrierte Korrelation von Xc und Y zu ρ2 (Xc , Y ) = ψ̂c2 (1/N 2 )ψ̂c2 Kov2 (Xc , Y ) = = . V(Xc )V(Y ) (1/N )k ck2 (1/N )SSb k ck2 SSb Nun kann ein quadrierter Korrelationskoeffizient bekanntlich maximal 1 werden, woraus ψ̂c2 ≤1 k ck2 SSb oder ψ̂c2 ≤ SSb k ck2 folgt. Offen ist noch die Frage, ob dieses mögliche Maximum tatsächlich für ein geeignetes c angenommen wird. Bekanntlich wird aber die Korrelation von zwei Variablen gerade dann betragsmäßig gleich 1, wenn die eine eine lineare Transformation der anderen ist. Wählt man nun c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0 , so ist das zugehörige Xc an der Stelle j gerade Xc (j) = nj (Mj − M ) = (Mj − M ) = Y (j) − M . nj 1.5 Kontraste QM2 15 110 Mit anderen Worten gilt für dieses c die Beziehung Xc = Y − M , was bedeutet, dass Xc aus Y durch eine lineare Transformation hervorgeht. Für dieses c ist daher ρ2 (Xc , Y ) = 1, woraus ψ̂c2 =1 k ck2 SSb oder ψ̂c2 = SSb k ck2 folgt; das zunächst nur theoretische Maximum wird also tatsächlich durch c erreicht. Allerdings fehlt noch der Nachweis, dass dies c ein möglicher Kontrastvektor ist, dass also die Summe der Koeffizienten gleich 0 ist. Dies folgt aber sofort: X X X nj (Mj − M ) = nj Mj − M nj = N M − M N = 0 . Die Zwischenbehauptung ist damit gezeigt. Dividiert man nun noch durch das vorläufig weggelassene M Sw , so erhält man insgesamt t2c = ψ̂c2 SSb M Sb ≤ = (J − 1) = (J − 1) F . 2 M Sw M Sw k ck M Sw Insgesamt ist also für jeden Kontrastvektor c der Wert t2c der quadrierten Teststatistik höchstens gleich (J − 1)F , und dieser maximale Wert wird tatsächlich erreicht von dem Kontrast ψc , der durch c = (n1 (M1 − M ), . . . , nJ (MJ − M ))0 gegeben ist. Dieser Kontrast soll daher auch als Maximalkontrast bezeichnet werden. Anzumerken ist noch, dassp der so definierte Maximalkontrast auch zu einem maximalen tc führt (nämlich (J − 1)F ), da dieses tc positiv ist (was daran liegt, dass das zugehörige ρ in der Begründung sogar gleich +1 war). Natürlich führt auch jedes Vielfache des Maximalkontrasts zum selben (maximalen) t2c -Wert; der gefundene Kontrast ist also nur einer unter vielen anderen (die allerdings nicht ‚substantiell‘ verschieden sind). 1.5 Kontraste QM2 15 111 Schließlich könnte man noch einwenden, dass die Begründung nur dann korrekt ist, wenn SSb und SSw ungleich 0 sind. Allerdings ist die Wahrscheinlichkeit, dass eine oder beide Quadratsummen 0 sind, gleich 0, weshalb dieser kritische Fall vernachlässigt werden kann. Rechtfertigung von post-hoc-Tests. In diesem Abschnitt soll es darum gehen, post-hoc-Tests nach einer signifikanten Varianzanalyse zu rechtfertigen. Die Regel zum Testen von Kontrasthypothesen H0,c : ψc = 0 H1,c : ψc 6= 0 im Anschluss an eine Varianzanalyse ist die folgende: (R.p.h.) Verwirf H0,c , falls |tc | ≥ k. Hierbei ist ψc der zu einem Kontrastvektor c = (c1 , . . . , cJ )0 gehörende Kontrast P cj µj , wobei immer vorausgesetzt ist, dass nicht alle Koeffizienten cj gleich 0 sind. Das Symbol k steht abkürzend für den kritischen Wert beim post-hoc-Test: q k = (J − 1)FJ−1, N −J; α , während die Abkürzung ‚R.p.h.‘ für ‚Regel post hoc‘ steht. Das Ereignis Ac soll das Ereignis bezeichnen, dass H0,c nach der Regel (R.p.h.) verworfen wird, dass also |tc | ≥ k gilt. Die Überlegungen zum F -Test als UI-Test zeigen, dass die folgende Aussage richtig ist: ! [ PH0 Ac = α . (2) c Ausformuliert bedeutet dies: Falls die Nullhypothese H0 der Varianzanalyse gilt, ist die Wahrscheinlichkeit, bei Anwendung der Regel (R.p.h.) (mindestens) eine H0,c zu verwerfen, gleich α. Dabei sei daran erinnert, dass die mengentheoretische Vereinigung von Ereignissen gerade das Ereignis ist, dass (mindestens) eines der gegebenen Ereignisse eintritt. Hier werden die Ereignisse Ac für alle c betrachtet, was das c unter dem 1.5 Kontraste QM2 15 112 Vereinigungszeichen symbolisiert. Die Vereinigung, um die es hier geht, ist damit eine Vereinigung von unendlich vielen Einzelmengen Ac , da es ja unendlich viele Kontrastvektoren c gibt. Bei oberflächlicher Betrachtung mag es scheinen, dass man mit der Aussage (2) eine Rechtfertigung dafür hat, beliebig nach der Regel (R.p.h.) zu testen, ohne sich um eine Alpha-Adjustierung Gedanken machen zu müssen: Die Wahrscheinlichkeit, (auch nur) eine der Nullhypothesen H0,c zu verwerfen, ist ja gleich dem Signifikanzniveau α der Varianzanalyse. Das Problem ist allerdings das, dass diese Aussage nur unter der Voraussetzung gilt, dass die Nullhypothese der Varianzanalyse richtig ist. Genau diese Hypothese wird aber beim Signifikantwerden des F -Bruchs verworfen, so dass die angegebene Aussage gewissermaßen leer ist, da man nicht mehr an ihre Voraussetzung glaubt. Zur Rechtfertigung von post-hoc-Tests nach der angegebenen Regel braucht man vielmehr eine andere Aussage, nämlich die Aussage P [ H0,c Ac ≤α. (3) c richtig Diese Aussage ist so zu lesen, dass die Wahrscheinlichkeit, irgendeine richtige H0,c zu verwerfen, höchstens gleich α ist, was genau die gewünschte Rechtfertigung darstellt. Im Unterschied zur ersten Formulierung ist hier einerseits nicht vorausgesetzt, dass die Nullhypothese H0 der Varianzanalyse gilt, andererseits werden nicht mehr alle Ac vereinigt, sondern nur die, für die die entsprechenden Nullhypothesen H0,c richtig sind. Die Gültigkeit der Beziehung (3) liefert nun tatsächlich die Begründung für die Möglichkeit von post-hoc Tests ohne weitere Probleme mit der α-Adjustierung im folgenden Sinn: Verfährt man nach dieser Regel, so ist die Wahrscheinlichkeit für falsche Aussagen höchstens gleich α. Wesentlich ist dabei, dass man im Falle eines nicht signifikanten post-hoc-Tests gar keine Aussage macht (wie ja generell im Fall von nicht signifikanten Tests). Eine falsche Aussage kann dann nur von der Form sein, dass man die Gültigkeit einer H1,c behauptet, wo in Wirklichkeit H0,c gilt. Genau für diese Fälle stellt jedoch (3) fest, dass die Wahrscheinlichkeit, dass auch nur einer von ihnen eintritt, höchstens gleich α ist. 1.5 Kontraste QM2 15 113 Man hat sich damit also – kurz gesagt – gegen die Möglichkeit falscher Aussagen nach der Untersuchung insgesamt auf dem Niveau α abgesichert. Dabei ist es gleichgültig, ob die Nullhypothese H0 der Varianzanalyse gilt oder nicht. Es bleibt zu begründen, dass die Aussage (3) gilt. Diese Begründung beruht auf einer neuen Varianzanalyse mit veränderten Daten. Die Abänderung der Daten geschieht dabei unter Verwendung der tatsächlichen Erwartungswerte. Diese neue Varianzanalyse ist daher nur ‚fiktiv‘ in dem Sinne, dass sie wegen der fehlenden Kenntnis der Erwartungswerte nicht konkret gerechnet werden kann. Dies ist aber für das Argument auch gar nicht nötig, es genügt, dass man sie bei Kenntnis der Erwartungswerte durchführen könnte; man kann sich hilfsweise also vorstellen, diese Kenntnisse zu besitzen. Die Daten für die in diesem Sinne fiktive neue Varianzanalyse erhält man, indem man von allen Werten den Erwartungswert der Gruppe bzw. Bedingung abzieht, zu der die Werte gehören. Zur Unterscheidung sollen die neuen Werte mit einer Schlange gekennzeichnet werden, ebenso die Kennwerte der neuen Varianzanalyse. Die neuen Daten sind damit ỹij = yij − µj . Der Erwartungswert von ỹij ist dann µ̃j = E(ỹij ) = E(yij ) − µj = µj − µj = 0 , und durch die Subtraktion der Konstanten µj bleibt die Varianz σ 2 und die Normalverteiltheit erhalten. Es folgt, dass ỹij ∼ N (0, σ 2 ) gilt. Durch die Subtraktion von Konstanten geht auch die Unabhängigkeit nicht verloren, so dass mit den yij auch die ỹij gemeinsam unabhängig sind. Die neuen Daten ỹij erfüllen daher die Voraussetzungen der Varianzanalyse (Normalverteiltheit, Varianzhomogenität, Unabhängigkeit). Zudem sind alle Erwartungswerte µ̃j gleich 0, so dass für die fiktive Varianzanalyse mit diesen Daten die Nullhypothese H̃0 : µ̃1 = µ̃2 = . . . = µ̃J gilt (die Schlange steht hier zur Unterscheidung von der Nullhypothese H0 der Originaldaten, die ja nicht unbedingt gelten muss). Was die Kennwerte der fiktiven Varianzanalyse angeht, so gilt für die Gruppenmittelwerte M̃j offenbar die Beziehung M̃j = Mj − µj , und da innerhalb einer 1.5 Kontraste QM2 15 114 Gruppe j alle Werte um den gleichen Wert µj vermindert werden, bleibt die Varianz innerhalb jeder einzelnen Gruppe im Vergleich zur Originalvarianzanalyse erhalten, weshalb auch die mittlere Quadratsumme innerhalb sich nicht ändert; g es gilt also M S w = M Sw . In der neuen Situation können auch Kontraste gebildet werden und Kontrasthypothesen getestet werden. Ist c = (c1 , . . . , cJ ) ein Kontrastvektor (ist also die Summe der cj gleich 0), so soll der zugehörige Kontrast ψ̃c heißen; es gilt also X ψ̃c = cj µ̃j . Der Kontrast, den man mit demselben Kontrastvektor c in der Originalsituation P bildet, heißt zur Unterscheidung ψc , es gilt also ψc = cj µj . Für die Kontraste ψ̃c sind die Kontrastnullhypothesen H̃0,c : ψ̃c = 0 alle richtig, da ja H̃0 gilt. Beim Testen dieser Nullhypothesen müssen die Kontraste ψ̃c geschätzt werden, die P Kontrastschätzer sind dabei ψ̃ˆc = cj M̃j . Die Beziehung zu den ensprechenden Kontrastschätzern mit den Originaldaten ist die folgende: X X X X ψ̃ˆc = cj M̃j = cj (Mj − µj ) = cj Mj − cj µj = ψ̂c − ψc . Ist H0,c richtig, so ist ψc = 0 und damit ψ̃ˆc = ψ̂c . Will man die Nullhypothesen H̃0,c testen, so braucht man neben den Kontrastschätzern ψ̃ˆc die Schätzer sψ̃ˆ ihrer Streuung. Diese stimmen mit den Streuungsc schätzern sψ̂ der Kontrastschätzer ψ̂c überein, denn es gilt g s2ˆ = k ck2 M S w = k ck2 M Sw = s2ψ̂ . ψ̃c Bildet man nun die t-Statistiken zum Test der Kontrastnullhypothesen, die für die modifizierten Daten mit t̃c und für die Originaldaten mit tc bezeichnet werden, so gilt für alle c, für die H0,c richtig ist, die Beziehung ψ̂c ψ̃ˆc t̃c = = = tc , sψ̃ˆ sψ̂ c 1.5 Kontraste QM2 15 115 da wegen der Gültigkeit von H0,c ja ψ̃ˆc = ψ̂c gilt. Bezeichnet weiter Ãc das Ereignis, dass |t̃c | ≥ k gilt (was gerade bedeutet, dass H̃0,c post hoc verworfen wird), so tritt damit für diejenigen c, für die H0,c richtig ist, das Ereignis Ãc genau dann ein, wenn Ac eintritt, was ja gerade |tc | ≥ k bedeutet. Es folgt [ H0,c Ac c richtig [ = H0,c Ãc ⊆ c richtig [ Ãc , c denn bei der ersten Gleichung sind die einander entsprechenden zu vereinigenden Ereignisse jeweils gleich, während die Inklusionsbeziehung rechts deshalb gilt, weil in der Menge ganz rechts alle Ãc vereinigt werden, und nicht nur die, für die H0,c gilt, wodurch die Vereinigungsmenge sich nur vergrößern kann. Hieraus folgt aber schließlich P ! [ Ãc = P Ac ≤ P H̃0 c c richtig [ H0,c ! [ Ãc = α, c was gerade die angestrebte Behauptung ist. Das erste Gleichheitszeichen gilt dabei deshalb, weil H̃0 richtig ist, die Gültigkeit des zweiten Gleichheitszeichens ist gerade (2) für den Fall der fiktiven Varianzanalyse. Damit sind post-hoc-Tests nach der Regel (R.p.h.) im Hinblick auf eine mögliche α-Inflation gerechtfertigt: Die Wahrscheinlichkeit, irgendwelche richtigen Nullhypothesen H0,c bei Anwendung der Regel (R.p.h) zu verwerfen, ist insgesamt höchstens α. Anzumerken ist, dass hier ein Punkt eigentlich noch einer weiteren Rechtfertigung bedarf, und zwar der, dass die Vereinigung aller Ac , für die H0,c richtig ist, ein Ereignis ist. Dies ist deshalb nicht selbstverständlich, weil es sich hier nicht um eine endliche Vereinigung von Ereignissen handelt, sondern um eine unendliche. Die fragliche Vereinigung ist in der Tat ein Ereignis, was aber mit den hier zur Verfügung stehenden Hilfsmitteln hier nicht gezeigt werden kann. 1.5 Kontraste QM2 15 116 Einseitige Interpretierbarkeit von post-hoc-Tests. Bei post-hoc-Tests stellt sich naheliegenderweise die Frage, ob sie, obwohl von der Konstruktion her zweiseitig angelegt, auch einseitig interpretiert werden können. Kann man beispielsweise, nachdem der post-hoc-Test zu der Frage, ob sich µ1 und µ2 unterscheiden, signifikant geworden ist, nur die Aussage µ1 6= µ2 treffen, oder kann man darüber hinaus eine gerichtete Aussage machen, zum Beispiel im Fall, dass M1 größer ist als M2 , die Aussage µ1 > µ2 ? Es soll nun ein Argument für die einseitige Interpretierbarkeit vorgestellt werden. Ganz ähnlich wie bei der Rechtfertigung von post-hoc-Tests generell ist der Kern des Arguments die Tatsache, dass bei Anwendung einer geeigneten Regel die Wahrscheinlichkeit, eine falsche Aussage zu machen, höchstens gleich dem gewählten Gesamtsignifikanzniveau α ist. Wesentlich ist dabei, dass nur Aussagen gemacht werden, die die Form von Alternativhypothesen haben (genau wie bei den post-hoc-Tests). Es soll also um die Testung post hoc von Hypothesenpaaren der Form 0 H0,c : ψc ≤ 0 0 H1,c : ψc > 0 gehen. Dies scheint zunächst eine Einschränkung zu sein, da hier nur rechtsseitige signifikante Ergebnisse vorgesehen sind. Bei genauem Hinsehen sind aber auch linksseitige Tests möglich, da man diese in rechtsseitige Tests dadurch umwandeln kann, dass man die Hypothesen mit −1 multipliziert; hat man also eine linksseitige 0 0 Fragestellung durch H0,c : ψc ≥ 0 und H1,c : ψc < 0 gegeben, so wandelt man 0 diese äquivalent in eine rechtsseitige um, indem man H0,c durch die Hypothese 0 −ψc ≤ 0 und H1,c durch die Hypothese −ψc > 0 ersetzt und dabei berücksichtigt, dass −ψc der Kontrast ist, in dessen Kontrastvektor alle Koeffizienten durch das (−1)-fache der entsprechenden Koeffizienten im Kontrastvektor von ψc ersetzt sind (kurz: der Kontrastvektor von −ψc ist −c). Die Regel für Aussagen zu den gerade genannten Hypothesen ist nun die folgende: 0 (R’.p.h.) Verwirf H0,c , falls tc ≥ k. Die Statistik tc ist dabei ψ̂c /sψ̂c und es gilt wieder q k = (J − 1)FJ−1, N −J; α . 1.5 Kontraste QM2 15 117 Ausdrücklich sei noch einmal darauf hingewiesen, dass die Regel eine Aussage nur im Falle eines ‚signifikanten‘ Ergebnisses ermöglicht, nicht aber in dem Fall tc < k, in dem gar keine Aussage vorgesehen ist (wird allerdings tc ≤ −k, so ist eine Aussage in der ‚Gegenrichtung‘ möglich). Zur Rechtfertigung soll nun gezeigt werden, dass die Wahrscheinlichkeit, nach 0 Regel (R’.p.h.) (mindestens) eine richtige H0,c zu verwerfen, höchstens α ist. 0 Dazu wird zunächst ein festes c betrachtet, und zwar ein solches, bei dem H0,c richtig ist, für das also ψc ≤ 0 gilt. In der weiteren Begründung wird auf die fiktive Varianzanalyse aus der Rechtfertigung von post-hoc-Tests Bezug genommen. Für den dort betrachteten empirischen Kontrast ψ̃ˆc = ψ̂c − ψc gilt wegen ψc ≤ 0 die Beziehung ψ̃ˆc ≥ ψ̂c . Bezeichnet man mit A0c das Ereignis, dass tc ≥ k wird (also das Ereignis, dass 0 bei Anwendung von (R’.p.h.) verworfen wird), so gilt H0,c A0c tritt ein ⇒ tc ≥ k ⇒ t̃c ≥ k ⇒ Ãc tritt ein . Die erste Folgerungsbeziehung ergibt sich dabei direkt aus der Definition von A0c , für die zweite berücksichtig man, dass t̃c = ψ̃ˆc /sψ̃ˆ ≥ ψ̂c /sψ̃ˆ = ψ̂c /sψ̂c = tc c c gilt (wegen ψ̃ˆc ≥ ψ̂c ), und die dritte Beziehung folgt wieder unmittelbar aus der Definition von Ãc . Anders formuliert bedeutet dies gerade A0c ⊆ Ãc . 0 Diese Beziehung gilt für alle c, für die H0,c richtig ist; hieraus folgt wiederum durch Vereinigungsbildung [ [ A0c ⊆ Ãc . c c 0 0 H0,c richtig H0,c richtig 1.5 Kontraste QM2 15 118 Bildet man nun noch die Wahrscheinlichkeiten dieser Ereignisse, so erhält man P [ A0c ≤ P Ãc c c 0 richtig richtig H0,c [ 0 H0,c ! [ Ãc = α , ≤ P c wobei die vorletzte Beziehung daraus folgt, dass die Vereinigungsmenge auf ihrer linken Seite in der auf ihrer rechten Seite enthalten ist, und wobei die letzte Gleichheit schon aus der Rechtfertigung der post-hoc-Tests bekannt ist. Damit ist die zur Rechtfertigung von (R’.p.h.) erforderliche Aussage gefunden: Die Wahrscheinlichkeit, dass (mindestens) ein Ereignis A0c eintritt, für das die 0 zugehörige Nullhypothese richtig ist, dass also (mindestens) eine richtige H0,c bei Anwendung dieser Regel verworfen wird, ist höchstens α. Damit ist auch die Wahrscheinlichkeit, bei Anwendung dieser Regel falsche Aussagen zu machen, höchstens α, was zu zeigen war. Die Tatsache, dass alle betrachteten Vereinigungsmengen auch wirklich Ereignisse sind, müsste auch hier streng genommen noch gezeigt werden, was aber mit den zur Verfügung stehenden Hilfsmitteln nicht möglich ist. Simultane Konfidenzintervalle. Die Problematik der α-Aufblähung beim Durchführen mehrerer Tests findet sich in veränderter Form auch bei Kondidenzintervallen wieder, was nicht überrascht, wenn man den engen Zusammenhang zwischen zweiseitigen Tests und Konfidenzintervallen bedenkt. Zunächst soll die Problematik geschildert werden und eine Möglichkeit der Lösung im Falle endlich vieler Intervalle angedeutet werden. Danach sollen die Ergebnisse zum UI-Test dazu benutzt werden, auch bei Konstruktion von prinzipiell beliebig vielen Intervallen dem Problem zu entkommen. Der erste Fall, der betrachtet werden soll, ist der, dass man für zwei Parameter τ1 und τ2 jeweils ein Konfidenzintervall hat. Die beiden Intervalle sollen I1 und I2 heißen. Die Parameter können dabei Erwartungwerte sein oder Kontraste oder auch (theoretische) Varianzen oder sonstige interessante theoretische Größen. Die beiden Intervalle I1 und I2 sollen nun beides Intervalle auf dem Nivea (1 − α) 1.5 Kontraste QM2 15 119 sein, das heißt, die Wahrscheinlichkeit, dass Ij den Parameter τj enthält, soll in beiden Fällen ≥ (1 − α) sein. Es sei darauf hingewiesen, dass die Wahrscheinlichkeitsaussagen natürlich als Aussagen über potentielle Intervalle (die erst noch über eine Datenerhebung konkret zu gewinnen sind) zu verstehen sind und nicht als Aussagen über konkrete Intervalle (die nach einer Datenerhebung vorliegen); gemeint sind also eigentlich die Verfahren, die die Intervalle I1 und I2 liefern. Diese Verfahren sollen also, jeweils für sich genommen, mit einer Wahrscheinlichkeit ≥ (1 − α) zu Intervallen Ij führen, die die entsprechenden Parameter enthalten. In diesem Sinn sind auch die folgenden Ausführungen zu verstehen. Die Frage, die sich sofort stellt, ist die, wie wahrscheinlich es ist, dass beide Intervalle den zugehörigen Parameter enthalten. Ist K1 das Ereignis „ τ1 ∈ I1 “ und K2 das Ereignis „ τ2 ∈ I2 “, so gilt nach Voraussetzung P(K1 ) ≥ (1 − α) und P(K2 ) ≥ (1 − α). Gefragt ist jetzt aber nach P(K1 ∩ K2 ), wobei K1 ∩ K2 ja gerade bedeutet, dass sowohl K1 als auch K2 eintritt. Die Frage kann man leicht über Gegenwahrscheinlichkeiten beantworten. Sind dazu A1 und A2 die Gegenereignisse von K1 und K2 , also die Ereignisse, dass die Konfidenzintervalle ‚ihren‘ Parameter nicht enthalten, so gilt einerseits P(A1 ) ≤ α und P(A2 ) ≤ α, und andererseits ist das Gegenereignis von K1 ∩K2 gerade A1 ∪A2 (das Gegenteil davon, dass beide Intervalle ihren Parameter enthalten, ist, dass mindestens ein Intervall seinen Parameter nicht enthält). Die Wahrscheinlichkeit von A1 ∪ A2 ist aber bekanntlich höchstens so groß wie die Summe der Einzelwahrscheinlichkeiten, also höchstens 2α. Aus P(A1 ∪ A2 ) ≤ 2α folgt aber P (K1 ∩ K2 ) ≥ (1 − 2α) da es sich hier wieder um Gegenereignisse handelt. Damit ist die Antwort auf die Frage gefunden: Die Wahrscheinlichkeit, dass beide Intervalle ‚ihren‘ Parameter enthalten, ist mindestens (1 − 2α). Hier hat man also in der Tat eine Situation analog der der α-Inflation beim Hypothesentesten. Konstruiert man beispielsweise zwei 95%-Konfidenzintervalle für unterschiedliche Parameter, so kann man über die Wahrscheinlichkeit, dass beide Intervalle ihren Parameter enthalten, nur noch die Aussage machen, dass sie mindestens 90% ist. 1.5 Kontraste QM2 15 120 Hieraus ergibt sich aber unmittelbar eine Möglichkeit, das Problem zu vermeiden: Möchte man mit einer Wahrscheinlichkeit von 1 − αg beide Parameter mit ihren Konfidenzintervallen erfassen, so hat man nur α = αg /2 zu wählen. Möchte man also beispielsweise, dass mit einer Wahrscheinlichkeit von 95% beide Parameter in ihren Konfidenzintervallen liegen, so muss man zwei Einzelintervalle zum Niveau 97.5% benutzen (hier ist αg = .05 und daher α = .025). Es ist klar, dass dies unmittelbar auf mehr als zwei Intervalle verallgemeinert werden kann: Möchte man Konfidenzintervalle für n Parameter τ1 , . . . , τn herstellen, die die Eigenschaft haben, dass die Wahrscheinlichkeit, dass alle Intervalle ‚ihren‘ Parameter τj enthalten, mindestens gleich (1 − αg ) ist, so gelingt das, wenn man die Einzelintervalle zum Niveau (1 − αg /n) wählt. Offenbar entspricht diese Adjustierung gerade der Bonferroni-Adjustierung beim Hypothesentesten. In dem Fall, dass die Statistiken, die zum Konstruieren der Intervalle benutzt werden, unabhängig sind, kann man, analog zum entsprechenden Fall beim Hypothesentesten, auch leicht eine Methode finden, bei der das α für die Einzelintervalle etwas (meist allerdings nur unbedeutend) größer ist als das eben benutzte; die Intervalle werden dann vergleichsweise etwas kleiner. Nach diesen Vorbemerkungen sollen nun, aufbauend auf den UI-Überlegungen Konfidenzintervalle für alle Kontraste ψ konstruiert werden, die die Eigenschaft haben, dass die Wahrscheinlichkeit, dass alle Intervalle ihr zugehöriges ψ enthalten, gerade (1 − α) ist (α ist dabei vorgegeben). Man nennt diese Intervalle aus naheliegenden Gründen dann auch simultane Konfidenzintervalle, eine andere Bezeichnung ist Scheffé-Intervalle. Zur Konstruktion wird an die Situation der fiktiven Varianzanalyse angeknüpft, bei der die Ereignisse Ãc durch die Bedingung definiert waren, dass |t̃c | ≥ k galt. Hierbei war t̃c die Statistik (ψ̂c − ψc )/sψ̂c für den durch den Kontrastvektor c definierten Konstrast ψc und q k = (J − 1)FJ−1, N −J; α . 1.5 Kontraste QM2 15 121 Für die Ereignisse Ãc hatte sich dabei die Beziehung [ P Ãc = α ergeben, die Wahrscheinlichkeit, dass mindestens eines der Ereignisse Ãc eintritt, war also gerade α. Die Vereinigung ist hier über alle Kontrastvektoren c zu bilden. Ist nun Kc das Gegenereignis zu Ãc , also das Ereignis, dass |t̃c | < k gilt, so ist S T das Gegenereignis zu Ãc gerade Kc (dies ist die Abkürzung für das Ereignis, dass alle Ereignisse Kc eintreten). Diese Tatsache sei noch einmal ausführlich formuliert: Das Gegenteil davon, dass mindestens ein Ãc eintritt, ist, dass keines der Ãc eintritt, was gerade bedeutet, dass für alle Ãc das Gegenteil Kc eintritt, dass also alle Kc eintreten. T S Da Kc das Gegenereignis zu Ãc ist, folgt \ P( Kc ) = 1 − α , die Wahrscheinlichkeit, dass alle Kc eintreten, ist also (1 − α). Nun müssen nur noch die Ereignis Kc so umformuliert werden, dass sie zu Aussagen über die angestrebten Vertrauensintervalle werden. Nach Definition ist Kc das Ereignis, dass |t̃c | < k gilt, was gleichbedeutend damit ist, dass −k < (ψ̂c − ψc )/sψ̂c < k gilt, oder (mit den bekannten Umformungen) dass ψ̂c − ksψ̂c < ψc < ψ̂c + ksψ̂c gilt, dass also ψc in dem Intervall (ψ̂c − ksψ̂c , ψ̂c + ksψ̂c ) liegt. Damit sind die erstrebten simultanen Konfidenzintervalle gewonnen, denn die Überlegungen lassen sich nun folgendermaßen zusammenfassen: Die Wahrscheinlichkeit, dass für alle Kontraste ψc die Beziehung ψc ∈ ψ̂c − ksψ̂c , ψ̂c + ksψ̂c gilt, ist (1 − α). Die simultanen Konfidenzintervalle (ψ̂c − ksψ̂c , ψ̂c + ksψ̂c ) ähneln stark den bekannten Konfidenzintervallen für die ψc , bei denen ja nur k durch den kleineren Wert tN −J; α/2 zu ersetzen ist. 1.5 Kontraste QM2 15 122 Daran, dass die simultanen Intervalle im Vergleich zu den Intervallen bei der Einzeluntersuchung breiter werden, erkennt man den Preis, den man dafür zahlen muss, dass man sich nicht nur für einen Kontrast interessiert, sondern gleich für alle auf einmal. Der bekannte Zusammenhang zwischen Vertrauensintervallen und zweiseitigen Tests zeigt sich auch hier. Der zweiseitige Test der Hypothesen H0,c : ψc = 0 H1,c : ψc 6= 0 nach der Regel (R.p.h.) wird nämlich genau dann signifikant, wenn |tc | ≥ k gilt, wenn also (wegen tc = ψ̂c /sψ̂c ) die Beziehung |ψ̂c | ≥ ksψ̂c gilt. Dies ist offenbar genau dann der Fall, wenn das simultane Konfidenzintervall für ψc den Wert 0 nicht enthält. Zusammenfassend gilt also, dass der zweiseitige post-hoc-Test der Nullhypothese H0,c : ψc = 0 genau dann signifikant wird, wenn das simultane Konfidenzintervall für ψc den Wert 0 nicht enthält. Unterräume von Kontrasten und zugehörige UI-Tests. In diesem Abschnitt geht es um bestimmte Situationen, in denen nicht alle Kontraste interessant sind. Falls die interessanten Kontraste sich durch gewisse Eigenschaften definieren lassen, kann man einen UI-Test konstruieren, der nur diese Kontraste untersucht, und kann die Kontraste gegebenenfalls post hoc testen. In diesem Sinn geht es auch um eine Möglichkeit der Alpha-Adjustierung. Um dies alles genauer formulieren zu können, sind einige Begriffe aus der Linearen Algebra hilfreich, die dabei vorgestellt werden sollen. Es ist allerdings nicht sinnvoll, an dieser Stelle die zugehörige Theorie zu entwickeln, weshalb über entsprechende Sachverhalte nur – ohne Begründung – berichtet werden soll. Anwendung sollen diese Überlegungen vornehmlich in der zweifaktoriellen Varianzanalyse finden, dennoch wird zunächst die Situation der einfaktoriellen Varianzanalyse vorausgesetzt (von der die zweifaktorielle ja in gewisser Weise – assoziierte einfaktorielle Varianzanalyse – ein Spezialfall ist). Es sollen also unter den Voraussetzungen der einfaktoriellen Varianzanalyse Daten in J Bedingungen erhoben werden. Die Fragen drehen sich dabei um die zu diesen Bedingungen gehörenden Erwartungswerte µj . Viele spezifische Fragen werden dann mit Hilfe von Kontrasten formuliert und untersucht. 1.5 Kontraste QM2 15 123 P P Sind nun zwei Kontraste ψ1 = c1j µj und ψ2 = c2j µj gegeben, so kann man die Summe ψ1 +ψ2 dieser Kontraste bilden, die dann diejenige Linearkombination der µj ist, deren Koeffizienten die Summe der entsprechenden Koeffizienten der Ausgangskontraste sind. Ist beispielsweise ψ1 = µ2 − µ1 und ψ2 = µ3 − µ2 , so ist die Summe ψ1 + ψ2 gleich (µ2 − µ1 ) + (µ3 − µ2 ) = µ3 − µ1 . Der Koeffizientenvektor (−1, 0, 1, 0, . . . , 0)0 der Summe ist dabei die (komponentenweise gebildete) Summe der Koeffizientenvektoren (−1, 1, 0, 0, . . . , 0)0 und (0, −1, 1, 0, . . . , 0)0 . Hier ist die Summe wieder ein Kontrast (die Summe der Koeffizienten ist 0), was jedoch kein Zufall ist, sondern immer so sein muss, denn in der allgemeinen Notation sind die Koeffizienten von ψ1 + ψ2 gerade die Zahlen c1j + c2j , und für deren Summe gilt X X X (c1j + c2j ) = c1j + c2j = 0 + 0 = 0 , da ja ψ1 und ψ2 Kontraste sind. Hier taucht eine kleine Schwierigkeit auf, die die Linearkombination betrifft, bei der alle Koeffizienten gleich 0 sind, also ψ0 = 0µ1 + . . . + 0µJ = 0. Es ist zur Vermeidung umständlicher Formulierungen sinnvoll, diese Linearkombination auch zu den Kontrasten zu rechnen, obwohl man keine inhaltlich sinnvolle Fragestellung damit verbinden kann, und obwohl Tests mit ihr weder sinnvoll noch möglich sind. Die bisherigen Überlegungen haben gezeigt, dass die Summe von zwei Kontrasten ebenfalls wieder ein Kontrast ist. Analog zeigt man, dass auch ein Vielfaches aψ eines Kontrastes ψ immer wieder ein Kontrast ist. Das Vielfache aψ eines Kontrastes ψ ist dabei naheligenderweise dadurch definiert, dass alle Koeffizienten mit der a zu multiplizieren sind; der Kontrastvektor von aψ ist also gerade der (komponentenweise) mit a multiplizierte Kontrastvektor von ψ. Beispielsweise ist für ψ = µ2 − µ1 das Vielfache 2ψ gerade gleich 2µ2 − 2µ1 ; entsprechend ist (−1)ψ gleich −(µ2 − µ1 ) = µ1 − µ2 . Da nun in der Menge der Kontraste sowohl Summen als auch Vielfache gebildet werden können, ohne dass man diese Menge verlässt, werden auch durch beliebige Kombinationen dieser Operationen immer wieder Kontraste hergestellt. Mit mehrfacher Anwendung von Summenbildung und Vervielfachung stellt man aber gerade Linearkombinationen her; eine Linearkombination von gewissen KonP trasten ψ1 , . . . , ψm ist dabei eine Summe der Form ak ψk mit irgendwelchen Koeffizienten ak . Der Koeffizientenvektor der Linearkombination ist dann übrigens 1.5 Kontraste QM2 15 124 die entsprechende Linearkombination der Koeffizientenvektoren der Ausgangskontraste. Man beachte, dass die hier betrachteten Linearkombinationen keine additive Konstante besitzen. Ist beispielsweise ψ1 = µ2 − µ1 , ψ2 = µ3 − µ2 und ψ3 = µ1 + µ2 − 2µ3 , so ist 2ψ1 + ψ2 − ψ3 gerade 3µ3 − 3µ1 . Eine Menge, in der man, ohne die Menge zu verlassen, beliebig Summen und Vielfache und damit auch Linearkombinationen bilden kann, nennt man auch einen Vektorraum. Die Menge aller Kontraste bildet in dieser Sprechweise damit einen solchen Vektorraum. Oft interessieren nicht alle Kontraste, sondern nur bestimmte Teilmengen. Hat nun eine (nichtleere) Teilmenge U eines Vektorraums V die Eigenschaft, dass man auch in U beliebig Summen, Vielfache und damit Linearkombinationen bilden kann ohne U zu verlassen, so nennt man U auch einen Unterraum oder Untervektorraum. In dieser Sprechweise ist übrigens auch V selbst ein Unterraum, eine Sprechweise, die vielleicht zunächst verwirrend, dann aber doch praktisch ist. Hier soll es nun um Situationen gehen, in denen gerade alle Kontraste aus einem solchen Unterraum interessant sind. Die eigentlich interessanten Beispiele für solche Situationen finden sich in der zweifaktoriellen Varianzanalyse (oder in Varianzanalysen mit noch mehr Faktoren), hier könnte man als Beispiel eine Situation nehmen, in der man aus Versehen zu viele Bedingungen untersucht hat. Genauer könnte es sein, dass eigentlich nur Kontraste interessant sind, die die ersten K Erwartungswerte betreffen, wo K irgendeine Zahl mit K < J ist. Die zugehörigen Kontrastvektoren sind dann gerade die, bei denen die letzten J − K Komponenten alle 0 sind. Es sollte klar sein, dass bei Summen und Vielfachen solcher Kontraste die letzten J −K Erwartungswerte dann auch nicht (genauer: mit Koeffizient 0) auftreten, weshalb die betrachteten Kontraste tatsächlich einen Unterraum bilden. Wie sich oben schon gezeigt hat, kann man durch das Bilden von Linearkombinationen aus Kontrasten andere Kontraste herstellen. Wenn es nun möglich ist, in einem Unterraum U von Kontrasten eine Menge von Kontrasten ψ1 , . . . , ψm so zu finden, dass alle Kontraste aus U Linearkombinationen von ψ1 , . . . , ψm sind, wobei zusätzlich die Darstellung eines ψ aus U als Linearkombination dieser ψk nur auf eine einzige Weise möglich ist, so nennt man ψ1 , . . . , ψm eine Basis von U und bezeichnet die Zahl m dieser Kontraste auch als die Dimension von U . 1.5 Kontraste QM2 15 125 In der Linearen Algebra wird nun gezeigt, dass jeder Unterraum (mindestens) eine solche Basis besitzt, und dass die Dimension eindeutig bestimmt ist. Die Dimension eines Unterraums ist dabei höchstens gleich der Dimension des Ausgangsvektorraums (der seinerseits auch eine Basis und eine Dimension besitzt). Im hier betrachteten Fall hat der Raum aller Kontraste die Dimension J − 1, was man sich beispielsweise dadurch klar machen kann, dass man zeigt, dass die zu den Koeffizientenvektoren (−1, 1, 0, . . . , 0)0 , (−1, 0, 1, . . . , 0)0 , . . . , (−1, 0, 0, . . . , 1)0 gehörenden Kontraste eine Basis bilden. Dass J − 1 gerade die Zahl der Zählerfreiheitsgrade des F -Bruchs ist, ist natürlich kein Zufall. Es sei nun die Situation gegeben, dass im Rahmen einer einfaktoriellen Untersuchung mit J Bedingungen nur Kontraste interessieren, die zu einem Unterraum U der Dimension m gehören. Man kann dann einen UI-Test konstruieren, der die Nullhypothese testet, dass alle Kontraste aus U gleich 0 sind. Dieser Test wird in ähnlicher Weise wie der UI-Test für den Fall aller Kontraste konstruiert, der ja den bekannten F -Bruch liefert. Der entscheidende Schritt ist der, dass man sich wieder überlegt, wie groß die (quadrierte) Teststatistik eines Einzelkontrasttests maximal werden kann, wobei jetzt die Einschränkung gilt, dass nur Kontraste aus U betrachtet werden. Die UI-Teststatistik ist wieder die maximale quadrierte Teststatistik für einen Kontrast aus U , diesmal geteilt durch m. Bei Gültigkeit der Nullhypothese, dass alle Kontraste aus U gleich 0 sind, besitzt sie eine F -Verteilung mit m Zählerfreiheitsgraden (Dimension von U ) und N − J Nennerfreiheitsgraden (N ist wieder die Gesamtzahl der Beobachtungen). Meist wird die Teststatistik als ein Quotient geschrieben, dessen Nenner die bekannte Quadratsumme M Sw ist, während der Zähler von den speziellen Eigenschaften von U abhängt. In dem Beispiel, in dem nicht alle J Erwartungswerte interessieren, sondern nur die ersten K, ist die UI-Nullhypothese äquivalent zu der, dass alle diese K Erwartungswerte gleich sind. Die Dimension des zugehörigen Unterraums von Kontrasten ist K − 1 (es handelt sich um die Kontraste, bei denen die letzten J − K Erwartungswerte alle den Koeffizienten 0 besitzen), und als Teststatistik erhält man den Quotienten der M Sb , die man bei einer Varianzanalyse nur der ersten K Gruppen ermitteln würde, und der M Sw aus der Varianzanalyse mit allen J Gruppen. Unter der Nullhypothese hat dieser Quotient eine F -Verteilung mit 1.5 Kontraste QM2 15 126 K − 1 Zähler- und N − J Nennerfreiheitsgraden. Ein Hauptzweck bei der UI-Strategie ist die Ermöglichung von post-hoc-Tests. Zusatzüberlegungen analog zu den oben für die einfaktorielle Varianzanalyse durchgeführten zeigen, dass es auch hier möglich ist, eine Regel für post-hoc-Tests einzuführen. Diese besagt dann, dass (auf Gesamtniveau α) eine Kontrastnullhypothese dann zu verwerfen ist, wenn ihre Teststatistik betragsmäßig mindestens p gleich m Fm,N −J;α ist. Wesentlich ist dabei, dass jetzt nur Kontraste aus U zugelassen sind. Einerseits gilt dann, dass der UI-Test genau dann signifikant wird, wenn nach der post-hoc-Regel mindestens eine Kontrasthypothese (mit Kontrast aus U ) verworfen werden kann, andererseits ist die Wahrscheinlichkeit, bei Anwendung dieser Regel auch nur eine Kontrastnullhypothese (mit Kontrast aus U ) fälschlicherweise zu verwerfen, höchstens gleich α. Man findet also genau die gleichen Verhältnisse wie bei der einfaktoriellen Varianzanalyse mit den Unterschieden, dass nun nicht alle Kontraste in die Betrachtung eingezogen werden, sondern nur die aus U , und dass die Anzahl der Zählerfreiheitsgrade nicht die Dimension J − 1 des Raums aller Kontraste ist, sondern nur die Dimension m des betrachteten Unterraums U . Vergleicht man die p kritischen Werte für post-hoc-Tests, so hat man bei der Varianzanalyse den Wert (J − 1) FJ−1,N −J;α und bei der Einschränkung auf Kontraste p aus U den Wert m Fm,N −J;α . Handelt es sich um eine echte Einschränkung der Fragestellung, ist also m < (J − 1), so wird der zweite kritische Wert kleiner sein als der erste. Dies bedeutet, dass derjenige, der weniger globale und in diesem Sinn präzisere Fragen stellt, dadurch belohnt wird, dass er eher signifikante Ergebnisse bekommt – der Preis, der dafür zu zahlen ist, ist allerdings der, dass eben nur Kontraste aus U untersucht werden können und nicht mehr alle. Es sei schließlich noch angemerkt, dass – auch abgesehen von dem Globaltest – die post-hoc-Regel eine mögliche Alpha-Adjustierung darstellt, die zur BonferroniAdjustierung in Konkurrenz treten kann, und die in dem Fall, dass man ziemlich viele Kontraste untersuchen will, die alle aus U stammen, der BonferroniAdjustierung oft überlegen sein wird. Schließlich kann man auch noch simultane Konfidenzintervalle für die Kontraste aus U konstruieren; dies geht genauso wie im Fall der einfaktoriellen Varianzp analyse, außer dass für das dort verwendete k nun wieder m Fm,N −J;α (statt 1.5 Kontraste QM2 15 127 p (J − 1) FJ−1,N −J;α ) einzusetzen ist. Der Vergleich der simultanen Konfidenzintervalle für alle Kontraste mit denen für Kontraste aus U zeigt dann, dass die für Kontraste aus U weniger breit sind. Auch hier wird also die Einschränkung der Fragestellung belohnt, allerdings eben um den Preis, dass jetzt nur noch Aussagen über Kontraste aus U gemacht werden können. Der Zusammenhang zwischen post-hoc-Tests und simultanen Konfindenzintervallen ist ganz analog zu dem bei der Untersuchung aller Kontraste. Post-hoc-Tests bei der zweifaktoriellen Varianzanalyse. Die Überlegungen des letzten Abschnitts lassen sich auf mehrere Fragestellungen im Rahmen der zweifaktoriellen Varianzanalyse anwenden. Die Möglichkeit der Anwendung liegt darin begründet, dass in der Situation der zweifaktoriellen Varianzanalyse ja auch alle Voraussetzungen einer einfaktoriellen Varianzanalyse gelten (der assoziierten einfaktoriellen nämlich). Betrachtet man dann beispielsweise die A-Kontraste, so findet man leicht, dass es sich dabei um einen Unterraum aller Kontraste handelt, der die Dimension J − 1 hat (es gilt hier wieder die Notation aus der zweifaktoriellen Varianzanalyse: Faktor A hat J Stufen, Faktor B hat K Stufen und pro Zelle werden n Beobachtungen gemacht). Man kann also einen UI-Test für alle A-Kontraste konstruieren; es sollte nicht überraschen, dass sich dabei der bekannte Test für den Haupteffekt von A ergibt. Neu ist jedoch bei dieser Betrachtungsweise, dass es nun auch möglich ist, posthoc-Tests durchzuführen. Als kritischen Wert für post-hoc-Tests von A-Kontrasten erhält man dann entsprechend den allgemeinen Ausführungen oben den Wert p (J − 1) FJ−1,JK(n−1);α . Im Übrigen gelten die oben für den allgemeinen Fall gemachten Bemerkungen. Natürlich gelten diese Aussagen analog für B-Kontraste; die Dimension des Unterraums der B-Kontraste ist K − 1, der kritische Wert für post-hoc-Tests von p B-Kontrasten die Zahl (K − 1) FK−1,JK(n−1);α . Auch die Interaktionskontraste bilden einen Unterraum, was man sich am besten an den in Matrixform aufgeschriebenen Koeffizientenvektoren klar macht, bei denen ja zeilen- und spaltenweise die Summen gleich 0 sein müssen. Da der Koeffizientenvektor einer Summe die Summe der Koeffizientenvektoren ist, 1.5 Kontraste QM2 15 128 erbt der Koeffizientenvektor der Summe die gerade erwähnte Eigenschaft von den Summanden; analog argumentiert man für Vielfache von Interaktionskontrasten. Die Summe von zwei Interaktionskontrasten ist also wieder Interaktionskontrast, ebenso das Vielfache eines Interaktionskontrasts. Damit bilden die Interaktionskontraste tatsächlich einen Unterraum, dessen Dimension sich dann zu (J − 1)(K − 1) bestimmt. Dass die Nullhypothese der Interaktionsfragestellung genau dann gilt, wenn alle Interaktionskontraste 0 sind hatte sich oben schon gezeigt; es kann damit ein UI-Test für die Interaktion konstruiert werden. Auch hier ist dieser UI-Test wieder der schon bekannte Test auf Interaktion; der kritische Wert für post-hoc-Tests von Interaktionskontrasten ist entsprechend die p Zahl (J − 1)(K − 1) F(J−1)(K−1),JK(n−1);α . Als weiteres Anwendungsbeispiel seien die Tests auf einfache Effekte erwähnt, also beispielsweise der Test, ob die Erwartungswerte von B in der ersten Stufe von A alle gleich sind (also alle Erwartungswerte in der ersten Zeile). Zu dieser Frage gehören dann gerade die Kontraste, die höchstens diese Erwartungswerte mit einem Koeffizienten 6= 0 enthalten; sie bilden einen Unterraum der Dimension K − 1. Offenbar sind die Erwartungswerte der ersten Stufe von A genau dann alle gleich, wenn alle diese Kontraste 0 sind, was wieder die Möglichkeit zur Konstruktion eines UI-Tests gibt. Der UI-Test zu dieser Frage ist der bereits bekannte Test auf einen einfachen Effekt von B auf der ersten Stufe von A; der zugehörige F -Bruch ist der, den man erhält, wenn man die M Sb der isoliert betrachteten ersten Stufe von A (man hat hier dann K Zellen, die den Stufen von B entsprechen) durch M SE teilt. Die Anzahl der Freiheitsgrade ist K − 1 für den Zähler und JK(n − 1) für den Nenner. Der kritische Wert für post-hoc-Tests auf der ersten Stufe von A ist entsprechend p (K − 1) FK−1,JK(n−1);α . Es handelt sich hier übrigens – unter dem Blickwinkel der assoziierten einfaktoriellen Varianzanalyse – um einen Fall, bei dem es nur um eine Teilmenge aller Erwartungswerte geht, das entsprechende bei der allgemeinen Erörterung benutzte Beispiel stellt sich nun also als gar nicht so künstlich heraus. Ganz analog verfährt man natürlich, wenn es um einen einfachen Effekt von B auf einer anderen Stufe von A geht oder um einen einfachen Effekt von A auf 1.5 Kontraste QM2 15 129 irgendeiner festen Stufe von B. Adjustierung bei der zweifaktoriellen Varianzanalyse. Interessanterweise wird, was die Tests der Haupteffekte und des Interaktionseffekts bei der zweifaktoriellen Varianzanalyse angeht, traditionellerweise nicht adjustiert, teilweise mit merkwürdigen Begründungen. Entsprechend unterlässt man die Adjustierung dann auch bei den post-hoc-Tests. Oft ist es so, dass man immerhin für A-Kontraste, B-Kontraste und Interaktionskontraste für sich genommen die oben beschriebene Adjustiermethode verwendet, nicht jedoch übergreifend adjustiert. Für diese Vorgehensweise hat man den schönen Ausdruck geprägt, dass man familienweise adjustiert, wobei die A-, B- und Interaktionskontraste je eine Familie bilden. Nun sind bei der zweifaktoriellen Varianzanalyse aber auch gerade Vergleiche von einzelnen Zellen interessant. Bei diesen hat sich oben gezeigt, dass sie zu keiner der genannten ‚Familien‘ gehören. Die Untersuchung solcher ‚Waisen‘ wird meist zu weiterer Alphaaufblähung führen. Die Vermeidung dieser Alphainflationen (mit der besprochenen UI-Technik) wäre nicht besonders schwierig. Entsprechende Vorschriften würden jedoch die Anzahl signifikanter Ergebnisse deutlich vermindern (in noch stärkerem Ausmaß bei Varianzanalysen mit drei oder mehr Faktoren). Das mag ein Grund sein, weshalb sie nicht bekannt sind oder keine Anwendung finden. Daher wird auch hier nicht näher auf dieses Thema eingegangen.