Ergänzung zu Abschnitt 5.5 des Skripts: Test auf Unabhängigkeit zweier normalverteilter Stichproben Für den folgenden Spezialfall des Korrelationstests: Unabhängigkeitstest: Hypothese H0 : ρ = 0 (Xi und Yi sind unabhängig) gegen Alternative H1 : ρ 6= 0 (Xi , Yi beeinflussen sich gegenseitig) bietet sich eine einfachere Variante an. Dabei wird benutzt, dass die Stichprobenkorrelation unter der Hypothese ungefähr normalverteilt ist für genügend großes N , genauer: √ Z = N ρ̂N ist ungefähr N (0, 1)-verteilt. Der Test läuft dann bei vergegebenem Niveau α folgendermaßen ab: Hypothese H0 : ρ = 0 oder H0 : ρ ≤ 0 H0 : ρ = 0 oder H0 : ρ ≥ 0 H0 : ρ = 0 Alternative H1 : ρ > 0 H0 verwerfen, wenn Z > q1−α H1 : ρ < 0 Z < qα = −q1−α H1 : ρ 6= 0 |Z| > q1−α/2 wobei qβ = β-Quantil von N (0, 1). Im Fall ρ = 0 ist die benutzte Näherung auch bei kleineren Stichprobenumfängen brauchbar; für Tests der Hypothese H0 : ρ = ρ0 mit einem Wert ρ0 ≈ 1 muss man dagegen den im Skript angegebenen komplizierten Test benutzen. Der Unabhängigkeitstest kann auch für Daten benutzt werden, die nur ungefähr normalverteilt sind. Dann folgt zwar aus der Unkorreliertheit nicht die Unabhängigkeit, aber wenn die Hypothese H0 : ρ = 0 der Unkorreliertheit verworfen werden kann, dann müssen die beiden Zufallsgrößen Xi , Yi abhängig sein (bis auf Irrtumswahrscheinlichkeit α). Neuer Abschnitt 5.9 des Skripts: 5.9 Tests für lineare Regressionsmodelle Um die Art der Abhängigkeit von Zufallsgrößen Yj von Einflussgrößen Xj zu überprüfen, kann man testen, ob einzelne Parameter eines der in Kapitel 4 beschriebenen Regressionsmodelle signifikant von 0 verschieden sind oder nicht. Im letzteren Fall kann man sie aus dem Modell entfernen und dieses so vereinfachen. Wie solche Tests funktionieren, betrachten wir nur exemplarisch am Fall einer Regressionsgerade. Wie üblich, nehme wir zuerst an, dass die Daten Yj normalverteilt sind, genauer: bei festgehaltenem Xj normalverteilt sind. Über die Xj nehmen wir nichts an, außer dass sie reellwertig sind. Sie können fest gewählt oder auch zufällig mit beliebiger Verteilung sein. Sie werden sowieso als fest vorgegeben behandelt. Wir setzen nur voraus, dass sich unter den X1 , . . . , XN wenigstens zwei unterschiedliche Werte befinden. Wenn alle Xj gleich wären, könnten wir die Steigung einer Geraden nicht identifizieren, da dann nur Beobachtungen der interessierenden Funktion an einer einzigen Stelle vorliegen würden. Wir setzen folgendes Modell für die Daten voraus: Yj = b1 + b2 Xj + ej , j = 1, . . . , N, e1 , . . . , eN sind u.i.v. N (0, σe2 ) Gegeben X1 , . . . , XN sind dann Y1 , . . . , YN unabhängig, und Yj ist N (b1 + b2 Xj , σe2 )-verteilt, j = 1, . . . , N . Wir interessieren uns dafür, ob Yj überhaupt von Xj abhängt, d.h. im obigen Modell, ob b2 = 0 oder b2 6= 0. Bei dem Testproblem geht es um die Frage, wie der Mittelwert der normalverteilten Yj , gegeben den Wert von Xj , aussieht: b1 oder b1 + b2 Xj ist mit b2 6= 0? Der passende Test ist daher eine Verallgemeinerung des Einstichproben-t-Tests (vgl. Abschnitt 5.2). Für die Teststatistik benötigen wir einen Schätzer für die gemeinsame Varianz σe2 der Yj . Wir schätzen zuerst die nicht beobachtbaren Residuen ej = Yj − b1 − b2 Xj durch die Stichprobenresiduen êj = Yj − b̂1 − b̂2 Xj , j = 1, . . . , N, indem wir die unbekannten Regressionsparameter b1 , b2 durch ihre Kleinste-Quadrate-Schätzer b̂1 , b̂1 ersetzen (vgl. Kapitel 4). σ̂e2 = N N 1 X 1 X ê2j = (Yj − b̂1 − b̂2 Xj )2 N − 2 j=1 N − 2 j=1 schätzt dann σe2 . Wir dividieren durch N − 2, da wir zum Schätzen des Mittelwerts der Yj zwei unbekannte Parameter schätzen müssen. Als Hilfsgrößen brauchen wir außerdem σ̂x2 = N 1 X N −1 2 (Xj − X N )2 = sx , N j=1 N σ̂22 = σ̂e2 σ̂x2 wobei s2x die von uns sonst immer verwendete Stichprobenvarianz von X1 , . . . , XN ist. σ̂22 schätzt die Varianz des Schätzers b̂2 des Regressionsparameters b2 . Der Test auf Signifikanz des Regressionsparameters b2 benutzt dann die Teststatistik √ N b̂2 0 T2 = . σ̂2 T20 ist tN −2 -verteilt, wenn die Hypothese H0 : b2 = 0 richtig ist und das obigen Modell mit normalverteilten Residuen zutrifft. Der Test läuft daher bei vorgegebenem Niveau α folgendermaßen ab: Hypothese Alternative H0 verwerfen, wenn H0 : b2 = 0 oder H0 : b2 ≤ 0 H0 : b2 = 0 oder H0 : b2 ≥ 0 H0 : b2 = 0 H1 : b2 > 0 T20 > tN −2,1−α H1 : b2 < 0 T20 < tN −2,α = −tN −2,1−α H1 : b2 6= 0 |T20 | > tN −2,1−α/2 wobei tN −2,β = β-Quantil von tN −2 . Bemerkung 1: Der Test kann auch für den Test der allgemeineren Hypothese H0 : b2 = bo2 benutzt werden - mit festem Wert bo2 , der nicht unbedingt 0 sein muss. Dabei wird nur T20 durch die folgende Teststatistik ersetzt: √ N (b̂2 − bo2 ) . T2 = σ̂2 Bemerkung 2: Wie alle t-Tests ist der beschriebene Test vergleichsweise robust gegen Abweichungen von der Normalitätsannahme. Er kann daher auch für Daten benutzt werden, die nur näherungsweise normalverteilt sind. Das Niveau ist dann auch nur näherungsweise α.