13. Varianzanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Varianzanalyse Beispiel. (PISA-Studie) Im Rahmen der PISA-Studie wurde u.a. der mittlere Zeitaufwand der Schüler für Hausaufgaben in den beteiligten Ländern gemessen. Die folgende Tabelle zeigt die Punktzahlen der Länder im Bereich Mathematische Grundbildung unterteilt nach Ländern mit geringem (Gruppe 1), mittlerem (Gruppe 2), und großem (Gruppe 3) Zeitaufwand für die Hausaufgaben: G1 G2 536 533 499 557 520 454 514 334 493 446 514 515 490 510 517 529 514 498 533 547 537 G3 447 529 503 457 463 387 470 478 476 488 Wir wollen herausfinden, ob die Punktzahlen vom Zeitaufwand für Hausaufgaben abhängen, d.h., ob sich die Verteilungen in den drei Gruppen unterscheiden. Varianzanalyse Varianzanalyse bei Normalverteilung I Daten: yij , 1 ≤ i ≤ k , 1 ≤ j ≤ ni . Hierbei ist yij der j -te Beobachtungswert in der i -ten Gruppe. Insgesamt gibt es ni Beobachtungswerte in der i -ten Gruppe, und k verschiedene Gruppen. I n = n1 + . . . + nk = Gesamtzahl der Beobachtungswerte I In unserem Beispiel ist also k = 3, n1 = 8, n2 = 13, n3 = 10, und n = 31. I Modellierungsannahme: Die Daten sind Realisierungen von unabhängigen normalverteilten Zufallsvariablen Yij mit derselben Varianz σ2 . Die Zufallsvariablen Yij , 1 ≤ j ≤ ni , aus der i -ten Gruppe sind identisch verteilt mit Mittelwert mi . Varianzanalyse Varianzanalyse bei Normalverteilung I Voraussetzung - Statistisches Modell: I I Yij , 1 ≤ i ≤ k, 1 ≤ j ≤ ni , sind unabhängige Zufallsvariablen Yi1 , Yi2 , ..., Yini ∼ N (mi , σ2 ) sind jeweils identisch normalverteilt mit Varianz σ2 . I H0 : m1 = m2 = · · · = mk I H1 : mi 6= ml für mindestens ein Paar (i 6= l ) Varianzanalyse Varianzanalyse bei Normalverteilung Grundlegende Statistiken/ Schätzer: Yi Y = = Sb2 = Sw2 1 ni ni ∑ Yij Schätzer für mi j =1 1 k ni 1 k Y = ∑ ij n ∑ ni · Y i = Gesamtmittelwert n i∑ =1 j =1 i =1 2 1 k ni · Y i − Y ∑ n i =1 = Varianz zwischen (between) den Gruppen 2 1 k ni = Yij − Y i ∑ ∑ n i =1 j =1 = Varianz innerhalb (within) der Gruppen Varianzanalyse Varianzzerlegung I Man kann zeigen, dass die Gesamtvarianz die Summe aus S 2 und b Sw2 ist: 2 1 k ni Yij − Y = Sb2 + Sw2 n i =1 j =1 ∑∑ I Die Gesamtvarianz zerfällt also in einen Anteil, der auf die Wirkung des Faktors (Gruppenvariable) zurückzuführen ist, und in einen Anteil, der durch zufällige Streuungen der Meßwerte innerhalb der Gruppen entsteht. I Die Idee ist nun, die Nullhypothese zu verwerfen, wenn der Anteil der Varianz zwischen den Gruppen im Vergleich zur Varianz innerhalb der Gruppen zu groß ist. Varianzanalyse Varianzanalyse bei Normalverteilung I Teststatistik: F = I (n − k )Sb2 (k − 1)Sw2 Verteilung unter Nullhypothese: Die Statistik F hat unter der Nullhypothese eine sog. F-Verteilung (Fisher-Verteilung) mit k − 1 Zähler- und n − k Nennerfreiheitsgraden: F ∼ F (k − 1, n − k ) I Testentscheidung: H0 wird verworfen, falls F > fk −1,n−k,1−α , wobei fk −1,n−k,1−α das (1 − α)-Quantil der zugrundeliegenden F-Verteilung ist. Varianzanalyse Beispiel zum F-Test G1 G2 536 533 499 557 520 454 514 334 493 446 514 515 490 510 517 529 514 498 533 547 537 G3 447 529 503 457 463 387 470 478 476 488 I In diesem Beispiel erhält man S 2 b = 292,45, Sw2 = 1829,68 und folglich F = (n − k )Sb2 (31 − 3) · 292,45 = = 2,238. 2 (3 − 1) · 1829,68 (k − 1)Sw I Das 95%-Quantil der F-Statistik mit 2 Zähler- und 28 Nennerfreiheitsgraden ist 3,34. Wegen 2,238 < 3,34 können wir die Nullhypothese zum Signifikanzniveau 0,05 nicht verwerfen.