Angewandte Statistik – Bericht über den Nachdiplomkurs Markus Schor November 1999 INHALTSÜBERSICHT 1. Kursinhalte 2. Partnersuche - Ein Beispiel zur linearen Regression 3. Schweinezucht - Ein Beispiel zur Varianzanalyse LAbP/08.04.17/D:\579873764.doc Angewandte Statistik – Bericht über den Nachdiplomkurs 2. Partnersuche – Ein Beispiel zur linearen Regression Problemstellung: Wir betrachten eine Variable x mit festen Werten und eine Zufallsvariable Y. Es wird vermutet, dass x eine Einfluss auf Y ausüben könnte. Es wird angenommen, dieser Zusammenhang sei ein linearer. Unter dieser Annahme soll der Zusammenhang untersucht werden. x heisst Einflussgrösse, Y heisst Zielgrösse. Das Beispiel: (Nach Prof. H. Riedwyl) In Kontaktinseraten wird häufig das Alter des Inserenten / der Inserentin angegeben, aber auch das gewünschte Alter der Partnerin / des Partners. Uns interessiert der Zusammenhang zwischen dem Alter der Person, von der ein Inserat stammt und dem gewünschten Alter des Partners. Das Wunschverhalten von Männern und Frauen ist vermutlich verschieden. Darum wurden nur Inserate von Frauen berücksichtigt, die einen Partner suchen. In der folgenden Tabelle gibt x das Alter der Inserentin wieder, y das Wunschalter des gesuchten Partners. Der Scatter – Plot zeigt, dass die Annahme eines linearen Zusammenhangs keineswegs abwegig ist. Das Modell: Zu einem gegebenen Wert x der Einflussgrösse ist die Zielgrösse Y normalverteilt mit einem Mittelwert Y x x und einer von x unabhängigen Standardabweichung . Also: Yi xi Ei i 1, , n n = Umfang der Stichprobe (im Bsp.: n = 94) Ei = Residuen = Abweichung der Yi von ihrem Mittelwert. Die Residuen sind normalverteilt, Ei N 0; Dadurch ist die Regressionsgerade y = + x definiert. Allerdings sind die Parameter , und unbekannt. = Intercept (Abschnitt auf der y – Achse) = Steigung = Standardabweichung ; misst die Streuung der Punkte (xi;yi) um die Regressionsgerade. 1. Problem: Schätzung der Parameter Schätzmethode: Methode der kleinsten Quadrate Die Summe n S , yi xi 2 i 1 ist möglichst klein zu machen. Herleitung: Siehe Anhang 1 Ergebnis: S xy SMin 0.9636 =2.7769 ˆ ˆ S xx n2 ˆ y ˆ x 5.4749 Gleichung der Regressionsgeraden: y = 5.4749 + 0.9636x Seite 3 Angewandte Statistik – Bericht über den Nachdiplomkurs Dabei wurden folgende Abkürzungen verwendet: x 1 n xi n i 1 y n 1 n yi n i 1 n S yy yi y yi2 ny 2 i 1 S Min S yy i 1 n n i 1 i 1 S xy xi x yi y xi yi nx y i 1 S 2 i 1 n 2 n S xx xi x xi2 nx 2 2 xy S xx Wunschalter des Partners Scatter - Plot 66 64 62 60 58 56 54 52 50 48 46 44 42 40 38 36 34 32 30 28 26 24 22 20 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 Alter der Inserentin ˆ , ˆ sind Zufallsvariablen. Aus den Einflussgrössen lassen sich nun die geschätzten Werte der Zielgrössen berechnen: yˆi ˆ ˆ xi z.B. yˆ1 5.4749 0.9636 20.5 25.2289 und daraus die beobachteten Werte der Residuen: eˆi yi yˆi z.B. eˆ1 26 25.2289 0.7711 Im Hinblick auf die Beurteilung der gemachten Voraussetzungen ist zu überprüfen, ob die Residuen annähernd als Stichprobe einer Normalverteilung gelten können. Ein Punktediagramm der Wertepaare yˆi ; eˆi kann Aufschluss darüber bringen, ob das zugrundeliegende Modell korrekt ist. Bei erfüllten Voraussetzungen sollten sich die Residuen im ganzen Bereich von ŷ ohne erkennbare Struktur um 0 scharen. Seite 4 Angewandte Statistik – Bericht über den Nachdiplomkurs Scatter - Plot: Geschätzte y gegen Residuen 9 8 7 6 5 4 Residuen 3 2 1 0 -1 20 24 28 32 36 40 44 48 52 56 60 64 68 -2 -3 -4 -5 -6 -7 geschätzte y 2. Problem: Testen von Hypothesen Kann man das obige Modell zur Beschreibung der Daten vereinfachen? Unter Einhaltung des Signifikanzgrenze von 5% testen wir folgende Hypothesen: 1. Nullhypothese H0: = 0 2. Nullhypothese H0: = 1 gegen H1: 0 gegen H1: 1 Verwendet wird ein F – Test, basierend auf der F – Verteilung. 0 S Min S Min Testgrösse: F H1 S Min n2 Freiheitsgrade: im Zähler: 1 im Nenner: n-2 = 92 0 S Min = Minimale Fehlerquadratsumme unter der Nullhypothese Signifikanzniveau: 5% H0 wird verworfen, wenn gilt: F H1 > F0.95(1;92) (= 95% - Quantil der F – Verteilung) Aus der Tabelle gewinnt man den Wert: F0.95(1;92) = 3.9445 1. Test: Nullhypothese H0: = 0 Unter H0 reduziert sich unser Modell zu: Alternativhypothese H1: 0 Y x x 2 0 S Min i xi yi i xi yi = 912.0383 xi 2 xi 2 i (Herleitung Anhang 2) i F H1 =26.2715 > F0.95(1;92) = 3.9445 Seite 5 H0: = 0 wird verworfen Angewandte Statistik – Bericht über den Nachdiplomkurs Eine Modellvereinfachung dieser Art ist nicht geeignet. Wir gehen also davon aus, dass die Gerade, die das Wunschalter in Abhängigkeit vom Alter der Inserentinnen darstellt, nicht durch den Ursprung des Koordinatensystems geht. Das Wunschalter des Partners ist also nicht proportional zum Alter der Inserentin. 2. Test: Nullhypothese H0: = 1 Unter H0 reduziert sich unser Modell zu: Alternativhypothese H1: 1 Y x x Jetzt muss neu geschätzt und die Testgrösse berechnet werden. ˆ0 y x =4.25 0 SMin S yy Sxx 2Sxy = 720.375 F H1 =1.4169 < F0.95(1;92) = 3.9445 Die Nullhypothese H0: = 1 kann nicht verworfen werden. Das Modell Y x 4.25 x Wunschalter des Partners = 4.25 + Alter der Inserentin beschreibt also die Situation innerhalb der gesetzten Signifikanzgrenze von 5%. Scatterplot der Residuen vom obigen Modell: Scatterplot der Residuen im definitiven Modell 8 6 4 Residuen 2 0 0 5 10 15 20 25 30 35 40 -2 -4 -6 -8 y = 4.25 +x Seite 6 45 50 55 60 65 70 75 Angewandte Statistik – Bericht über den Nachdiplomkurs Regressionsgerade im Scatterplot: Seite 7 Angewandte Statistik – Bericht über den Nachdiplomkurs 3. Schweinezucht – Ein Beispiel zur Varianzanalyse Problemstellung: Die Grundlagen der Varianzanalyse (ANOVA = ANALYSIS OF VARIANCE) stammen von Sir Ronald Fisher (F - Verteilung, F - Test). Ihn interessierte die Frage: Unterscheiden sich die Eigenschaften verschiedener Pflanzensorten in systematischer Weise oder nur zufällig? Die ANOVA untersucht also, ob sich verschiedene Gruppen grundsätzlich in einer bestimmten Grösse (= Faktoren) unterscheiden, oder ob der beobachtete Unterschied nur zufällig ist. Methode dazu ist ein Vergleich von Mittelwerten. Das Beispiel: (aus Gilbert, N. (1989) Biometrical Interpretation – Making Sense of Statistics in Biology, Oxford, dargestellt von Dr. H.R. Roth in seinem Script zur Vorlesung „Varianzanalyse 1“) Vier Würfe von je zwei reinrassigen Schweinegruppen und sechs Würfe aus einer Kreuzung der beiden Rassen wurden auf das Längenwachstum pro Tag untersucht. Die Aufzucht aller Würfe erfolgte unter gleichen Bedingungen. Die folgende Tabelle zeigt das durchschnittliche Längenwachstum pro Tag und Wurf, sowie die Mittelwerte und Varianzen. i= j reine Elternrassen Large White Landrace 1 2 Gruppe 1 Gruppe 2 Kreuzung LW Landrace 3 Gruppe 3 1 y11 = 1.07 y21 = 1.20 y31 = 1.35 2 y12 = 1.20 y22 = 1.31 y32 = 1.41 3 y13 = 0.98 y23 = 1.36 y33 = 1.40 4 y14 = 1.07 y24 = 1.27 y34 = 1.37 5 y35 = 1.36 6 y36 = 1.39 n1 = 4 y1 1.080 s12 0.0082 n2 = 4 n3 = 6 y2 1.285 y3 1.380 s32 0.0006 s22 0.0046 yi Mittelwert der Gruppe i. y Mittelwert aller Beobachtungen Total n = 14 y 1.267 ̂2e 0.0037 si2 Varianz der Gruppe i. Frage: Sind die beobachteten Unterschiede im Längenwachstum zufällig, oder unterscheiden sich die Rassen darin grundsätzlich. Einen ersten Vergleich der Gruppen bietet das folgende Streudiagramm. Seite 8 Angewandte Statistik – Bericht über den Nachdiplomkurs Streudiagramm 1.4 Zuwachs pro Tag 1.3 1.2 1.1 1 0.9 0 1 2 3 4 Rasse Das Modell: An n Objekte in g verschiedenen Gruppen wird eine stetige Zufallsvariable Y beobachtet. Die i-te g Gruppe umfasst ni Beobachtungen. n i n i 1 i 1, yij i eij i i i eij ,g; j 1, ,ni allgemeines Niveau; feste, unbekannte Grösse mittleres Niveau der Gruppe i Haupteffekt / Gruppierungsfaktor; feste, unbekannte Grösse zufälliger Fehler Das Modell hat g + 1 Parameter bei g Gruppen. Es ist überparametrisiert. Folgende Nebenbedingung ist nötig: g n i i 0 i 1 Zum Modell gehören folgende Voraussetzungen: – Die eij setzen sich aus vielen Effekten von unbekannten oder nicht erfassbaren Faktoren zusammen. – Die eij sind in allen Gruppen normalverteilt. Ihr Erwartungswert ist 0 und sie weisen alle die gleiche Varianz 2e auf., also: – eij i.i.d. N 0; e2 i 1, ,g; j 1, ,ni (i.i.d. heisst: independent and identically distributed) Untereinander sollen die Fehler unabhängig sein, innerhalb und zwischen den Gruppen. Aus diesen Voraussetzungen und dem Modell folgt sofort: E yij i Var( Y ) e2 Schätzprobleme: E yij i ? Var( Y ) e2 ? Die i sind schätzbar. Gute Schätzer sind die Mittelwerte der Gruppen. Also: ˆ i yi ˆ y Seite 9 i ? Angewandte Statistik – Bericht über den Nachdiplomkurs Im Beispiel: ˆ 1 y1 1.080 ; ˆ 2 y2 1.285 ; ˆ 3 y3 1.380 ; ˆ y 1.267 2 1 ni yij yi ni 1 j 1 Die resultierenden Werte sind in obiger Tabelle ersichtlich. Die Varianz aller Beobachtungen gemeinsam wird mit dem gewogenen Mittel geschätzt: si2 Die Varianzen der Gruppen: g g ˆ 2 e ni 1 si2 i 1 g n 1 ˆ 2e y ij i 1 j 1 yi ng i i 1 im Beispiel: ni 3s 3s 5s 0.0037 3 3 5 2 1 2 2 2 3 Schätzung der Haupteffekte i: Modell: yij i eij Voraussetzung: i 1, ,g; i.i.d. N 0; e2 i 1, ,g; eij g n Nebenbedingung: i i j 1, ,ni ,ni j 1, 0 i 1 yij i eij ni ni j 1 j 1 ni eij 0, gemäss Voraussetzung j 1 yij ni y nii eij ˆ i yi y ˆ 2 0.018 ˆ 3 0.113 ni yi ni y ni i ˆ 1 0.187 im Beispiel: Testprobleme: Mit der einfachen Varianzanalyse wird ein Globaltest durchgeführt. Nullhypothese: Zwischen den Gruppen gibt es keine Unterschiede Alternativhypothese: Mindestens eine Gruppe unterscheidet sich von den andern. Im Beispiel: H0: 1 = 2 = 3 oder: H1: für mindestens ein i gilt: i 0 Es gilt: (Herleitung siehe Anhang 4) g ni y i 1 j 1 SQ(total) SQ(zwischen) g g ni ij y ni yi y yij yi 2 2 i 1 2 i 1 j 1 SQ total = SQ zwischen + SQ innerhalb FG total = FG zwischen + FG innerhalb n 1 FG SQ 1 = 2 = 3 = 0 g 1 n g = Freiheitsgrade = Summe der quadrierten Abweichungen (kurz: Summe der Quadrate / engl: sum of squares, SS) = SQ der beobachteten Werte vom totalen Mittelwert. = SQ der Gruppenmittel vom totalen Mittel Seite 10 Angewandte Statistik – Bericht über den Nachdiplomkurs SQ(innerhalb) = SQ der beobachteten Werte vom zugehörigen Gruppenmittel Mit der Schätzung der Haupteffekte ergibt sich noch die Beziehung: g g ˆ i SQ zwischen ni yi y ni 2 i 1 2 i 1 Dividiert man die SQ – Werte durch die entsprechenden Freiheitsgrade, erhält man die „durchschnittliche quadratische Abweichung“ DQ (kurz: Durchschnittsquadrate / engl: mean squares, MS) Die Testgrösse: F= DQ zwischen DQ innerhalb folgt unter H0 einer F – Verteilung mit g – 1 Freiheitsgraden im Zähler und mit n – g Freiheitsgraden im Nenner. H0 wird verworfen, wenn F > Tabellenwert der entspr. F – Verteilung. Daraus ergibt sich die typische Tabelle für eine Einweg – Varianzanalyse: ANOVA FG SQ Zwischen den Gruppen g–1 SQ(zwischen) DQ(zwischen) Innerhalb der Gruppen n–g SQ(innerhalb) DQ(innerhalb) Total n–1 SQ(total) DQ = SQ FG F= DQ zwischen DQ innerhalb Im Beispiel ergeben sich folgende Werte: ANOVA FG SQ Zwischen den Rassen 3 – 1 =2 0.2178 0.1089 Innerhalb der Rassen 14 – 3 = 11 0.0411 0.0037 Total 14 – 1=13 0.2589 DQ = SQ FG F= DQ zwischen DQ innerhalb 29.144 Der Wert aus der F – Verteilung mit 2 und 11 Freiheitsgraden beträgt 3.9823 (Tabelle). F = 29.144 > 3.9823 H0 muss verworfen werden. Antwort: Die drei Gruppen haben kein einheitliches Niveau. Die beobachteten Unterschiede im Längenwachstum sind nicht zufällig. Seite 11