Test für Varianz Statistik 2 4. Vorlesung Einstichprobentest für die Varianz: Zweistichprobentest für die Varianz Test für Varianz Einstichprobentest für die Varianz: χ2 = ∑(X i − X) i =1 σ0 Zweistichprobentest für den Quotienten zweier Varianzen: n 2 i χ² > χ²co oder χ² < χ²cu, lehnen wir H0 ab p-Wert (bei Computer)< α, lehne H0 ab Wiederholung: zweidimensionales Datenmaterial n Beobachtungen, jeder hat Werte für m=2 Merkmaler, also jeder besteht aus 2 Merkmalausprägungen. z.B. wir notieren die Grösse und das Umsatz verschiedene Filialen (m=2). Beobachtungswerte von Merkmal X: x1, x2, x3,…, xn Beobachtungswerte von Merkmal Y: y1, y2, y3,…, yn i =1 m ∑ (Y − Y ) i 2 /( m − 1) i =1 Testverteilung: Fv1,v2 mit v1=n-1 und v2=m-1 Entscheidung: Annahme: Grundgesamtheit normalverteilt H0: σ1² = σ2² gegen H1: σ1² ≠ σ2² Teststatistik: ∑ ( X − X ) /(n − 1) F= 2 Testverteilung: χ²v mit v=n-1 Entscheidung: Unterscheiden sich die Varianzen zweier Gruppen? Entscheidung basiert auf zwei Stichproben Test für Varianz Annahme: Grundgesamtheit normalverteilt H0: σ² = σ0² gegen HA: σ² ≠ σ0² n Teststatistik: 2 Hat die Varianz einen bestimmten Wert, bzw. liegt er in einem bestimmten Bereich? Entscheidung basiert auf dem Ergebnis einer einzigen Stichprobe. F > Fco oder F < Fcu, lehnen H0 ab p-Wert < α, lehne H0 ab Die Kontingenztabelle a1 … am b1 h1,1 b2 h1,2 hm,1 hm,2 … bk h1,k hm,k wobei hi,j gibt die Häufigkeit diejenige Beobachtungen, die mit (ai,bj) identisch sind (gemeinsame Häufigkeiten). 1 Randhäufigkeiten Unabhängigkeitshypothese h·,k= h1,k + h2,k+…+hm,k die Anzahl alle Beobachtungen, die bezüglich des zweiten Merkmals die Ausprägung bk aufweisen (auf der Kontengenztabelle kann man diese in die letzte Zeile auftragen), sowie hm,·= hm,1 + hm,2+…+hm,k die Anzahl alle Beobachtungen, die bezüglich des ersten Merkmals die Ausprägung am aufweisen (diese sind in die letzte Spalte aufgetragen). Teststatistik (Chi-Quadrat Statistik) T =∑ wo Eij ist die erwartete Häufigkeit der Ereignis X=ai,Y=bj unter der Nullhypothese: Eij = npˆ i . pˆ . j = hi.h. j / n Die Teststatistik folgt die Chi-Quadrat Verteilung mit Freiheitsgrad (k-1)(m-1). Die kritische Werte kann man von der Tabelle der Chi-Quadrat Verteilung bestimmen. i, j Beispiel (hij − Eij ) 2 pil=pi•p•l (i=1,…,k; l=1,…,m) wobei pil=P(X=ai,Y=bl) und pi•, p•l sind die Randverteilungen: pi•= P(X=ai), p•l=P(Y=bl). Alternativhypothese: Unabhängigkeit gilt nicht, also für wenigstens ein i und l pil≠pi•p•l Eij E Werte Niederschlag Temperatur Kühl Durchschnittlich Warm Summe wenig durchschn. viel Summe 15 10 5 30 10 10 20 40 5 20 5 30 30 40 30 100 Niederschlag Temperatur Kühl Durchschnittlich Warm Summe wenig durchschn. viel Summe 9 12 9 30 12 16 12 40 9 12 9 30 30 40 30 100 das Teststatistik ist approx. 21, FG=4, also wir können die Unabhängigkeit verwerfen, es gibt Zusammenhang zwischen die Variablen. Stetige Merkmale Beispiel Fläche Falls wir stetige Merkmale haben, man soll die Daten klassifizieren. Achtung: möglichst wenig Klassen zu benutzen, weil um die Chi-Quadrat Verteilung anwenden zu können, man braucht wenigstens 3-5 Beobachtungen in alle Zellen. KaufFläche Tageshaus (Tausend umsatz No. QM) (Mio Ft) 1 51 125 2 25 54 3 13 39 4 10 24 5 120 184 6 43 58 7 59 85 8 20 75 9 36 50 10 80 85 Also für A1: F<40, A2: F≥40, B1:U<60, B2: U≥60 gross klein F<40 Umsatz wenig (U<60) 4 1 5 viel 1 5 4 5 5 T=3.6, FG=1, also wir können die Unabhängigkeit nur beim α=0.1 verwerfen, die Nullhypothese soll man bei α<0.1 beibehalten. 2 χ 2 Anpassung-Test Andere Anwendung Viele statistische Tests setzen voraus, dass die Daten normalverteilt sind. Wir brauchen eine Methode, um festzustellen, ob diese Annahme über die Verteilung der Daten korrekt ist. Methoden: T =∑ Visuell: das Histogramm der Daten und mit der theoretischen Verteilungskurve optisch zu vergleichen. χ 2 -Test: Eine solide Methode, um empirische und bekannte (parametrische) Verteilungen zu vergleichen. i Entscheidung über die Hypothese Diese Anwendung ist ein Anpassungstest. Mit ihm lässt sich prüfen, ob die beobachtete Verteilung der vorgegebenen Verteilung entspricht. Für jedes Intervall wird die quadrierte Differenz der Häufigkeiten der empirischen und der theoretischen Verteilung berechnet und durch die zu erwartenden Häufigkeiten dividiert. Die Summe dieser relativen quadrierten Differenzen ist die χ 2 -Testgröße. (hi − Ei ) 2 Ei Ei = npˆ i Als Nullhypothese wird angenommen, dass die zwei Verteilungen gleich und die Differenzen auf zufällige Fehler zurückzuführen sind. Beispiel: diskrete Verteilung Die ungefähre Verteilung von ergibt sich aus dem folgenden theoretischen Hilfsmittel: Wenn die Hypothese über die Wahrscheinlichkeitsverteilung 2 zutrifft, strebt die Verteilung von T gegen eine χ k −s−1 Verteilung, wobei k ist der Anzahl der Intervalle s ist der Anzahl der geschätzten Parameter Da die Hypothese verworfen wird, wenn die Abweichungen und damit der Wert von T zu groß ausfällt, wird der kritische Bereich für eine gegebene Signifikanzzahl α gegeben mit Die Ergebnisse 120 Würfeln gaben die folgenden Häufigkeiten: Augenzahl Haufigkeit 1 14 2 25 3 18 4 24 5 24 6 15 Die Frage: kann man die Nullhypothese (Gleichverteilung) verwerfen? Wert der Statistik: 6,1 k=6, s=0 (keine Parameter war geschätzt), also FG=5. Kritische Wert: 11,07 Die Nullhypothese wird beibehalten. T > χ 2 k−s−1,1−α Beispiel: stetige Verteilung 0.020 0.015 0.010 Dichte Tagesumsatz 0.005 Wir haben Beobachtungen von Tagesumsatzwerte von 10 Filialen: 125,54,39,24,184,58,85,75, 50,85 (in M.Ft). Die Frage: passt es an eine Normalverteilung mit Erwartungswert 100 und Standardabweichung 20? Visuelle Vergleichung: 0.000 Numerische Berechnung 0 50 100 150 10 Beobachtungen also höchstens 4 Klassen (es ist das Minimum bei der Fall der geschätzten Parameter) Klassenwahl aus der Theoretischen Werte, mit gleichen erwartete Wahrscheinlichkeit: Klassengrenzen: 100-0.67*20,100, 100+0.67*20. Erwartete Häufigkeiten: 2.5 für alle Klassen. Beobachtete Häufigkeiten: 8,0,0,2 T=17.2, FG=3, Kritische Wert: 7.81 (α=0.05), oder 13.28 (α=0.01), also die Hypothese wird verworfen. 200 M.Ft 3 Fortsetzung Die Koeffizienten ∑ ( x − x )( y i aˆ = i ∑ ( x − x) Wie gut ist das Modell? Vollständige Variabilität: n ∑(y i In unserem Beispiel: a=-170.2/88.8=-1.92, b=86-(-1.92)*10=105.2 Das Verfahren ist sehr empfindlich an ausreißer! ∑ (x 2 i − x) i =1 n Von hier das Anteil ∑ ( xi − x )( yi − y ) 2 i =1 R = der erklärte Variabilität: n n ∑ (x i 2 − x ) 2 ∑ ( yi − y ) 2 i =1 46 44 42 Beispiel (Fortsetzung) 40 40 42 Schuhgrösse 46 R2=0.73 44 R2=0.56 n ∑ ( xi − x )( yi − y ) n Quadratsumme n ( yi − aˆ xi − bˆ) 2 = ∑ ( yi − y ) 2 − i =1 n der Residuen: ∑ 2 i =1 i =1 i =1 Schuhgrösse yi 57.25 72.58 95.58 101.3 103.3 − y)2 , bˆ = y − aˆ x 2 i 38 38 Hotel-Daten vor Formel-1 Rennen, mit lin.Regr. 175 180 185 190 165 170 175 180 R2=0.92 185 190 170 175 Höhe 180 185 190 yi^ (yi-ybar)^2 (yi^-ybar)^2 57.25 1296 826.56 72.58 9 180.01 95.58 144 91.84 101.3 169 235.11 103.3 196 297.56 88.8 362.8 326.22 50 42 Daraus R2=0.9, es ist ziemlich gut. (Nahe zur 1) 38 165 Entf (km) yi 25 50 17 83 5 98 2 99 1 100 Xbar=10 Ybar=86 40 42 Schuhgrösse 46 R2=0.83 44 Höhe 46 Höhe 44 170 40 Schuhgrösse 165 38 (xi-xbar)(yi-ybar) -540 -21 -60 -104 -126 -170,2 (yi-ybar)^2 1296 9 144 169 196 362,8 i =1 i =1 (xi-xbar)^2 225 49 25 64 81 88,8 − y) i =1 n % Besetzt 50 83 98 99 100 Ybar=86 Bestimmtheitsmass Das Modell: y~ax+b. Die Schätzung für die Koeffizienten: n Entf (km) 25 17 5 2 1 Xbar=10 100 X: Einflussfaktor Y: abhängiges Merkmal Beispiel:Wir haben Daten vom 5 Hotels während der Formel 1 Rennen in Ungarn gesammelt. Distanz und % Besetzt sind in die Tabelle dargestellt. 90 80 70 Passen die daten an eine Normalverteilung? Hier soll man die beste Normalverteilung finden. Schätzungen: für den Erwartungswert: 77.9 MFt, Für die Standardabweichung: 46.84 MFt Klassengrenzen (wieder mit 4 Klassen, gleiche erwartete Häufigkeiten): 77.9-2*46.84/3, 77.9, 77.9+2*46.84/3, ausgerechnet:46.7 77.9 109.1 Daraus die empirische Häufigkeiten: 2,4,2,2 T=1.2, FG=1, Kritische Wert: 3.84 (α=0.05), oder 2.71 (α=0.1), also die Hypothese wird beibehalten. Anteil der besetzten Zimmer (%) 60 Regression (Wiederholung) 165 170 175 Höhe 180 185 190 (Obwohl es kann man mit einen Quadratische Faktor verbessern.) 5 10 15 20 25 Entfernungen (in km) 4 Verbesserung Eigenschaften unserer Schätzer Für den modifizierten Hotel-Modell Entf % (xi-x)^2 (yi-y)^2 (xi-x)(yi-y) (km)^2 Besetzt 625 289 25 4 1 188,8 50 83 98 99 100 86 190270 10040 26830 34151 35269 296561 1296 9 144 169 196 1814 -22140 -837 180 -78 -126 -23001 Hypothesen-Test die Hypothese: a=0 (es ist kein Zusammenhang mit der Distanz). HA: a≠0. 2 Teststatistik: (t-Test) t = aˆ ∑ ( xi − x ) σ̂ σˆ 2 1 x + n ∑ ( xi − x ) 2 = ∑( y i − yˆ i ) 2 n−2 = ∑( y i − (aˆxi + bˆ)) 2 n−2 0,643 3,165 0,2 + 35645 / 296561 also diese Hypothese können wir annehmen. die Hypothese: b=0 bˆ t= σˆ 1 x2 + n ∑ ( xi − x ) 2 Beispiel (Hotel-Daten mit Dist2 als X) a=-4600,2/59312,16=-0,078; b=86-188,8*(-0,078) = =100,64 axi+b Resid^2 52.169 4.7033 78.229 22.767 98.704 0.4959 100.33 1.7767 100.57 0.3199 Summe: 30.062 Also die Schätzung für σ: 3,17, t=-0,078*544,6/3,17=-13,4. Es ist sicher, dass der Unterschied zwischen die verschiedene Buchungsanteile ist kein Zufall. Mehrdimensionale statistische Verfahren H0: b=100 (kann der Konstant 100 sein?) Es ist die logische Wert. Statistik der t-Test: bˆ − b0 1 x2 ; D(bˆ) = σ + n ∑ ( xi − x ) 2 Die Schätzung für σ: σˆ = das Freiheitsgrad ist n-2 (wir haben 2 Parameter geschätzt: a und σ). Ablehnungsbereich (wie beim allgemeines tTest, vom Alternativ-Hypothese abhängend). Jetzt zweiseitig. Aber für HA: a<0, t<- t1-α,n-2 t= σ 2 ∑ ( xi − x ) Fortsetzung Andere Hypothesen Modell: Y=aX+b+ε, wo ε ist Normal-verteilt mit Erwartungswert 0 und St.abweichung σ Standardabweichung der Koeffizienten der Regressionsgerade: D( aˆ ) = R2 =(-23001)*(-23001)/(296561*1814)=0.983 also es ist noch besser. a=-23001/296561=-0,0078; b=86-188,8*(-0,0078)=100.64 = 0,359 Simultane Zusammenwirken von Zufallsvariablen wird untersucht. Beispiele: multiple Regressionsmodelle Klassifizierung usw (Faktorstrukturen,...) 5 Multiple lineare Regression Lösung, Bedeutung, Residuen Y: abhängiges Merkmal X1,...,Xm: Einflussfaktoren Regression: y~a1x1+ a2x2+...+ amxm+ b Die Koeffizienten kann man wieder mit der methode der kleinsten Quadrate schätzen. Beispiel:Wir haben die Monatsumsatz, Fläche und Anzahl der Angestellter bei ein Paar Filialen unserer Handelsfirma in die folgenden Tabelle dargestellt Monatsumsatz in T.Euro (Y) Fläche in TQM (X1 ) Anzahl Angestellter (X2 ) 250 40 6 265 40 8 300 54 9 230 20 10 330 40 12 Lösung mit der Methode der kleinsten Quadrate: Y~2,56X1+12,81X2+60,48. Bedeutung der (partiellen) Regressionskoeffizienten aj: Änderung der Zielgrösse (Monatsumsatz), wenn Xj um eine Einheit steigt, und die andere Einflüsse bleiben Konstant. n Residuen (Schätzfehler): yi − yˆ ( yˆ i − y ) 2 ∑ 2 i =1 R = Daraus der Bestimmtheitsmass: 2 n ∑(y i − y) i =1 Ergebnisse für den Beispiel Monatsumsatz in T.Euro (Y) 250 265 300 230 330 Fläche in TQM (X1) 40 40 54 20 40 Anzahl Angestellter (X2) 6 8 9 10 12 Schätzungen Residuen (yi-ybar)^2 (yidach-ybar)^2 275 239.7 265.4 314 239.78 316.6 10.26 -0.36 -14.01 -9.78 13.4 625 100 625 2025 3025 6400 1243 92.93 1522 1240.4 1731 5829 R2 0.9108 6