Formelsammlung in Statistik Häufigkeitsverteilung und Summenverteilung Zählindices i = 1, . . . , n zählt die Elemente der Urliste j = 1, . . . , m zählt die Merkmalsausprägungen k = 1, . . . , K zählt die Klassen Klassierung von Daten xuk mit xuk+1 > xuk : untere Klassengrenze xok = xuk+1 obere Klassengrenze x∗k = 21 (xuk + xok ) Klassenmitte (manchmal auch einfach xk ) ∆xk = xok − xuk Klassenbreite absolute Häufigkeit hj bzw. hk relative Häufigkeit fj = hj hk bzw. fk = n n Häufigkeitsdichten hD k = fk hk , fkD = ∆xk ∆xk absolute Summenhäufigkeit Hj = H(X ≤ xj ) = j X (nur klassierte Daten!) hj ′ (für Klassen analog mit k) j ′ =1 H(X > xj ) = n − H(X ≤ xj ) relative Summenhäufigkeit Fj = F (X ≤ xj ) = j X fj ′ = Hj /n j ′ =1 F (X > xj ) = 1 − F (X ≤ xj ) Empirische Verteilungsfunktion (nichtklassierte Daten) Empirische Verteilungsfunktion (klassierte Daten) Empirische Dichtefunktion (nur klassierte Daten) 0 falls x < x1 , F (x) = 1 falls x > xm , Fj falls xj ≤ x < xj+1 0 falls x < xu1 , falls x ≥ xoK , F (x) = 1 u Fk−1 + x−xk fk falls xu ≤ x < xo k k ∆xk dF (x) = f (x) = dx 1 ( 0 falls x < xu1 oder x > xoK , D fk falls xuk ≤ x < xok Lagemaße (Mittelwerte & Co) arithmetisches Mittel n 1X x̄ = xi n i=1 (aus der Urliste) m m X 1X fj xj hj xj = = n j=1 j=1 ≈ K K X 1X hk x∗k = fk x∗k n k=1 k=1 arithmetisches Mittel der Linearkombination Y=a+bx ȳ = a + bx̄ harmonisches Mittel n x̄H = Pn geometrisches Mittel x̄G = n Y (aus klassierten Daten) 1 bzw. 1 i=1 xi bzw. m X fj j=1 xj 1 K X fk x∗ k=1 k !1 n xi i=1 Modus bzw. Dichtemittel (klassierte Daten) (aus den Merkmalsausprägungen) x̄D = xuk̂ + D fk̂D − fk̂−1 D D 2fk̂D − fk̂−1 − fk̂+1 ∆xk̂ k̂: Klassenindex der Klasse mit maximaler Häufigkeitsdichte Median bzw. Zentralwert (geordnete Urliste) x0.5 x[ n+1 ] (n ungerade) 2 = 21 x[ n ] + x[ n +1] (n gerade) 2 2 Median bzw. Zentralwert (klassierte Daten) 0.5 − Fk′ −1 ∆xk′ fk′ mit k ′ so dass Fk′ −1 < 0.5, aber Fk′ ≥ 0.5, also die Klasse k ′ , innerhalb der F den Wert 0.5 annimmt. q-Quantil q − Fk′ −1 ∆xk′ fk′ mit k ′ so dass Fk′ −1 < q, aber Fk′ ≥ q, also die Klasse k ′ , innerhalb der F den Wert q annimmt. x0.5 = xuk′ + xq = xuk′ + 2 Streuungsmaße Bei klassierten Daten (Klassen k = 1, . . . , K) gelten alle Gleichungen nur näherungsweise.1 Varianz s2x = n 1X (xi − x̄)2 n i=1 bzw. K X k=1 fk (x∗k − x̄)2 In der Stichprobentheorie: zusätzlicher Faktor n/(n − 1) Varianz der Linearkombination Y=a+bx s2y = b2 s2x Standardabweichung sx = Variationskoeffizient V = Verschiebungssatz n X i=1 q s2x sx x̄ (nur sinnvoll, wenn alle xi > 0) (xi − x̄)2 = K X n X i=1 (x∗k − x̄)2 fk = k=1 x2i − nx̄2 bzw. K X (x∗k )2 fk − x̄2 k=1 Spannweite R = xmax − xmin mittlere absolute Abweichung sMAD = Interquartilsabstand sIQ = x0.75 − x0.25 n 1X |xi − x0.5 | n i=1 Weitere Maße für die Verteilungsform MN = N-tes zentrales Moment MN = MN = n 1X (xi − x̄)N (Urliste) n i=1 m X (xj − x̄)N fj (Merkmalsausprägungen) j=1 K X (x∗k − x̄)N fk (klassierte Daten) k=1 Schiefe Γ= M3 s3x Exzess (“Kurtosis”) K= M4 −3 s4x 1 Die Formeln hängen sehr von der Verteilung innerhalb der Klassen ab. Auch bei Gleichverteilung innerhalb der Klasen ist die aus klassierten Daten ermittelte Stichprobenvarianz nicht erwartungstreu, obwohl dies in den meisten Skripten und Lehrbüchern impliziert wird. 3 Konzentrationsmaße Merkmalssumme M= n X xi = nx̄ = i=1 K X x∗k hk (letzteres für klassierte Daten) k=1 relativer Anteil an M pi = xi x∗ hk x∗ fk bzw. pk = k = k M M x̄ kumulierter relativer Anteil Pi = i X pi′ (Urliste und klassierte Daten) i′ =1 Herfindahl-Index KH = n X p2i n Y ppi i = pp11 pp22 . . . ppnn i=1 Exponentialindex KE = i=1 Punkte der Lorenzkurve Gini-Koeffizient (0, 0) und (Fi , Pi ), i = 1, . . . , n bzw. 1, . . . , K mit Fi der üblichen relativen Summenhäufigkeit. n X n−1 X 1 1 G = 1 − (Pi + Pi−1 ) = 1 − Pi + Pn 2 n n i=1 i=1 =1− K X ! (Urliste) (Pk + Pk−1 )fk (klassierte Daten) k=1 Verhältnis- und Indexzahlen Wachstumsfaktor Preisindex von Laspeyres It = (L) P0t xt , Wachstumsrate rt = It − 1 xt−1 Preisindex von Paasche Mengenindices von Laspeyres und Paasche (L) Q0t Wertindex pi (t)qi (0) mit pi (t) den Preisen und qi (t) den i=1 pi (0)qi (0) = Pni=1 Mengen (P) P0t Pn Pn pi (t)qi (t) i=1 pi (0)qi (t) = Pni=1 = Pn i=1 pi (0)qi (t) , Pn i=1 pi (0)qi (0) Pn pi (t)qi (t) i=1 pi (0)qi (0) W0t = Pni=1 4 (P) Q0t Pn pi (t)qi (t) i=1 pi (t)qi (0) = Pni=1 Bivariate Analyse: Kreuztabelle klassierter Daten Relative Häufigkeit f (xi , yj ) = absolute Randhäufigkeiten h(xi ) = Ky X h(xi , yj ) n h(xi , yj ), h(yj ) = Kx X h(xi , yj ) i=1 j=1 h(yj ) h(xi ) , f (yj ) = n n relative Randhäufigkeiten f (xi ) = bedingte relative Häufigkeiten f (xi |yj ) = empirische Unabhängigkeit f (xi , yj ) = f (xi )f (yj ) für alle i, j Arithmetische Mittelwerte Kx Kx X 1X ∗ x∗i f (xi ) xi h(xi ) = x̄ = n i=1 i=1 K K ȳ = f (xi , yj ) h(xi , yj ) = h(yj ) f (yj ) y X 1 Xy ∗ yj∗ f (yj ) yj h(yj ) = n j=1 j=1 5 Bivariate Analyse II: Regressionsanalyse: (Empirische) Kovarianz sxy = n 1X (xi − x̄)(yi − ȳ) (Urliste) n i=1 sxy = y Kx X 1X (x∗ − x̄)(yj∗ − ȳ)h(xi , yj ) (Kreuztabelle) n i=1 j=1 i K Verschiebungssatz Kovarianz für die n X i=1 (xi − x̄)(yi − ȳ) = XX i lineare Regression j n X i=1 xi yi − nx̄ȳ (x∗i − x̄)(yj∗ − ȳ)h(xi , yj ) = bzw. XX i j x∗i yj∗ h(xi , yj ) − nx̄ȳ ŷ(x) = a + bx, a = ȳ − bx̄ b = sxy s2x (allgemein) P xi yi − nx̄ȳ = P 2 (Urliste) xi − nx̄2 Minimiere F = nichtlineare Regression n X e2i = n X i=1 i=1 (yi − ŷ(x, a, b, . . .))2 ∂F ∂F = 0, = 0, . . . bezüglich a, b, . . . ⇒ ∂a ∂b Grenzfunktion (=“absolute Elastizitätsfunktion”) g(x) = (relative) Elastizitätsfunktion ǫyx = Aufspaltung in erklärte und nichterklärte Schwankung (yi − ȳ) = ∆i + ei mit ∆i = ŷi − ȳ, ei = yi − ŷi Additionsregel bei linearer Regression Bestimmtheitsmaß n X i=1 dŷ dx x dŷ ŷ dx (yi − ȳ)2 = n X 6 Pn i=1 Pn ∆2i ns2y n X e2i i=1 i=1 B =1−U =1− s2 B = ∆2 = sy ∆2i + 2 i=1 ei ns2y =1− s2e (allgemein) s2y (lineare Regression) Bivariate Analyse III: Korrelationsanalyse (Maß)Korrelationskoeffizient (nach Pearson) rxy = Zusammenhang mit Bestimmtheitsmaß der linearen Regression 2 B = rxy Rangkorrelationskoeffizient nach Spearman sxy sx sy rs = 1 − 6 Pn (Rix − Riy ) n(n2 − 1) 2 i=1 Zeitreihen Additive Aufspaltung Yi = Ti + Ki + Si + Ui = Gi + Si + Ui T = Trend, K = Konjunkturkomponente, G = T + K = glatte Komponente, S = Saisonkomponente, U = Rest. multiplikative Aufspaltung Yi = Ti Ki Si Ui = Gi Si Ui 1 i+m P yj τ ungerade, m = τ j=i−m ! = 1 y i+m−1 P i−m + yi+m yj τ gerade, m = τ2 . + τ 2 j=i−m+1 gleitender Durchschnitt der Ordnung τ ȳi exponentielle Glättung ŷt = αyt + (1 − α)ŷt−1 , ŷ0 = y0 1 mit dem Glättungsparameter α = 1 − e− τ Berechnung der Saisonfigur (τ ) n τ 1 X 1X (τ ) e (yij − ȳij ), Sj = Sj − S̃j ′ , S̃j = n i=1 τ j ′=1 i = Index der Perioden, j = Index innerhalb jeder Periode. (τ ) Bei trendfreien Zeitreihen ist S̃j = Sj sowie ȳij = ȳ. 7 τ −1 , 2 Zufall und Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P (A|B) = P (A, falls B eingetreten ist) Stochastische keit P (A|B) = P (A) bzw. P (B|A) = P (B) Unabhängig- Additionstheorem P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Multiplikationstheorem P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A) Totale Wahrscheinlichkeit bei sich einander ausschließenden Ereignissen Ak P (B) = X P (B|Ak )P (Ak ) Theorem von Bayes P (Ak |B) = P (B|Ak )P (Ak ) P (B) k Zufallsvariable (ZV) und Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsfunktion diskreter ZV p(xi ) = P (X = xi ) = pi Verteilungsfunktion ter ZV F (x) = P (X ≤ x) = diskre- Wahrscheinlichkeitsdichte stetiger ZV Verteilungsfunktion stetiger ZV Wahrscheinlichkeit eines Intervalls (X diskret oder stetig) Erwartungswert f (x) = X p(xi ) xi ≤x dF dx F (x) = P (X ≤ x) = Zx f (x′ ) dx′ x′ =−∞ P (a ≤ X ≤ b) = F (b) − F (a) P (X > a) = 1 − F (a) P E(X) = i = xi p(xi ) (diskrete Zufallsvariable) ∞ R xf (x) dx (stetige Zufallsvariable) x=−∞ Varianz V (X) = E(X − E(X))2 P = [xi − E(X)]2 p(xi ) i = R∞ (diskrete Zufallsvariable) [x − E(X)]2 f (x) dx (stetige Zufallsvariable) x=−∞ Kovarianz Cov(X, Y ) = E(XY ) − E(X)E(Y ) E(XY ) = = PP xi yj p(xi , yj ) (diskrete Zufallsvariable) xyf (x, y) dx dy (ststige Zufallsvariable) i j ∞ R R ∞ −∞ −∞ 8 Diskrete theoretische Verteilungen n! = n · (n − 1) · (n − 2) · · · (1) Fakultät N n Binomialkoeffizient Binomialverteilung X ∼ B(n; θ) Hypergeometrische lung X ∼ H(N; n; M) ! N! N(N − 1) . . . (N − n + 1) = n! n!(N − n)! = P (X = x) = Vertei- Poissonverteilung X ∼ Po(µ) (n,θ) pB (x) (N,n,M ) P (X = x) = pH P (X = x) = (µ) pP (x) = (x) = n x ! M x µx e−µ = x! θx (1 − θ)n−x N n N −M n−x Stetige theoretische Verteilungen Dichte der Gleichverteilung X ∼ G(a, b) Exponentialverteilung X ∼ E(λ) (a,b) fG (x) (λ) fE (x) = = ( ( 1 b−a 0 falls a ≤ x ≤ b, sonst. q λe−λx x ≥ 0 E(X) = V (X) = 0 sonst, Zusammenhang Exponentialverteilung mit Poissonverteilung n ∼ Po(µ) ⇔ ∆ ∼ E(µ/T ) n = Zahl der Ereignisse im Zeitraum T ∆ = Abstände zweier Ereignisse Normalverteilung X ∼ N(µ, σ 2 ) fN Standardnormalverteilung Z= Rechenregeln zur Anwendung der Tabelle von Φ x−µ =Φ σ Φ(−x) = 1 − Φ(x) (µ,σ2 ) 1 λ (x−µ)2 1 (x) = √ e− 2σ2 , E(X) = µ, V (X) = σ 2 σ 2π X −µ (0,1) ∼ N(0; 1), F (z) = FN (x) =: Φ(z) σ (µ,σ2 ) FN (x) 9 Funktionen von ZV und Zentraler Grenzwertsatz Wahrscheinlichkeitsdichte einer (monoton steigenden) Funktion Z = g(X) einer ZV Wahrscheinlichkeitsdichte der Summe Z = X1 + X2 zweier unabhängiger ZV Verteilungsfunktion der Summe Z = X1 + X2 zweier unabhängiger ZV " fX (x) fZ (z) = g ′(x) fZ (z) = Z ∞ −∞ # x=g −1 (z) f1 (x)f2 (z − x)dx mit fi (x) den Wahrscheinlichkeitsdichten von Xi FZ (z) = Z ∞ −∞ f1 (x)F2 (z − x)dx = Z ∞ −∞ F1 (x)f2 (z − x)dx mit Fi (x) den Verteilungsfunktionen von Xi Sonderfall Normalverteilung X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ) ⇒ Z ∼ N(µ1 +µ2 , σ12 +σ22 ) Erwartungswert und Varianz von Z = aX + b E(Z) = aE(X) + b, V (Z) = a2 V (X) Erwartungswert und Varianz von Z = aX + bY E(Z) = aE(X) + bE(Y ) V (Z) = a2 V (X) + b2 V (Y ) + 2abCov(X, Y ) Erwartungswert und Varianz P der Summe Zn = ni=1 ai Xi unabhängiger ZV E(Zn ) = Zentraler Grenzwertsatz für P die Summe Zn = ni=1 ai Xi V (Zn ) = n P i=1 n P i=1 ai E(Xi ) a2i V (Xi ) Zn ≈ N(µ, σ 2 ) mit µ = E(Zn ), σ 2 = V (Zn ) Voraussetzungen: Alle Xi unabhängig und kein Einzelbetrag der Varianz größer als σ 2 /30. Die Xi können beliebige (!!) diskrete oder stetige ZV mit endlicher Varianz sein 10 Induktive Statistik: Parameterschätzung Schätzer für den Mittelwert µ̂ = X̄ Schätzer für den Anteilswert θ̂i = fi = Schätzer für die Varianz (vgl. die Fußnote auf S. 3) n K n X 1 X 2 (Xi − X̄) bzw. fk (x∗k − x̄)2 σ̂ = S = n − 1 i=1 n − 1 k=1 Schätzer für die Koeffizienten der linearen Regression Y = aX + b 2 hi n 2 â b̂ = = Ȳ − b̂X̄ i=1 (Xi Yi ) − X̄ Ȳ , Pn 2 2 i=1 Xi − X̄ Pn Gauß-Statistik (Mittelwert X̄ − µ √ bei bekannter Varianz und Z = n ∼ N(0; 1) σ Anteilswert) t-Statistik (Mittelwert unbekannter Varianz) bei χ2 -Statistik (Varianz) Konfidenzintervall (KI) für den Mittelwert bei bekannter Varianz Hier und im Folgenden werden “Rezepte” wie KIs und Tests als Realisierungen (also mit kleinem xquer, s etc) und nicht als Zufallsgroessen (Xquer, S, etc) formuliert Konfidenzintervall Anteilswert für den T = X̄ − µ √ n ∼ T (n − 1) S Q= (n − 1)S 2 ∼ χ2 (n − 1) σ2 s σ N −n µ ∈ x̄ ± z1−α/2 √ n N −1 z1−α/2 Tabelliertes Quantil der Gauß-Statistik, α Fehlerwahrscheinlichkeit (z.B. α = 5% ⇒ z1−α/2 = z0.975 = 1.96) q N −n Korrekturfaktor für endliche Grundgesamtheiten N −1 mit N Elementen (=1, falls N ≫ n) s s f (1 − f ) N − n θ ∈ f ± z1−α/2 n N −1 mit f der relativen Häufigkeit in der Stichprobe. Bedingung: nf (1 − f ) ≥ 9 Konfidenzintervall für den Mittelwert bei unbekannter Varianz (n−1) s µ ∈ x̄ ± t1−α/2 √ n (n−1) mit tq dem tabellierten q-Quantil der t-Statistik mit (n−1) “Freiheitsgraden” Konfidenzintervalle für den Regressionskoeffizienten b b ∈ b̂ ± t1−α/2 σ̂b , σ̂b2 = Konfidenzintervall der Regressionsfunktion y = a + bx (n−2) (n−2) σ̂R y ∈ â + b̂x ± t1−α/2 √ n 11 n σ̂R2 1 X 2 , σ̂ = yi − ŷ(xi ) R ns2x n − 2 i=1 v u u t1 + (x − x̄)2 s2x 2 Induktive Statistik: Parametrische Tests Testvariable für Test des Mittelwertes auf Wert µ0 bei bekannter Varianz Z= Test des Anteilswertes auf Wert θ0 Z = √ f −θ0 Test des Mittelwertes bei unbekannter Varianz T = X̄−µ0 √ n S Test der Varianz Q= (n−1)S 2 σ02 X̄−µ0 √ n σ θ0 (1−θ0 ) ∼ N(0, 1); Realisierung: z √ q N −1 n N −n ∼ T (n − 1); Realisierung: t ∼ χ2 (n − 1); Realisierung: q √ xy n−2 Test der Korrelation ρ(x, y) Tρ = r√ ∼ T (n − 2) 1−rxy auf Wert 0 √ sx Test des Koeffizienten b der Tb = n B̂ − b0 σ̂R ∼ T (n − √2) linearen Regression √sx n Ty(x) = Ŷ (x) − y0 (x)) ∼ T (n − 2) σ̂R s2x +(x−x̄)2 ŷ(x) = ax + b auf Wert b0 P Â = Ȳ − B̂ x̄, B̂ = ns12 ni=1 Yi − Ȳ (xi − x̄) sowie die Regression selbst x 2 P 1 Pn 2 auf den Wert yˆ0 (x) σ̂R = n−2 n=1 Yi − Ŷ (xi ) , s2x = n1 ni=1 (xi − x̄)2 . Zweiseitiger Test Nullhypothese µ = µ0 bzw. θ = θ0 bzw. ρxy = 0 kann abgelehnt werden, falls |z| > z1−α/2 (Mittelwert bei bekannter Varianz und Anteilswert) (n−1) |t| > t1−α/2 (Mittelwert bei unbekannter Varianz) i h (n−1) (n−1) q∈ / qα/2 , q1−α/2 (Varianz) (n−2) |t| > t1−α/2 Einseitiger Test auf ”größer” Einseitiger Test auf ”kleiner” (Korrelation). Nullhypothese µ > µ0 bzw. θ > θ0 bzw. ρxy > 0 kann abgelehnt werden, falls z < −z1−α (Mittelwert bei bekannter Varianz und Anteilswert) (n−1) t < −t1−α (Mittelwert bei unbekannter Varianz) q < qα(n−1) (Varianz) (n−2) t < −t1−α (Korrelation). Nullhypothese µ < µ0 bzw. θ < θ0 bzw. ρxy < 0 kann abgelehnt werden, falls z > z1−α (Mittelwert bei bekannter Varianz und Anteilswert) (n−1) t > t1−α (Mittelwert bei unbekannter Varianz) (n−1) q > q1−α (Varianz) (n−2) t > t1−α (Korrelation). 12 Induktive Statistik: Nichtparametrische Tests Testvariable für den χ2 -Anpassungstest ! K X ! K X (hk − hek )2 h2k Q= = − n ∼ χ2 (K − 1 − r) e e hk k=1 k=1 hk r Zahl der zu schätzenden Parameter, P n = k hk Zahl der Beobachtungen, K Zahl der Klassen, e hk theoretischer Mittelwert für abs. Häufigkeit hk bei Zutreffen der Nullhypothese Bedingung für den χ2 -Anpassungstest hek ≥ 5 für alle Klassen k Testergebnis H0 nicht verwerfbar, falls für die Realisierung q von Q gilt: (K−1−r) q < q1−α Testvariable für den χ2 -Unabhängigkeitstest Q= Ky Kx X X i=1 j=1 (hij − heij )2 heij ! Kx , Ky m = (Kx − 1)(Ky − 1) j) heij = h(xi )h(y n h(xi ), h(yj ) P n = j h(yj ) Ky Kx X X ! h2ij = − n ∼ χ2 (m) e h ij i=1 j=1 Zahl der Klassen, Zahl der Freiheitsgrade, Abs. Häufigkeit bei Zutreffen der Nullhypothese Spalten- und Zeilensumme Gesamtzahl der Tabellenelemente χ2 -Homogenitätstest (Test auf gleiche Grundgesamtheit) Q wie beim Unabhängigkeitstest mit Kx Zahl der Klassen der Verteilung, Ky = M Zahl der Stichproben Testvariable für den Kolmogorow-SmirnowAnpassungstest (KS-Test) D = max F (x) − F (0) (x) ∼ D(n) Entscheidung beim KS-Test H0 verwerfbar, falls für s die Realisierung d von D gilt: c(α) − ln(α/2) d > dn,1−α ≈ √ = n 2n Testvariable für den Zwei-Stichproben-KSHomogenitätstest D = max |F1 (x) − F2 (x)| ∼ D(n, m) Entscheidung beim Zwei-Stichproben KS-Test H0 verwerfbar, fallssfür die Realisierung d von D gilt: s n+m − ln(α/2)(n + m) = d > dn,m,1−α ≈ c(α) nm 2nm x F (x) F (0) (x) n Verteilungsfunktion der Stichprobe, Verteilungsfunktion bei Zutreffen der Nullhypothese Stichprobenumfang x F1 (x), F2 (x) n, m 13 Verteilungsfunktionen der zwei Stichproben, zu F1 (x), F2 (x) gehörige Stichprobenumfänge