Formelsammlung zur Vorlesung Statistik I PD Dr. C. Heumann Deskriptive Statistik Formelsammlung Statistik I Häufigkeitsverteilungen Darstellungsformen von Daten • Rohdaten: x1 , x2 , . . . , xn n xi Anzahl der Beobachtungen Merkmalsausprägung des i-ten Objekts • Geordnete Daten: x(1) , x(2) , . . . , x(n) n x(i) Anzahl der Beobachtungen i-t größte Merkmalsausprägung • Klassierte Daten (bei stetigen Merkmalen), z.B.: | x(1) , x(2) , x(3) | x(4) , x(5) | x(6) , . . . | . . . , x(n) | | {z } | {z } | {z } K1 K2 k Kj e j−1 ej d j = e j − e j−1 a j = 12 (e j + e j−1 ) nj n f j = nj Kk Anzahl der Klassen j-te Klasse untere Grenze der j-ten Klasse obere Grenze der j-ten Klasse Klassenbreite der j-ten Klasse Klassenmitte der j-ten Klasse absolute Häufigkeit in der j-ten Klasse relative Häufigkeit in der j-ten Klasse • Häufigkeitstabelle für unterschiedliche Merkmalsausprägungen: a1 , a2 , . . . , ak k aj nj f j = f (a j ) = PD Dr. C. Heumann nj n Anzahl unterschiedlicher Merkmalsausprägungen j-te Merkmalsausprägung absolute Häufigkeit von a j relative Häufigkeit von a j Empirische Verteilungsfunktion Für Häufigkeitstabelle: F(x) = ∑ f (a j ) a j ≤x 1 Deskriptive Statistik Formelsammlung Statistik I Lagemaße Modus Geometrisches Mittel Für Häufigkeitstabelle bzw. bei gruppierten Daten: s ⇔ = aj x̄M n j = max{n1 , n2 , . . . , nk } x̄G n = n !1 n n ∏ xi = ∏ xi i=1 i=1 Für Häufigkeitstabelle bzw. bei gruppierten Daten: Median = x̃0,5 x((n+1)/2) falls n ungerade, 1 (x + x ) falls n gerade. (n/2) (n/2+1) 2 m−1 0, 5 − ∑ f j j=1 = em−1 + fm und j=1 !1 n ajj n j=1 dm m f j < 0, 5 ∑ ∏ j=1 √ x̄G = n x1 · . . . · xn = wobei m folgendermaßen bestimmt ist: m−1 k Falls bekannt können im klassierten Fall statt der Klassenmitten a j auch die klassenspezifischen geometrischen Mittel verwendet werden. Bei klassierten Daten: x̃0,5 v u k u n n x̄G = t ∏ ajj = ∑ f j ≥ 0, 5 x(k) falls nα keine ganze Zahl ist, k ist dann die kleinste, x̃α = ganze Zahl > nα, 1 2 (x(nα) + x(nα+1) ) falls nα ganzzahlig ist. n Bn B0 mit j=1 Quantile r Bn = B0 · x1 · . . . · xn B0 Bi Bn xi = Bi Bi−1 Anfangsbestand Bestand zum Zeitpunkt i = 1, . . . , n Endbestand i-ter Wachstumsfaktor Harmonisches Mittel n ∑ wi Arithmetisches Mittel x̄H = = 1 ∑ xi n i=1 Für Häufigkeitstabelle bzw. bei gruppierten Daten: Bei Häufigkeitstabelle bzw. bei gruppierten Daten: x̄ = 1 n k k ∑ n ja j = ∑ f ja j j=1 j=1 Falls bekannt werden im klassierten Fall statt der Klassenmitten a j die Klassenmittelwerte x̄ j verwendet. PD Dr. C. Heumann w ∑ xii i=1 n x̄ i=1 n x̄H = n k nj ∑ aj j=1 = 1 k fj ∑ aj j=1 Falls bekannt können im klassierten Fall statt der Klassenmitten a j auch die klassenspezifischen harmonischen Mittel verwendet werden. 2 Deskriptive Statistik Formelsammlung Statistik I Streuungsmaße Spannweite mit s2zwischen R = x(n) − x(1) dQ = x̃0,75 − x̃0,25 (Empirische) Varianz s2 = 1 n 1 n (xi − x̄)2 = ∑ xi2 − x̄2 ∑ n i=1 n i=1 Für Häufigkeitstabelle bzw. bei gruppierten Daten: s2 = 1 n k 1 n ∑ n j (a j − x̄)2 = j=1 k k ∑ n j (x̄ j − x̄)2 j=1 k = 1 n s2j = 1 (xi − x̄ j )2 n j xi∑ ∈K j x̄ j = 1 xi n j xi∑ ∈K j s2innerhalb Quartilsabstand 1 n = ∑ n j s2j j=1 (Empirische) Standardabweichung √ s = s2 = s ∑ n j a2j − x̄2 1 n ∑ (xi − x̄)2 n i=1 j=1 Variationskoeffizient Streuungszerlegung: s2 = s2zwischen + s2innerhalb v= s x̄ Konzentrationsmaße Lorenzkurve u0 = 0, ui = Gini-Koeffizient v0 = 0 i , n n n i=1 i=1 2 ∑ ix(i) − (n + 1) ∑ x(i) i = 1, . . . , n G = n n ∑ x(i) i vi = , i = 1, . . . , n Bei gruppierten Daten: ∑ x( j) j=1 G = 1− Bei gruppierten Daten: ũ0 = 0, ṽ0 = 0 = ∑ f j, 0≤G≤ i = 1, . . . , k j=1 i ṽi = i ∑ f ja j ∑ n ja j j=1 j=1 k ∑ f ja j k ∑ n j (ṽ j−1 + ṽ j ) j=1 = nx̄ n−1 n Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient): , i = 1, . . . , k j=1 Falls bekannt werden im gruppierten Fall statt der Klassenmitten a j die Klassenmittelwerte x̄ j verwendet. PD Dr. C. Heumann 1 n Wertebereich: i ũi 1 n ∑ (vi−1 + vi ) n i=1 i=1 ∑ x( j) j=1 n = 1− G+ = n G n−1 Wertebereich: 0 ≤ G+ ≤ 1 3 Deskriptive Statistik Formelsammlung Statistik I Maßzahlen für den Zusammenhang zweier Merkmale Schema einer k×l - Kontingenztafel Merkmal X Kontingenzkoeffizient C Merkmal Y yj · · · n1 j · · · .. . x1 .. . y1 n11 .. . xi .. . ni1 .. . ··· xk ∑ nk1 n+1 ··· ··· Bei ordinalen Merkmalen: K = ∑i<m ∑ j<n ni j nmn D = ∑i<m ∑ j>n ni j nmn TX = ∑i=m ∑ j<n ni j nmn TY = ∑i<m ∑ j=n ni j nmn ni j .. . ··· nk j n+ j ··· ··· yl n1l .. . ∑ n1+ .. . nil .. . ni+ .. . nkl n+l nk+ n s C 0≤C ≤ x1 x2 ∑ s l 0 ≤ χ2 ≤ n(min(k, l) − 1) Spezialfall: 2 × 2-Tafeln: n(ad − bc)2 (a + b)(c + d)(a + c)(b + d) Φ = χ2 χ2 + n Odds-Ratio k l ∑∑ n2i j i=1 j=1 ni+ n+ j ! −1 ad bc Wertebereich: 0 ≤ OR < ∞ Gamma nach Goodman und Kruskal K −D γ= K +D Wertebereich: −1 ≤ γ ≤ 1 χ2 n Wertebereich: p 0 ≤ Φ ≤ min(k, l) − 1 Spezialfall: 2 × 2-Tafeln: ad − bc Φ= p (a + b)(c + d)(a + c)(b + d) Cramers V Kendalls τb K −D τb = p (K + D + TX )(K + D + TY ) Wertebereich: −1 ≤ τb ≤ 1 Kendalls/Stuarts τc s V s 0 ≤ Ckorr ≤ 1 OR = Phi-Koeffizient r min(k, l) · min(k, l) − 1 Wertebereich: ∑ a+b c+d n n n 2 ni j − i+n + j χ2 = ∑ ∑ =n ni+ n+ j i=1 j=1 n Wertebereich: χ2 = = Ckorr χ2 -Statistik k min(k, l) − 1 min(k, l) Korrigierter Kontingenzkoeffizient Ckorr Schema einer 2×2 - Kontingenztafel Merkmal X χ2 χ2 + n Wertebereich: s Anzahl konkordanter Paare Anzahl diskordanter Paare Anzahl Bindungen bzgl. X Anzahl Bindungen bzgl. Y Merkmal Y y1 y2 a b c d a+c b+d = = χ2 n(min(k, l) − 1) Wertebereich: 0≤V ≤1 PD Dr. C. Heumann τc = 2 min(k, l)(K − D) n2 (min(k, l) − 1) Wertebereich: −1 ≤ τc ≤ 1 4 Deskriptive Statistik Formelsammlung Statistik I Rangkorrelationskoeffizient nach Spearman Korrelationskoeffizient nach Bravais-Pearson • Ohne Bindungen: r Sxy Covar(X,Y ) p =p Sxx Syy Var(X) ·Var(Y ) = n 6 ∑ di2 R = 1− n ∑ (xi − x̄)(yi − ȳ) i=1 n(n2 − 1) i=1 = r n n ∑ (xi − x̄)2 · ∑ (yi − ȳ)2 i=1 mit i=1 n ∑ xi yi − nx̄ȳ i=1 = R(xi ) R(yi ) di = R(xi ) − R(yi ) Rang der i-ten Beobachtung von X Rang der i-ten Beobachtung von Y Rangdifferenz r n n i=1 i=1 ( ∑ xi2 − nx̄2 )( ∑ y2i − nȳ2 ) mit • Mit Bindungen: n Sxx J K = i=1 n n n(n2 − 1) − 12 ∑ b j (b2j − 1) − 12 ∑ ck (c2k − 1) − 6 ∑ di2 j=1 i=1 k=1 s R= s J K j=1 k=1 Syy = Sxy = i=1 n ∑ (yi − ȳ)2 = ∑ y2i − nȳ2 i=1 n n(n2 − 1) − ∑ b j (b2j − 1) n(n2 − 1) − ∑ ck (c2k − 1) n ∑ (xi − x̄)2 = ∑ xi2 − nx̄2 i=1 n ∑ (xi − x̄)(yi − ȳ) = ∑ xi yi − nx̄ȳ i=1 mit und Var(X) = J K bj ck i=1 Anzahl unterschiedl. Merkmalsausprägungen bei X Anzahl unterschiedl. Merkmalsausprägungen bei Y abs. Häufigkeit der j-ten Merkmalsausprägung bei X abs. Häufigkeit der k-ten Merkmalsausprägung bei Y Wertebereich: −1 ≤ R ≤ 1 PD Dr. C. Heumann Var(Y ) = Covar(X,Y ) = 1 · Sxx n 1 · Syy n 1 · Sxy n Wertebereich: −1 ≤ r ≤ 1 5 Deskriptive Statistik Formelsammlung Statistik I Lineare Einfachregression Modell Streuungszerlegung Y = a + bX + e SQTotal = SQRegression + SQResidual n SQTotal KQ-Schätzer = ∑ (yi − ȳ)2 i=1 n Sxy Sxy =√ p · Sxx Sxx Syy b̂ = â = ȳ − b̂x̄ r Syy =r Sxx r Syy Sxx SQRegression = ∑ (ŷi − ȳ)2 i=1 n SQResidual = ∑ (yi − ŷi )2 i=1 n = ∑ (yi − (â + b̂xi ))2 i=1 Eigenschaften der Regressionsgeraden ŷi = â + b̂xi = ȳ + b̂(xi − x̄) êi = yi − ŷi = Syy − b̂2 Sxx = Syy − (Sxy )2 Sxx Es gilt: Syy = SQTotal = yi − (â + b̂xi ) = yi − (ȳ + b̂(xi − x̄)) n n ∑ êi = i=1 n n ∑ yi − ∑ ȳ − b̂ ∑ (xi − x̄) i=1 i=1 Bestimmtheitsmaß i=1 R2 = SQRegression SQResidual = 1− = r2 SQTotal SQTotal = nȳ − nȳ − b̂(nx̄ − nx̄) = 0 ŷ¯ = 1 n 1 ŷi = (nȳ + b̂(nx̄ − nx̄)) = ȳ ∑ n i=1 n PD Dr. C. Heumann Wertebereich: 0 ≤ R2 ≤ 1 6 Deskriptive Statistik Formelsammlung Statistik I Verhältniszahlen und Indizes Indexzahlen Mengenindex nach Laspeyres Einfache Indexzahl (oder Messzahl): QL0t = xt I0t = x0 mit p00 qt ∑ni=1 p0 (i)qt (i) = p00 q0 ∑ni=1 p0 (i)q0 (i) Mengenindex nach Paasche Wert der Maßzahl in der Basisperiode Wert der Maßzahl in der Berichtsperiode t x0 xt QP0t = Veränderung des Basisjahres: xt = Ikt = xk xt x0 xk x0 = I0t I0k pt0 qt ∑n pt (i)qt (i) = ni=1 0 pt q0 ∑i=1 pt (i)q0 (i) Umsatzindex (Wertindex) W0t = Verkettungsregel: pt0 qt ∑n pt (i)qt (i) = ni=1 0 p0 q0 ∑i=1 p0 (i)q0 (i) I0t = I0k · Ikt Erweiterung des Warenkorbs Definitionen Einführung des neuen Guts (mit Nummer n + 1) zum Zeitpunkt t 0 : p00 = (p0 (1), . . . , , p0 (n)) pt0 q00 qt0 = (pt (1), . . . , pt (n)) PtL0 ,t 0 +1 (erweitert) = = (q0 (1), . . . , q0 (n)) pt0 0 +1 q0 + pt 0 +1 (n + 1)qt 0 (n + 1) pt0 0 q0 + pt 0 (n + 1)qt 0 (n + 1) L L L P0,t = P0,t 0 +1 (verkettet) 0 · Pt 0 ,t 0 +1 (erweitert) = (qt (1), . . . , qt (n)) Subindizes mit p0 (i) pt (i) q0 (i) qt (i) Preis von Gut i = 1, . . . , n in der Basisperiode Preis von Gut i = 1, . . . , n in der Berichtsperiode t Menge von Gut i = 1, . . . , n in der Basisperiode Menge von Gut i = 1, . . . , n in der Berichtsperiode t Preisindex nach Laspeyres P0tL = pt0 q0 ∑ni=1 pt (i)q0 (i) = p00 q0 ∑ni=1 p0 (i)q0 (i) Preisindex nach Paasche P0tP = pt0 qt p00 qt = ∑ni=1 pt (i)qt (i) ∑ni=1 p0 (i)qt (i) P0tL = wI P0tL (I) + wII P0tL (II) mit P0tL (I) = P0tL (II) = ∑m i=1 pt (i)q0 (i) m ∑i=1 p0 (i)q0 (i) ∑ni=m+1 pt (i)q0 (i) ∑ni=m+1 p0 (i)q0 (i) n U = ∑ p0 (i)q0 (i) i=1 ∑m i=1 p0 (i)q0 (i) wI = wII = 1 − wI = U ∑ni=m+1 p0 (i)q0 (i) U Zeitreihen Additives Komponentenmodell Gleitende Durchschnitte ungerader Ordnung 2k + 1: yt = gt + st + rt , t = 1, . . . , T yt∗ = mit yt gt st rt Beobachtung zum Zeitpunkt t glatte Komponente zum Zeitpunkt t saisonale Komponente zum Zeitpunkt t Restkomponte zum Zeitpunkt t PD Dr. C. Heumann 1 2k + 1 k ∑ yt+ j j=−k gerader Ordnung 2k: 1 yt∗ = 2k k−1 1 1 yt−k + ∑ yt+ j + yt+k 2 2 j=−k+1 ! 7