Goethe‐Universität Frankfurt Sommersemester 2014 Prof. Dr. Katrin Auspurg Formelsammlung Statistik I (Stand 27.5.2014) Rechenregeln zu Summenzeichen 2 2 2 2 n i1 xi x1 x2 ... xn n i 1 xi x1 x2 ... xn 2 2 n i1 xi yi x1 y1 x2 y2 ... xn yn n n n i1 xi yi i1 xi i 1 yi 2 2 n n n n i1 xi yi i 1 xi i1 2 xi yi i 1 yi 2 n n i1 kxi k i 1 xi i1 k nk n n j 1 yi x j yi j 1 x j n 2 3 2 3 i1 j 1 xi y j i 1 xi j 1 y j x1 x2 y1 y2 y3 Univariate Beschreibung/ Maße Kumulierte Häufigkeitsverteilung 0 H( x ) i n x x (1) x (i) x x (i 1) , i 1, ..., n - 1 x x (n) für für für j H ( x) h(a1 ) ... h(a j ) hi , i 1 Empirische Verteilungsfunktion wobei aj ≤ x < aj+1 F ( x) Anteil der Werte xi mit x i x p( X x) H n( x ) . 0 F( x ) i n 1 für x x (1) für x (i) x x (i 1) , i 1, ..., n - 1 x x (n) für j F ( x) f (a1 ) ... f (a j ) f i , i 1 wobei aj ≤ x < aj+1 Modus xD x j h j max h k bzw. f j max f(x k ) 1 Median Median bei gruppierten Daten Quantile für ungerades n xn 1 ~ x 1 2 2 ( xn 2 xn 2 1 ) für gerades n n ~ x c j1 d j 2 H j1 hj c j1 d j 0,5 Fj1 fj Für den p‐Quantils‐Wert xp gilt: p und h X x 1 p , h X xp p n n x x p np falls np nicht ganzzahlig G 1 x x , x falls np ganzzahlig p np np 1 Arithmetisches Mittel Arithmethisches Mittel bei gruppierten Daten wobei [np]G die zu np nächste kleinere ganze Zahl ist. n x 1 n x i 1 i Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj) unterteilt, so gilt: x k k 1 n h m f m j 1 j j j j 1 j Mit: m j (c j1 c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die untere/obere Grenze der Einfallsklasse) Arithmetisches Mittel bei geschichteten Daten Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten x j unterteilt, so gilt: x Geometrisches Mittel 1 n xg n r k j1 j1 h jx j f jx j 2 1 n n n x1 ... xn xi xi , xi 0 i 1 i 1 n Spannweite (Range) R x max x min Interquartilsabstand und Dezilsabstand Mittlere absolute Abweichung Varianz d Q Q3 Q1 x0.75 x0.25 d D D9 D1 x0.9 x0.1 Wobei xp die Quantile sind. AD 1 n s2 Standardabweichung Stichprobenvarianz 1 n n x i i 1 x x bzw. AD k j 2 n xi x 2 i 1 1 n n s j 1 2 s s x 1 n 1 k h x i 1 x n 1 n i 1 i Für den Spezialfall c=0 ergibt sich xi c 2 xi x 2 n x c 2 n n i 1 i 1 s 2 1 n n x i 1 2 i x2 Ist die Stichprobe in r Schichten unterteilt, so gilt s 2 r 1 n v xs , n s j1 2 j j x 0 3 n x r 1 n j1 j x 2 j n 2 x 1n x i2 x 2 11 2 i j 1 Variationskoeffizient aj x f j aj x 1 x ... x n x 2 2 1 n Verschiebungssatz der Varianz Varianz für geschichtete Daten/ Varianzzerlegung Herfindahl‐Index k HF 1 j 1 1 f hj 2 k n j 1 2 j mit: k = Anzahl der Kategorien Normierter Herfindahl‐Index RHF Schiefe k k 1 HF, RHF 0,1 1 ms33 mit m3 1n xi x 3 n i 1 Wölbung (Kurtosis) 2 m4 s4 3 mit m4 Konzentrations‐ und Ungleichheitsmaße D9 Dezilverhältnis DR Gini‐Koeffizient D1 n 1 n x i 1 i x 4 x0 . 9 x0 . 1 Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und Abszisse 2 Fläche zwischen Diagonale und Lorenzkurve G G 2 in1ix( i ) n in1 xi nn1 Normierter Gini‐Koeffizient Duncan Index der Segregation i 1 wobei Mi und Fi die Anteile von M und F in den Gruppen sind: G G n G mit 0 ,1 G Gmax n 1 n I 12 M i Fi Mi mi f und Fi i f m 4 Bivariate Beschreibung/ Maße Prozentsatzdifferenz %D ( Odds Odds Ratio Erwartete Häufigkeit bei Unabhängigkeit Chi2 O(a1 , a2 | X bi ) OR ~ h ij Phi (nur für 2x2‐Tabelle) PRE‐ Maße n ~ (hij hij ) 2 ~ hij i 1 j 1 k m n(h11h22 h21h12 ) 2 h1h2 h1 h2 2 2 n V ( h11 h22 h21 h12 ) h1 h2 h1 h2 2 n min( m 1, k 1) Mit: m = Anzahl Spalten; k = Anzahl Zeilen E1 E2 PRE Mit: E1 E1: Vorhersagefehler bei Kenntnis der eindimensionalen Häufigkeitsverteilung (Randverteilung) von X. E2: Vorhersagefehler bei Kenntnis der bedingten Verteilung von Y für X = bj, j = 1, … m. 5 h1i , i 1, 2 h2i h11 / h21 h11 h22 h12 / h22 h21 h12 h i h . j 2 Chi2 für 2x2 Kreuztabelle Cramer’s V (bei k x m‐ Tabellen) h11 h12 ) 100 h1 h2 Goodman‘s λ PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X: E n max( h ) i 1 i m m E2 [h j max(hij )] n max(hij ) j i j 1 i i m (n max i ( h i )) ( n max i (h ij )) j1 Y Kendall‘s Taub Goodman und Kruskal‘s Gamma Korrelationskoeffizient nach Bravais‐Pearson n max i (h i ) CD CD (Definition von C, D: siehe Kendall’s Taub) n r n n i 1 i 1 ( xi x ) 2 ( yi y ) 2 s XY s X sY 1 n ( xi x )( yi y ) n i 1 sX 1n 2 ( xi x ) n i 1 n r x y i 1 n i i nxy n i 1 2 i 1 6 ( x i nx )( y i ny ) 2 2 2 (h ij ) max i ( h i ) mit b [1, 1] mit [1, 1] ( xi x )( yi y ) i 1 i n max i ( h i ) Mit: C = Konkordante Paare D = Diskonkordante Paare Tx = Bindungen (Ties) in X TY = Bindungen (Ties) in Y s XY j1 CD (C D TX )(C D TY ) b Rechengünstigere Formel: m max Spearman‘s n [rg ( xi ) r g X ][rg ( yi ) r gY ] 2 i 1 Wahrscheinlichkeiten n 1 2 n 1 Wahrscheinlichkeit Fakultät Anzahl möglicher Permutationen: Mit Reihenfolge / mit Zurücklegen Mit Reihenfolge/ ohne Zurücklegen P ( A) 6 [rg ( xi ) rg ( yi )]2 i 1 (n 1)n | A| || N ! N ( N 1) ( N 2 ) ... 2 1 N n N! ( N n)! N n 1 ( N n 1)! n ( N 1)!n! Ohne Reihenfolge / ohne Zurücklegen Bedingte Wahrscheinlichkeiten Produktsatz N N! n ( N n)!n! P( A | B) P( A B) P( B) P( A B) P( A | B) P( B) 7 2 Ohne Reihenfolge / mit Zurücklegen 2 i 1 r g X r gY n [rg ( xi ) r g X ] [rg ( yi ) r gY ] Spearman’s falls keine Bindungen (rechengünstigere Formel) i 1 n Stochastische Unanbhängigkeit P ( A | B ) P ( A) bzw. mit P ( B ) 0 P ( B | A) P ( B ) mit P ( A) 0 P( A B) P( A) P( B) Theorem von Bayes P ( Aj | B ) P ( B | Aj ) P ( Aj ) P ( B | Aj ) P ( Aj ) k P( B) P( B | A ) P( A ) i 1 Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable Wahrscheinlichkeitsfunktion einer Binomialverteilung Bernoulli Verteilung P ( X xi ) pi , f ( x) 0, i i x T x1 , x2 ,... für x T für n x n x (1 ) f ( x ) x 0 für x 0,1,..., n sonst Die Zufallsvariable X (Indikator) X = 1 falls A eintritt X = 0 falls A nicht eintritt ist eine Bernoulli‐Variable mit P(A) = π P ( X 1) Bernoulli Verteilung P ( X 0) 1 Erwartungswert einer diskreten Zufallsvariable Varianz einer diskreten Zufallsvariable E(X) x1p1 ... x i pi x i f (x i ) i 1 2 Var (X) ( x i ) 2 p i ( x i ) 2 f ( x i ) E(X ²) ² i 1 i 1 Rechenregeln für Varianzen 8 i1 Rechenregeln für Erwartungswerte Transformationsregel: Für Y = aX + b gilt E(Y) = aE(X) + b Erwartungswert der Summe von ZV E(X + Y) = E(X) + E(Y) Produktregel für unabhängige (!) ZV E(X ∙ Y) = E(X) ∙ E(Y) Transformationsregel: Für Y = aX + b gilt Var(Y) = a2Var(X) Für unabhängige ZV gilt Var(X + Y) = Var(X) + Var(Y) Dichtefunktion und Verteilungsfunktion stetiger Zufallsvariablen b P(a X b) f ( x)dx a P( X ) f ( x)dx 1 x P( X x) F ( x) f (t )dt Zwei stetige ZV X und Y sind unabhängig, falls gilt Der Erwartungswert ist definiert als: P ( X x, Y y ) P ( X x ) P (Y y ) Fx ( x ) Fy ( y ) E ( x) xf ( x)dx Die Varianz ist definiert als Stetige Gleichverteilung Die Dichtefunktion ist 1 b a für a x b f ( x) 0 sonst Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte: Var ( x) ( x ) 2 f ( x)dx 2 Dichte Normalverteilung f ( x) Dichte Standardnormalverteilung 1 ( x )2 1 exp 2 2 2 N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das Symbol φ(x) verwendet wird: 1 x2 ( x) exp 2 2 9 Verteilungsfunktion der Normalverteilung Verteilungsfunktion der Standardnormalverteilung Z‐Standardisierung 1 1 (t ) 2 exp dt 2 2 2 x F ( x) P ( X x) x ( x) (t ) dt Z X X X x x ( z ) F ( x) x t‐Verteilung Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ 2(n) T F‐Verteilung oder Fisher‐Verteilung Sind X und Y unabhängige Zufallsvariablen mit X ~ 2(m) und Y ~ 2(n) mit m (= Gruppenzahl ‐ 1) und n (= Fallzahl ‐ Gruppenzahl), dann gilt: Z Konfidenzintervall für X Z n X/m ~ F( m , n ) Y/n Fall 1: (X ~N(,2), 2 bekannt: X z1 / 2 n Fall 2: (X ~N(,s2), 2 unbekannt: S X t1 / 2 (n 1) Approximatives Konfidenzintervall für Testtheorie Testgrößen für Tests über Mittelwerthypothesen Einstichprobenfall: H0: μx = μ0 ;H1: μx ≠ μ0 ˆ z1 / 2 n ˆ (1 ˆ ) n Fall 1: σ2 bekannt: (Gauß‐Test) Z X 0 n ~ N (0,1) 10 Fall 2: σ2 unbekannt T X 0 n ~ t (n 1) S Fall 1: σ2x und σ2ybekannt: Zweistichprobenfall (Vergleich zweier X Y Z ~ N (0,1) Mittelwerte): 2 2 x H0: μ1 = μ2 ;H1: μ1 ≠ μ2) y (t‐Test) n m Mit n und m = Fallzahlen für X und Y Unabhängige Stichproben Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y T X Y 2 1 1 (n 1) S x (m 1) S y nm2 n m 2 ~ t (n m 2) 2 2 Fall 3: σ2x und σ2y unbekannt, aber σ x ≠ σ y T X Y 2 2 Sy Sx n m ~ t (k ) (Satterthwaite Formel für k siehe Statistikbücher) Verbundene D 0 T n ~ t ( n 1) /abhängige SD Stichproben (H0: μD=μ0 ; H1: μD≠μ0) Mit: μD = D = mittlere Paardifferenz (Di = Xi ‐ Yi) SD = Standardabweichung der Paardifferenz Testgröße für Varianzen s2 F 12 ~ F( n 1 1, n 2 1) s2 (Vergleich zweier Wobei s21 und s22 die Stichprobenvarianzen sind, n1 und n2 die Varianzen: ( H :2 2 0; H :2 2 0 ) Fallzahlen der beiden Gruppen. 0 1 2 1 1 2 (F‐Test) ~ k m (h h ) 2 Testgröße für signifikante ij ij 2 ~ 2 (( k 1) ( m 1)) ~ Zusammenhänge in hij i 1 j 1 Kreuztabellen: (H0: kein Zusammenh.; 11 H1: Zusammenhang) Chi²‐ Unabhängigkeitstest Lineare Regression Regressionsgerade OLS n n n min (Yi Yˆ ) 2 min ˆi min (Yi ˆ ˆxi ) 2 , , i 1 2 , i 1 i 1 ˆ Y ˆx n ˆ ( xi x )(Yi Y ) i 1 n (x i 1 Mittlere quadratische Abweichung (Mean Squared Error) Standardfehler des Koeffizienten i x) 2 n s XY2 sX i i i 1 n x 2 i i 1 n i2 i 1 SS (n 2) (n 2) MSE ˆ 2 n (Yi Yˆi ) 2 /(n 2) i 1 n (Y Yˆ ) i 1 i ˆ * j ˆ j 2 i (x x ) i sx j sy n SQT (Yi Y ) 2 i 1 n SQE (Yˆi Y ) 2 i 1 n SQR (Yi Yˆi ) 2 i 1 n n n i 1 i 1 i 1 2 2 2 (Yi Y ) (Yˆi Y ) (Yi Yˆi ) SQT SQR 12 /(n 2) n i 1 Beta‐Koeffizient nx 2 SE ( ) MSE / SS x SQT (Gesamtstreuung) SQE (erklärte Streuung) SQR (Residualstreuung) x Y nx Y SQE i 2 R2 Anteil der erklärten Varianz n R2 2 (Yˆi Y ) erklärte Streuung SQE i 1 n gesamte Streuung SQT (Y Y ) 2 i i 1 Testgröße Koeffizient j: Teststatistik [H0 verwerfen falls: |T| > t1‐α/2(n‐2)] F‐Test (testet ob R2 signifikant) Tj ˆ j 0 j ~ t (n 2) bzw. t (n p 1) ˆ j n Femp ( yˆ i 1 n (y i 1 1‐‐Konfidenzintervall von βj Korrigiertes R2 i i y )2 / p yˆ i ) 2 /( n p 1) R 2 ( n p 1) (1 R 2 ) p mit p = Zahl der unabhängigen Variablen ˆ j t1 / 2 ˆ j 2 Rkorr 1 n 1 (1 R 2 ) mit p = Zahl der unabhängigen n p 1 Variablen 13