Goethe‐Universität Frankfurt Sommersemester 2014 Prof. Dr. Katrin Auspurg Formelsammlung Statistik I (Stand 27.5.2014) Rechenregeln zu Summenzeichen 2 2 2 2 n i1 xi x1 x2 ... xn n i 1 xi x1 x2 ... xn 2 2 n i1 xi yi x1 y1 x2 y2 ... xn yn n n n i1 xi yi i1 xi i 1 yi n n n 2 2 n i1 xi yi i 1 xi i1 2 xi yi i 1 yi 2 n n i1 kxi k i 1 xi i1 k nk n n j 1 yi x j yi j 1 x j n 2 3 2 3 i1 j 1 xi y j i 1 xi j 1 y j x1 x2 y1 y2 y3 Univariate Beschreibung/ Maße Kumulierte Häufigkeitsverteilung 0 H( x ) i n x x (1) x (i) x x (i 1) , i 1, ..., n - 1 x x (n) für für für j H ( x) h(a1 ) ... h(a j ) hi , i 1 Empirische Verteilungsfunktion wobei aj ≤ x < aj+1 F ( x) Anteil der Wertexi mit xi x p( X x) H n( x ) . 0 F( x ) i n 1 für für x x (1) x (i) x x (i 1) , i 1, ..., n - 1 x x (n) für j F ( x) f (a1 ) ... f (a j ) f i , i 1 wobei aj ≤ x < aj+1 Modus xD x j h j max h k bzw. f j max f(x k ) 1 Median Median bei gruppierten Daten Quantile für ungerades n xn 1 ~ x 1 2 2 ( xn 2 xn 2 1 ) für gerades n n ~ x c j1 d j 2 H j1 hj c j1 d j 0,5 Fj1 fj Für den p‐Quantils‐Wert xp gilt: p und h X x 1 p , h X xp p n n x x p np falls np nicht ganzzahlig G 1 x x , x falls np ganzzahlig p np np 1 Arithmetisches Mittel Arithmethisches Mittel bei gruppierten Daten wobei [np]G die zu np nächste kleinere ganze Zahl ist. n x 1 n x i 1 i Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj) unterteilt, so gilt: x k 1 n k h m f m j 1 j j j j 1 j Mit: m j (c j1 c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die untere/obere Grenze der Einfallsklasse) Arithmetisches Mittel bei geschichteten Daten Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten x j unterteilt, so gilt: x Geometrisches Mittel 1 n xg n r k j1 j1 h jx j f jx j 2 1 n n x1 ... xn n xi xi , xi 0 i 1 i 1 n Spannweite (Range) R xmax xmin Interquartilsabstand und Dezilsabstand Mittlere absolute Abweichung Varianz Standardabweichung Stichprobenvarianz dQ Q3 Q1 x0.75 x0.25 d D D9 D1 x0.9 x0.1 Wobei xp die Quantile sind. AD 1 n s2 1 n n x i i 1 x x bzw. AD 1 n k h j 1 j 1 2 n s s2 1 n x i 1 x 2 i i 1 i n s2 1 n 1 x i 1 x 2 i Für den Spezialfall c=0 ergibt sich xi c 2 xi x 2 nx c 2 n n i 1 i 1 s 2 1 n n x i 1 2 i x2 Ist die Stichprobe in r Schichten unterteilt, so gilt s 2 r 1 n v xs , n s j1 2 j j x 0 3 n x r 1 n j1 j x 2 j n 2 x 1n x i2 x 2 11 n 1 n Variationskoeffizient x x ... x n x 2 1 k j aj x f j aj x Verschiebungssatz der Varianz Varianz für geschichtete Daten/ Varianzzerlegung Herfindahl‐Index k HF 1 j 1 1 f hj 2 k n j 1 2 j mit: k = Anzahl der Kategorien Normierter Herfindahl‐Index RHF k HF, RHF 0,1 k 1 Schiefe 1 ms33 mit m3 1n xi x 3 n i 1 Wölbung (Kurtosis) 2 m4 s4 3 mit m4 Konzentrations‐ und Ungleichheitsmaße D9 Dezilverhältnis DR Gini‐Koeffizient D1 n 1 n x i 1 i x 4 x 0 .9 x 0 .1 Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und Abszisse 2 Fläche zwischen Diagonale und Lorenzkurve G G Normierter Gini‐Koeffizient Duncan Index der Segregation G n in1 xi nn1 G n G mit 0 ,1 G Gmax n 1 I 1 2 n M i 1 i Fi wobei Mi und Fi die Anteile von M und F in den Gruppen sind: Mi 2 in1ix( i ) mi f und Fi i f m 4 Bivariate Beschreibung/ Maße Prozentsatzdifferenz %D ( Odds Odds Ratio Erwartete Häufigkeit bei Unabhängigkeit Chi2 O(a1 , a2 | X bi ) OR ~ h ij Phi (nur für 2x2‐Tabelle) PRE‐ Maße n ~ (hij hij ) 2 ~ hij i 1 j 1 k m n(h11h22 h21h12 ) 2 h1h2 h1 h2 2 2 n V ( h11 h22 h21 h12 ) h1 h2 h1 h2 2 n min(m 1, k 1) Mit: m = Anzahl Spalten; k = Anzahl Zeilen E1 E2 PRE Mit: E1 E1: Vorhersagefehler bei Kenntnis der eindimensionalen Häufigkeitsverteilung (Randverteilung) von X. E2: Vorhersagefehler bei Kenntnis der bedingten Verteilung von Y für X = bj, j = 1, … m. 5 h1i , i 1, 2 h2i h11 / h21 h11 h22 h12 / h22 h21 h12 h i h . j 2 Chi2 für 2x2 Kreuztabelle Cramer’s V (bei k x m‐ Tabellen) h11 h12 ) 100 h1 h2 Goodman‘s λ PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X: E n max( h ) i 1 i m m E2 [h j max(hij )] n max(hij ) j i j 1 i i m (n max i ( h i )) ( n max i (h ij )) j1 Y Kendall‘s Taub Goodman und Kruskal‘s Gamma Korrelationskoeffizient nach Bravais‐Pearson n max i (h i ) CD CD (Definition von C, D: siehe Kendall’s Taub) n r n n i 1 i 1 ( xi x ) 2 ( yi y ) 2 s XY s X sY 1 n ( xi x )( yi y ) n i 1 sX 1n 2 ( xi x ) n i 1 n r x y i 1 n i i nxy n i 1 2 i 1 6 ( x i nx )( y i ny ) 2 2 2 (h ij ) max i ( h i ) mit b [1, 1] mit [1, 1] ( xi x )( yi y ) i 1 i n max i ( h i ) Mit: C = Konkordante Paare D = Diskonkordante Paare Tx = Bindungen (Ties) in X TY = Bindungen (Ties) in Y s XY j1 CD (C D TX )(C D TY ) b Rechengünstigere Formel: m max Spearman‘s n [rg ( xi ) r g X ][rg ( yi ) r gY ] 2 i 1 Wahrscheinlichkeiten 1 Fakultät Anzahl möglicher Permutationen: Mit Reihenfolge / mit Zurücklegen Mit Reihenfolge/ ohne Zurücklegen n 1 2 n Wahrscheinlichkeit Ohne Reihenfolge / mit Zurücklegen P ( A) 6 [rg ( xi ) rg ( yi )]2 i 1 Bedingte Wahrscheinlichkeiten Produktsatz (n 1)n | A| || N ! N ( N 1) ( N 2 ) ... 2 1 N n N! (N n)! N n 1 ( N n 1)! n ( N 1)!n! N N! n ( N n)!n! P( A | B) P( A B) P( B) P( A B) P( A | B) P( B) 7 2 Ohne Reihenfolge / ohne Zurücklegen 2 i 1 r g X r gY n [rg ( xi ) r g X ] [rg ( yi ) r gY ] Spearman’s falls keine Bindungen (rechengünstigere Formel) i 1 n Stochastische Unanbhängigkeit P ( A | B ) P ( A) bzw. mit P ( B ) 0 P ( B | A) P ( B ) mit P ( A) 0 P( A B) P( A) P(B) Theorem von Bayes P ( Aj | B ) P ( B | Aj ) P ( Aj ) P ( B | Aj ) P ( Aj ) k P( B) P( B | A ) P( A ) i 1 Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable Erwartungswert einer diskreten Zufallsvariable Varianz einer diskreten Zufallsvariable Bernoulli Verteilung P ( X xi ) p i , f ( x) 0, x T x1 , x2 ,... für x T E(X) x1p1 ... x i pi x i f (x i ) i 1 i 1 Rechenregeln für Erwartungswerte Transformationsregel: Für Y = aX + b gilt E(Y) = aE(X) + b Erwartungswert der Summe von ZV E(X + Y) = E(X) + E(Y) Produktregel für unabhängige (!) ZV E(X ∙ Y) = E(X) ∙ E(Y) 2 Var (X) ( x i ) 2 p i ( x i ) 2 f ( x i ) E(X ²) ² i 1 i 1 Rechenregeln für Varianzen Transformationsregel: Für Y = aX + b gilt Var(Y) = a2Var(X) Für unabhängige ZV gilt Var(X + Y) = Var(X) + Var(Y) Die Zufallsvariable X (Indikator) X = 1 falls A eintritt X = 0 falls A nicht eintritt ist eine Bernoulli‐Variable mit P(A) = π P ( X 1) 8 i für Bernoulli Verteilung P ( X 0) 1 i Geometrische Verteilung Binomialverteilung Wird ein Bernoulli‐Experiment mit P(A) = π solange wiederholt, bis zum ersten Mal A eintritt, dann ist die Zufallsvariable X „Anzahl der Versuche bis zum ersten Mal A eintritt“ geometrisch verteilt mit Parameter π : X ~G(π). Es gilt: P(X x i ) (1 ) x i 1 E(X) 1/ π Var(X)= (1‐ π)/ π² Wiederholt man ein Bernoulli‐Experiment mit P(A) = π n‐mal, dann ist die Zufallsvariable X = „Anzahl der Versuche, bei denen A eintritt (Trefferzahl)“ binomialverteilt mit den Parametern n und π: X ~B(n,π). Es gilt: n P ( X x) x (1 ) n x x Hypergeometrische Verteilung E(X) = nπ Var(X) = nπ(1‐ π) Aus einer endlichen Grundgesamtheit von N Einheiten, von denen M eine Eigenschaft A besitzen, wird zufällig n‐mal ohne Zurücklegen gezogen. Die Variable X „Anzahl der gezogenen Objekte mit der Eigenschaft A“ ist hypergeometrisch verteilt mit den Parametern n, M und N: X ~ H(n, M, N). Es gilt: M N M x n x P( x ) N n E (X)n Dichtefunktion und Verteilungsfunktion stetiger Zufallsvariablen M M M Nn , Var (X) n (1 ) N N N N 1 b P(a X b) f ( x)dx a P( X ) f ( x)dx 1 x P( X x) F ( x) f (t )dt Zwei stetige ZV X und Y sind unabhängig, falls gilt P( X x, Y y ) P( X x) P(Y y ) Fx ( x) Fy ( y ) 9 Der Erwartungswert ist definiert als: E ( x) xf ( x)dx Die Varianz ist definiert als Var ( x) ( x ) 2 f ( x)dx 2 Stetige Gleichverteilung Dichte Normalverteilung Die Dichtefunktion ist 1 b a für a x b f ( x) 0 sonst Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte: 1 ( x )2 1 f ( x) exp 2 2 2 Dichte Standardnormalverteilung N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das Symbol φ(x) verwendet wird: 1 x2 exp 2 2 ( x) Verteilungsfunktion der Normalverteilung Verteilungsfunktion der Standardnormalverteilung Z‐Standardisierung 1 1 (t ) 2 exp dt 2 2 2 x F ( x) P ( X x) x ( x ) (t ) dt Z X X X x x ( z ) F ( x) x 10 t‐Verteilung Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ 2(n) T F‐Verteilung oder Fisher‐Verteilung Sind X und Y unabhängige Zufallsvariablen mit X ~ 2(m) und Y ~ 2(n) mit m (= Gruppenzahl ‐ 1) und n (= Fallzahl ‐ Gruppenzahl), dann gilt: Z Konfidenzintervall für X Z n X/m ~ F( m , n ) Y/n Fall 1: (X ~N(,2), 2 bekannt: X z1 / 2 n Fall 2: (X ~N(,s2), 2 unbekannt und n < 30 S X t1 / 2 (n 1) Approximatives Konfidenzintervall für Testtheorie Stichprobenverteilung ˆ z1 / 2 n ˆ (1 ˆ ) n Ist X normalverteilt, so ist die Stichprobenverteilung: 2 X ~ N( , ) n der Standardfehler ist somit / n . Sonst gilt laut dem Grenzwertsatz: 2 a X ~ N ( , ) n Ab n > 30 ist diese Approximation bereits akzeptabel. 11 Binomialtest für einen Anteilswert x = 0 ;H1: x ≠ 0 Sei X = die Anzahl der Fälle mit dem interessierenden Merkmal (Xi = 1 falls das Merkmal vorliegt; Xi = 0 falls nicht), dann gilt: n X X i ~ B( n, 0) i 1 Approximativer Binomialtest Falls n ≥ 5 und n(1‐) ≥ 5 kann die Approximation der n für einen Anteilswert Normalverteilung genutzt werden. Mit X = X X i gilt: i 1 x = 0 ;H1: x ≠ 0 a X n 0 Z n 0 (1 0 ) ~ N(0,1) bzw. Z a x 0 0 (1 0 ) ~ N(0,1) n Testgrößen für Tests über Mittelwerthypothesen Einstichprobenfall: H0: μx = μ0 ;H1: μx ≠ μ0 Fall 1: σ2 bekannt: (Gauß‐Test) Z X 0 n ~ N (0,1) Fall 2: σ2 unbekannt T X 0 n ~ t ( n 1) S Fall 1: σ2x und σ2ybekannt: Zweistichprobenfall (Vergleich zweier X Y Z ~ N (0,1) Mittelwerte): 2 2 x H0: μ1 = μ2 ;H1: μ1 ≠ μ2) y n m (t‐Test) Mit n und m = Fallzahlen für X und Y Unabhängige Stichproben Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y T X Y 2 1 1 (n 1) S x (m 1) S y nm2 n m 12 2 ~ t (n m 2) 2 2 Fall 3: σ2x und σ2y unbekannt, aber σ x ≠ σ y T X Y 2 2 Sy Sx n m ~ t (k ) (Satterthwaite Formel für k siehe Statistikbücher) Verbundene D 0 T n ~ t ( n 1) /abhängige SD Stichproben (H0: μD=μ0 ; H1: μD≠μ0) Mit: μD = D = mittlere Paardifferenz (Di = Xi ‐ Yi) SD = Standardabweichung der Paardifferenz Testgröße für Varianzen 2 F s1 ~ F(n 1 1, n 2 1) s 22 (Vergleich zweier Varianzen: 2 2 ( H :2 2 0; H :2 2 0 ) Wobei s 1 und s 2 die Stichprobenvarianzen sind, n1 und n2 die 0 1 2 1 1 2 Fallzahlen der beiden Gruppen. (F‐Test) ~ k m (h h ) 2 Testgröße für signifikante ij ij 2 ~ 2 (( k 1) ( m 1)) ~ Zusammenhänge in hij i 1 j 1 Kreuztabellen: (H0: kein Zusammenh.; H1: Zusammenhang) Chi²‐ Unabhängigkeitstest Lineare Regression Regressionsgerade OLS n n n 2 min (Yi Yˆ ) 2 min ˆi min (Yi ˆ ˆxi ) 2 , , i 1 i 1 , i 1 ˆ Y ˆx n n ˆ ( xi x )(Yi Y ) i 1 n ( xi x ) 2 i 1 13 s XY2 sX xiYi nx Y i 1 n 2 xi nx 2 i 1 Mittlere quadratische Abweichung (Mean Squared Error) Standardfehler des Koeffizienten n i2 i 1 n (Y Yˆ ) i i 1 i ˆ * j ˆ j sx j 2 /( n 2) n (x x ) i i 1 SQT (Gesamtstreuung) SQE (erklärte Streuung) SQR (Residualstreuung) (Yi Yˆi ) 2 /(n 2) i 1 SE ( ) MSE / SS x Beta‐Koeffizient n SS (n 2) (n 2) MSE ˆ 2 2 i sy n SQT (Yi Y ) 2 i 1 n SQE (Yˆi Y ) 2 i 1 n SQR (Yi Yˆi ) 2 i 1 n n n i 1 i 1 i 1 2 2 2 (Yi Y ) (Yˆi Y ) (Yi Yˆi ) SQT SQR SQE R2 Anteil der erklärten Varianz Testgröße Koeffizient j: Teststatistik [H0 verwerfen falls: |T| > t1‐α/2(n‐2)] ˆ j 0 j F‐Test (testet ob R2 signifikant) n (Yˆi Y ) 2 erklärte Streuung SQE 2 i 1 n R gesamte Streuung SQT (Y Y ) 2 i i 1 Tj n Femp ( yˆ i 1 n (y i 1 ~ t ( n 2) bzw. t ( n p 1) ˆ j i i y )2 / p yˆ i ) 2 /( n p 1) R 2 ( n p 1) (1 R 2 ) p mit p = Zahl der unabhängigen Variablen 14 1‐‐Konfidenzintervall von βj Korrigiertes R2 ˆ j t1 / 2 ˆ j 2 Rkorr 1 n 1 (1 R 2 ) mit p = Zahl der unabhängigen n p 1 Variablen 15