Goethe-Universität Frankfurt Sommersemester 2014 Prof. Dr. Katrin Auspurg Formelsammlung Statistik I (Stand 27.5.2014) Rechenregeln zu Summenzeichen 2 2 2 2 n ∑i=1 xi = x1 + x2 + ... + xn (∑ n i =1 xi ) = ( x1 + x2 + ... + xn ) 2 2 n ∑i=1 xi yi = x1 y1 + x2 y2 + ... + xn yn n n n ∑i=1 ( xi + yi ) = ∑i=1 xi + ∑i=1 yi n 2 n n 2 n ∑i=1 ( xi + yi ) = ∑ i =1 xi + ∑ i=1 2 xi yi + ∑ i=1 yi 2 n n ∑i=1 kxi = k ∑i=1 xi ∑i=1 k = nk n n ∑ j =1 yi x j = yi ∑ j =1 x j n 2 3 2 3 ∑i=1 ∑ j =1 xi y j = (∑i=1 xi )(∑ j =1 y j ) = ( x1 + x2 )( y1 + y2 + y3 ) Univariate Beschreibung/ Maße Kumulierte Häufigkeitsverteilung 0 H( x ) = i n für für x < x (1) x (i) ≤ x < x (i +1) , i = 1, ..., n - 1 für x ≥ x (n) j H ( x) = h(a1 ) + ... + h(a j ) = ∑ hi , i =1 wobei aj ≤ x < aj+1 Empirische Verteilungsfunktion F ( x) = Anteilder Wertexi mit xi ≤ x = p( X ≤ x) = H n( x) . 0 F(x ) = i n 1 für x < x (1) für für x (i) ≤ x < x (i +1) , i = 1, ..., n - 1 x ≥ x (n) j F ( x) = f (a1 ) + ... + f (a j ) = ∑ f i , i =1 wobei aj ≤ x < aj+1 Modus { } x D = x j h j = max h k bzw. f j = max f(x k ) 1 Median für ungerades n x(n +1 ) ~ x = 1 2 2 ( x(n 2 ) + x(n 2 +1) ) für gerades n Median bei gruppierten Daten ~ x = c j−1 + d j ⋅ Quantile Für den p-Quantils-Wert xp gilt: n ( = c j−1 + d j ⋅ 0,5 − Fj−1 fj ) ≥ p und h (X n p − H j−1 hj h X ≤ xp x 2 = x ≥ xp n ) ≥ 1 − p, falls np nicht ganzzahlig np G + 1 x ∈ x , x falls np ganzzahlig p np np + 1 wobei [np]G die zu np nächste kleinere ganze Zahl ist. Arithmetisches Mittel n x= 1 n ∑x i i =1 Arithmethisches Mittel bei gruppierten Daten Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj) unterteilt, so gilt: k x= 1 n k ∑h m = ∑f m j j j =1 j j j=1 Mit: m j = (c j−1 + c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die untere/obere Grenze der Einfallsklasse) Arithmetisches Mittel bei geschichteten Daten Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten x j unterteilt, so gilt: x= 1 n r k j=1 j=1 ∑ h jx j = ∑ f jx j 1 Geometrisches Mittel n n x g = n x1 ⋅ ... ⋅ xn = n ∏ xi = ∏ xi , xi ≥ 0 i =1 i =1 Spannweite (Range) R = x max − x min n 2 Interquartilsabstand und Dezilsabstand dQ = Q3 − Q1 = x0.75 − x0.25 d D = D9 − D1 = x0.9 − x0.1 Wobei xp die Quantile sind. Mittlere absolute Abweichung Varianz n AD = 1 n ∑x k i − x bzw. AD = 1 n ∑h i =1 s2 = 1 n k j aj − x = ∑ f j aj − x j =1 [(x 2 n ] ∑ (x − x ) + ... + (x n − x ) = 2 1 j =1 1 n i i =1 Standardabweichung n s = s2 = 1 n ∑ (x n 2 − x ) = 1n ∑ x i2 − x 2 1=1 − x) 2 i i =1 Stichprobenvarianz n s2 = 1 n −1 ∑ (x − x) 2 i i =1 Verschiebungssatz der Varianz n n i =1 i =1 ∑ (xi − c )2 = ∑ (xi − x )2 + n( x − c )2 Für den Spezialfall c=0 ergibt sich n 2 s = 1 n ∑x 2 i − x2 i =1 Varianz für geschichtete Daten/ Varianzzerlegung Ist die Stichprobe in r Schichten unterteilt, so gilt r 2 s = 1 n ∑n s 2 j j r + j=1 Variationskoeffizient v = xs , 1 n ∑ n (x j j=1 x>0 3 − x) 2 j Herfindahl-Index k HF = 1 − ∑ j =1 ( ) = 1− ∑ f k hj 2 n j =1 2 j mit: k = Anzahl der Kategorien Normierter Herfindahl-Index RHF = kk−1 ⋅ HF, RHF∈ [0,1] Schiefe γ 1 = ms33 mit m3 = 1n ∑ (xi − x )3 n i =1 Wölbung (Kurtosis) n γ2 = m4 s 4 − 3 mit m4 = 1 n ∑ (x i − x) 4 i =1 Konzentrations- und Ungleichheitsmaße Dezilverhältnis Gini-Koeffizient DR = Duncan Index der Segregation = x0.9 x 0 .1 Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und Abszisse = 2 ⋅ Fläche zwischen Diagonale und Lorenzkurve G= G= Normierter Gini-Koeffizient D9 D1 G 2 ∑in=1ix( i ) n ∑in=1 xi − nn+1 ∗= G = n G mit ∗∈[ 0 ,1] G Gmax n −1 n I= 1 2 ∑M i − Fi i =1 wobei Mi und Fi die Anteile von M und F in den Gruppen sind: Mi ≡ mi f und Fi ≡ i m f 4 Bivariate Beschreibung/ Maße Prozentsatzdifferenz %D = ( h11 h12 − ) ⋅ 100 h⋅1 h⋅2 Odds O(a1 , a2 | X = bi ) = Odds Ratio OR = h1i , i = 1, 2 h2i h11 / h21 h11 h22 = ⋅ h12 / h22 h21 h12 Erwartete Häufigkeit bei Unabhängigkeit ~ h i⋅ h . j h ij = n Chi2 ~ 2 ( h − h ij ij ) χ 2 = ∑∑ ~ hij i =1 j =1 Chi2 für 2x2 Kreuztabelle n(h11h22 − h21h12 ) 2 χ = h⋅1h⋅2 h1⋅ h2⋅ k m 2 Phi (nur für 2x2-Tabelle) φ= Cramer’s V (bei k x mTabellen) V= Mit: PRE- Maße χ2 n = ( h11 h22 − h21 h12 ) h⋅1h⋅2 h1⋅ h2⋅ χ 2 n ⋅ min(m − 1, k − 1) m = Anzahl Spalten; k = Anzahl Zeilen E − E2 PRE = 1 E1 Mit: E1: E2: Vorhersagefehler bei Kenntnis der eindimensionalen Häufigkeitsverteilung (Randverteilung) von X. Vorhersagefehler bei Kenntnis der bedingten Verteilung von Y für X = bj, j = 1, … m. 5 Goodman‘s λ PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X: E1 =n − max( hi ⋅ ) i m m E2 = ∑[h⋅ j − max(hij )] = n − ∑ max(hij ) i j =i i j =1 m m (n − max i ( h i⋅ )) − ( n − ∑ max i (h ij )) j=1 λY = Kendall‘s Taub ∑ max = n − max i (h i⋅ ) C−D (C + D + TX )(C + D + TY ) τb = γ= C−D C+D mit γ ∈ [−1, 1] (Definition von C, D: siehe Kendall’s Taub) Korrelationskoeffizient nach Bravais-Pearson n ∑ (x i − x )( yi − y ) i =1 r= = n n i =1 i =1 ∑ ( xi − x ) 2 ∑ ( yi − y ) 2 s XY = 1 n ∑ ( xi − x )( y i − y ) n i =1 sX = 1 n 2 ∑ ( xi − x ) n i =1 n Rechengünstigere Formel: ∑x y i r= i − nxy i =1 n n (∑ x i − nx 2 )(∑ y i − ny 2 ) 2 i =1 i =1 6 2 (h ij ) − max i (h i⋅ ) n − max i (h i⋅ ) mit τ b ∈ [−1, 1] Mit: C = Konkordante Paare D = Diskonkordante Paare Tx = Bindungen (Ties) in X TY = Bindungen (Ties) in Y Goodman und Kruskal‘s Gamma i j=1 s XY s X sY Spearman‘s ρ n ∑[rg ( xi ) − r g X ][rg ( yi ) − r gY ] ρ= i =1 n n i =1 i =1 2 2 ∑[rg ( xi ) − r g X ] ∑ [rg ( yi ) − r gY ] r g X = r gY = Spearman’s ρ falls keine Bindungen (rechengünstigere Formel) n +1 2 n ρ = 1− 6∑ [rg ( xi ) − rg ( yi )]2 i =1 ( n 2 − 1) n Wahrscheinlichkeiten Wahrscheinlichkeit Fakultät Anzahl möglicher Permutationen: Mit Reihenfolge / mit Zurücklegen P ( A) = | A| |Ω| N ! = N ⋅ ( N − 1) ⋅ ( N − 2 ) ⋅ ... ⋅ 2 ⋅ 1 Nn Mit Reihenfolge/ ohne Zurücklegen N! ( N − n)! Ohne Reihenfolge / mit Zurücklegen N + n − 1 ( N + n − 1)! = n ( N − 1)!⋅n! Ohne Reihenfolge / ohne Zurücklegen N N! = n ( N − n )!⋅n! P ( A ∩ B) P( B) Bedingte Wahrscheinlichkeiten P( A | B) = Produktsatz P( A ∩ B) = P( A | B) ⋅ P( B) 7 Stochastische Unanbhängigkeit P ( A | B ) = P ( A) bzw. P ( B | A) = P ( B ) mit P ( B ) > 0 mit P ( A) > 0 P( A∩ B) = P( A) ⋅ P(B) Theorem von Bayes P ( Aj | B ) = P ( B | A j ) ⋅ P ( Aj ) P ( B | Aj ) ⋅ P ( Aj ) = k P( B) ∑ P( B | A ) ⋅ P( A ) i =1 i i x ∈ T = {x1 , x2 ,...} für x ∉ T Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable P ( X = xi ) = p i , f ( x) = = 0, Erwartungswert einer diskreten Zufallsvariable µ = E(X) = x1p1 + ... = ∑ x i pi == ∑ x i f (x i ) für i≥1 i≥1 Rechenregeln für Erwartungswerte Transformationsregel: Für Y = aX + b gilt E(Y) = aE(X) + b Erwartungswert der Summe von ZV E(X + Y) = E(X) + E(Y) Produktregel für unabhängige (!) ZV E(X ∙ Y) = E(X) ∙ E(Y) Varianz einer diskreten Zufallsvariable σ 2 = Var (X) = ∑ ( x i − µ ) 2 p i =∑ ( x i − µ ) 2 f ( x i ) = E(X ²) − µ ² i ≥1 i ≥1 Rechenregeln für Varianzen Transformationsregel: Für Y = aX + b gilt Var(Y) = a2Var(X) Für unabhängige ZV gilt Var(X + Y) = Var(X) + Var(Y) Bernoulli Verteilung Die Zufallsvariable X (Indikator) X=1 falls A eintritt X=0 falls A nicht eintritt ist eine Bernoulli-Variable mit P(A) = π P ( X = 1) = π Bernoulli − Verteilung P ( X = 0) = 1 − π 8 Geometrische Verteilung Wird ein Bernoulli-Experiment mit P(A) = π solange wiederholt, bis zum ersten Mal A eintritt, dann ist die Zufallsvariable X „Anzahl der Versuche bis zum ersten Mal A eintritt“ geometrisch verteilt mit Parameter π : X ~G(π). Es gilt: P(X = x i ) = (1 − π ) x i −1π E(X) 1/ π Binomialverteilung Var(X)= (1- π)/ π² Wiederholt man ein Bernoulli-Experiment mit P(A) = π n-mal, dann ist die Zufallsvariable X = „Anzahl der Versuche, bei denen A eintritt (Trefferzahl)“ binomialverteilt mit den Parametern n und π: X ~B(n,π). Es gilt: n P ( X = x) = π x (1 − π ) n− x x E(X) = nπ Hypergeometrische Verteilung Var(X) = nπ(1- π) Aus einer endlichen Grundgesamtheit von N Einheiten, von denen M eine Eigenschaft A besitzen, wird zufällig n-mal ohne Zurücklegen gezogen. Die Variable X „Anzahl der gezogenen Objekte mit der Eigenschaft A“ ist hypergeometrisch verteilt mit den Parametern n, M und N: X ~ H(n, M, N). Es gilt: M N − M x n − x P( x ) = N n E ( X )=n Dichtefunktion und Verteilungsfunktion stetiger Zufallsvariablen M M M N−n , Var (X ) =n (1 − ) N N N N −1 b P(a ≤ X ≤ b) = ∫ f ( x)dx a +∞ P(−∞ ≤ X ≤ +∞) = ∫ f ( x)dx = 1 −∞ x P( X ≤ x) = F ( x) = ∫ f (t )dt −∞ Zwei stetige ZV X und Y sind unabhängig, falls gilt P ( X ≤ x, Y ≤ y ) = P ( X ≤ x ) ⋅ P (Y ≤ y ) = Fx ( x) ⋅ Fy ( y ) 9 Der Erwartungswert ist definiert als: Die Varianz ist definiert als +∞ µ = E ( x) = ∫ xf ( x)dx −∞ +∞ σ = Var( x) = ∫ ( x − µ ) 2 f ( x)dx 2 −∞ Stetige Gleichverteilung Die Dichtefunktion ist 1 b − a für a ≤ x ≤ b f ( x) = 0 sonst Dichte Normalverteilung Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte: f ( x) = Dichte Standardnormalverteilung 1 ( x − µ )2 1 exp − 2 σ 2π 2 σ N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das Symbol φ(x) verwendet wird: 1 x2 exp − φ ( x) = 2π 2 Verteilungsfunktion der Normalverteilung Verteilungsfunktion der Standardnormalverteilung Z-Standardisierung 1 1 (t − µ ) 2 exp − ⋅ dt −∞ σ 2π σ2 2 x F ( x) = P( X ≤ x) = ∫ x Φ ( x ) = ∫ φ (t ) dt −∞ Z= X − µX σX x − µx = Φ( z) F ( x) = Φ σx 10 t-Verteilung Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ χ2(n) T= F-Verteilung oder Fisher-Verteilung Sind X und Y unabhängige Zufallsvariablen mit X ~ χ2(m) und Y ~ χ2(n) mit m (= Gruppenzahl - 1) und n (= Fallzahl - Gruppenzahl), dann gilt: Z= Konfidenzintervall für µ X Z n X/m ~ F( m , n ) Y/n Fall 1: (X ~N(µ,σ2), σ2 bekannt: X ± z1−α / 2 ⋅ σ n Fall 2: (X ~N(µ,s2), σ2 unbekannt und n < 30 X ± t1−α / 2 (n − 1) ⋅ Approximatives Konfidenzintervall für π S n πˆ (1 − πˆ ) πˆ ± z1−α / 2 ⋅ n Testtheorie Stichprobenverteilung Ist X normalverteilt, so ist die Stichprobenverteilung: X ~ N( µ , σ2 n ) der Standardfehler ist somit σ / n . Sonst gilt laut dem Grenzwertsatz: a X ~ N( µ , σ2 n ) Ab n > 30 ist diese Approximation bereits akzeptabel. Binomialtest für einen Anteilswert πx = π0 ;H1: πx ≠ π0 Sei X = die Anzahl der Fälle mit dem interessierenden Merkmal (Xi = 1 falls das Merkmal vorliegt; Xi = 0 falls nicht), dann gilt: n X =∑ X i ~ B( n, π0) i =1 11 Approximativer Binomialtest für einen Anteilswert Falls nπ ≥ 5 und n(1-π) ≥ 5 kann die Approximation der n ∑X Normalverteilung genutzt werden. Mit X = X = i =1 πx = π0 ;H1: πx ≠ π0 X − nπ 0 Z= nπ 0 (1 − π 0 ) a ~ N(0,1) bzw. Z= a π − nπ 0 π 0 (1 − π 0 ) ~ N(0,1) n Testgrößen für Tests über Mittelwerthypothesen Einstichprobenfall: H0: μx = μ0 ;H1: μx ≠ μ0 Fall 1: σ2 bekannt: (Gauß-Test) Z= X − µ0 n ~ N (0,1) σ Fall 2: σ2 unbekannt T= Zweistichprobenfall (Vergleich zweier Mittelwerte): H0: μ1 = μ2 ;H1: μ1 ≠ μ2) (t-Test) Unabhängige Stichproben X − µ0 n ~ t ( n − 1) S Fall 1: σ2x und σ2ybekannt: Z= X −Y 2 σ x2 σ y n + ~ N (0,1) m Mit n und m = Fallzahlen für X und Y Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y X −Y T= 2 1 1 (n − 1) S x + (m − 1) S y + n+m−2 n m 2 ~ t ( n + m − 2) Fall 3: σ2x und σ2y unbekannt, aber σ2x ≠ σ2y T= X −Y 2 2 Sy Sx + n m ~ t (k ) (Satterthwaite Formel für k 12 siehe Statistikbücher) i gilt: Verbundene D − µ0 T= n ~ t ( n − 1) /abhängige S D Stichproben (H0: μD=μ0 ; H1: μD≠μ0) Mit: μD = D = mittlere Paardifferenz (Di = Xi - Yi) SD = Standardabweichung der Paardifferenz Testgröße für Varianzen F= (Vergleich zweier Varianzen: ( H :σ2 −σ2 =0; H :σ2 −σ2 ≠0 ) 0 1 2 1 1 s12 ~ F(n 1 − 1, n 2 − 1) s 22 Wobei s21 und s22 die Stichprobenvarianzen sind, n1 und n2 die Fallzahlen der beiden Gruppen. 2 (F-Test) Testgröße für signifikante Zusammenhänge in Kreuztabellen: ~ ( hij − hij ) 2 χ = ∑∑ ~ χ 2 (( k − 1) ⋅ ( m − 1)) ~ hij i =1 j =1 k m 2 mit k = Anzahl Zeilen, m = Anzahl Spalten. (H0: kein Zusammenh.; H1: Zusammenhang) Chi²- Unabhängigkeitstest Lineare Regression Regressionsgerade OLS n n n 2 min ∑ (Yi − Yˆ ) 2 = min ∑ εˆi = min ∑ (Yi − αˆ − βˆxi ) 2 α ,β α ,β i =1 α ,β i =1 i =1 αˆ = Y − βˆx n n ∑ ( xi − x )(Yi − Y ) βˆ = n ∑ (x i ∑ x Y − nx Y i i s = XY2 sX i =1 − x )2 = i =1 n ∑x i i =1 2 − nx 2 i =1 Standardfehler des Koeffizienten n ∑ (Y i σˆ ( βˆ ) = MSE / SS x = − Yˆi ) 2 /(n − p − 1) i =1 n ∑(X i i =1 mit p = Zahl der unabhängigen Variablen 13 − X i )2 n 2 R Anteil der erklärten Varianz R2 = 2 ∑ (Yˆi − Y ) erklärte Streuung SQE i =1 = = n gesamte Streuung SQT ∑ (Y − Y ) 2 i i =1 Teststatistik [H0 verwerfen falls: |T| > t1-α/2(n-2)] Testgröße Koeffizient βj: Tj = βˆ j − β 0 j ~ t ( n − 2) bzw. t ( n − p − 1) σˆ j F-Test (testet ob R2 signifikant) n ∑ ( yˆ i Femp = − y )2 / p i =1 n ∑(y i − yˆ i ) 2 /( n − p − 1) i =1 = R 2 ⋅ (n − p − 1) (1 − R 2 ) ⋅ p mit p = Zahl der unabhängigen Variablen 1-α-Konfidenzintervall von βj Korrigiertes R2 βˆ j ± t1− α / 2 ⋅ σˆ j 2 Rkorr = 1 − n −1 (1 − R 2 ) n − p −1 mit p = Zahl der unabhängigen Variablen 14