Formeln zur Statistik (1.1) (1.2) (1.3) (1.4) (1.5) (1.6) (1.7) Mittelwert, Varianz bei Einzelwerten Freiheitsgrade Abweichungsquadrate Lineare Einfach-Regression Multiple lineare Regression, DW-Tabelle A'-Regression VT – Regression (2.1) (2.2) (2.3) (2.4) (2.5) Linearer Trend und Saisonschwankungen Logistischer Trend Gleitende Mittelwerte Wachstumsfaktoren Exponentielles Glätten (3.1) Konzentrationsmaße (3.3) Häufigkeitsverteilung (4.1) (4.2) (4.3) (4.4) (4.5) Wahrscheinlichkeit Chi2-Unabhängigkeitstest Diskrete Zufallsvariable Stichprobenmittel Stetige Zufallsvariable (5.1) (5.2) (5.3) (5.4) (5.5) (5.6) (5.7) (5.8) Binomialverteilung Hypergeometrische Verteilung POISSON-Verteilung Normalverteilung Standard-Normalverteilung Approximationsbedingungen Anpassung und Korrekturfaktoren Chi2 - Anpassungstest (6.1) (6.2) (6.3) (6.4) Konfidenzintervall Hypothesentest σ unbekannt Stichprobe ohne Zurücklegen Tabellen (7.1) Binomialverteilung (7.2) POISSON-Verteilung (7.3) Tabelle FISHER-Prüfmaß xF (7.4) Tabelle Chi2-Prüfmaß χ2 (7.5a)Tabelle STUDENT-Prüfmaß F(t) (7.5b)Tabelle STUDENT-Prüfmaß D(t) (7.6) Standardnormalverteilung FSN Statistik - Neff Formeln zur Statistik (1.1) Maßzahlen bei Einzelwerten Mittelwert bei N bzw. n Einzelwerten xi 1 N In der Grundgesamtheit µ = ∑ xi N i =1 n Statistik - Neff Ax = ∑ ( xi − x ) = ∑ xi 2 − Abweichungsquadrate 2 i=0 s2 = 1 n ∑ xi n i =1 2 1 xi ) ( ∑ n Varianz bei N bzw. n Einzelwerten xi 1 N 1 2 der Grundgesamtheit: σ2 = ∑ ( xi − µ ) = N i =1 N der Stichprobe: x= in der Stichprobe: N ∑x i 2 −µ2 = σn 2 i =1 1 1 n 2 2 − = x x xi − nx 2 = σ n −1 ( ) ∑ ∑ i n − 1 i =1 n − 1 i =1 n Standardabweichung in der Grundgesamtheit: σ = σ2 2 in der Stichprobe: s = s 2 (1.2) Freiheitsgrade ν "nü" Freiheitsgrade ν (df, degrees of freedom) ist die Anzahl der frei wählbaren, unabhängigen Einzelwerte, die in die statistischen Berechnungen einbezogen werden können. a) bei der Stichprobenvarianz n-1 ν = n-p-1 p Anzahl der Einflussgrößen b) beim FISHER-Prüfmaß c) beim STUDENT-t-Prüfmaß in der multiplen Regression: ν = n-p-1 im Hypothesentest: ν = n -1 d) beim Chi2-Prüfmaß χ2 im Unabhängigkeitstest ν = (k - 1) · (l - 1) im Anpassungstest ν=k–p–1 (1.3) Abweichungsquadrate bei Regressionsanalysen SS "Sum of Squares", Summe der Abweichungsquadrate A MS Mittlere Summe der Abweichungsquadrate, Varianz σ2, Mean Sum of Squares p Anzahl der Einflussfaktoren 2 n n yi − yˆi ) ( SS Res ∑ 2 2 MSResiduen = = AError = ∑ ( yi − yˆi ) = ∑ ei = SSResiduen n - p -1 n − p −1 i =1 i =1 2 n SSGesamt ∑ ( yi − yi ) 2 AGesamt = ∑ ( yi − yi ) = SSGesamt MS Gesamt = = = σ n2−1 n − 1 n − 1 i =1 n SS Regression ∑ ( yˆi − yi )2 2 Aerklärt = ∑ ( yˆi − yi ) = SS Regression MS erklärt = = p p i =1 n Bestimmtheitsmaß r 2 = 2 erklärt 2 gesamt s s = ∑ ( yˆi − y ) i =1 n −1 n ∑ ( yi − y ) 2 : i =1 n −1 n 2 ∑ ( yˆ − y ) 2 ∑( y − y ) 2 i = i =1 n i i =1 2 = 1− Adjustiertes Bestimmtheitsmaß radjust FISHER-Prüfgröße xFempir = MSerklärt MS Residuen MS Residuen MSGesamt Formeln zur Statistik Statistik - Neff (1.4) Lineare Einfach-Regression ŷ = m x + b Summe der Abweichungsquadrate Regressionskoeffizienten m = i =1 i =1 n∑ xi 2 − ( ∑ xi ) ( n∑ x i Bestimmtheitsmaß r n n ∑ xi yi − ∑ xi ⋅ ∑ yi r=± Korrelationskoeffizient n AError = ∑ ( yi − yˆi )2 = ∑ ei2 b= 2 1 m yi − ∑ xi ∑ n n n∑ xi yi − ∑ xi ⋅ ∑ yi 2 )( − ( ∑ xi ) ⋅ n∑ yi 2 − ( ∑ yi ) 2 2 ) 2 FISHER-Prüfgröße xFempir = MS erklärt r2 ⋅ n − 2) = 2 ( 1− r MS Residuen Die Nullhypothese wird verworfen, wenn xFempirisch > xFc, α | 1 | ν (1.5) Multiple lineare Regression p Einflussfaktoren, ν = n-p-1 Freiheitsgrade Die Nullhypothese wird verworfen, wenn xFempirisch > xFc, α | p | ν Signifikanter Beitrag des Einflussfaktors xk , wenn | tempirisch | > tc, α | ν Tabelle 7.5a Signifikante Interkorrelation zwischen den Einflussfaktoren xj, xk , wenn rjk > 0,5. Signifikante Autokorrelation, wenn für die DURBIN-WATSON-Prüfgröße gilt: DW1 ∉ [DWunten ; DWoben] n ∑ (e − e ) DW1 = 2 i −1 i i=2 n ∑e 2 i i =1 n ∑ (e − e ) DWk = 2 i −k i i = k +1 n ∑e 2 i i =1 (1.6) A'-Regression ŷ = a ϕ(x) + b Ansatzfunktionen ϕ(x) n Summe der Abweichungsquadrate A = ∑ ( yi − a ϕ( x) − b)2 i =1 a ∑ ( ϕ( xi ) ) + b∑ ϕ( xi ) = ∑ yi ϕ( xi ) a ∑ ϕ( xi ) + nb = ∑ yi 2 Normalgleichungen Regressionskoeffizienten a = n∑ yi ⋅ϕ ( xi ) − ∑ yi ⋅ ∑ ϕ ( xi ) n ∑ (ϕ ( xi ) ) − ( ∑ ϕ ( xi ) ) 2 2 b= 1 a yi − ∑ ϕ ( xi ) ∑ n n Formeln zur Statistik Statistik - Neff (1.7) VT–Regression Lineare Regressionsmodelle mit den Ansatzfunktionen ŷ(x) = a0 + a1ϕ1(x) + a2 ϕ2(x) + … + ak ϕk(x) ϕ i (x) VANDERMONDE-Matrix 1 ϕ0 ( x0 ) ϕ1 ( x0 ) ⋯ ϕk ( x0 ) 1 ϕ0 ( x1 ) ϕ1 ( x1 ) ⋯ ϕk ( x1 ) V= ⋯ 1 ϕ0 ( xm ) ϕ0 ( xm ) ⋯ ϕk ( xm ) VANDERMONDE-Gleichung V·a = y Interpolationswert für x =z ŷ(z) = a0 + a1ϕ1(z) + a2 ϕ2(z) + … + ak ϕk(z) ⇒ V TV a = V T y (2.1) Linearer Trend und Saisonschwankungen Komponentenmodell yi = ŷi + si + iri Saisonschwankungen s i = yi – ŷi Irreguläre Restwerte iri = si – s j = yi – ŷî − s j Prognosewerte p̂ = ŷ(xn+z) + sij sj = 1 k ∑ sij k i =1 (2.2) Logistischer Trend S * = ln − 1 ytransformiert y n ∑ xi ⋅ yi* − ∑ xi ∑ yi* m 1 Regressionskoeffizienten m = b = ∑ yi* − ∑ xi 2 n n n∑ xi2 − ( ∑ xi ) Ansatzfunktion yˆ = S 1 + emx +b (2.3) Gleitende Mittelwerte k vorausgehende und k nachfolgende Zeitreihenwerte Ungerade bzw. gerade Ordnung des gleitenden Mittelwerts m=i+( k-1) 1 1 1 yɶi = yi-k + ∑ ym + yi+k 2k 2 2 m=i-( k-1) 1 m=i+k yɶi = ∑ ym 2k + 1 m=i-k (2.4) Wachstumsfaktoren Indizes Wachstumsfaktoren Bk B0 y xi = i yi −1 I 0,k = (Berichtsperiode k, Basisperiode 0) Zuwachsrate ri = xi – 1 yn Mittlere Zuwachsrate y0 (Es liegen n+1 y-Werte y0, y1, …, yn vor) Mittlerer Wachstumsfaktor GM ( xi ) = n n yn -1 y0 Formeln zur Statistik Statistik - Neff (2.5) Exponentielles Glätten n Beobachtungswerte, Glättungskonstante α ∞ n −1 i =0 i =0 yˆ n +1 = α ∑ (1 − α )i ⋅ yn-i = α ∑ (1 − α )i ⋅ yn-i Prognosewerte, direkt yˆi +1 = α yi+1 + (1 − α ) ⋅ yˆ i Geglättete Werte, rekursiv ∑ ( y − yˆ ) ∑( y − y ) Prognosen für i = n 2 THEIL'scher Ungleichheitskoeffizient U = i i i 2 i −1 Die Prognose ist signifikant besser als die naive Prognose, wenn U < 1 (3.1) Konzentrationsmaße n Merkmalsträger mit den Mengen Mi und den Anteilen an der Merkmalsumme mi. Anteile an den Merkmalsträgern fi. Die k anteilsschwächsten Merkmalsträger. LORENZ-Kurve aus Gini-Koeffizient (3.2) speziell für hi = k x | y = ( k k ) ∑ hi i=1 k ∑m i i=1 KGini = 1 – 2 Aunten mit Aunten = 1 n ∑ ( yi−1 + yi ) ⋅ hi 2 i=1 mit Aunten = 1 n 1 yi − ∑ n i=1 2 1 n LORENZ-Kurve aus GINI-Koeffizient k n ( xk | yk ) = k ∑m i i=1 KGini = 1 – 2 Aunten n HERFINDAHL-Koeffizient K Herfindal = ∑ mi2 i=1 (3.3) Häufigkeitsverteilungen Stichprobenumfang n, Anzahl der Klassen k, ersatzweise Klassenmitten xi* statt xi. n hi = i Relative Häufigkeiten n h Häufigkeitsdichten fi = i ∆xi k Empirische Verteilungsfunktion Fi = F ( xi ) = ∑ hi = h ( X ≤ xi ) i =1 Zentralwert (Median) Mittelwert xz = xi mit Fi = 0,5 k 1 n x = ∑ xi ⋅ ni = ∑ xi ⋅ hi n i =1 i =1 1 k 2 xi ni − n x 2 für n ≤ 200. ∑ n − 1 i =1 s Variationskoeffizient v= x Varianz s2 = Standardabweichung s = + s2 k s 2 = ∑ xi 2 ⋅ hi − x 2 für n > 200. i =1 Formeln zur Statistik (4.1) Wahrscheinlichkeit ( Statistik - Neff ) Statistische Konvergenz lim W lim(hn − p ) = 0 = 1 Allgemeiner Additionssatz W(A ∪B) = W(A) + W(B) − W(A∩B) Allgemeiner Multiplikationssatz W(A∩B) = W(A) · W(B|A) Unabhängige Ereignisse W(A∩B) = W(A) · W(B) Verteilungsfunktion F W(a < X ≤ b) = F(b) – F(a) n →∞ n →∞ (Treffer-Wahrschlk. p) (4.2) Chi2-Unabhängigkeitstest k Zeilen (Anzahl der Kategorien von X), l Spalten (Anzahl der Kategorien von Y). Häufigkeiten nij für den i-ten Wert des Merkmals X und den j-ten Wert des Merkmals Y. Randhäufigkeiten n, ni•, n•j. ni• ⋅ n• j Berechnete Häufigkeiten uij = Voraussetzung für Test ui j ≥ 5 Normierte Abweichungsquadrate 2 Chi -Prüfmaß 2 empirisch chi =χ qij n (n = ij − uij ) 2 uij k 2 empirisch l = ∑ qij = ∑∑ i =1 j=1 Freiheitsgrade für χ2crit | ν | α (n ij − uij ) 2 uij n n n − i• • j k l ij n =∑∑ ni• n• j i =1 j=1 2 n ν = (k - 1) · (l - 1) 2 Unabhängigkeitshypothese wird verworfen, wenn χ2empirisch > χcrit .. (4.3) Diskrete Zufallsvariable k Erwartungswert µ = ∑ xi ⋅ fi i =1 k Erwartete Varianz σ2 = ∑ xi2 ⋅ f i − µ 2 i =1 Erwartete Standardabweichung σ = + σ2 (4.4) Stichprobenmittel X + X 2 + ... + X n X= 1 kommt der Normalverteilung mit zunehmendem n immer näher. n Die Xi müssen nicht selbst normalverteilt sein. Die Xi müssen nicht völlig voneinander unabhängig sein. Erwartungswerte µ ( X ) = µ( X ) Erwartete Varianzen σ( X ) = 1 σ( X ) n σX = σ n Formeln zur Statistik Statistik - Neff (4.5) Stetige Zufallsvariable +∞ Dichtefunktion f mit f(x) ≥ 0 und ∫ f ( x)dx = 1 = 100% −∞ x2 Verteilungsfunktion F F ( x2 ) = ∫ f ( x)dx = W ( X ≤ x2 ) −∞ lim F ( x2 ) = 1 = 100% x2 →∞ b Wahrscheinlichkeit W (a ≤ X ≤ b) = ∫ f ( x)dx = F (b) − F (a) = [ F ( x2 )]ba a +∞ Erwartungswert µ= ∫ x ⋅ f ( x) dx −∞ +∞ Erwartete Varianz σ2 = ∫ +∞ x 2 ⋅ f ( x) dx − µ2 = −∞ Erwartete Standardabweichung ∫ ( x − µ) 2 ⋅ f ( x) dx −∞ σ = + σ2 (5.1) Binomialverteilung Treffer-Wahrscheinlichkeit p, q = 1 – p, Anzahl der Treffer x. n n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ (n − x + 1) n! = Binomialkoeffizienten = x! x !(n − x)! x n n Wahrscheinlichkeitsfunktion W(X = x) = fn,p(x) = p x q n − x = p x (1 − p ) n − x x x k k n FBin | n | p (k ) = ∑ f n, p ( x) =∑ p x q n − x Verteilungsfunktion Tabelle 7.1 x =0 x=0 x Erwartungswert µ=np Erwartete Varianz σ2 = n p q Erwartete Standardabweichung σ = + σ2 (5.2) Hypergeometrische Verteilung N Anzahl der Elemente in der Grundgesamtheit, n Stichprobenumfang M Anzahl der Treffer in der Grundgesamtheit M = N p M M p= . q = 1− p = 1− Treffer-Wahrscheinlichkeit N N M N −M ⋅ x n− x Wahrscheinlichkeitsfunktion W ( X = x) = f Hyp | n , N , M ( x) = N n Erwartungswert µ = n p. N −n Erwartete Varianz σ2 = n p q ⋅ . N −1 Erwartete Standardabweichung σ Hyp = n ⋅ p ⋅ q ⋅ N −n N −n = σ Bin ⋅ N −1 N −1 Formeln zur Statistik Statistik - Neff (5.3) POISSON-Verteilung µ µ und q = 1 − p = 1 − n n x x µ −µ µ f Poi| µ ( x) = ⋅e = x! x! eµ µ = n⋅ p ⇒ p = Erwartungswert Wahrscheinlichkeitsfunktion µx − µ ⋅e x=0 x ! k Verteilungsfunktion FPoi | µ (k ) = ∑ Erwartete Varianz σ2 = µ Tabelle 7.2 (5.4) Normalverteilung 1 x−µ σ 2 − 1 f Norm|µ,σ ( x) = e 2 σ 2π Dichtefunktion 1 W ( X ≤ x2 ) = FNorm|µ,σ ( x2 ) = σ 2π Verteilungsfunktion x2 ∫e 1 x−µ − 2 σ 2 dx −∞ (5.5) Standard-Normalverteilung fSN(z) = Dichtefunktion 1 − z2 1 − 12 z 2 e = 0, 4e 2 2π z 1 2 − 12 z 2 Verteilungsfunktion W ( Z ≤ z ) = FSN ( z ) = ∫e dz 2π −∞ Erwartungswert µ=0 Standardabweichung σ=1 x−µ Standard-Normalvariable z= bzw. x = µ + z ⋅ σ σ x + 0,5 − µ Standardnormalvariable z mit Stetigkeitskorrektur z = σ Tabelle 7.6 (5.6) Approximationsbedingungen Übergang von der Hypergeometrischen V. Binomial-V. Hypergeometrischen V. zur Binomial-V., zur POISSON-V., zur POISSON-V., wenn n/N ≤ 0,05 wenn n/p ≥ 1500 wenn n/N ≤ 0,05 und n/p ≥ 1500 Binomial-V Hypergeometrischen V. POISSON-V. STUDENT-t-V. zur Normalverteilung, wenn σ2 = n p q > 9 zur Normalverteilung, wenn n/N ≤ 0,05 und σ2 = n p q > 9 zur Normalverteilung, wenn µ = σ2 > 9 zur Normalverteilung, wenn n > 30, bei normalverteilter Grundgesamtheit wenn n > 50, bei unbekannter Verteilung der Grundgesamtheit Formeln zur Statistik Statistik - Neff (5.7) Anpassung und Korrekturfaktoren µ, σ aus Grundgesamtheit, x , s aus Stichprobe Diskrete Zufallsvariable X Stichprobenmittel X n/N > 0,05: x + 0,5 − µ (Stetigkeitskorrektur) σ σ x −µ σx = ⇒ z= n σ n z= N −n N −1 σkorrigiert = σ· σ unbekannt, n < 30 bzw. n < 50 t= x−µ s bzw. t= x −µ n s (5.8) Chi2 - Anpassungstest k Klassen [xiunten ; xioben], i = 1, 2, …, k. Signifikanzniveau α. p ist die Anzahl der Parameter ( x , s) , die aus der Stichprobe ermittelt werden. Wahrscheinlichkeiten Wahrscheinlichkeiten Theoretische Häufigkeiten xioben − x s W(–∞ < X ≤ xioben) = FSN(zi) wi = FSN(zi) – FSN(zi – 1) mit FSN(z0) = 0 ui = n · w i . Testgröße χ Prüfmaß Freiheitsgrade Entscheidung χ Standardnormalvariablen zi = k 2 empirisch =∑ ( ni − ui ) i =1 2 crit | 1 – α | ν 2 ui Tabelle 7.5 ν=k–p–1 2 2 ≤ χ crit. Verteilungshypothese bestätigt, wenn χempirisch (6.1) Konfidenzintervall Intervall Intervall-Länge Abweichung σ σ µ ∈ x − zc ; x + zc n n σ µoben − µunten = 2ε = 2 zc n ε= x −µ 2 Stichprobenumfang Kritischer Wert Signifikanzniveau zσ n= c x −µ x −µ zc = n σ D(zc) = 1 – α Formeln zur Statistik (6.2) Hypothesentest Intervall Nullhypothese H0 Empirischer Wert Signifikanzniveau Statistik - Neff x ∈ [µ − z σ X , µ + z σ X ] H0 wird verworfen, wenn zempirisch > zkritisch x −µ zempirisch = n σ D(zc) = 1 – α (6.3) σ unbekannt, n < 30 bzw. n < 50 Kritischer Wert Signifikanzniveau x −µ n s Dν (tc) = 1 – α mit tempirisch = ν = n – 1. (6.4) Stichprobe ohne Zurücklegen, n/N > 0,05 Standardweichung des Stichprobenmittels σx = Notwendiger Stichprobenumfang n≥ σ N −n ⋅ N −1 n N ε 1 + ( N − 1) zc σ 2 Formeln zur Statistik (7.1 a) Statistik - Neff Formeln zur Statistik (7.1 b) Statistik - Neff Formeln zur Statistik (7.2) Statistik - Neff Formeln zur Statistik (7.3) Statistik - Neff Formeln zur Statistik (7.4) Statistik - Neff Formeln zur Statistik (7.5a) Statistik - Neff Formeln zur Statistik (7.5b) Statistik - Neff Formeln zur Statistik (7.6) Statistik - Neff Formeln zur Statistik (7.6) Statistik - Neff