1 Statistik B N Bayes ...............................................9 Bedingte Wahrscheinlichkeit ..........9 Bernoulli-Variable.........................10 Binomialverteilung........................10 Normal-Verteilung ........................ 15 C P Paasche ............................................ 5 Poisson-Verteilung........................ 14 Preisindizes ..................................... 5 Chi-Unabhängigkeitstest ...............22 S E Erwartungswert .............................12 Spearmanscher Rang....................... 4 Streuung ........................................ 12 G T Gauß-Test σ bekannt ...................19 Ginikoeffizient.................................6 Grenzwertsätze ..............................16 Tschebyscheff´sche Ungleichung . 13 t-test σ unbekannt ....................... 20 V H Hypergeometrische Verteilung .......8 K Kombinatorik...................................7 Konfidenzintervalle.......................17 Konfidenznivau -Bestimmung von n- .................................................18 Varianz .......................................... 12 Varianzanalyse .............................. 23 Varianzzerlegung ............................ 2 Verteilungsfunktion ...................... 11 W Wahrscheinlichkeit, totale .............. 9 Z L Laspeyres .........................................5 Lineare Regression ..........................3 Lorenzkurve.....................................6 Zufallsvariable .............................. 11 2 Varianzzerlegung 2 = sgesamt 1 c 1 c 2 − 1 + n s ni ( xi − x ) 2 ∑( ) i n −1∑ n − 1 i =1 i i =1 1) Stichprobenaufstellung Stichproben I II III Daten 20 35 12 23 20 40 30 11 8 arith. Mittel 17 24 20 10 45 30 20 27 22 23 arith.Mittel unter den Stichproben emp. Varianz 54,4 175,5 172 2) arithmetisches Mittel der Stichproben und unter den Stichproben berechnen (Achtung: bei unterschiedlichen n gewichten) 3) empirische Varianz unter den Stichproben berechnen − 1 n s = ∑ (x − x) n − 1 i =1 i 2 2 4) empirische Gesamtvarianz berechnen − Abstände aller Stichprobenelemente vom arith. Gesamtmittelwert quadrieren, summieren und durch (n-1) dividieren. 1/14*[(20-23)2+....+(30-23)2] = 1738/14 − 2 sgesamt 1 c ni ( x i − x ) 2 ∑ n − 1 i =1 5) interne Varianz berechnen − (n-1) jeder Einzelstichprobe mit der Stichprobenvarianz multiplizieren, summieren und durch Gesamt dividieren. 1/14*[4*54,5+4*175,5+4*172] = 1608/14 − 2 sintern = (n-1) 1 c n i − 1)si2 ( ∑ n − 1 i =1 6) externe Varianz berechnen − Anzahl der Elemente jeder Einzelstichprobe mit der quadrierten Abweichung des Stichprobenmittelwertes vom Gesamtmittelwert multiplizieren, summieren und durch (n-1) Gesamt dividieren. 1/14*[5(20-23)2+5(27-23)2+5(22-23)2] = 130/14 − 2 sextern = 1 c ∑ n ( x − x )2 n − 1 i =1 i i 7) Probe: interne + externe Varianz = Gesamtvarianz 3 Lineare Regression 1) Meßwerte xi, yi, xiyi, xi2, yi2 2) Berechnung: − arithmetische Mittel von x und y − Summen von x, y und xy − Summen von x2 und y2 3) Berechnung 1 ∑ x i2 − nx 2 n −1 sx2 = Gesamtvarianz für x sx = sx2 1 y i2 − ny 2 ∑ n −1 s 2y = Gesamtvarianz für y s y = s 2y sxy = r= b= 1 ∑ xi yi − nxy n −1 sxy sx * s y sxy sx 2 a = y − bx Empirische Kovarianz Empirischer Korrelationskoeffizient 4 Spearmanscher Rang kleinster Meßwert erhält niedrigsten Rang xi 9 22 17 12 yi 1400 1000 3000 3500 Rxi 1 4 3 2 Ryi 2 1 3 4 di 1 3 0 2 di2 1 9 0 4 14 n rSp = 1 − 6∑ d i2 i =1 2 n( n − 1) = 1− 6 *14 = 1 − 1,4 = −0,4 4 *15 5 Preisindizes Ausgangsbeispiel Gut 1 2 3 Preis des Gutes im Jahr 0 p0i 4 6 10 Menge des Gutes im Jahr 0 q0i 5 10 8 nach Laspeyres Preis des Gutes im Jahr t pti 6 8 12 pl0 t = i =1 n ∑p i =1 0 i qi0 Preis t * Menge 0 Preis 0 * Menge 0 Preis t * Menge t Preis 0 * Menge t pti*q0i 30 80 96 206 p0i*q0i 20 60 80 160 pti*qti 36 96 108 240 p0i*qti 24 72 90 186 nach Paasche n ∑ pit qi0 Menge des Gutes im Jahr t qti 6 12 9 n 206 = = 1,2875 160 pl0t = ∑p q i =1 n t i t i ∑p q i =1 0 t i i = 240 = 1,2903 186 6 Lorenzkurve und Ginikoeffizient 5 Firmen (K) teilen sich einen Markt mit verschiedenen Umsatzanteilen(xK) Firma (sortiert nach Größe des Umsatzes) K 1 2 3 4 5 Umsatz der Firma xK 5 15 40 60 80 200 kumulierter Umsatz der Firmen K/n UK 0,2 0,4 0,6 0,8 1,0 5 20 60 120 200 Spalte 3/Gesamtsumme Spalte2 VK 0,025 0,1 0,3 0,6 1,0 Vk 1,0 0,6 0,3 0,1 0,2 0,4 0,6 0,8 1,0 Uk − je mehr die Lorenzkurve „durchhängt“, desto höher ist die Konzentration des Marktes − deckt sich die Lorenzkurve mit der Diagonalen, ist der Markt gleichmäßig aufgeteilt =1*5+2*15+3*40+4*60+5*80=795 n G* = 2 n −1 ∑K*x k =1 n ∑x k =1 K − n +1 = 0,4875 n −1 K 5+15+40+60+80=200 − wenn Gini=0, dann deckt sich die Lorenzkurve mit der Diagonalen 7 Kombinatorik Anordnung von n verschiedenen Elementen ohne Berücksichtigung der Anordnung è n! Anordnung von n Elementen, wenn k bestimmte Elemente gleich angeordnet bleiben müssen è (n-k)!*(n-k+1)!*k! Anordnung von n Elementen, von denen k,l,m jeweils gleiche Elemente sind è n! k !* l !* m! Auswahl von k Elementen aus n Elementen è n n! = k k !(n − k )! Kombination k-ter Ordnung aus n verschiedenen Elementen mit Berücksichtigung der Anordnung und beliebige Wiederholung. è nk Wieviele Worte der Länge 3 kann es bei n=26 Buchstaben geben: 26*26*26=17576 Kombination k-ter Ordnung aus n verschiedenen Elementen mit Berücksichtigung der Anordnung ohne Wiederholung è n ( n − 1)( n − 2 )( n − 3)...( n − k + 1) Wie groß ist die Wahrscheinlichkeit, daß 2 von k Personen am gleichen Tag Geburtstag haben.: k=3; n=365. Möglichkeiten (Menge aller geordneten Tripel von Zahlen aus 1...365: 365*365*365= 1- ((365*364...(365-k+1))/365*365*365) 8 Hypergeometrische Verteilung Urnenmodell ohne Zurücklegen N=Gesamtelemente; M günstige Elemente gesamt; n=Anzahl der zufällig gezogenen Elemente m=günstige Elemente unter den gezogenen M N − M * m n − m --> P ( x = m) = N n Nebenbedingungen: m<=M und m<=n und m >= 0 und m>= n+M-N Falls die Nebenbedingungen nicht erfüllt: P(x=m)=0 E(X)= n*(M/N) D2(X) = n*(M/N)*(1-M/N)*(N-n)/(N-1) APPROX àBI-VT − siehe Approx-Übersicht àN-VT − siehe Approx-Übersicht à Poisson-VT − siehe Approx-Übersicht 9 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen mit P(B) > 0 heißt P(A/B) = P(AB)/P(B) die bedingte WK für A unter der Bedingung B Sei P(B)>0; P(A)>0 A,B heißen unabhängig, falls P(A/B)=P(A) A,B sind unabhängig genau dann, wenn P(A/B) = P(A) * P(B) gilt P(AB) = P(A/B) * P(B) „A und B“ = P(A) * P(B) „A oder B“ = P(A) + P(B) - P(AB) Ereignis E ist eingetreten. Mit welcher WK tritt Ai unter der Bedingung, daß E eingetreten ist, auf? Allgemein: P( Ai / E ) = P ( E / Ai ) * P( Ai ) P(E ) Satz von der totalen Wahrscheinlichkeit, Satz von Bayes n P( E ) = ∑ P( E / Ai ) * P ( Ai ) i =1 P(E) = P(E/A) * P(A) + P(E/B)*P(B) + P(E/C)*P(C) Tagesproduktion einer Fabrik: 3 Maschinen 50% von Maschine A--> P(A)=0,5;P(B)=0,3;P(C)=0,2 E={Ausschuß} gegeben sei P(E/A)=0,01;P(E/B)=0,02;P(E/C)=0,1 --> Wie groß ist P(E)?? P(E)=P(EA)*P(EB)*P(EC)=0,01*0,5+0,02*0,3+0,1*0,2=0,031 Wieviel des Gesamtausschusses stammen von Maschine C: P(C/E)=(P(E/C)*P(C))/P(E)=(0,1*0,2)/0,031=0,645 64,5 % stammen von der Maschine C! 10 Binomialverteilung mit Zurücklegen Treten bei einem Zufallsexperiment nur entweder A oder auf (Bernoulli-Experiment) mit P(A)=p, so ist die WK, daß bei n unabhängigen Wiederholungen dieses Experimentes genau k-mal das Ereignis auftritt: n=Größe der Stichprobe; p=WK in Grundgesamtheit; k=Auftreten des Ereignisses in Stichprobe n n− k P ( X = K ) = * p k * (1 − p) Binomialverteilung Bi(n;p)-Verteilung k X(Bi(n,p)) E(X) = n * p D2(X) = n * p *(1-p) D(X) = n * p(1 − p) Approximation à Poisson-VT − siehe Approx-Übersicht à N-VT (ZGWS) − siehe Approx-Übersicht E(x), D2(x) einer Bernoulli-Variablen Bernoulli-Variable X= 1, falls A auftritt; X=0, falls auftritt P(A)=p P()= 1-p E(X) = p D2(X) = p(1-p) D(X) = p (1 − p ) 11 Zufallsvariable (ZV), Verteilungsfunktion Sei eine ZV gegeben. Dann heißt die für jede reelle Zahl a ( ( definierte Funktion F(a) = P(x<=a) die Verteilungsfunktion F(a) der ZVn X Eigenschaften einer VF F(x): X beliebig (stetig oder diskret) − F(-∞)=0 − F(+∞)=1 − Monotonie: x1<x2 => F(x1)<=F(x2) Die ZV X heißt diskret, wenn sie nur endlich oder höchstens abzählbar viele Werte annehmen kann. Eine ZV X heißt stetig, wenn es eine nichtnegative (meist stetige) Funktion f(x) so gibt, daß für alle x(( gilt: x F ( x) = ∫ f ( t ) dt −∞ Die Funktion f(x) heißt Dichte der ZVn X. Sei X stetig mit der VF F(x) Dann gilt: P(a<=X<=b) = F(b) - F(a) Ferner P(X=a)=0 Sei F(x) eine stetige VF Sei p eine Zahl mit 0<p<1 Der Wert xp heißt dann 100.p%-Quantil dieser Verteilung, wenn F(xp)=p gilt Das 50%-Quantil heißt der Median (d.h. links und rechts davon gleiche WK) 12 Erwartungswert E(x), Varianz D2(X) Streuung D(x) X sei eine diskrete ZV mit Wertebereich {x1,x2,...,xk} und den dazugehörigen WKn (p1,p2,...,pk), d.h., pi=P(x=xi) Dann heißt: k E(x) = ∑ x i * pi der Erwartungswert von x. i =1 X sei eine diskrete ZV mit Wertebereich {x1,x2,...xr} und den zugehörigen WKn (p1,p2,....,pe), d.h. pi=P(X=xi) Dann heißt: k 2 D (x)= ∑ (x i =1 i − EX )2 * pi die Varianz der ZVn X. Die Wurzel aus der Varianz D(x) heißt die Streuung. X sei stetige ZV mit der Dichte f(x) Dann heißt ∞ E(x)= ∫ x * f ( x ) * dx der Erwartungswert von x −∞ ∞ 2 D (x)= ∫ ( x − Ex) * f ( x ) * dx die Varianz von x −∞ D(x)= D 2 ( x ) die Streuung von X 13 Tschebyscheffsche Ungleichung Sei X eine beliebige ZV. Dann gilt für alle positiven reellen Zahlen k P(|X-EX|< k * D(X)) >= 1- 1/k2 d.h. P(|X-EX| >= k * D(X)) <= 1/k2 Die WK, daß Variable innerhalb des Bereiches zum Liegen kommt, ist 1-1/k2 14 Poisson-VT endlose Wiederholung einer Binomial-VT P(X=K)= λk −λ e K! (P0(λ)-VT) Wertebereich k=0,1,2,3 X∼P0(λ) => E(X) = D2(X)=λ Approximation à Poisson-VT − siehe Approx-Übersicht à ZGWS Seien x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M und D2(xi)=S2<∞. Dann gilt für n-->∞ x=x1+x2+....+xn ∼approxN(n*M; n *S) 15 Normal-VT Die stetige Verteilung mit der Dichte f (x ) = 1 e − ( x− µ )2 2σ 2 2πσ µ ∈ R, σ ∈ R , σ > 0 heißt Normal-VT oder N(µ,σ)-VT E(x)=µ, D(x)=σ f(x) ist symmetrisch um µ f(x) hat Wendepunkte bei µ-σ und µ+σ I III II a b c d d − µ F ( III ) = 1 − Φ σ a − µ F ( I ) = Φ σ c − µ b − µ F ( II ) = Φ − Φ σ σ σ x ∼ N µ, n Additionstheorem x,y unabhängig X∼N(µx,σx) und Y∼N(µy,σy) ð Z=X+Y ist N(µx+µy; σ x2 + σ y2 )-verteilt allgemein: Seien X1,X2,X3,....,Xn paarweise unabhängig und a1,a2,.....,an ∈ R ð xi∼N(µi,σi) ð Z=a1X1+a2X2+....+anXn ist N(a1µ1+a2µ2+....+anµn; a12σ12 +...+ a n2σ n2 )-verteilt 16 Grenzwertsätze Gesetz der großen Zahl: x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M. Dann gilt für x =1/n(x1+ x2 +....+xn) Für beliebig kleines ∈>0 limnà∞ P(| x -M| ≤ ε = 1 (stochastische Konvergenz) Zentraler Grenzwertsatz x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M und D2(xi)=S2<∞. Dann gilt für n-->∞ x=x1+x2+....+xn ∼approxN(n*M; n *S) D(X) = Streuung =σ E(X) = Erwartungswert =µ Folgerung: a) P(X<=x) ( F(x) = x − nM Φ n *S b) P(a<= X <=b) ≈ F(b) - F(a) = σ x ∼ N µ, n b − nM a − nM Φ − Φ n *S n *S 17 Konfidenzintervalle λ = Irrtumsintervall 1-λ = Konfidenzniveau x = arithmetisches Mittel s = Stichprobenstreuung a) Normalverteilung (σ bekannt) N-VT Tabelle Z λ *σ Z λ *σ 1− 1− 2 2 = 1− λ P x − ≤µ≤x+ n n bilden ein 100*(1-λ)% Konfidenzintervall für µ t-VT Tabelle b) Normalverteilung (σ unbekannt ) *s * s t λ t λ 1− ( n −1) 1− ( n −1) P x − 2 ≤µ≤x+ 2 = 1− λ n n bilden ein 100*(1-λ)% Konfidenzintervall für µ c) Binomialverteilung − k = Auftreten in Stichprobe $ relative Häufigkeit des Auftretens von k in der Stichprobe − k/n = p N-VT Tabelle − vorher überprüfen k > 4 und n-k > 4 Z λ 1− 2 P p$ − n Z p$ (1 − p$ ) ≤ p ≤ p$ + 1− λ 2 n bilden ein 100*(1-λ)% Konfidenzintervall für p$ (1 − p$ ) = 1 − λ 18 Konfidenzniveau Berechnung von n ∆p = Hälfte des gewünschten Intervalls λ = Irrtumsintervall 1) Binomialverteilung n≥ Z 21− λ2 4 * ( ∆p) 2 2) Normalverteilung Z 21− λ * σ 2 n ≥ ∆ µ 2 19 Testtheorie 2-Stpr-Gauß-Test n = gleicher Umfang zweier Stichproben σ = Streuung (vorgegeben) λ = Signifikanzniveau 1) Aufstellen der Nullhypothese H0 = µx-µy 2) Berechnung der arithmetischen Mittelwerte x,y 3) Berechnung der Testgröße Z= x−y σ n 2 4) Berechnung des kritischen Wertes Z 1− λ 2 aus Tabelle N-VT ablesen 5) Wertung des Ergebnisses − abs. Testwert ist größer als der kritische Wert => Nullhypothese ist auf dem Signifikanzniveau von 5% abzulehnen 20 2-Stpr-t-test n = gleicher Umfang zweier Stichproben σ = Streuung unbekannt s2 = empirische Varianz λ = Signifikanzniveau 1) Aufstellen der Nullhypothese H0 = µx-µy Zweiseitige Berechnung oder H0 = µx ≤ µy oder H0 = µx ≥ µy einseitig (obere Grenze) einseitig(untere Grenze) 2) Berechnung der arithmetischen Mittelwerte und der empirischen Varianzen x , y , s2x , s2y 3) Berechnung der Testgröße Gleicher Stichprobenumfang t= x−y s +s 2 x 2 y n unterschiedlicher Stichprobenumfang n;m t= x−y ( n − 1)s + ( m − 1)s 2 x 2 y nm( n + m − 2) n+m 4) Berechnung des kritischen Wertes Gleicher Stichprobenumfang t 1− λ 2 (2n-2) unterschiedlicher Stichprobenumfang n;m t 1− λ 2 (n+m-2) 5) Wertung des Ergebnisses − zweiseitige Berechnung H0 = µx-µy Testwertbetrag ist größer als der kritische Wert => Nullhypothese ist auf dem Signifikanzniveau abzulehnen − einseitige Berechnung (obere Grenze) H0 = µx ≤ µy Testwert ist größer als der kritische Wert => Nullhypothese ist abzulehnen − einseitige Berechnung (untere Grenze) H0 = µx ≥ µy Testwert ist kleiner als der negative kritische Wert => Nullhypothese ist abzulehnen 21 Chi-Quadrat-Anpassungs-Test n = Stichprobenumfang α = Signifikanzniveau r = Anzahl der geschätzten Parameter u = Testgröße 1) Nullhypothese H0: X∼N(µ,σ) („Die vorliegende Verteilung entspricht einer Normalverteilung“) 2) wenn µ und σ nicht bekannt sind, müssen diese aus der Stichprobe geschätzt werden (r=2) 3) µ= arithmetisches Mittel; σ=s Diese Werte nach N-VT berechnen 4) Tabelle aufstellen (Bsp. Zeilen k=5) Kriterien ni (beobachtete Häufigkeiten) pio (erwartete Häufigkeiten) n * pio (n i − npio ) 2 npio 0-158 .... 182 - ∞ 5 .... 8 0,0668 .... 0,0668 6,68 .... 6,68 0,4225 .... 0,2608 Σ 2,9472 (u=Testgröße) 5) kritischen Wert berechnen Χ20,95(Anzahl der Zeilen - r(geschätzte Parameter) -1) 6) Wertung: wenn u nicht ≥ kritischer Wert, dann H0 beibehalten (N-VT liegt vor) sonst H0 verwerfen 22 Chi-Quadrat-Unabhängigkeits-Test Unabhängigkeit n = Umfang der Stichprobe α = Signifikanzniveau r = Anzahl der Reihen s = Anzahl der Spalten 1) H0: Es liegt Unabhängigkeit vor 2) Grundtabelle xij niedrig mittel hoch GESAMT HS 11 25 14 50 RS 27 39 24 90 GY 22 16 22 60 GESAMT 60 80 60 200 3) Berechnung der erwarteten Häufigkeiten 1 x x n i• • j HS RS GY niedrig 15 27 18 mittel 20 36 24 hoch 15 27 18 Faustregel: 80% aller Werte müssen ≥ 5 sein, restliche Werte ≥ 1 4) Berechnung der Testgröße 1 xij − xi• x• j n 1 x x n i• • j 2 niedrig mittel hoch HS RS GY 1,06 1,25 0,06 0 0,25 0,33 0,8 2,6 0,88 Summe aller Zellen Σ 7,411 (u=Testgröße) 5) kritischen Wert berechnen Χ21-α ((r-1)(s-1)) 6) Wertung: wenn u > kritischer Wert, dann H0 ablehnen (es liegt keine Unabhängigkeit vor) wenn u ≤ kritischer Wert, dann H0 beibehalten (es liegt Unabhängigkeit vor) 23 Varianzanalyse m = Anzahl der Spalten c = Anzahl der Reihen n = Gesamtzahl aller Elemente W = Testgröße 1) H0: µ1 = µ2 = ... = µc 2) Grundtabelle xij 6 8 13 5 4 16 5 7 13 8 13 10 xi s2i 6 8 13 2 14 6 3) arithmetischen Gesamtmittelwert berechnen 4) Summe der empirischen Varianzen berechnen 5) empirische Gesamtvarianz berechnen s2 = 1 c ∑ n − 1 i=1 ∑( m j =1 xij − x ) 2 6) interne Gesamtvarianz berechnen 2 sintern = 1 c ( m − 1)si2 ∑ n − 1 i=1 7) externe Gesamtvarianz berechnen 2 sextern = 1 c ∑ m( xi − x )2 n − 1 i=1 2 S extern n−c 8) Testgröße berechnen: W = 2 * S intern c − 1 9) kritischen Wert berechnen: F1-α(c-1;n-c) 10) Wertung Wenn W > F1-α dann H0 ablehnen (Erwartungswerte sind nicht gleich)