2 - billy online

Werbung
1
Statistik
B
N
Bayes ...............................................9
Bedingte Wahrscheinlichkeit ..........9
Bernoulli-Variable.........................10
Binomialverteilung........................10
Normal-Verteilung ........................ 15
C
P
Paasche ............................................ 5
Poisson-Verteilung........................ 14
Preisindizes ..................................... 5
Chi-Unabhängigkeitstest ...............22
S
E
Erwartungswert .............................12
Spearmanscher Rang....................... 4
Streuung ........................................ 12
G
T
Gauß-Test σ bekannt ...................19
Ginikoeffizient.................................6
Grenzwertsätze ..............................16
Tschebyscheff´sche Ungleichung . 13
t-test σ unbekannt ....................... 20
V
H
Hypergeometrische Verteilung .......8
K
Kombinatorik...................................7
Konfidenzintervalle.......................17
Konfidenznivau -Bestimmung von
n- .................................................18
Varianz .......................................... 12
Varianzanalyse .............................. 23
Varianzzerlegung ............................ 2
Verteilungsfunktion ...................... 11
W
Wahrscheinlichkeit, totale .............. 9
Z
L
Laspeyres .........................................5
Lineare Regression ..........................3
Lorenzkurve.....................................6
Zufallsvariable .............................. 11
2
Varianzzerlegung
2
=
sgesamt
1 c
1 c
2
−
1
+
n
s
ni ( xi − x ) 2
∑( ) i n −1∑
n − 1 i =1 i
i =1
1) Stichprobenaufstellung
Stichproben
I
II
III
Daten
20
35
12
23
20
40
30
11
8
arith. Mittel
17
24
20
10
45
30
20
27
22
23
arith.Mittel
unter den
Stichproben
emp.
Varianz
54,4
175,5
172
2) arithmetisches Mittel der Stichproben und unter den Stichproben berechnen (Achtung: bei unterschiedlichen n
gewichten)
3) empirische Varianz unter den Stichproben berechnen
−
1 n
s =
∑ (x − x)
n − 1 i =1 i
2
2
4) empirische Gesamtvarianz berechnen
− Abstände aller Stichprobenelemente vom arith. Gesamtmittelwert quadrieren, summieren und durch
(n-1) dividieren. 1/14*[(20-23)2+....+(30-23)2] = 1738/14
−
2
sgesamt
1 c
ni ( x i − x ) 2
∑
n − 1 i =1
5) interne Varianz berechnen
− (n-1) jeder Einzelstichprobe mit der Stichprobenvarianz multiplizieren, summieren und durch
Gesamt dividieren. 1/14*[4*54,5+4*175,5+4*172] = 1608/14
−
2
sintern
=
(n-1)
1 c
n i − 1)si2
(
∑
n − 1 i =1
6) externe Varianz berechnen
− Anzahl der Elemente jeder Einzelstichprobe mit der quadrierten Abweichung des
Stichprobenmittelwertes vom Gesamtmittelwert multiplizieren, summieren und durch (n-1) Gesamt
dividieren.
1/14*[5(20-23)2+5(27-23)2+5(22-23)2] = 130/14
−
2
sextern
=
1 c
∑ n ( x − x )2
n − 1 i =1 i i
7) Probe: interne + externe Varianz = Gesamtvarianz
3
Lineare Regression
1) Meßwerte xi, yi, xiyi, xi2, yi2
2) Berechnung:
− arithmetische Mittel von x und y
− Summen von x, y und xy
− Summen von x2 und y2
3) Berechnung
1
∑ x i2 − nx 2
n −1
sx2 =
Gesamtvarianz für x
sx = sx2
1
y i2 − ny 2
∑
n −1
s 2y =
Gesamtvarianz für y
s y = s 2y
sxy =
r=
b=
1
∑ xi yi − nxy
n −1
sxy
sx * s y
sxy
sx 2
a = y − bx
Empirische Kovarianz
Empirischer Korrelationskoeffizient
4
Spearmanscher Rang
kleinster Meßwert erhält niedrigsten Rang
xi
9
22
17
12
yi
1400
1000
3000
3500
Rxi
1
4
3
2
Ryi
2
1
3
4
di
1
3
0
2
di2
1
9
0
4
14
n
rSp = 1 −
6∑ d i2
i =1
2
n( n − 1)
= 1−
6 *14
= 1 − 1,4 = −0,4
4 *15
5
Preisindizes
Ausgangsbeispiel
Gut
1
2
3
Preis des
Gutes im
Jahr 0
p0i
4
6
10
Menge des
Gutes im
Jahr 0
q0i
5
10
8
nach Laspeyres
Preis des
Gutes im
Jahr t
pti
6
8
12
pl0 t =
i =1
n
∑p
i =1
0
i
qi0
Preis t *
Menge 0
Preis 0 *
Menge 0
Preis t *
Menge t
Preis 0 *
Menge t
pti*q0i
30
80
96
206
p0i*q0i
20
60
80
160
pti*qti
36
96
108
240
p0i*qti
24
72
90
186
nach Paasche
n
∑ pit qi0
Menge des
Gutes im
Jahr t
qti
6
12
9
n
206
=
= 1,2875
160
pl0t =
∑p q
i =1
n
t
i
t
i
∑p q
i =1
0 t
i i
=
240
= 1,2903
186
6
Lorenzkurve und Ginikoeffizient
5 Firmen (K) teilen sich einen Markt mit verschiedenen Umsatzanteilen(xK)
Firma (sortiert nach
Größe des Umsatzes)
K
1
2
3
4
5
Umsatz der Firma
xK
5
15
40
60
80
200
kumulierter Umsatz
der Firmen
K/n
UK
0,2
0,4
0,6
0,8
1,0
5
20
60
120
200
Spalte 3/Gesamtsumme
Spalte2
VK
0,025
0,1
0,3
0,6
1,0
Vk
1,0
0,6
0,3
0,1
0,2
0,4
0,6
0,8
1,0
Uk
− je mehr die Lorenzkurve „durchhängt“, desto höher ist die Konzentration des Marktes
− deckt sich die Lorenzkurve mit der Diagonalen, ist der Markt gleichmäßig aufgeteilt
=1*5+2*15+3*40+4*60+5*80=795
n
G* =
2
n −1
∑K*x
k =1
n
∑x
k =1
K
−
n +1
= 0,4875
n −1
K
5+15+40+60+80=200
− wenn Gini=0, dann deckt sich die Lorenzkurve mit der Diagonalen
7
Kombinatorik
Anordnung von n verschiedenen Elementen ohne Berücksichtigung der Anordnung
è n!
Anordnung von n Elementen, wenn k bestimmte Elemente gleich angeordnet bleiben müssen
è (n-k)!*(n-k+1)!*k!
Anordnung von n Elementen, von denen k,l,m jeweils gleiche Elemente sind
è
n!
k !* l !* m!
Auswahl von k Elementen aus n Elementen
è
 n
n!
 =
 k  k !(n − k )!
Kombination k-ter Ordnung aus n verschiedenen Elementen mit Berücksichtigung der Anordnung und beliebige
Wiederholung.
è
nk
Wieviele Worte der Länge 3 kann es bei n=26 Buchstaben geben: 26*26*26=17576
Kombination k-ter Ordnung aus n verschiedenen Elementen mit Berücksichtigung der Anordnung ohne
Wiederholung
è n ( n − 1)( n − 2 )( n − 3)...( n − k + 1)
Wie groß ist die Wahrscheinlichkeit, daß 2 von k Personen am gleichen Tag Geburtstag haben.: k=3; n=365. Möglichkeiten (Menge aller
geordneten Tripel von Zahlen aus 1...365: 365*365*365= 1- ((365*364...(365-k+1))/365*365*365)
8
Hypergeometrische Verteilung
Urnenmodell ohne Zurücklegen
N=Gesamtelemente; M günstige Elemente gesamt; n=Anzahl der zufällig gezogenen Elemente
m=günstige Elemente unter den gezogenen
 M  N − M
  *

 m  n − m 
--> P ( x = m) =
 N
 
 n
Nebenbedingungen:
m<=M und m<=n und m >= 0 und m>= n+M-N
Falls die Nebenbedingungen nicht erfüllt: P(x=m)=0
E(X)= n*(M/N)
D2(X) = n*(M/N)*(1-M/N)*(N-n)/(N-1)
APPROX
àBI-VT
− siehe Approx-Übersicht
àN-VT
− siehe Approx-Übersicht
à Poisson-VT
− siehe Approx-Übersicht
9
Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen
mit P(B) > 0 heißt P(A/B) = P(AB)/P(B) die bedingte WK für A unter der Bedingung B
Sei P(B)>0; P(A)>0
A,B heißen unabhängig, falls P(A/B)=P(A)
A,B sind unabhängig genau dann, wenn P(A/B) = P(A) * P(B) gilt
P(AB) = P(A/B) * P(B)
„A und B“ = P(A) * P(B)
„A oder B“ = P(A) + P(B) - P(AB)
Ereignis E ist eingetreten.
Mit welcher WK tritt Ai unter der Bedingung, daß E eingetreten ist, auf?
Allgemein:
P( Ai / E ) =
P ( E / Ai ) * P( Ai )
P(E )
Satz von der totalen Wahrscheinlichkeit, Satz von Bayes
n
P( E ) = ∑ P( E / Ai ) * P ( Ai )
i =1
P(E) = P(E/A) * P(A) + P(E/B)*P(B) + P(E/C)*P(C)
Tagesproduktion einer Fabrik: 3 Maschinen 50% von Maschine A--> P(A)=0,5;P(B)=0,3;P(C)=0,2
E={Ausschuß} gegeben sei P(E/A)=0,01;P(E/B)=0,02;P(E/C)=0,1 --> Wie groß ist P(E)??
P(E)=P(EA)*P(EB)*P(EC)=0,01*0,5+0,02*0,3+0,1*0,2=0,031
Wieviel des Gesamtausschusses stammen von Maschine C: P(C/E)=(P(E/C)*P(C))/P(E)=(0,1*0,2)/0,031=0,645
64,5 % stammen von der Maschine C!
10
Binomialverteilung
mit Zurücklegen
Treten bei einem Zufallsexperiment nur entweder A oder auf (Bernoulli-Experiment) mit P(A)=p, so ist die WK,
daß bei n unabhängigen Wiederholungen dieses Experimentes genau k-mal das Ereignis auftritt:
n=Größe der Stichprobe; p=WK in Grundgesamtheit; k=Auftreten des Ereignisses in Stichprobe
 n
n− k
P ( X = K ) =   * p k * (1 − p)
Binomialverteilung Bi(n;p)-Verteilung
 k
X(Bi(n,p))
E(X) = n * p
D2(X) = n * p *(1-p)
D(X) =
n * p(1 − p)
Approximation
à Poisson-VT
− siehe Approx-Übersicht
à N-VT (ZGWS)
− siehe Approx-Übersicht
E(x), D2(x) einer Bernoulli-Variablen
Bernoulli-Variable X= 1, falls A auftritt; X=0, falls auftritt
P(A)=p
P()= 1-p
E(X) = p
D2(X) = p(1-p)
D(X) =
p (1 − p )
11
Zufallsvariable (ZV), Verteilungsfunktion
Sei eine ZV gegeben. Dann heißt die für jede reelle Zahl a ( ( definierte Funktion F(a) = P(x<=a) die
Verteilungsfunktion F(a) der ZVn X
Eigenschaften einer VF F(x): X beliebig (stetig oder diskret)
− F(-∞)=0
− F(+∞)=1
− Monotonie: x1<x2 => F(x1)<=F(x2)
Die ZV X heißt diskret, wenn sie nur endlich oder höchstens abzählbar viele Werte annehmen kann.
Eine ZV X heißt stetig, wenn es eine nichtnegative (meist stetige) Funktion f(x) so gibt, daß für alle x(( gilt:
x
F ( x) =
∫ f ( t ) dt
−∞
Die Funktion f(x) heißt Dichte der ZVn X.
Sei X stetig mit der VF F(x)
Dann gilt:
P(a<=X<=b) = F(b) - F(a)
Ferner P(X=a)=0
Sei F(x) eine stetige VF
Sei p eine Zahl mit 0<p<1
Der Wert xp heißt dann 100.p%-Quantil dieser Verteilung, wenn F(xp)=p gilt
Das 50%-Quantil heißt der Median (d.h. links und rechts davon gleiche WK)
12
Erwartungswert E(x), Varianz D2(X) Streuung D(x)
X sei eine diskrete ZV mit Wertebereich {x1,x2,...,xk} und den dazugehörigen WKn (p1,p2,...,pk), d.h.,
pi=P(x=xi) Dann heißt:
k
E(x)
= ∑ x i * pi der Erwartungswert von x.
i =1
X sei eine diskrete ZV mit Wertebereich {x1,x2,...xr} und den zugehörigen WKn (p1,p2,....,pe), d.h. pi=P(X=xi)
Dann heißt:
k
2
D (x)=
∑ (x
i =1
i
− EX )2 * pi die Varianz der ZVn X.
Die Wurzel aus der Varianz D(x) heißt die Streuung.
X sei stetige ZV mit der Dichte f(x) Dann heißt
∞
E(x)=
∫ x * f ( x ) * dx der Erwartungswert von x
−∞
∞
2
D (x)=
∫ ( x − Ex) * f ( x ) * dx die Varianz von x
−∞
D(x)=
D 2 ( x ) die Streuung von X
13
Tschebyscheffsche Ungleichung
Sei X eine beliebige ZV. Dann gilt für alle positiven reellen Zahlen k
P(|X-EX|< k * D(X)) >= 1- 1/k2 d.h.
P(|X-EX| >= k * D(X)) <= 1/k2
Die WK, daß Variable innerhalb des Bereiches zum Liegen kommt, ist 1-1/k2
14
Poisson-VT
endlose Wiederholung einer Binomial-VT
P(X=K)=
λk −λ
e
K!
(P0(λ)-VT)
Wertebereich k=0,1,2,3
X∼P0(λ) => E(X) = D2(X)=λ
Approximation
à Poisson-VT
− siehe Approx-Übersicht
à ZGWS
Seien x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M und D2(xi)=S2<∞. Dann gilt für
n-->∞
x=x1+x2+....+xn ∼approxN(n*M;
n *S)
15
Normal-VT
Die stetige Verteilung mit der Dichte
f (x ) =
1
e
−
( x− µ )2
2σ 2
2πσ
µ ∈ R, σ ∈ R , σ > 0
heißt Normal-VT oder N(µ,σ)-VT
E(x)=µ, D(x)=σ
f(x) ist symmetrisch um µ
f(x) hat Wendepunkte bei µ-σ und µ+σ
I
III
II
a
b
c
d
 d − µ
F ( III ) = 1 − Φ

 σ 
 a − µ
F ( I ) = Φ

 σ 
 c − µ
 b − µ
F ( II ) = Φ
 − Φ

 σ 
 σ 
 σ 
x ∼ N  µ,


n
Additionstheorem
x,y unabhängig
X∼N(µx,σx) und Y∼N(µy,σy)
ð Z=X+Y ist N(µx+µy;
σ x2 + σ y2 )-verteilt
allgemein:
Seien X1,X2,X3,....,Xn paarweise unabhängig und a1,a2,.....,an ∈ R
ð xi∼N(µi,σi)
ð Z=a1X1+a2X2+....+anXn ist N(a1µ1+a2µ2+....+anµn;
a12σ12 +...+ a n2σ n2 )-verteilt
16
Grenzwertsätze
Gesetz der großen Zahl:
x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M. Dann gilt für
x =1/n(x1+ x2 +....+xn)
Für beliebig kleines ∈>0
limnà∞ P(| x -M| ≤ ε = 1 (stochastische Konvergenz)
Zentraler Grenzwertsatz
x1,x2,....,xn unabhängig identisch verteilte (iid) ZV mit E(xi)=M und D2(xi)=S2<∞. Dann gilt für
n-->∞
x=x1+x2+....+xn ∼approxN(n*M;
n *S)
D(X)
= Streuung
=σ
E(X)
= Erwartungswert
=µ
Folgerung:
a) P(X<=x) ( F(x) =
 x − nM 
Φ

 n *S 
b) P(a<= X <=b) ≈ F(b) - F(a) =
 σ 
x ∼ N  µ,


n
 b − nM 
 a − nM 
Φ
 − Φ

 n *S 
 n *S 
17
Konfidenzintervalle
λ = Irrtumsintervall
1-λ = Konfidenzniveau
x = arithmetisches Mittel
s = Stichprobenstreuung
a) Normalverteilung (σ bekannt)
N-VT Tabelle
Z λ *σ
Z λ *σ 

1−
1−


2
2
= 1− λ
P x −
≤µ≤x+
n
n 



bilden ein 100*(1-λ)% Konfidenzintervall für µ
t-VT Tabelle
b) Normalverteilung (σ unbekannt )
*s
* s
t λ
t λ

1− ( n −1)
1− ( n −1)


P x − 2
≤µ≤x+ 2
 = 1− λ
n
n




bilden ein 100*(1-λ)% Konfidenzintervall für µ
c) Binomialverteilung
− k = Auftreten in Stichprobe
$ relative Häufigkeit des Auftretens von k in der Stichprobe
− k/n = p
N-VT Tabelle
− vorher überprüfen k > 4 und n-k > 4
Z λ

1−

2
P p$ −
n


Z
p$ (1 − p$ ) ≤ p ≤ p$ +
1−
λ
2
n
bilden ein 100*(1-λ)% Konfidenzintervall für


p$ (1 − p$ )  = 1 − λ


18
Konfidenzniveau
Berechnung von n
∆p = Hälfte des gewünschten Intervalls
λ = Irrtumsintervall
1) Binomialverteilung
n≥
Z 21− λ2
4 * ( ∆p)
2
2) Normalverteilung
 Z 21− λ * σ 
2

n ≥ 

∆
µ


2
19
Testtheorie 2-Stpr-Gauß-Test
n = gleicher Umfang zweier Stichproben
σ = Streuung (vorgegeben)
λ = Signifikanzniveau
1) Aufstellen der Nullhypothese
H0 = µx-µy
2) Berechnung der arithmetischen Mittelwerte
x,y
3) Berechnung der Testgröße
Z=
x−y
σ
n
2
4) Berechnung des kritischen Wertes
Z
1−
λ
2
aus Tabelle N-VT ablesen
5) Wertung des Ergebnisses
− abs. Testwert ist größer als der kritische Wert => Nullhypothese ist auf dem Signifikanzniveau von
5% abzulehnen
20
2-Stpr-t-test
n = gleicher Umfang zweier Stichproben
σ = Streuung unbekannt
s2 = empirische Varianz
λ = Signifikanzniveau
1) Aufstellen der Nullhypothese
H0 = µx-µy
Zweiseitige Berechnung
oder H0 = µx ≤ µy
oder H0 = µx ≥ µy
einseitig (obere Grenze)
einseitig(untere Grenze)
2) Berechnung der arithmetischen Mittelwerte und der empirischen Varianzen
x , y , s2x , s2y
3) Berechnung der Testgröße
Gleicher Stichprobenumfang
t=
x−y
s +s
2
x
2
y
n
unterschiedlicher Stichprobenumfang n;m
t=
x−y
( n − 1)s + ( m − 1)s
2
x
2
y
nm( n + m − 2)
n+m
4) Berechnung des kritischen Wertes
Gleicher Stichprobenumfang
t
1−
λ
2
(2n-2)
unterschiedlicher Stichprobenumfang n;m
t
1−
λ
2
(n+m-2)
5) Wertung des Ergebnisses
− zweiseitige Berechnung H0 = µx-µy
Testwertbetrag ist größer als der kritische Wert => Nullhypothese ist auf dem Signifikanzniveau
abzulehnen
− einseitige Berechnung (obere Grenze) H0 = µx ≤ µy
Testwert ist größer als der kritische Wert => Nullhypothese ist abzulehnen
− einseitige Berechnung (untere Grenze) H0 = µx ≥ µy
Testwert ist kleiner als der negative kritische Wert => Nullhypothese ist abzulehnen
21
Chi-Quadrat-Anpassungs-Test
n = Stichprobenumfang
α = Signifikanzniveau
r = Anzahl der geschätzten Parameter
u = Testgröße
1) Nullhypothese H0: X∼N(µ,σ) („Die vorliegende Verteilung entspricht einer Normalverteilung“)
2) wenn µ und σ nicht bekannt sind, müssen diese aus der Stichprobe geschätzt werden (r=2)
3) µ= arithmetisches Mittel; σ=s
Diese Werte
nach N-VT
berechnen
4) Tabelle aufstellen (Bsp. Zeilen k=5)
Kriterien
ni (beobachtete Häufigkeiten)
pio (erwartete
Häufigkeiten)
n * pio
(n
i
− npio )
2
npio
0-158
....
182 - ∞
5
....
8
0,0668
....
0,0668
6,68
....
6,68
0,4225
....
0,2608
Σ 2,9472
(u=Testgröße)
5) kritischen Wert berechnen
Χ20,95(Anzahl der Zeilen - r(geschätzte Parameter) -1)
6) Wertung:
wenn u nicht ≥ kritischer Wert, dann H0 beibehalten (N-VT liegt vor)
sonst H0 verwerfen
22
Chi-Quadrat-Unabhängigkeits-Test
Unabhängigkeit
n = Umfang der Stichprobe
α = Signifikanzniveau
r = Anzahl der Reihen
s = Anzahl der Spalten
1) H0: Es liegt Unabhängigkeit vor
2) Grundtabelle
xij
niedrig
mittel
hoch
GESAMT
HS
11
25
14
50
RS
27
39
24
90
GY
22
16
22
60
GESAMT
60
80
60
200
3) Berechnung der erwarteten Häufigkeiten
1
x x
n i• • j
HS
RS
GY
niedrig
15 27 18
mittel
20 36 24
hoch
15 27 18
Faustregel: 80% aller Werte müssen ≥ 5 sein, restliche Werte ≥ 1
4) Berechnung der Testgröße
1


 xij − xi• x• j 


n
1
x x
n i• • j
2
niedrig
mittel
hoch
HS
RS
GY
1,06
1,25
0,06
0
0,25
0,33
0,8
2,6
0,88
Summe aller
Zellen
Σ 7,411
(u=Testgröße)
5) kritischen Wert berechnen
Χ21-α ((r-1)(s-1))
6) Wertung:
wenn u > kritischer Wert, dann H0 ablehnen (es liegt keine Unabhängigkeit vor)
wenn u ≤ kritischer Wert, dann H0 beibehalten (es liegt Unabhängigkeit vor)
23
Varianzanalyse
m = Anzahl der Spalten
c = Anzahl der Reihen
n = Gesamtzahl aller Elemente
W = Testgröße
1) H0: µ1 = µ2 = ... = µc
2) Grundtabelle
xij
6
8
13
5
4
16
5
7
13
8
13
10
xi
s2i
6
8
13
2
14
6
3) arithmetischen Gesamtmittelwert berechnen
4) Summe der empirischen Varianzen berechnen
5) empirische Gesamtvarianz berechnen
s2 =
1 c
∑
n − 1 i=1
∑(
m
j =1
xij − x
)
2
6) interne Gesamtvarianz berechnen
2
sintern
=
1 c
( m − 1)si2
∑
n − 1 i=1
7) externe Gesamtvarianz berechnen
2
sextern
=
1 c
∑ m( xi − x )2
n − 1 i=1
2
S extern
n−c
8) Testgröße berechnen: W = 2
*
S intern c − 1
9) kritischen Wert berechnen: F1-α(c-1;n-c)
10) Wertung
Wenn W > F1-α dann H0 ablehnen (Erwartungswerte sind nicht gleich)
Herunterladen