Formelsammlung Grundzüge der Statistik für die

Werbung
Formelsammlung Grundzüge der Statistik
für die Veranstaltungen Statistik I und Statistik II
im Grundstudium
Prof. Dr. Claudia Becker
Lehrstuhl für Statistik
Inhaltsverzeichnis
1 Summenzeichen
5
2 Häufigkeitsverteilungen
2.1 Absolute Häufigkeit . . . . . .
2.2 Relative Häufigkeit . . . . . . .
2.3 Histogramm . . . . . . . . . . .
2.4 Empirische Verteilungsfunktion
.
.
.
.
3 Lagemaße
3.1 Lagemaße I: Daten als Urliste . .
3.1.1 Arithmetisches Mittel . .
3.1.2 Geometrisches Mittel . . .
3.1.3 Median (Zentralwert) . .
3.1.4 Modus (Modalwert) . . .
3.1.5 p-Quantile (0 < p < 1) . .
3.2 Lagemaße II: Urliste, unklassierte
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
und klassierte Häufigkeitsverteilung
4 Streuungsmaße
4.1 Spannweite (Range) . . . . . . . . . . . . . . . . . . . . . .
4.2 Interquartilsabstand . . . . . . . . . . . . . . . . . . . . . .
4.3 Mediane absolute Abweichung vom Median (MAD) . . . . .
4.4 Empirische Varianz I: Daten als Urliste . . . . . . . . . . .
4.5 Empirische Varianz II: Urliste, unklassierte und klassierte
keitsverteilung . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Stichprobenvarianz . . . . . . . . . . . . . . . . . . . . . . .
4.7 Standardabweichung . . . . . . . . . . . . . . . . . . . . . .
4.8 Standardisierung . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . .
5
5
5
5
5
5
5
5
6
6
6
6
7
8
8
8
8
8
. . . . .
. . . . .
. . . . .
. . . . .
Häufig. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
9
10
10
10
10
5 Schiefemaße
5.1 Lageregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Schiefekoeffizient nach Pearson (Momentenkoeffizient) . . . . . . . .
10
10
10
6 Konzentrationsmaße
6.1 Relative Konzentration .
6.1.1 Gini-Koeffizient .
6.1.2 Lorenzkurve . . .
6.2 Absolute Konzentration
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Mehrdimensionale Merkmale
7.1 Kontingenztafeln . . . . . . . . . . . . . . . . . . . . .
7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . .
7.2.1 Bedingte Verteilung von X . . . . . . . . . . .
7.2.2 Bedingte Verteilung von Y . . . . . . . . . . .
7.2.3 Rekonstruktion der gemeinsamen Häufigkeiten
7.3 Zusammenhangsanalyse in Kontingenztafeln . . . . . .
7.3.1 Hypothetische absolute Häufigkeit
(bei Unabhängigkeit der Merkmale) . . . . . .
7.3.2 Chi-Quadrat Koeffizent . . . . . . . . . . . . .
7.3.3 Kontingenzkoeffizent . . . . . . . . . . . . . . .
7.3.4 Korrigierter Kontingenzkoeffizent . . . . . . . .
7.4 Zusammenhangsmaße bei metrischen Merkmalen . . .
7.4.1 Korrelationskoeffizient nach Bravais-Pearson
(linearer Zusammenhang) . . . . . . . . . . . .
7.4.2 Empirische Kovarianz von X und Y . . . . . .
7.4.3 Rangkorrelationskoeffizient nach Spearman
(monotoner Zusammenhang) . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
10
12
12
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
12
12
12
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
13
. . . . . . . .
. . . . . . . .
13
13
. . . . . . . .
14
8 Wahrscheinlichkeitsrechnung
8.1 Mengenoperationen . . . . . . . . . . . . . . . . . . . .
8.2 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . .
8.2.1 Laplace-Wahrscheinlichkeiten . . . . . . . . . .
8.2.2 Rechenregeln für Wahrscheinlichkeiten . . . . .
8.2.3 Bedingte Wahrscheinlichkeit von A gegeben B .
8.2.4 Satz von der totalen Wahrscheinlichkeit . . . .
8.2.5 Satz von Bayes . . . . . . . . . . . . . . . . . .
8.2.6 Unabhängigkeit von zwei Ereignissen . . . . . .
.
.
.
.
.
.
.
.
14
14
14
14
14
15
15
15
15
9 Zufallsstichproben
9.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Anzahl möglicher Stichproben . . . . . . . . . . . . . . . . . . . . . .
15
15
15
10 Eindimensionale Zufallsvariablen
10.1 Dichte . . . . . . . . . . . . . . . . . . . . . .
10.2 Verteilungsfunktion . . . . . . . . . . . . . . .
10.3 Rechnen mit Verteilungsfunktion und Dichte
10.4 Modus . . . . . . . . . . . . . . . . . . . . . .
10.5 Erwartungswert . . . . . . . . . . . . . . . . .
10.5.1 Definition . . . . . . . . . . . . . . . .
10.5.2 Transformationen . . . . . . . . . . . .
10.6 Varianz und Standardabweichung . . . . . . .
10.7 Quantile . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
16
17
17
17
17
17
18
11 Mehrdimensionale Zufallsvariablen
11.1 Gemeinsame Dichte und Randdichte . . . . . . . .
11.2 Bedingte Dichte . . . . . . . . . . . . . . . . . . .
11.3 Unabhängigkeit von Zufallsvariablen . . . . . . . .
11.4 Kovarianz . . . . . . . . . . . . . . . . . . . . . . .
11.4.1 Diskrete Zufallsvariablen . . . . . . . . . . .
11.4.2 Stetige Zufallsvariablen . . . . . . . . . . .
11.5 Rechenregeln Erwartungswert, Varianz, Kovarianz
11.6 Korrelationskoeffizient . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
18
18
19
19
19
19
12 Diskrete Verteilungen
12.1 Bernoulli-Verteilung . . . . . . .
12.2 Binomialverteilung . . . . . . . .
12.3 Die hypergeometrische Verteilung
12.4 Die Poisson-Verteilung . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
20
20
13 Stetige Verteilungen
13.1 Die stetige Gleichverteilung (Rechteckverteilung) auf [a, b] . .
13.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . .
13.2.1 Eigenschaften . . . . . . . . . . . . . . . . . . . . . . .
13.2.2 Bestimmung von Wahrscheinlichkeiten P (a ≤ X ≤ b) .
13.2.3 Bestimmung von Quantilen . . . . . . . . . . . . . . .
13.3 t-Verteilung mit n Freiheitsgraden (Student t-Verteilung) . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
21
21
21
21
14 Schätzer
14.1 Schätzer für Erwartungswert und Varianz . . . . . . . . . . . . . . .
14.2 Konfidenzintervalle für µ im Normalverteilungsmodell . . . . . . . .
14.3 Approximative Konfidenzintervalle für µ . . . . . . . . . . . . . . . .
22
22
22
22
15 Statistische Hypothesentests
15.1 Gauß-Test . . . . . . . . . .
15.2 t-Test . . . . . . . . . . . .
15.3 Approximativer Gauß-Test .
15.4 Test auf einen Anteil . . . .
15.5 χ2 Unabhängigkeitstest . .
23
23
23
23
23
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16 Einfache lineare Regression
16.1 Kleinste Quadrate Schätzer für die Regressionskoeffizienten . . . . .
16.2 Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
24
24
17 Analyse zeitlicher Verläufe
17.1 Komponentenmodelle für Zeitreihen . . . . . . .
17.2 Lineares Trendmodell . . . . . . . . . . . . . . .
17.3 Einfacher gleitender Durchschnitt der Ordnung p
17.4 Indexzahlen . . . . . . . . . . . . . . . . . . . . .
17.4.1 Umsatzindex . . . . . . . . . . . . . . . .
17.4.2 Preisindex nach Laspeyres . . . . . . . . .
17.4.3 Preisindex nach Paasche . . . . . . . . . .
17.4.4 Mengenindex nach Laspeyres . . . . . . .
17.4.5 Mengenindex nach Paasche . . . . . . . .
17.4.6 Index von March . . . . . . . . . . . . . .
25
25
25
25
25
25
26
26
26
26
26
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Summenzeichen
X
n
X
(xi + yi ) =
n
X
c xi = c
i=1
n
X
i=1
2
2.1
X
xi +
X
yi
xi
i=1
c=n·c
Häufigkeitsverteilungen
Absolute Häufigkeit
hj = h(aj ) = Anzahl der Fälle in denen Ausprägung aj auftritt
aj = j-te Merkmalsausprägung
mit j = 1, ..., k
Es gilt:
k
X
hj = n
j=1
2.2
Relative Häufigkeit
h(aj )
fj = f (aj ) =
n
2.3
Es gilt:
k
X
fj = 1
j=1
Histogramm
√
Klasseneinteilung: bei n Beobachtungen ≈ n
Klassenbreite (dj ) = obere Klassengrenze - untere Klassengrenze = x0j − xuj
fjr = Höhe =
2.4
fj
dj
Empirische Verteilungsfunktion
Für unklassierte Häufigkeitsverteilung (Urliste muss in Häufigkeitsverteilung überführt
werden)
X
X
F (x) =
f (aj ) =
fj (kumulierte relative Häufigkeit)
j:aj ≤x
j:aj ≤x
Für klassierte Häufigkeitsverteilung


0
, x < xu1

x−xu
F (x) =
kumfj−1 + dj j · fj , xu1 ≤ x < xok


1
, xok ≤ x
3
3.1
3.1.1
Lagemaße
Lagemaße I: Daten als Urliste
Arithmetisches Mittel
n
1X
x=
xi
n i=1
(für Urliste)
5
Bei linearer Transformation: xi 7→ yi = a · xi + b ⇒ y = a · x + b
Ã
!
r
r
X
1X
nj xj wobei n =
x=
nj , Mittelwert aus Teilgesamtheiten (r Schichten)
n j=1
j=1
3.1.2
Geometrisches Mittel
Beobachtete Reihe des Merkmals X (Zeitreihe): x0 , x1 , ..., xn
rt =
xt − xt−1
xt−1
wt = 1 + rt =
•
(Wachstumsrate)
xt
xt−1
(Wachstumsfaktor)
durchschnittlicher Wachstumsfaktor wgeom
xn = x0 · wngeom
v
u n
uY
√
n
wgeom = t
wt = n w1 · w2 · ... · wn
t=1
wgeom =
•
r
n
p
xn
= n (1 + r1 ) · (1 + r2 ) · ... · (1 + rn )
x0
durchschnittliche Wachstumsrate rgeom
rgeom = wgeom − 1
3.1.3
Median (Zentralwert)
Ordnungsstatistiken x(1) ≤ . . . ≤ x(n)
xmed =
3.1.4

 x( n+1
2 )

1
n
2 (x( 2 )
, falls n ungerade
+ x( n2 +1) )
, falls n gerade
Modus (Modalwert)
Ausprägung mit größter relativer Häufigkeit.
Nicht bestimmbar, wenn mehrere Ausprägungen größte relative Häufigkeit besitzen.
Modalitätsgrad: relative Häufigkeit des Modus in Prozent = fmod · 100%
3.1.5
p-Quantile (0 < p < 1)
xp =


 x([n·p]+1)


1
2
¡
x(n·p) + x(n·p +1)
¢
, wenn n · p nicht ganzzahlig, wobei [n · p] die
zu n · p nächst kleinere ganze Zahl
, wenn n · p ganzzahlig
Fünf-Punkte-Zusammenfassung:
Teilt den Wertebereich in 4 Intervalle die jeweils ca. ein Viertel der Werte enthalten.
x(1)
x0.25
xmed
x0.75
x(n)
...
...
...
...
...
kleinster Wert
unteres Quantil
Median
oberes Quantil
größter Wert
6
Arithmetisches Mittel
Urliste
unklassierte Häufigkeitsverteilung
n
P
xi
x = n1
k
k
P
P
aj · h(aj ) =
aj · f (aj )
x = n1
3.2
j=1
j=1
Nutze Klassenmitten mj =
x=
1
n
k
P
j=1
m j · nj =
k
P
j=1
xoj +xu
j
2
mj · fj
(Näherung)
p-Quantil
Urliste
(
xp =
unklassierte Häufigkeitsverteilung
x([np]+1)
, np nicht ganzzahl.
1
(x
+
x
)
,
np ganzzahlig
(np)
(np+1)
2
klassierte Häufigkeitsverteilung
(1) Suche nach der Ausprägung aj , bei der (1) Bestimme Klasse, in der kumfj = p erstkumfj = p erstmals überschritten oder mals überschritten wird
genau erreicht wird
(2) xp = xuj + (p − kumfj−1 ) · dfjj
(2a) Wird p bei aj überschritten:
x p = aj
(2b) Wird p genau bei aj erreicht:
xp = aj +a2 j+1
Median
Urliste
unklassierte Häufigkeitsverteilung
klassierte Häufigkeitsverteilung
Nutze Rechenvorschriften für p-Quantile mit p=0.5
Modus
unklassierte Häufigkeitsverteilung
Urliste
Die Merkmalsausprägung aj mit der größten Häufigkeit h(aj ) bildet den Modus
klassierte Häufigkeitsverteilung
(1) Modalklasse: Klasse j mit größter Besetzungsdichte fjr = fj /dj
(2) Näherung für Modus:
xo +xu
xmod = j 2 j
7
Lagemaße II: Urliste, unklassierte und klassierte Häufigkeitsverteilung
i=1
klassierte Häufigkeitsverteilung
4
4.1
Streuungsmaße
Spannweite (Range)
R = x(n) − x(1)
4.2
Interquartilsabstand
dQ = x0.75 − x0.25
4.3
Mediane absolute Abweichung vom Median (MAD)
M AD = med
4.4
©
ª
|xi − xmed |, i = 1, . . . , n
Empirische Varianz I: Daten als Urliste
n
1X
se =
(xi − x)2
n i=1
2
1
se =
n
2
Ã
r
X
j=1
nj ·
se2j
Bei linearer Transformation:
=
Ã
n
1X 2
x
n i=1 i
r
X
nj · (xj −x)2
+
j=1
!
− x2
(Verschiebungssatz)
,Varianz aus Teilgesamtheiten (r Schichten)
xi 7→ yi = a · xi + b ⇒ se2y = a2 · se2x
Ist X normalverteilt (großes n) gilt:
x ± se
x ± 2 · se
x ± 3 · se
!
→ ca. 68% aller Beobachtungen
→ ca. 95% aller Beobachtungen
→ ca. 99% aller Beobachtungen
8
4.5
unklassierte Häufigkeitsverteilung
Urliste
se2 =
1
n
n
P
i=1
(xi − x)2
se2 =
=
k
P
j=1
1
n
k
P
j=1
(aj − x)2 · h(aj )
(aj − x)2 · f (aj )
klassierte Häufigkeitsverteilung
se2 = se2ext + se2int
Einzelwerte xij in den Klassen unbekannt;
Klassenmittelwerte xj können nicht berechnet werden;
xo +xu
Verwende daher die Klassenmitten mj = j 2 j
(a) Es liegen Informationen über Klassenvarianzen se2j vor:
se2 =
=
k
P
j=1
1
n
k
P
j=1
(mj − x)2 · nj +
2
(mj − x) · fj +
k
P
j=1
1
n
se2j
k
P
j=1
· fj
se2j · nj
(b) Keine Informationen über se2j ; Setze se2j = 0:
se2 =
Verschiebungssatz der Varianz
Urliste
se2 =
1
n
unklassierte Häufigkeitsverteilung
n
P
i=1
x2i − x2
se2 =
=
k
P
j=1
1
n
k
P
j=1
a2j
a2j · h(aj ) − x2
· f (aj ) − x
2
1
n
k
P
j=1
(mj − x)2 · nj =
k
P
j=1
(mj − x)2 · fj
klassierte Häufigkeitsverteilung
(a) Es liegen Informationen über Klassenvarianzen se2j vor:
se2 =
=
k
P
j=1
1
n
k
P
j=1
m2j · nj − x2 +
m2j · fj − x2 +
k
P
j=1
1
n
k
P
j=1
se2j · fj
se2j · nj
(b) Keine Informationen über se2j ; Setze se2j = 0:
se2 =
1
n
k
P
j=1
m2j · nj − x2 =
k
P
j=1
m2j · fj − x2
9
Empirische Varianz II: Urliste, unklassierte und klassierte Häufigkeitsverteilung
Varianz
4.6
Stichprobenvarianz
n
1
1 X
s =
(xi − x)2 =
n − 1 i=1
n−1
2
4.7
4.8
se =
√
i=1
x2i
2
−n·x
!
(Verschiebungssatz)
se2
Standardisierung
xi − x
1
1
·xi −
=
·x
sex
sex
se
| x{z }
|{z}
a
Es gilt:
z=0
und
b
se2z = 1
Variationskoeffizient
v=
5
n
X
Standardabweichung
xi 7→ zi =
4.9
Ã
se
x
Schiefemaße
5.1
Lageregeln
• xmod < xmed < x → rechtsschief
• xmod = xmed = x → symmetrisch
• x < xmed < xmod → linksschief
5.2
Schiefekoeffizient nach Pearson (Momentenkoeffizient)
Pn
1
(xi − x)3
gm = q n Pi=1
n
( n1 i=1 (xi − x)2 )3
• gm > 0 → rechtsschief
• gm = 0 → symmetrisch
• gm < 0 → linksschief
6
6.1
6.1.1
Konzentrationsmaße
Relative Konzentration
Gini-Koeffizient
Wertebereich:
0≤G≤
n−1
n
Normierter Gini-Koeffizient
Wertebereich:
G∗ =
0 ≤ G∗ ≤ 1
n
G
n−1
10
Relative Konzentration
Urliste
Gini-Koeffizient
G=
n
P
i=1
q
∈
i=1
ui−1 · vei − 1
G=
j=1
1, 2, ..., n
fq =
nq
n
=
1
n
k
P
f (aq ) =
h(aq )
n
klassierte
Häufigkeitsverteilung
uj · vej +
∈
k
P
j=1
uj−1 · vej − 1
1, 2, ..., k
h(aq )
= P
k
fq =
nq
n
h(aj )
nq
= P
k
nj
j=1
j=1
11
relative
Häufigkeit
n
P
ui · vei +
unklassierte
Häufigkeitsverteilung
kumulierte rel.
Häufigkeit
uq =
q
P
i=1
fi =
x
relativer
Merkmalsanteil
(q)
veq = P
n
kumulierter rel.
Merkmalsanteil
vq =
xi
i=1
q
P
i=1
vei
q
n
uq =
q
P
j=1
f (aj )
uq =
aq ·h(aq )
aq ·f (aq )
veq = P
= P
k
k
aj ·h(aj )
j=1
aj ·f (aj )
j=1
vq =
q
P
j=1
vej
mq ·nq
veq = P
k
q
P
j=1
mj ·nj
j=1
vq =
fj
mq ·fq
= P
k
mj ·fj
j=1
q
P
j=1
vej
6.1.2
Lorenzkurve
Streckenzug durch
(0, 0) = (u0 , v0 ), (u1 , v1 ), ..., (un , vn ) = (1, 1)
bzw.
(0, 0) = (u0 , v0 ), (u1 , v1 ), ..., (uk , vk ) = (1, 1)
6.2
(Urliste)
(unklassierte oder klassierte Häufigkeitsverteilung)
Absolute Konzentration
Index nach Hirschmann/Herfindahl. Beschreibt die absolute Konzentration.
Pn
Es muss gelten: i=1 xi > 0. Wertebereich: n1 ≤ H ≤ 1
H=
n
P
i=1
vei2
(Urliste)
V 2 +1
n
mit V =
H=
V 2 +1
n
mit V =
7
Mehrdimensionale Merkmale
H=
7.1
s
e
x
(unklassierte Häufigkeitsverteilung)
s
e
x
(klassierte Häufigkeitsverteilung)
Kontingenztafeln
(k x m)-Kontingenztafel
ai - Zeilen
bj - Spalten
i = 1, . . . , k
j = 1, . . . , m
hij = h(ai , bj )
. . . absolute Häufigkeit der Kombination (ai , bj )
fij = f (ai , bj ) =
fi• =
fij =
hi•
, i = 1, . . . , k
n
. . . relative Randhäufigkeiten von X
k
X
fij =
h•j
, j = 1, . . . , m
n
. . . relative Randhäufigkeiten von Y
i=1
7.2
. . . relative Häufigkeit der Kombination (ai , bj )
m
X
j=1
f•j =
hij
n
Bedingte Verteilungen
7.2.1
Bedingte Verteilung von X
fX (ai |bj ) =
hij
fij
=
f•j
h•j
fX (a1 |bj ), . . . , fX (ak |bj ) heißt bedingte Verteilung von X geg. Y = bj
Es gilt:
7.2.2
Pk
i=1
fX (ai |bj ) = 1 für jedes feste j, j = 1, . . . , m
Bedingte Verteilung von Y
fY (bj |ai ) =
fij
hij
=
fi•
hi•
fY (b1 |ai ), . . . , fY (bm |ai ) heißt bedingte Verteilung von Y geg. X = ai
Es gilt:
Pm
j=1
fY (bj |ai ) = 1 für jedes feste i, i = 1, . . . , k
12
7.2.3
Rekonstruktion der gemeinsamen Häufigkeiten
fij = fY (bj |ai ) · fi•
7.3
7.3.1
Hypothetische absolute Häufigkeit
(bei Unabhängigkeit der Merkmale)
hi• · h•j
n
Chi-Quadrat Koeffizent
m
k X
X
(hij − eij )2
eij
i=1 j=1
χ2 =
7.3.3
s
χ2
n + χ2
K ∗ ≤ 0.2
0.2 < K ∗ ≤ 0.5
0.5 < K ∗ < 0.8
0.8 ≤ K ∗
7.4.1
"
, K ∈ 0,
q
M −1
M
#
, wobei M = min{k, m}
Korrigierter Kontingenzkoeffizent
K∗ = q
7.4
, χ2 ∈ [0, ∞)
Kontingenzkoeffizent
K=
7.3.4
fij = fX (ai |bj ) · f•j
Zusammenhangsanalyse in Kontingenztafeln
eij =
7.3.2
bzw.
K
, K ∗ ∈ [0, 1]
M −1
M
→
→
→
→
kein wesentlicher Zusammenhang
schwacher Zusammenhang
deutlicher Zusammenhang
starker Zusammenhang
Zusammenhangsmaße bei metrischen Merkmalen
Korrelationskoeffizient nach Bravais-Pearson
(linearer Zusammenhang)
Wertebereich: −1 ≤ rXY ≤ 1
Pn
(xi − x) · (yi − y)
=
rXY = pPn i=1
Pn
2
2
i=1 (yi − y)
i=1 (xi − x) ·
1
n
Pn
− x) · (yi − y)
seX · seY
i=1 (xi
Pn
1
xi · yi − x · y
xi · yi − n · x · y
qP
q P
= q P n i=1
n
n
n
1
1
2
2
2
2
2
2
2
2
x
−
x
·
x
−
n
·
x
·
y
−
n
·
y
i=1 i
i=1 yi − y
i=1 i
i=1 i
n
n
alternativ: rXY = qP
n
Pn
i=1
Stärke des linearen Zusammenhangs: Betrachte |rXY |, Einteilung wie in 7.3.4
7.4.2
Empirische Kovarianz von X und Y
Wertebereich:
−∞ ≤ seXY ≤ ∞
n
seXY
n
1 X
1X
(xi − x) · (yi − y) = ·
xi · yi − x · y
=
n i=1
n i=1
13
7.4.3
Rangkorrelationskoeffizient nach Spearman
(monotoner Zusammenhang)
Wertebereich: −1 ≤ rSp ≤ 1
Basiert auf den Rängen der beobachteten Werte.
1. Allgemein
Pn
· (rg(yi ) − n+1
2 )
´
³
´
Pn
P
2
2
n
2 − n·(n+1)
2 − n·(n+1)
(rg(x
))
(rg(y
))
·
i
i
i=1
i=1
4
4
Pn
n·(n+1)2
i=1 rg(xi ) · rg(yi ) −
4
= r³
´ ³P
´
Pn
2
2
n
2 − n·(n+1)
2 − n·(n+1)
·
(rg(x
))
(rg(y
))
i
i
i=1
i=1
4
4
i=1 (rg(xi )
rSp = r³
−
n+1
2 )
2. Ohne Bindungen
Pn
6 · i=1 d2i
rSp = 1 −
, wobei di = rg(xi ) − rg(yi )
n · (n2 − 1)
Stärke des monotonen Zusammenhangs: Betrachte |rSp |, Einteilung wie in 7.3.4
8
Wahrscheinlichkeitsrechnung
8.1
Mengenoperationen
Seien A und B Teilmengen einer Menge Ω
• Schnittmenge:
A∩B
• Vereinigungsmenge:
• Differenzmenge:
A∪B
A\B
• Komplementärmenge oder Komplement:
• Anzahl der Elemente von A:
8.2
8.2.1
AC
|A|
Wahrscheinlichkeiten
Laplace-Wahrscheinlichkeiten
P (A) ... Wahrscheinlichkeit des Ereignisses A
Gilt für Ω = {ω1 , . . . , ωn }, dass P ({ωi }) = n1 , i = 1,. . . ,n
dann gilt für A ⊆ Ω, zusammengesetzt aus m Elementarereignissen:
P (A) =
8.2.2
m
n
=
Anzahl der Elementarereignisse in A
Gesamtzahl der Elementarereignisse
Rechenregeln für Wahrscheinlichkeiten
Für eine Wahrscheinlichkeitsabbildung P und Ereignisse A, B, A1 , . . . , Ak sowie eine
Grundmenge Ω von Ergebnissen gilt:
• 0 ≤ P (A) ≤ 1
• P (∅) = 0
• Falls A ⊆ B ⇒ P (A) ≤ P (B)
• P (AC ) = 1 − P (A)
• Sind A1 , . . . , Ak paarweise disjunkt, dann gilt:
P (A1 ∪ . . . ∪ Ak ) = P (A1 ) + . . . + P (Ak )
14
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• Ist Ω endlich mit Elementarereignissen {ω1 }, . . . , {ωn }, dann ist P(A) =
8.2.3
Bedingte Wahrscheinlichkeit von A gegeben B
P
w∈A
P ({ω})
Seien A, B ⊂ Ω und P (B) > 0.
P (A|B) =
P (A ∩ B)
P (B)
P (A ∩ B) = P (A|B) · P (B) (Produktsatz)
8.2.4
Satz von der totalen Wahrscheinlichkeit
Sei B1 , . . . , Bk eine disjunkte Zerlegung von Ω.
Dann gilt für A ⊂ Ω :
P (A) =
k
X
i=1
8.2.5
P (A|Bi ) · P (Bi )
Satz von Bayes
Sei B1 , . . . , Bk eine disjunkte Zerlegung von Ω, wobei P (Bi ) > 0 und P (A|Bi ) > 0
für mindestens ein i.
Dann gilt:
8.2.6
P (A|Bi ) · P (Bi )
P (Bi |A) = Pk
j=1 P (A|Bj ) · P (Bj )
=
P (A|Bi ) · P (Bi )
,
P (A)
i = 1, . . . , k
Unabhängigkeit von zwei Ereignissen
Seien A, B ⊂ Ω zwei Ereignisse.
A und B heißen (stochastisch) unabhängig, wenn gilt:
P (A ∩ B) = P (A) · P (B)
Alternativ: P (A|B) = P (A) mit P (B) > 0 oder P (B|A) = P (B) mit P (A) > 0
Falls P(B) = 0, so nennt man A und B stets unabhängig.
9
Zufallsstichproben
9.1
Allgemeines
Umfang Grundgesamtheit . . . N
Umfang Stichprobe . . . n
Einfache Zufallsstichprobe
Jede mögliche Stichprobe vom Umfang n aus der Grundgesamtheit hat die selbe
Wahrscheinlichkeit realisiert zu werden.
9.2
Anzahl möglicher Stichproben
mit Beachtung der Reihenfolge
ohne Beachtung der Reihenfolge
ohne Zurücklegen
mit Zurücklegen
N!
(N − n)!
µ ¶
N
n
Nn
15
µ
N +n−1
n
¶
10
10.1
Eindimensionale Zufallsvariablen
Dichte
1. Diskrete Dichte
(f(x) Wahrscheinlichkeitsfunktion!)
f (xi ) = P (X = xi )
Es gilt:
∀i : 0 ≤ f (xi ) ≤ 1
2. Stetige Dichte
∞
X
und
f (xi ) = 1.
i=1
(f(x) Dichtefunktion!)
0
f (x) = F (x) , falls die Ableitung existiert
Es gilt:
10.2
∀x : f (x) ≥ 0
und
Z
∞
f (t)dt = 1.
−∞
(f (x) ≥ 1 ist möglich!)
Verteilungsfunktion
F (x) = P (X ≤ x)
1. Diskreter Wertebereich
X
f (xi )
F (x) =
xi ≤x
2. Stetiger Wertebereich
Z x
F (x) =
f (t)dt
−∞
10.3
Rechnen mit Verteilungsfunktion und Dichte
1. Diskrete Zufallsvariable X
X
• P (a < X ≤ b) =
P (X = xi )
xi :a<xi ≤b
• Alternativ mit Hilfe der Verteilungsfunktion:
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a)
• P (a ≤ X ≤ b) = F (b) − P (X < a)
• P (a ≤ X < b) = P (X < b) − P (X < a)
• P (a < X < b) = P (X < b) − P (X ≤ a) = P (X < b) − F (a)
• P (X > a) = 1 − F (a)
2. Stetige Zufallsvariable X
Z b
• P (a < X ≤ b) =
f (t) dt
a
• Alternativ mit Hilfe der Verteilungsfunktion:
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a)
• P (X = x) = 0 für jedes x, d.h. Wahrscheinlichkeit einen bestimmten
Wert anzunehmen ist gleich Null.
• P (a < X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a ≤ X < b)
• P (X > a) = P (X ≥ a) = 1 − F (a)
16
10.4
Modus
Modus der Verteilung von X ist derjenige x-Wert xmod , für den die Dichte f (x) von
X maximal wird.
Gibt es keinen eindeutigen x-Wert der dies erfüllt, so ist der Modus nicht definiert.
10.5
10.5.1
Erwartungswert
Definition
Betrachtet wird eine Zufallsvariable X mit Dichtefunktion f (x).
1. Ist X diskrete Zufallsvariable:
∞
X
xi · f (xi ) = x1 · f (x1 ) + x2 · f (x2 ) + . . .
E(X) =
i=1
2. Ist X stetige Zufallsvariable:
Z ∞
E(X) =
x · f (x) dx
−∞
10.5.2
Transformationen
1. Lineare Transformation
Y =a·X +b
→
E(Y ) = E(a · X + b) = a · E(X) + b
2. Transformation mit beliebiger Funktion
Y = g(X)
• X ist diskrete Zufallsvariable
P∞
E(Y ) = E(g(X)) = i=1 g(xi ) · f (xi )
10.6
• X ist stetige Zufallsvariable
R∞
E(Y ) = E(g(X)) = −∞ g(x) · f (x) dx
Varianz und Standardabweichung
Sei X eine Zufallsvariable mit Dichtefunktion f und Erwartungswert E(X):
• Varianz
1. Ist X diskret:
V ar(X) = E((X − E(X))2 ) =
=
∞
X
i=1
2. Ist X stetig:
=
i=1
(xi − E(X))2 · f (xi )
x2i · f (xi ) − (E(X))2
V ar(X) = E((X − E(X))2 ) =
Z
∞
X
∞
−∞
(Verschiebungssatz)
Z
∞
−∞
x2 · f (x)dx − (E(X))2
• Standardabweichung
σX =
(x − E(X))2 · f (x) dx
(Verschiebungssatz)
p
V ar(X)
V ar(X) = E(X 2 ) − (E(X))2
• Verschiebungssatz allgemein
• Lineare Transformation
– Y =a·X +b
– V ar(Y ) = V ar(a · X + b) = a2 · V ar(X)
– σY = |a| · σX
17
10.7
Quantile
1. Ist X diskrete Zufallsvariable:
p-Quantil xp ist die Zahl, für die
P (X < xp ) ≤ p
P (X > xp ) ≤ 1 − p
und
2. Ist X stetige Zufallsvariable:
xp ist die Zahl, für die
F (xp ) = p
Falls xp nicht eindeutig bestimmbar, wähle jeweils die kleinste Zahl, die dies erfüllt.
11
Mehrdimensionale Zufallsvariablen
11.1
Gemeinsame Dichte und Randdichte
Gemeinsame Dichte
diskrete Zufallsvariable
stetige Zufallsvariable
fX,Y (xi , yi ) = P (X = xi , Y = yi )
fX,Y (x, y)
fX (xi ) = P (X = xi )
fX (x)
Randdichten
fY (yi ) = P (Y = yi )
∞
X
fX (xi ) =
fX,Y (xi , yj )
fX (x) =
j=1
für fY analog
11.2
Bedingte Dichte
• bedingte Dichte von X gegeben Y :
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
• bedingte Dichte von Y gegeben X:
fY |X (y|x) =
11.3
fX,Y (x, y)
fX (x)
Unabhängigkeit von Zufallsvariablen
X und Y sind stochastisch unabhängig, wenn gilt:
fX,Y (x, y) = fX (x) · fY (y), für alle x ∈ X(Ω) und y ∈ Y (Ω)
11.4
Kovarianz
Cov(X, Y ) = E((X − E(X)) · (Y − E(Y )))
18
Z
fY (y)
∞
−∞
fX,Y (x, y) dy
11.4.1
Diskrete Zufallsvariablen
Cov(X, Y ) =
∞
∞ X
X
i=1 j=1
(xi − E(X)) · (yj − E(Y )) · fX,Y (xi , yj )
Zur vereinfachten Berechnung:
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y )
E(X · Y ) =
mit
11.4.2
∞
∞ X
X
i=1 j=1
xi · yj · fX,Y (xi , yj )
Stetige Zufallsvariablen
Cov(X, Y ) =
Z
∞
−∞
Z
∞
−∞
(x − E(X)) · (y − E(Y )) · fX,Y (x, y) dx dy
Zur vereinfachten Berechnung:
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y )
Z ∞Z ∞
x · y · fX,Y (x, y) dx dy
E(X · Y ) =
mit
−∞
11.5
−∞
Rechenregeln Erwartungswert, Varianz, Kovarianz
• E(X + Y ) = E(X) + E(Y )
• E(X − Y ) = E(X) − E(Y )
n
n
X
X
E(Xi )
Xi ) =
• E(
i=1
i=1
• V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 · Cov(X, Y )
• V ar(X − Y ) = V ar(X) + V ar(Y ) − 2 · Cov(X, Y )
n
n
X
X
V ar(Xi ), falls X1 , ..., Xn unabhängig
Xi ) =
• V ar(
i=1
i=1
• Cov(aX + b, cY + d) = a · c · Cov(X, Y )
11.6
Korrelationskoeffizient
Wertebereich: −1 ≤ ρ(x, y) ≤ 1
12
ρ(X, Y ) = p
Cov(X, Y )
V ar(X) · V ar(Y )
Diskrete Verteilungen
12.1
Bernoulli-Verteilung
Dichtefunktion:
f (xi ) = pxi · (1 − p)1−xi
Schreibweise:
X ∼ Bin(1, p)
Erwartungswert:
E(X) = p
Varianz:
V ar(X) = p · (1 − p)
19
für xi = 0, 1
12.2
Binomialverteilung
Dichtefunktion:
µ ¶
n
· pxi · (1 − p)n−xi
f (xi ) =
xi
Schreibweise:
X ∼ Bin(n, p)
Erwartungswert:
E(X) = n · p
Varianz:
V ar(X) = n · p · (1 − p)
für xi = 0, . . . , n
Eigenschaften
• Beschreibt Situation des Ziehens mit Zurücklegen.
• Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung mit n = 1.
• Sind X1 , . . . , Xn stochastisch unabhängig mit X ∼ Bin(1, p), i = 1, . . . , n,
Pn
dann ist X = i=1 Xi ∼ Bin(n, p).
• Symmetrie: Sei X ∼ Bin(n, p) und Y = n − X, dann gilt: Y ∼ Bin(n, 1 − p).
12.3
Die hypergeometrische Verteilung
µ
M
xi
¶ µ
¶
N −M
·
n−x
µ ¶ i
N
n
Dichtefunktion:
f (xi ) =
Schreibweise:
X ∼ Hyp(n, M, N )
Erwartungswert:
E(X) = n ·
Varianz:
V ar(X) = n ·
für xi = 0, . . . , n
M
N
M N −M N −n
·
·
N
N
N −1
Beschreibt Situation des Ziehens ohne Zurücklegen.
12.4
Die Poisson-Verteilung
λxi −λ
e
xi !
für xi = 0, 1, 2, . . .
Dichtefunktion:
f (xi ) =
Schreibweise:
X ∼ P oi(λ)
EW und Varianz:
E(X) = V ar(X) = λ
13
Stetige Verteilungen
13.1
Die stetige Gleichverteilung (Rechteckverteilung) auf
[a, b]
Dichtefunktion:
Schreibweise:
Erwartungswert:
Varianz:
f (x) =





1
b−a
0
a≤x≤b
sonst
X ∼ G[a, b]
a+b
2
(b − a)2
V ar(X) =
12
E(X) =
20
13.2
Die Normalverteilung
Dichtefunktion:
1
f (x) = √
· exp
2π · σ
Schreibweise:
X ∼ N (µ, σ 2 )
Erwartungswert:
E(X) = µ
Varianz:
V ar(X) = σ 2
13.2.1
µ
(x − µ)2
−
2σ 2
¶
Eigenschaften
• Standardnormalverteilung:
– spezielle Normalverteilung N (0, 1) mit Parametern µ = 0 und σ 2 = 1
– Verteilungsfunktion: Φ
– Speziell für die Verteilungsfunktion der Standardnormalverteilung gilt:
Φ(−z) = P (Z ≤ −z) = P (Z ≥ z) = 1 − Φ(z)
• für p-Quantil zp gilt: z1−p = −zp
• Standardisierung einer N (µ, σ 2 )-verteilten Zufallsvariable X, so dass Transformation Z N (0, 1)-verteilt ist:
Z=
X −µ
∼ N (0, 1), d.h. P (Z ≤ z) = Φ(z).
σ
• X ∼ N (µ, σ 2 ), Y = aX + b ⇒ Y ∼ N (aµ + b, a2 · σ 2 )
µ
σ2
• X1 , . . . , Xn stochastisch unabhängig, Xi ∼ N (µ, σ ) ⇒ X ∼ N µ,
n
2
13.2.2
¶
Bestimmung von Wahrscheinlichkeiten P (a ≤ X ≤ b)
• Für eine N (0, 1) -verteilte Zufallsvariable Z ist
P (Z ≤ z) = Φ(z) und
P (a ≤ Z ≤ b) = Φ(b) − Φ(a).
• Für eine N (µ, σ 2 ) -verteilte Zufallsvariable X ist
µ
¶
µ
¶
x−µ
X −µ
x−µ
≤
P (X ≤ x) = P
=Φ
σ
σ
σ
¶
µ
¶
µ
a−µ
b−µ
−Φ
.
P (a ≤ X ≤ b) = Φ
σ
σ
13.2.3
und
Bestimmung von Quantilen
• p-Quantil zp der N (0, 1) -Verteilung: zp aus Tabelle
• p-Quantil xp der N (µ, σ 2 ) -Verteilung: xp = σ · zp + µ,
13.3
zp aus Tabelle
t-Verteilung mit n Freiheitsgraden (Student t-Verteilung)
Schreibweise:
X ∼ tn
• symmetrisch um 0
• für das p-Quantil gilt: tn;p = −tn;1−p
• X ∼ tn und n ≥ 2 ⇒ E(X) = 0
• X ∼ tn und n ≥ 3 ⇒ V ar(X) =
• Für n → ∞ gilt tn → N (0, 1)
n
n−2
(ca. ab n ≥ 30)
• X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) -verteilt ⇒
21
√ X −µ
∼ tn−1
n·
S
14
14.1
Schätzer
Schätzer für Erwartungswert und Varianz
X1 , . . . , Xn Zufallsvariablen mit E(Xi ) = µ, V ar(Xi ) = σ 2
• Schätzer für µ:
n
1 X
Xi
X=
n i=1
zusätzlich ist V ar(X) =
mit
E(X) = µ
σ2
, falls die Xi unabhängig
n
• Schätzer für σ 2 , falls die Xi unabhängig mit identischer Verteilung:
n
1 X
(Xi − X)2
Se2 =
n i=1
S2 =
E(Se2 ) =
mit
n
1 X
(Xi − X)2
n − 1 i=1
mit
n−1 2
σ
n
E(S 2 ) = σ 2
Hinweis: Verschiebungssatz siehe 4.4 und 4.6
14.2
Konfidenzintervalle für µ im Normalverteilungsmodell
Betrachte eine Zufallsvariable X mit X ∼ N (µ, σ 2 ); seien X1 , . . . , Xn unabhängig
und identisch verteilt wie X.
Gegeben sei weiter eine Irrtumswahrscheinlichkeit α, 0 < α < 1.
• Falls σ 2 bekannt, so ist
·
¸
σ
σ
X − √ · z1−α/2 , X + √ · z1−α/2
n
n
ein (1 − α) -Konfidenzintervall für µ.
Dabei bezeichnet z1−α/2 das (1 − α/2) -Quantil der N (0, 1).
• Falls σ 2 unbekannt ist, ist
·
¸
S
S
√
√
· tn−1;1−α/2
X−
· tn−1;1−α/2 , X +
n
n
ein (1 − α) -Konfidenzintervall für µ.
q
Pn
1
2
Dabei ist S = n−1
i=1 (Xi − X) , und tn−1;1−α/2 bezeichnet das
(1 − α/2) -Quantil der t-Verteilung mit n − 1 Freiheitsgraden.
14.3
Approximative Konfidenzintervalle für µ
Betrachte eine Zufallsvariable X mit E(X) = µ, V ar(X) = σ 2 ;
seien X1 , . . . , Xn unabhängig und identisch verteilt wie X, sei n ≥ 30.
• Falls σ 2 bekannt, so ist
·
¸
σ
σ
X − √ · z1−α/2 , X + √ · z1−α/2
n
n
ein approximatives (1 − α) -Konfidenzintervall für µ.
• Falls σ 2 unbekannt, so ist
¸
·
S
S
X − √ · tn−1;1−α/2 , X + √ · tn−1;1−α/2
n
n
ein approximatives (1 − α) -Konfidenzintervall für µ.
Dabei bezeichnet tn−1;1−α/2 das (1 − α/2) -Quantil der t-Verteilung mit n − 1
Freiheitsgraden.
22
15
15.1
Statistische Hypothesentests
Gauß-Test
Seien X1 , . . . , Xn unabhängige und identisch normalverteilte Zufallsvariablen,
Xi ∼ N (µ, σ 2 ), und sei σ 2 bekannt.
Testproblem
Entscheidung
H0 vs. H1
Lehne H0 ab, falls
¯√
¯
¯
0¯
¯ n X−µ
σ ¯ > z1−α/2
µ = µ0 vs. µ 6= µ0
µ ≥ µ0 vs. µ < µ0
√
n
√
n
µ ≤ µ0 vs. µ > µ0
X−µ0
σ
< −z1−α
X−µ0
σ
> z1−α
Dabei bezeichnet zα das α-Quantil der Standardnormalverteilung.
15.2
t-Test
Seien X1 , . . . , Xn unabhängige und identisch normalverteilte Zufallsvariablen,
Xi ∼ N (µ, σ 2 ), und sei σ 2 unbekannt.
Testproblem
Entscheidung
H0 vs. H1
Lehne H0 ab, falls
¯√
¯
¯
0¯
¯ n X−µ
S ¯ > tn−1;1−α/2
µ = µ0 vs. µ 6= µ0
µ ≥ µ0 vs. µ < µ0
µ ≤ µ0 vs. µ > µ0
√
n
√
X−µ0
S
n
< −tn−1;1−α
X−µ0
S
> tn−1;1−α
Dabei bezeichnet tn−1,α das α-Quantil der t-Verteilung mit n − 1 Freiheitsgraden.
15.3
Approximativer Gauß-Test
Seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen, die aber
nicht notwendig normalverteilt sind, mit E(Xi ) = µ, V ar(Xi ) = σ 2 .
Sei σ 2 unbekannt und n ≥ 30.
Testproblem
Entscheidung
H0 vs. H1
Lehne H0 ab, falls
¯√
¯
¯
0¯
¯ n X−µ
S ¯ > z1−α/2
µ = µ0 vs. µ 6= µ0
µ ≥ µ0 vs. µ < µ0
√
n
√
n
µ ≤ µ0 vs. µ > µ0
15.4
X−µ0
S
X−µ0
S
< −z1−α
> z1−α
Test auf einen Anteil
Ein Anteil p der Grundgesamtheit besitze eine interessierende Eigenschaft.
Seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Xi = 1,
falls das i-te Element die Eigenschaft besitzt, Xi = 0 sonst.
23
Testproblem
Entscheidung
H0 vs. H1
p = p0 vs. p 6= p0
p ≥ p0 vs. p < p0
Lehne H0
¯√
¯
¯ n √ X−p0
p0 ·(1−p0 )
√
p ≤ p0 vs. p > p0
15.5
ab, falls
¯
¯
¯ > z1−α/2
n √ X−p0
p0 ·(1−p0 )
√
n √ X−p0
p0 ·(1−p0 )
< −z1−α
> z1−α
χ2 Unabhängigkeitstest
Betrachtet werden zwei Zufallsvariablen X, Y . Die Beobachtungspaare (xi , yi ) seien
in einer (k × m) -Kontingenztafel zusammengefasst.
• Gemeinsame absolute Häufigkeiten in der Tafel:
• Randhäufigkeiten:
hij
hi. bzw. h.j
• Unter Unabhängigkeit von X und Y erwartete Häufigkeiten:
hi. · h.j
, i = 1, . . . , k , j = 1, . . . , m
n
eij =
Testproblem: H0 : X, Y unabhängig
vs.
H1 : X, Y abhängig
Entscheidungsregel: H0 wird zum Niveau α verworfen, falls
χ2 =
m
k X
X
(hij − eij )2
> χ2(k−1)·(m−1);1−α
e
ij
i=1 j=1
Dabei bezeichnet χ2q;α das α-Quantil der χ2 -Verteilung mit q Freiheitsgraden.
16
Einfache lineare Regression
Sei Y eine stetige Zufallsvariable und x eine deterministische Größe. Modell:
Y =a·x+b+ε
16.1
Kleinste Quadrate Schätzer für die Regressionskoeffizienten
b
a=
Pn
(x − x) · (Yi −
i=1
Pni
2
i=1 (xi − x)
Y)
Pn
xi · Yi − n · x · Y
Pn
= i=1
2
2
i=1 xi − n · x
bb = Y − b
a·x
Die Werte Ybi = b
a · xi + bb sind Schätzer für die Yi und werden auch Vorhersagen oder
Prognosen genannt.
Die Abweichungen εbi = Yi − Ybi heißen Residuen.
16.2
Bestimmtheitsmaß
Güte der Anpassung der Daten an die geschätzte Gerade.
Pn b
(Yi − Y )2
,
R2 ∈ [0, 1]
R2 = Pni=1
2
Y
)
(Y
−
i=1 i
2
Es gilt: R2 = rXY
(quadrierter Korrelationskoeffizient)
24
17
Analyse zeitlicher Verläufe
17.1
Komponentenmodelle für Zeitreihen
Trendkomponente (g) : langfristiges Verhalten
Saisonkomponente (s) : wiederkehrende zyklische Schwankungen
Irreguläre Komponente (ε) : Rest
1. Additives Modell:
Yt = gt + st + εt ,
t = 1, . . . , T
2. Multiplikatives Modell:
Yt = gt · st · εt ,
t = 1, . . . , T
Rückführung auf Additives Modell mit log(Yt ) = log(gt ) + log(st ) + log(εt )
möglich.
17.2
Lineares Trendmodell
• Reines Trendmodell:
Yt = gt + εt
• Trendmodell mit im zeitlichem Verlauf linearer Trendkomponente:
Yt = α · t + β + εt ,
17.3
t = 1, . . . , T
(Bestimmung mit KQ-Schätzer)
Einfacher gleitender Durchschnitt der Ordnung p
Betrachtet wird eine Zeitreihe Y1 , . . . , YT , mit Realisierung y1 , . . . , yT .
Ordnung p des gleitenden Durchschnitts gibt die Anzahl der in die Mittelwertberechnung eingehenden Zeitreihenwerte an. Trend gt durch ein lokales arithmetisches
Mittel der Zeitreihenwerte yt−q , . . . , yt+q approximieren:
•
für ungerade Ordnung p: q =
gbt p =
mit
•
mit
17.4
q
X
1
1
yt+j = · (yt−q + . . . + yt + . . . + yt+q )
2 · q + 1 j=−q
p
t = q + 1, . . . , T − q
für gerade Ordnungp: q =
gbt p =
p−1
2
p
2
q−1
X
1
1 1
( · yt−q +
yt+j + · yt+q )
p 2
2
j=−q+1
t = q + 1, . . . , T − q
Indexzahlen
Bezeichnung: Basiszeit 0
17.4.1
mit Preisen
und Gütermengen
p0 (1), . . . , p0 (n)
q0 (1), . . . , q0 (n)
Berichtszeit t mit Preisen
und Gütermengen
pt (1), . . . , pt (n)
qt (1), . . . , qt (n)
Umsatzindex
Pn
pt (i) · qt (i)
· 100
W0,t = Pni=1
p
i=1 0 (i) · q0 (i)
25
17.4.2
Preisindex nach Laspeyres
L
P0,t
17.4.3
Pn
pt (i) · q0 (i)
P
= ni=1
· 100
p
i=1 0 (i) · q0 (i)
Preisindex nach Paasche
Pn
pt (i) · qt (i)
P
· 100
P0,t
= Pni=1
i=1 p0 (i) · qt (i)
17.4.4
Mengenindex nach Laspeyres
QL
0,t
17.4.5
Pn
qt (i) · p0 (i)
P
= ni=1
· 100
q
i=1 0 (i) · p0 (i)
Mengenindex nach Paasche
Pn
i=1 qt (i) · pt (i)
P
· 100
QP
=
n
0,t
i=1 q0 (i) · pt (i)
17.4.6
Index von March
IM =
Pn
pt (i)
i=1 po (i) · qt (i)
Pn
i=1 qt (i)
26
Herunterladen