Formelübersicht - Statistik

Werbung
Formelübersicht - Statistik I + II
Inhaltsverzeichnis
1 Elementare Wahrscheinlichkeitsrechnung
1.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 PIE - Prinzip von Inklusion und Exklusion . . . . . . . . . . . . . . . . . .
1
1
1
2
2 Wahrscheinlichkeitsverteilungen
2.1 Binomialverteilung . . . . . . . . . . . . . .
2.2 Poisson-Verteilung . . . . . . . . . . . . . .
2.3 Exponentialverteilung . . . . . . . . . . . . .
2.4 Dichtefunktionen und Verteilungsfunktionen
2.4.1 Dichtefunktionen . . . . . . . . . . .
2.4.2 Verteilungsfunktionen . . . . . . . .
.
.
.
.
.
.
3
3
3
4
4
4
5
3 Grundlegende Parameter
3.1 Erwartungswert/Mittelwert/Durchschnitt .
3.1.1 Eigenschaften des Erwartungwerts .
3.2 Varianz und Streuung . . . . . . . . . . .
3.2.1 Eigenschaften der Varianz . . . . .
3.3 Kovarianz . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
6
7
7
4 Untersuchung linearer Zusammenhänge
4.1 Lineare Regression . . . . . . . . . . . . . . . . . . .
4.2 Robuste Regression nach Theil . . . . . . . . . . . . .
4.3 Lineare Regression nach Gauß-Markov . . . . . . . .
4.3.1 Regressionsmodell und Koeffizientenschätzung
4.3.2 Schätzung der Varianz . . . . . . . . . . . . .
4.4 Korrelationskoeffizient nach Pearson . . . . . . . . .
4.5 Rangkorrelationskoeffizient nach Spearman . . . . . .
4.6 Anpassungsgüte . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
8
8
8
9
10
10
10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Visualisierungsmethoden
5.1 Stängel-Blatt-Diagramm . . . . .
5.2 Boxplot und benötigte Parameter
5.3 Histogramm . . . . . . . . . . . .
5.4 Lorenzkurve und Gini-Koeffizient
5.5 Verteilungstabellen . . . . . . . .
5.6 Empirische Verteilungsfunktion .
6 Stochastische Graphen
6.1 Allgemeine Markov-Ketten . . .
6.2 Mittelwertsregeln . . . . . . . .
6.3 Stationäre Verteilung . . . . . .
6.4 Gewinnwahrscheinlichkeiten . .
6.5 Mittlere Spielzeiten/Wartezeiten
6.6 Mittleres Kapital . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Ökonomische Modelle
7.1 Bedienungstheorie . . . . . . . . . .
7.2 Zinsen und Kredite . . . . . . . . .
7.3 Preisindizes . . . . . . . . . . . . .
7.4 Zeitreihen . . . . . . . . . . . . . .
7.5 Shapley-Index . . . . . . . . . . . .
7.6 Clusteranalyse . . . . . . . . . . . .
7.6.1 Complete-Linkage Verfahren
7.6.2 Single-Linkage Verfahren . .
7.6.3 Average-Linkage Verfahren .
7.7 Akzelerator-Multiplikator-Modell .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
12
12
13
14
.
.
.
.
.
.
15
15
15
15
16
16
16
.
.
.
.
.
.
.
.
.
.
17
17
17
18
18
18
19
19
20
20
20
8 Schätzer
8.1 Einfache Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.2 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.3 Quantile der Standardnormalverteilung . . . . . . . . . . . . . . . .
8.3 Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.1 Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Wirksamkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.3 Die Ungleichung vom arithmetischen und geometrischen Mittel (vereinfachte Form) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . .
8.4.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Logarithmen-Gesetze . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
22
22
22
22
23
23
23
23
23
23
24
9 Tests
9.1 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Eine Stichprobe . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Zwei unabhängige Stichproben . . . . . . . . . . . . . . . .
9.2.3 Zwei abhängige Stichproben . . . . . . . . . . . . . . . . .
9.3 Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.1 Allgemeines Testverfahren . . . . . . . . . . . . . . . . . .
9.3.2 Vereinfachte Formel für Vierfeldertafeln . . . . . . . . . . .
9.4 Fisher-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5 Einfacher Rangsummentest . . . . . . . . . . . . . . . . . . . . . .
9.6 Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.6.1 Bedeutung und Berechnung . . . . . . . . . . . . . . . . .
d. . . . . . . . . . . . . . . . . .
9.6.2 Konfidenzintervalle für OR
9.7 Normalverteilungstest zum Vergleich zweier Wahrscheinlichkeiten
9.8 α und β bei Hypothesentests mit Normalverteilung . . . . . . . .
9.9 F-Test für lineare Regressionsmodelle . . . . . . . . . . . . . . . .
9.10 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.10.1 Allgemeine Varianzanalyse (ANOVA) . . . . . . . . . . . .
9.10.2 Rangvarianzanalyse . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
25
26
26
26
27
27
27
28
29
29
29
30
30
30
31
31
31
32
10 Elementare Prinzipien
10.1 Markov-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2 Tschebyscheff-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3 Benford-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
34
34
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1.1
Elementare Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl möglicher Anordnungen von n Elementen:
n! = n · (n − 1) · (n − 2) · . . . · 2 · 1
Binomialkoeffizient:
n
n!
n
=
=
k
(n − k)! · k!
n−k
Anzahl verschiedener Möglichkeiten der Auswahl von k Elementen aus n:
mit Beachtung der Reihenfolge
mit Wiederholung
k
n
n+k−1
k
ohne Beachtung der Reihenfolge
ohne Wiederholung
n
k ·k!
n
k
Lottoformel: Wahrscheinlichkeit für k Richtige bei einer Ziehung von l Zahlen aus n
n−l
l
·
p(k) = pk = k nl−k
l
1.2
Wahrscheinlichkeit
Definition der Wahrscheinlichkeit nach Laplace:
Ω = Menge aller möglichen Ereignisse
E = Menge aller günstigen Ereignisse, E ⊆ Ω
P (E) =
|E|
Anzahl günstiger Ereignisse
=
|Ω|
Anzahl möglicher Ereignisse
Allgemein:
P (∅) = 0
P (Ω) = 1
A ⊆ Ω ⇒ P (A) ∈ [0, 1]
A ⊆ B ⇒ P (A) ≤ P (B)
Komplementäre Wahrscheinlichkeit:
P (Ac ) = 1 − P (A)
1
Bedingte Wahrscheinlichkeit / Satz von Bayes:
P (A|B) =
P (A ∩ B)
P (B)
P (A ∩ B) = P (A|B) · P (B)
Totale Wahrscheinlichkeit:
P (A) =
n
X
P (A|Bi ) · P (Bi )
i=1
A und B sind stochastisch unabhängig, wenn:
P (A|B) = P (A)
oder äquivalent:
P (A ∩ B) = P (A) · P (B)
1.3
PIE - Prinzip von Inklusion und Exklusion
PIE ist eine Technik zur Bestimmung der Mächtigkeit einer (zusammengesetzten) Menge
mithilfe ihrer Teilmengen. Für je zwei endliche Mengen A und B gilt: |A ∪ B| = |A| +
|B| − |A ∩ B|. Angewendet auf Mengen in einem Wahrscheinlichkeitsraum resultiert die
Siebformel bzw. der Additionssatz für Wahrscheinlichkeiten.
Zwei Teilmengen A und B:
P (A ∪ B) = P (A) + (B) − P (A ∩ B)
Drei Teilmengen A, B und C:
P (A ∪ B ∪ C) = P (A) + (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Allgemein: Abwechselnde Inklusionen und Exklusionen, d.h. einzelne Teilmengen addieren
(Inklusion), Kombinationen von 2 Teilmengen abziehen (Exklusion), Kobminationen von 3
Teilmengen addieren (Inklusion), Kombinationen von 4 Teilmengen abziehen (Exklusion),
Kombinationen von 5 Teilmengen addieren (Inklusion), ...
2
2
2.1
Wahrscheinlichkeitsverteilungen
Binomialverteilung
Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer Serie von Versuchen. Sei
p die Erfolgswahrscheinlichkeit für einen einzelnen Versuch und n die Anzahl der durchgeführten Versuche, dann ist P (X = k) die Wahrscheinlichkeit, dass die binomial verteilte
Zufallsgröße X den Wert k annimmt, d.h. dass genau k Erfolge erzielt werden. Die Misserfolgswahrscheinlichkeit 1 − p wird dabei meist duch q dargestellt.
n k n−k
P (X = k) =
p ·q
für k = 0, 1, . . . , n
k
k X
n i n−i
P (X ≤ k) =
p ·q
= 1 − P (X ≥ k + 1)
i
i=0
n X
n i n−i
P (X ≥ k) =
p ·q
= 1 − P (X ≤ k − 1)
i
i=k
Erwartungswert:
E(X) = µ = n · p
Varianz:
V (X) = σ 2 = n · p · q
2.2
Poisson-Verteilung
Die Poisson-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung und gilt als Spezialfall der Binomialverteilung. Sie modelliert die Verteilung seltener Ereignisse (sehr
kleine Erfolgswahrscheinlichkeit). Die Poisson-Verteilung besitzt einen Parameter λ, dieser
bezeichnet die erwartete Ereignishäufigkeit im Beobachtungsintervall. Beispielsweise kann
λ = 2 für 2 gesichtete Sternschnuppen pro Jahr gewählt werden. P2 (X = k) wäre dann
die Wahrscheinlichkeit, dass in einem Jahr k Sternschnuppen gesichtet werden, wobei
durchschnittlich 2 Sichtungen erwartet würden.
Wahrscheinlichkeitsfunktion:
Pλ (k) =
Erwartungswert:
λk −λ
e
k!
∞
X
λk
E(X) =
k e−λ = λ
k!
k=0
Varianz:
V (X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ
3
2.3
Exponentialverteilung
Dichtefunktion:
(
λe−λx
fλ (x) =
0
x≥0
x<0
Verteilungsfunktion:
Zx
F (x) =
(
1 − e−λx
fλ (t) dt =
0
x ≥ 0,
x < 0.
−∞
Erwartungswert:
Z∞
E(X) =
λxe−λx dx =
1
λ
0
Varianz:
2
Z∞ 1
1
V (X) =
x−
λe−λx dx = 2
λ
λ
0
In der Übung hergeleitet:
1
P (X > k · E(X)) = P (X > k · ) = e−k
λ
2.4
2.4.1
Dichtefunktionen und Verteilungsfunktionen
Dichtefunktionen
Die Dichtefunktion, auch Dichte oder Wahrscheinlichkeitsdichte genannt, dient zur
Beschreibung einer stetigen Wahrscheinlichkeitsverteilung. Die Integration der Dichtefunktion über ein Intervall [a, b] liefert die Wahrscheinlichkeit dafür, dass die zugehörige
Zufallsgröße einen Wert zwischen a und b annimmt. Die Werte einer Dichtefunktion sind
immer ≥ 0 und die Fläche unter ihr ist stets 1.
Vorsicht Verwechslungsgefahr: Die Dichtefunktion an der Stelle a gibt nicht die Wahrscheinlichkeit für das Eintreten von a wieder.
Ist X eine stetige Zufallsvariable, dann benennen wir die Dichte dieser Zufallsgröße mit
f(x) und es gilt:
f (x) ≥ 0
Z ∞
f (x)dx = 1
−∞
Z
b
f (x)dx = P (a ≤ x ≤ b)
a
4
Mithilfe der Dichtefunktion kann man den Erwartungswert und die Varianz stetiger Zufallsvariablen bestimmen:
Z ∞
xf (x)dx
E(X) =
−∞
Z
∞
V (X) =
(x − E(X))2 f (x)dx
−∞
2.4.2
Verteilungsfunktionen
Die kumulative Verteilungsfunktion F (x) einer Zufallsgröße X ist das Integral der Dichtefunktion von −∞ bis x. Umgekehrt ist die Dichtefunktion die Ableitung der Verteilungsfunktion.
Z x
f (t)dt
F (x) =
−∞
dF (x)
dx
Der Wert der Verteilungsfunktion an der Stelle a gibt die Wahrscheinlichkeit an, mit der
die Zufallsgröße X einen Wert ≤ a annimmt:
Z a
P (x ≤ a) = F (a) =
f (x)dx
f (x) = F 0 (x) =
−∞
Z
∞
P (x > a) = 1 − F (a) =
f (x)dx
a
Z
P (a ≤ x ≤ b) = F (b) − F (a) =
b
f (x)dx
a
Die Verteilungsfunktion einer Zufallsgröße nimmt nur Werte von 0 bis 1 an und ist monoton
steigend.
5
3
Grundlegende Parameter
Alle Berechnungsformeln dieses Kapitels sind auf zugrunde liegende Stichproben ausgerichtet. Natürlich können mit ihnen auch die theoretischen Parameter ausgerechnet werden,
wenn die theoretische Verteilung der Zufallsgröße bekannt ist.
3.1
Erwartungswert/Mittelwert/Durchschnitt
Der Erwartungswert d.h. der theoretische Mittelwert einer Größe X wird mit E(X) oder
µ bezeichnet. Meist liegt aber nur eine Stichprobe vor, auf deren Basis dieser theoretische
Mittelwert geschätzt werden muss. Den genutzten Schätzer nennt man meist Durchschnitt,
Stichprobenmittelwert oder empirischen Mittelwert. Er wird mit x̄ oder auch µ̂ bezeichnet.
x̄ = Mittelwert/Durchschnitt (n = Gesamtanzahl, xi = Ausprägungen)
 Pn
1

 n · Pi=1 xi , wenn n Werte x1 . . . xn gegeben
x̄ = n1 · m
i=1 xi · H(xi ), wenn absolute Häufigkeiten H(xi ) für m Klassen x1 . . . xm gegeben

P m
i=1 xi · h(xi ), wenn relative Häufigkeiten h(xi ) für m Klassen x1 . . . xm gegeben
3.1.1
Eigenschaften des Erwartungwerts
X und Y seinen Zufallsgrößen, a sei eine Konstante.
E(a · X) = a · E(X)
E(X + Y ) = E(X) + E(Y )
E(X + a) = E(X) + a
3.2
Varianz und Streuung
Die Varianz V (X) oder σ 2 beschreibt die mittlere quadratische Abweichung vom Mittelwert. Ihre positive Wurzel σ wird Streuung oder Standardabweichung genannt. Ähnlich
wie beim Erwartungswert muss die wahre Varianz meist basierend auf einer Stichprobe
geschätzt werden. Ihr Schätzer wird empirische Varianz oder Stichprobenvarianz genannt
und mit s2 bezeichnet.
s2 = s2x =Varianz
√
s = sx = s2 = Streuung
Allgemeine Formel:
n
1 X
s = ·
(xi − x̄)2
n i=1
2
6
Äquivalente Momentenformel:
s2 = x2 − x̄2
Häufig wird die Varianz mit den obigen Formeln zu gering eingeschätzt, weshalb zur Bestimmung der Stichprobenvarianz meist eine korrigierte Formel Verwendung findet, bei der
man nicht durch n, sondern durch n − 1 teilt:
s2 =
3.2.1
n
X
1
·
(xi − x̄)2
n − 1 i=1
Eigenschaften der Varianz
X sei eine Zufallsgröße und a eine Konstante.
V (X) = E(X 2 ) − E(X)2
V (a · X) = a2 · V (X)
V (X + a) = V (X)
V (−X) = V (X)
3.3
Kovarianz
sxy =Kovarianz von x und y
Allgemeine Formel:
sxy =
n
1 X
·
(xi − x̄) · (yi − ȳ)
n i=1
Äquivalente Momentenformel:
sxy = xy − x̄ · ȳ
Hinweis: Die Kovarianz einer Zufallsgröße mit sich selbst liefert ihre Varianz.
7
4
Untersuchung linearer Zusammenhänge
4.1
Lineare Regression
Wertepaare/Punkte (xi , yi ) sind gegeben. Es wird eine Gerade berechnet, sodass die
Summe aller quadrierten Abstände zwischen den Punkten und dieser Gerade minimal ist.
Regressionsgerade:
y = ȳ +
4.2
sxy
xy − x̄ · ȳ
· (x − x̄) = ȳ +
· (x − x̄)
2
sx
x2 − x̄2
Robuste Regression nach Theil
bestimmt.
In der obigen Variante wird die Steigung der Regressionsgerade durch xy−x̄·ȳ
x2 −x̄2
Bei der robusten Regression nach Theil wird sie stattdessen als Median der Steigungen
einzelner Punkt-Paare berechnet, um den Einfluss von Ausreißern zu verringern.
Berechnung:
1. Ordne alle xi aufsteigend an und teile diese Reihe dann in zwei Hälften (bei einer
ungeraden Anzahl von Werten wird der Mittlere weggelassen).
2. Für jedes xi aus der unteren Hälfte wird dann die Steigung zu jedem xj aus der
y −y
oberen Hälfte berechnet: mij = xjj −xii
3. Bestimme den Median aller berechneten Anstiege und verwende diesen als robuste
Steigung anstelle von xy−x̄·ȳ
in der allgemeinen Formel für die Regressionsgrade.
x2 −x̄2
4.3
Lineare Regression nach Gauß-Markov
Bei der einfachen linearen Regression wird eine Regressionsgerade bestimmt, welche die
Veränderung der Zielgröße in Abhängigkeit von der Einflussgröße beschreibt. Meist wirken sich aber mehrere Einflussgrößen auf eine Zielgröße aus. Den Grundsatz für die Modellierung solcher komplexer wirtschaftlicher Zusammenhänge bietet das Gauß-MarkovTheorem. Seine Anwendung wird auch als GM-Schätzung bezeichnet.
4.3.1
Regressionsmodell und Koeffizientenschätzung
Y : Zielgröße (Response)
X1 , . . . , Xk : Einflussgrößen (Regressoren)
k : Anzahl der Einflussgrößen
n : Anzahl der Messungen
β1 , . . . , βk : Regressionskoeffizienten (Anstiege von Y ) für die Einflussgrößen
8
Für jede Messung gibt es einen Wert von Y und einen für jedes X1 , . . . , Xk . Mithilfe der
Regressionskoeffizienten kann man dann pro Messung eine Gleichung aufstellen, welche die
Effekte von X1 , . . . , Xk auf Y beschreibt:
y1 = β1 x11 + β2 x12 + β3 x13 + · · · + βk x1k + 1
y2 = β1 x21 + β2 x22 + β3 x23 + · · · + βk x2k + 2
y3 = β1 x31 + β2 x32 + β3 x33 + · · · + βk x3k + 3
..
.
yn = β1 xn1 + β2 xn2 + β3 xn3 + · · · + βk xnk + n
Fasst man alle gemessenen y1 . . . yn in einem Vektor y zusammen, sowie alle β1 . . . βk in
einem weiteren Vektor β, dann kann man auch alle x11 . . . xnk in einer n × k−Matrix X
zusammen fassen. Die Gleichungen von oben vereinfachen sich dann zu:
y =β·X +
Für das Regressionsmodell ist nun der Koeffizientenvektor β zu schätzen. Ein erwartungstreuer Schätzer hierfür ist nach dem Gauß-Markov-Theorem:
β̂ = (X T X)−1 X T y
Vorgehensweise zum Berechnen von β̂:
1. Aufstellen der Matrix X und des Vektors y aus den gegebenen Daten
2. Matrix X zu X T transformieren
3. X T X berechnen und Inverse davon bilden
4. Alles in die obige Formel einsetzen und so β̂ berechnen
Bei Bedarf kann als 5. Schritt das komplette Modell aufgestellt werden, indem β̂ in die
Modellgleichung y = β · X + eingesetzt wird.
4.3.2
Schätzung der Varianz
Wurde β̂ berechnet, so kann auch die Gauß-Markov-Varianz (GM-Varianz) geschätzt werden durch:
1
(y − X β̂)T (y − X β̂)
σ̂ 2 =
n−k
9
4.4
Korrelationskoeffizient nach Pearson
Der Korrelationskoeffizient r ist ein Maß für den linearen Zusammenhang von 2 Merkmalen.
r=
sxy
xy − x̄ · ȳ
q
=p
sx · sy
2
2
x − x̄ · y 2 − ȳ 2
Es gilt −1 ≤ r ≤ 1.
Falls r ≈ 0 ⇒ x und y sind unkorreliert.
Falls r > 0 ⇒ x und y sind positiv korreliert.
Falls r < 0 ⇒ x und y sind negativ korreliert.
Unabhängige Variablen sind stets unkorreliert, aber die Umkehrung gilt nicht: Unkorrelierte
Variablen können durchaus abhängig voneinander sein!
4.5
Rangkorrelationskoeffizient nach Spearman
Den Datenreihen x1 ...xn und y1 ...yn werden Rangzahlen Ri bzw. Si zugeordnet. Jedes
Wertepaar (xi , yi ) hat dann ein Rangpaar (Ri , Si ) mit der Rangdifferenz di = Ri − Si .
P
6 · ni=1 d2i
, wobei − 1 ≤ rspearman ≤ 1
rspearman = 1 −
n · (n2 − 1)
4.6
Anpassungsgüte
P
Totale Variabilität: SQtotal = ni=1 (yi − ȳ)2
P
(yi − ŷi )2
Residuenanteil der totalen Variabilität: SQresidual = ni=1P
Regressionsanteil der totalen Variabilität: SQregression = ni=1 (ŷi − ȳ)2
Es gilt: SQtotal = SQresidual + SQregression
Anpassungsgüte:
SQresidual
R2 = 1 −
, wobei 0 ≤ R2 ≤ 1
SQtotal
2
Bei linearer Regression gilt: R2 = rpearson
10
5
5.1
Visualisierungsmethoden
Stängel-Blatt-Diagramm
Dieses Diagramm dient zur Visualisierung von Häufigkeitsverteilungen, wobei jede Einzelbeobachtung erhalten bleibt (nur für geringe Datenmengen geeignet).
Es besteht aus zwei Spalten. Die linke Spalte enthält die Äquivalenzklassen (Stängel), in
welche die auf der rechten Seite dargestellten Merkmale (Blätter) eingeteilt werden.
5.2
Boxplot und benötigte Parameter
min = Minimum, kleinster Wert
max = Maximum, größter Wert
Modus/Modalwert = häufigster Wert
Quantile für Gesamtanzahl n und Anteil p:
(
1
(xn·p + xn·p+1 ), wenn n · p ganzzahlig
x̃p = 2
xdn·pe , wenn n · p nicht ganzzahlig
x̃0,25 = unteres Quartil
x̃0,5 = Median
x̃0,75 = oberes Quartil
x̃0,75 − x̃0,25 = IQR (Interquartilsabstand)
xi ist ein Ausreißer, falls xi ≤ x̃0,25 − 1, 5 · IQR oder xi ≥ x̃0,75 + 1, 5 · IQR
Box-Plot:
11
5.3
Histogramm
Das Histogramm ist eine Möglichkeit zur Darstellung der Häufigkeitsverteilung metrischer
Variablen. Dazu ist eine Einteilung der Daten in Klassen gleicher oder unterschiedlicher
Breite nötig.
Es wird ein Balken pro Klasse gezeichnet, der direkt an die Balken der Nachbarklassen
anschließt und dessen Fläche proportional zur relativen Häufigkeit der Klasse ist. (Höhe
des Balkens = Klassenhäufigkeit/Klassenbreite)
5.4
Lorenzkurve und Gini-Koeffizient
Die Lorenzkurve ist eine Funktion im Einheitsquadrat und dient zur Veranschaulichung
der Disparität/Ungleichheit einer Verteilung.
Die X-Achse wird entsprechend der Klassen von Merkmalsträgern in gleich oder
verschieden große Abschnitte eingeteilt. Für jede Klasse wird ihr Anteil an der Merkmalssumme berechnet. Die Lorenz-Kurve ist dann abschnittsweise linear durch die Punkte
(0|0), (u1 |v1 ) , (u2 |v2 ) , . . . , (un |vn ) = (1|1) definiert.
xj = Abschnittslängen für die Klassen der Merkmalsträger
yj = Anteile an der Merkmalssumme
i
P
ui =
xj
vi =
j=1
i
P
yj
j=1
Die Lorenz-Kurve ist konvex und liegt daher immer unter der Diagonale. Je gleichmäßiger
die Verteilung ist, umso mehr nähert sie sich der Diagonalen an.
12
Der Gini-Koeffizient G ∈ [0, 1] beschreibt die zweifache Abweichung der Lorenzkurve von
der Diagonalen. Je ungleichmäßiger die Verteilung, desto größer G.
G=1−
5.5
1
· (2 · (v0 + v1 + · · · + vn−1 ) + 1)
n
Verteilungstabellen
1-dimensional:
Die Zufallsvariable X habe die Ausprägungen x1 , x2 und x3 . Bei n Beobachtungen treten
diese mit den Häufigkeiten H(x1 ), H(x2 ) und H(x3 ) auf. Die relativen Häufigkeiten der
1)
....
einzelnen Ausprägungen sind somit P (X = x1 ) = H(x
n
P
xi
x1
x2
x3
absolute Häufigkeiten:
H(xi ) H(x1 ) H(x2 ) H(x3 ) n
P
xi
x1
x2
x3
relative Häufigkeiten:
P (X = xi ) P (x1 ) P (x2 ) P (x3 ) 1
2-dimensional:
Analog zum 1-dimensionalen Fall, aber es wird zusätzlich eine zweite Zufallsariable Y mit
den Ausprägungen y1 und y2 betrachtet.
P
x1
x2
x3
y
H(x1 ∩ y1 ) H(x2 ∩ y1 ) H(x3 ∩ y1 ) H(y1 )
absolute Häufigkeiten: 1
y2 H(x1 ∩ y2 ) H(x2 ∩ y2 ) H(x3 ∩ y2 ) H(y2 )
P
H(x1 )
H(x2 )
H(x3 )
n
P
x1
x2
x3
y1 P (x1 ∩ y1 ) P (x2 ∩ y1 ) P (x3 ∩ y1 ) P (y1 )
relative Häufigkeiten:
y2 P (x1 ∩ y2 ) P (x2 ∩ y2 ) P (x3 ∩ y2 ) P (y2 )
P
P (x1 )
P (x2 )
P (x3 )
1
13
5.6
Empirische Verteilungsfunktion
absolute Häufigkeit: H(aj ), Anzahl des Auftretens von aj
H(a )
relative Häufigkeit: h(aj ) = n j , wobei n =Gesamtanzahl
empirische Verteilungsfunktion:
X
F (x) =
h(aj )
aj ≤x
Die Funktion wächst monoton von 0 bis 1 und verläuft konstant zwischen aj und aj+1 ∀j.
Ihre Erscheinung ähnelt dadurch einer Treppe.
14
6
6.1
Stochastische Graphen
Allgemeine Markov-Ketten
n verschiedene Zustände, n ≥ 2
zufälliger Übergang von Zustand i nach
Übergangsmatrix:

p00
 p10


M =  p20
 ..
 .
pn0
Zustand j mit der Wahrscheinlichkeit pij
p01 p02
p11 p12
p21 p22
..
..
.
.
pn1 pn2

. . . p0n
. . . p1n 

. . . p2n 

. . . .. 
. 
. . . pnn
pii < 1 → i ist ein innerer Zustand
pii = 1 → i ist ein absorbierender Zustand/Randzustand
R = Randmenge, Menge aller absorbierenden Zustände
6.2
Mittelwertsregeln
1. Mittelwertsregel
Die Wahrscheinlichkeit eines inneren Zustands ist das gewichtete Mittel der Wahrscheinlichkeiten seiner Nachbarn.
2. Mittelwertsregel
Der Erwartungswert eines inneren Zustands ist 1 + das gewichtete Mittel der Erwartungswerte seiner Nachbarn.
Alle folgenden Berechnungsformeln für stochastische Graphen beruhen im Wesentlichen
auf diesen beiden Mittelwertsregeln.
6.3
Stationäre Verteilung
vt = (v (0) , v (1) , v (2) , . . . v (n) ): Verteilungsvektor zum Zeitpunkt t
v (i) entspricht der Wahrscheinlichkeit, zum Zeitpunkt t in Zustand i zu sein.
Die Summe der v (i) ist für jeden Zeitpunkt gleich 1.
Es gilt:
vt+1 = vt · M ⇒ vt+1 = vo · M t ∀t
Existiert eine stationäre Verteilung v, so gilt für diese:
v =v·M
Mithilfe dieser Eigenschaft kann ein Gleichungssystem aufgestellt werden.
v (0) + v (1) + v (2) + · · · + v (n) = 1 wird als weitere Gleichung aufgenommen.
Damit ist die Bestimmung aller v (i) durch Lösen des Systems möglich.
15
6.4
Gewinnwahrscheinlichkeiten
Die Randzustände werden in Gewinn- und Verlustzustände eingeteilt.
gi = Gewinnwahrscheinlichkeit von Zustand i


0, falls i Verlustzustand
gi = 1, falls i Gewinnzustand

P
j pij · gj , sonst
Ermittlung der gi durch Lösen des resultierenden Gleichungssystems.
6.5
Mittlere Spielzeiten/Wartezeiten
wi = mittlere Spielzeit beim Start in Zustand i
(mittlere Anzahl der Übergänge bis zum Erreichen eines Zustands aus R)
(
0, falls i ∈ R
wi =
P
1 + j pij · wj , sonst
Ermittlung der wi durch Lösen des resultierenden Gleichungssystems.
6.6
Mittleres Kapital
Beim Übergang von Zustand i nach Zustand j mit der Wahrscheinlichkeit pij erhält bzw.
zahlt der Spieler einen zuvor festgelegten Betrag bij . Dieser Betrag kann konstant sein,
oder für jedes i bzw. j verschieden.
ki = mittleres Kapital, das beim Start in Zustand i erspielt wird (oder gezahlt werden
muss falls ki < 0)
(
0, falls i ∈ R
ki = P
j pij · (kj + bij ), sonst
Ermittlung der ki durch Lösen des resultierenden Gleichungssystems.
16
7
7.1
Ökonomische Modelle
Bedienungstheorie
λ: eintreffende Kunden pro Zeiteinheit
µ: bearbeitete Kunden pro Zeiteinheit
ρ = µλ : Auslastungskoeffizient/Verkehrsrate
Formeln für das Modell: 1 Bedienelement und ∞ viele Warteplätze
Gültigkeit der Formeln nur bei ρ < 1
Stationäre Verteilung:
p0 = 1 − ρ
pn = ρ n · p0
Mittlere Anzahl der Kunden im System:
L=
λ
µ−λ
Mittlere Anzahl der Kunden in der Warteschlange:
LS =
7.2
λ2
µ · (µ − λ)
Zinsen und Kredite
i = Zinssatz
r = 1 + i = Aufzinsungsfaktor
v = 1r = Abzinsungs-/Diskontierungsfaktor
Kt = K(t) = Kapital zur Zeit t
n = Laufzeit in Jahren
m = Anzahl der Zahlungsperioden pro Jahr
1
im = m · (r m − 1) = Zinssatz für die Periode
1
m
(rm und vm analog)
Verzinsung über mehrere Jahre:
Kn = K0 · r n
Annuitätentilgung zur Kreditrückzahlung:
A=K·
i
1 − vn
Am = K ·
bzw.
17
im
n)
m · (1 − vm
7.3
Preisindizes
p0 (i) = Preis der Ware i zum Zeitpunkt 0
pt (i) = Preis der Ware i zum Zeitpunkt t
q0 (i) = Menge der Ware i zum Zeitpunkt 0
qt (i) = Menge der Ware i zum Zeitpunkt t
Preisindex nach Laspeyres:
pLaspeyres
0t
Pn
pt (i) · q0 (i)
= Pni=1
i=1 p0 (i) · q0 (i)
pP0taasche
Pn
pt (i) · qt (i)
= Pni=1
i=1 p0 (i) · qt (i)
Preisindex nach Paasche:
7.4
Zeitreihen
Eine Zeitreihe x1 , x2 , x3 , x4 , . . . , xT = {xt }Tt=1 ist eine Folge von Datenpunkten. Um kleine,
zufällige Schwankungen zu eliminieren, oder Saisoneffekte zu reduzieren, können Zeitreihen
geglättet werden. Eine einfache Methode dafür sind gleitende Durchschnitte:
yt =
k
X
xt+i · ai
wobei ai Gewichte und
X
ai = 1
i
i=−k
Saisonbereinigung
1. Glättung mit gleitendem Durchschnitt, die Länge entspricht jener der vermuteten
Periode der Saison
2. Differenzenbildung zwischen Ursprungsreihe und geglätteter Reihe
3. Berechnung der Saisonfigur durch Mittelung der Differenzen gleicher Zeitpunkte innerhalb der Periode
4. Standardisierung der Saisonfigur auf den Mittelwert 0 (von jedem Wert den Durchschnitt abziehen)
5. Bestimmung der bereinigten Zeitreihe, durch Abziehen der standardisierten Saisonfigur von der Ursprungsreihe
7.5
Shapley-Index
1.) Bildung aller möglichen Permutationen der Elemente
2.) Bestimmung des mehrheitslieferden Elements für jede Permutation
mit xi als Mehrheitsbringer
3.) Shapley-Index von Element xi = Permutationen
alle Permutationen
18
7.6
Clusteranalyse
Die Clusteranalyse dient zur Entdeckung von Ähnlichkeitsstrukturen in Datenbeständen.
Einzelne Objekte werden mit ähnlichen Elementen schrittweise in Gruppen, den sogenannten Clustern, zusammengefasst. Am Ende befinden sich alle Objekte in einem
einzigen großen Cluster, aber das wichtige Ergebnis der Clusteranalyse sind die Cluster
der einzelnen Zwischenschritte. Man erhält so Cluster mit ähnlichen Elementen, mithilfe
derer man die Objekte in n, n − 1, . . . 3, 2, 1 Klassen einteilen kann.
Es gibt verschiedene Methoden der Clusteranalyse. Diese unterscheiden sich hinsichtlich
der Berechnung der Abstände zwischen den einzelnen Clustern.
7.6.1
Complete-Linkage Verfahren
Bei dieser Methode der Cluster-Analyse wird der Abstand zwischen zwei Clustern als
maximaler Abstand aller Elementpaare aus den beiden Clustern bestimmt. Ein Cluster
hat dabei zu sich selbst immer den Abstand 0.
D(C1 , C2 ) := Abstand der Cluster C1 und C2
d(i, j) := Abstand der Objekte i und j
D(C1 , C2 ) =
max d(i, j) und D(C, C) = 0
i∈C1 ,j∈C2
Ablauf der Clusteranalyse
Zu Beginn ist eine Matrix mit den Abständen d(i, j) aller Objekte untereinader gegeben.
Es werden dann die folgenden 4 Schritte solange wiederholt, bis nur noch 2 Cluster übrig
sind:
1. Suche aus der Matrix den geringsten Abstand, der nicht null ist.
2. Fasse die beiden Elemente mit diesem minimalen Abstand zu einem Cluster zusammen. Alle weiteren Cluster bleiben bestehen und werden nur entsprechend umbenannt.
3. Bestimme die Distanzen des neu gebildeten Clusters zu den anderen. Die Abstände
zwischen unveränderten Clustern bleiben gleich, man muss aber die Umbenennungen
beachten.
4. Stelle eine aktualisierte Distanzmatrix auf und beginne von vorn. Es gibt jetzt insgesamt ein Cluster weniger als vorher.
Wenn nur noch zwei Cluster übrig sind, dann werden diese in einem letzten Schritt zu
einem einzigen zusammengefasst. Rechenschritte sind dafür nicht mehr nötig.
19
7.6.2
Single-Linkage Verfahren
Hier wird der Abstand zwischen zwei Clustern als minimaler Abstand aller Elementpaare
aus den beiden Clustern bestimmt. Ein Cluster hat dabei zu sich selbst immer den
Abstand 0.
D(C1 , C2 ) =
7.6.3
min
i∈C1 ,j∈C2
d(i, j) und D(C, C) = 0
Average-Linkage Verfahren
Hier wird der Abstand zwischen zwei Clustern als durchschnittlicher Abstand aller
Elementpaare aus den beiden Clustern bestimmt. Ein Cluster hat dabei zu sich selbst
immer den Abstand 0.
D(C1 , C2 ) =
X
1
d(i, j) und D(C, C) = 0
|C1 | · |C2 | i∈C ,j∈C
1
7.7
2
Akzelerator-Multiplikator-Modell
Dieses Modell dient zur Beschreibung des Zusammenhangs von Einkommen, Investitionen und Konsum. α (Sparen) und β (Ausgeben) sind konstante Koeffizienten, xt (Weißes
Rauschen) beschreibt das zufällige Einkommen zur Zeit t.
Ct = α · Yt−1
It = β · (Ct − Ct−1 ) + xt
Yt = Ct + It
Einsetzen liefert den Einkommensprozess:
Yt = α · (1 + β) · Yt−1 − α · β · Yt−2 + xt
20
8
Schätzer
Schätzer werden verwendet, um unbekannte statistische Größen anzunähern. Geschätzt
werden meist Mittelwerte, Streuungen oder Wahrscheinlichkeiten, es sind aber auch zahlreiche andere Parameter möglich. Für die Schätzung existiert dabei oft mehr als ein Schätzer,
genutzt werden aber hauptsächlich die einfachen, intuitiven Schätzfunktionen. Es wird unter anderem zwischen Punkt-Schätzern und Bereichs- bzw. Intervallschätzern differenziert.
Punkt-Schätzer, wie beispielsweise der Stichprobenmittelwert, liefern einen einzelnen Wert
für den zu schätzenden Parameter. Intervallschätzer (Konfidenzintervalle) hingegen liefern
einen Bereich, in welchem der geschätzte Parameter mit einer gewissen Sicherheit liegt.
8.1
Einfache Punktschätzer
geschätzter Parameter
Schätzer
Mittelwert/Erwartungswert
E(X) bzw. µ
Durchschnitt/Stichprobenmittelwert
x̄ bzw. µ̂
Streuung/
Standardabweichung
σ
Stichprobenstreuung/empirische Streuung/
empirische Standardabweichung
s
Varianz
V (X) bzw. σ 2
empirische Varianz
s2
relative Ereignishäufigkeit/
Wahrscheinlichkeit
π bzw. p
geschätzte relative Häufigkeit/
geschätzte Wahrscheinlichkeit
p̂
Odds Ratio
OR
geschätzter Odds Ratio
d
OR
Beispiele für einfache intuitive Schätzformeln bei einer Stichprobe der Größe n mit
Beobachtungen xi und k- fachem Auftreten eines bestimmten Ereignisses:
p̂ =
x̄ = µ̂ =
v
u
u
s=t
k
n
n
1 X
·
xi
n i=1
n
X
1
·
(xi − x̄)2
n − 1 i=1
21
8.2
Konfidenzintervalle
Ein Konfidenzintervall gibt Informationen über die Präzision der Schätzung eines Parameters. Würde man denselben Versuch beliebig oft durchführen, so enthielte das Konfidenzintervall mit einer gewissen Häufigkeit (Konfidenzniveau) den wahren Wert des Parameters. Als Konfidenzniveau wird meist 95% verwendet. Im folgenden Abschnitt gilt
c = Φ−1 (1 − α2 ), dies beschreibt das (1 − α2 )-Quantil der Standardnormalverteilung.
8.2.1
Mittelwerte
KI für µ bei bekannter Streuung σ:
h
σ
σi
x̄ − c · ; x̄ + c ·
n
n
KI für µ bei geschätzter Streuung s:
v
u
n
i
h
X
u 1
s
s
t
mit s =
·
(xi − x̄)2
x̄ − c · ; x̄ + c ·
n
n
n − 1 i=1
oder äquivalent:
x̄ − c ·
8.2.2
s
s
; x̄ + c ·
n−1
n−1
v
u
n
u1 X
t
·
(xi − x̄)2
mit s =
n i=1
Wahrscheinlichkeiten
KI für p, mithilfe des Schätzers p̂:
"
#
r
r
p̂ · (1 − p̂)
p̂ · (1 − p̂)
p̂ − c ·
; p̂ + c ·
n
n
8.2.3
Quantile der Standardnormalverteilung
Konfidenzniveau 1 − α
90%
95%
99%
99,7%
99,9%
c = Φ−1 (1 − α2 )
1, 64
1, 96
2, 58
3
3, 2
In der Regel wird für 95% vereinfacht c = 2 und oft auch für 99,9% c = 3 genutzt.
22
8.3
8.3.1
Eigenschaften von Schätzern
Erwartungstreue
Ein Schätzer heißt erwartungstreu, wenn sein Erwartungswert dem wahren Wert des
zu schätzenden Parameters entspricht. Anderenfalls spricht man von einem verzerrten
Schätzer. Die Abweichung des Erwartungswerts von der zu schätzenden Größe wird dann
Verzerrung oder Bias genannt.
Beispiel:
P
Sei X eine Zufallsgröße mit dem Erwartungswert µ und x̄ := n1 · ni=1 xi der Schätzer für
µ basierend auf der Stichprobe S = x1 , x2 , ...xn . Dann ist x̄ ein erwartungstreuer Schätzer
wenn gilt: E(x̄) = µ
8.3.2
Wirksamkeit
Gibt es mehrere erwartungstreue Schätzer für einen Parameter, so besitzt der wirksamste
Schätzer die geringste durchschnittliche Abweichung vom wahren Wert. Ein wirksamster
Schätzer ist also immer jener mit der minimalsten Varianz.
8.3.3
Die Ungleichung vom arithmetischen und geometrischen Mittel (vereinfachte Form)
Es gilt:
Pn
i=1
n
8.4
8.4.1
ai
2
Pn
≤
i=1
a2i
n
Maximum-Likelihood-Schätzung
Schätzverfahren
Bei der Schätzung von Parametern nach dem Maximum-Likelihood-Prinzip wird jener
Schätzer bestimmt, welcher basierend auf der beobachteten Stichprobe, die größte bzw.
maximale Wahrscheinlichkeit hat. Es werden dabei immer folgende 3 Schritte durchgeführt:
1. Aufstellen der Likelihood-Funktion L(λ), wobei λ der zu schätzende Parameter ist.
Diese Funktion drückt vereinfacht die Wahrscheinlichkeit des Eintretens der beobachteten Stichprobe in Abhängigkeit von λ aus. Sie wird meist durch Multiplikation
aller Einzelereignisse aufgestellt.
2. Logarithmieren der Likelihood-Funktion L(λ) zu L (λ)
3. Ableiten der logarithmierten Funktion L (λ) und Bestimmen des Maximums. (übliche
Extremwertbestimmung)
23
Bei mehreren Parametern λ1 , λ2 , . . . wird L (λ) für jeden Parameter einzeln abgeleitet und
das jeweilige Maximum bestimmt. Dies ist dann der Maximum-Likelihood-Schätzer für den
Parameter, nach dem abgeleitet/differenziert wurde.
8.4.2
Logarithmen-Gesetze
log(a · b) = log(a) + log(b)
log(ab ) = b · log(a)
log(a)0 =
24
1
a
9
9.1
Tests
Testtheorie
H0 : Nullhypothese
H1 : Alternativhypothese
T : Testgröße
Die Testgröße T wird basierend auf dem gewählten Test bestimmt. Meist gibt es eine Grenze
(einseitiger Test) oder zwei Grenzpunkte (zweiseitiger Test), wodurch der Wertebereich
der Testgröße in den Normal- und den Extrembereich eingeteilt wird. Liegt T innerhalb
des Normalbereichs, so ist das Ergebnis nicht signifikant und H0 bleibt bestehen. Liegt T
dagegen im Extrembereich, so ist das Ergebnis signifikant; in diesem Fall wird H0 verworfen
bzw. abgelehnt und H1 angenommen.
Realität
H0 gilt
H1 gilt
H0 gilt
richtige Entscheidung
(Spezifität, 1- α)
β (Fehler 2. Art)
H1 gilt
α (Fehler 1. Art)
richtige Entscheidung
(Power, Sensitivität, 1- β)
Test
Wird H0 abgelehnt, obwohl korrekt, nennt man dies α oder den Fehler 1. Art. α wird
oftmals zu Beginn der Analysen als angestrebte Irrtumswahrscheinlichkeit des Tests
festgelegt, um die Grenze zur Annahme oder Ablehnung von H0 zu bestimmen. In der
Regel gilt dabei α = 5%. Kommt es aufgrund des Tests nicht zur Ablehnung von H0 ,
obwohl H1 zutrifft, wird dies β oder Fehler 2. Art genannt.
Es gilt:
Je größer α desto kleiner β und umgekehrt.
Je größer n desto kleiner α und β bei gleicher Grenze.
9.2
Der t-Test
Ein parametrisches Testverfahren zum Vergleich eines Mittelwertes mit einem festen Wert oder zum Vergleich der Mittelwerte zweier Stichproben. Der Test basiert auf
der t-Verteilung; zum Ablesen der Grenzwerte wird eine Tabelle dieser Verteilung benötigt.
Der errechnete Wert für T wird bei jeder Form des t-Tests mit dem Grenzwert aus der
Tabelle für das festgelegte α und die Freiheitsgrade f verglichen. Ist T positiv, dann ist
der Test signifikant, falls T > Grenzwert. Ist T negativ, dann ist der Test signifikant, falls
T < −Grenzwert.
25
9.2.1
Eine Stichprobe
X : normalverteilte Zufallsgröße mit Beobachtungen xi
H0 : µ = µ0
H1 : Alternativhypothese, µ 6= µ0 (zweiseitig) oder µ < µ0 bzw. µ > µ0 (einseitig)
f = n − 1 : Anzahl der Freiheitsgrade
T : Testgröße
v
u
n
X
u 1
x̄ − µ0 √
t
· n mit s =
·
T =
(xi − x̄)2
s
n − 1 i=1
äquivalent ist:
T =
9.2.2
x̄ − µ0 √
· n−1
s
mit
v
u
n
u1 X
t
s=
·
(xi − x̄)2
n i=1
Zwei unabhängige Stichproben
X : normalverteilte Zufallsgröße mit n1 Beobachtungen xi , Mittelwert x̄, Varianz s2x
Y : normalverteilte Zufallsgröße mit n2 Beobachtungen yi , Mittelwert ȳ, Varianz s2y
H0 : µx = µy
H1 : µx 6= µy (zweiseitig) oder µx < µy bzw. µx > µy (einseitig)
f = n1 + n2 − 2 : Anzahl der Freiheitsgrade
T : Testgröße
s
(n1 − 1) · s2x + (n2 − 1) · s2y
1
x̄ − ȳ
1
T =
mit s =
·
+
s
n1 + n2 − 2
n1 n2
9.2.3
Zwei abhängige Stichproben
X : Erste Messung der Zufallsgröße mit Beobachtungen xi
Y : Zweite Messung der Zufallsgröße mit Beobachtungen yi
di = xi − yi : Differenzen z.B. pro Individuum
H0 : µx = µy , also δ = µx − µy = 0 oder ein δ ∈ R
H1 : µx 6= µy , also δ 6= 0 bzw. ungleich dem Wert aus H0 (zweiseitig, einseitig analog)
f = n − 1 : Anzahl der Freiheitsgrade
T : Testgröße
v
u
n
n
X
¯
u1 X
d−δ √
1
t
¯
¯2
T =
· n − 1 mit d = ·
di und sd =
·
(di − d)
sd
n i=1
n i=1
26
äquivalent ist:
d¯ − δ √
T =
· n
sd
9.3
9.3.1
n
1 X
¯
d= ·
di
n i=1
mit
und
v
u
u
sd = t
n
X
1
¯2
·
(di − d)
n − 1 i=1
Chi2 -Test
Allgemeines Testverfahren
Der Chi2 -/χ2 -/Chi-Quadrat-Test prüft die stochastische Abhängigkeit von zwei Merkmalen basierend auf einer Häufigkeitstabelle. Die Tabelle muss dabei keine Vierfeldertafel
sein, sondern kann beliebig viele Zeilen und Spalten besitzen. Jedoch ist es Voraussetzung
für den Chi2 -Test, dass die Einträge in jedem Feld mindestens 5 betragen. Ist dies nicht der
Fall, dann können Zeilen oder Spalten zusammengeführt werden, um die Voraussetzung
zu erfüllen. Der Wert für die Testgröße χ2 wird mit dem abgelesenen Grenzwert aus der
Chi2 -Tabelle verglichen. Der Test ist dann signifikant, falls χ2 > Grenzwert.
H0 : Unabhängigkeit
H1 : Abhängigkeit
m, n : Anzahl der Zeilen bzw. der Spalten der Tabelle
f : (m − 1) · (n − 1), also (Zeilenzahl − 1) · (Spaltenzahl − 1)
beobachtete Häufigkeiten: Einträge der Tabelle
erwartete Häufigkeiten:
Zeilensumme · Spaltensumme
Gesamtsumme
Testgröße:
( beobachtete H. − erwartete H. )2
χ =
erwartete H.
alleF elder
2
X
Hinweis: Sind die beobachteten und erwarteten Häufigkeiten nicht für alle Felder bekannt,
so kann χ2 zumindest für die bekannten Felder bestimmt werden. Ist dieses ”partielle”χ2
bereits größer als der Grenzwert, dann ist der Test signifikant. Ist es aber kleiner als der
Grenzwert, so kann keine Aussage über die Signifikanz getroffen werden.
9.3.2
Vereinfachte Formel für Vierfeldertafeln
Soll der Chi2 -Test für eine Vierfeldertafel durchgeführt werden, dann kann auch die folgende äquivalente Formel genutzt werden:
χ2 =
n(ad − bc)2
(a + b)(a + c)(b + d)(c + d)
27
9.4
Fisher-Test
Der Fisher-Test ist ein Abhängigkeitstest mit Hilfe der Vierfeldertafel. Er ist ein exaktes
Testverfahren, das auch bei geringen Werten zuverlässig ist, allerdings basiert es auf der
Berechnung von Binomialkoeffizienten, die extrem schnell größer werden. Deshalb können
wir bei wirklich großen Stichproben keinen Fisher-Test mehr anwenden.
H0 : Unabhängigkeit (des Zeilenmerkmals vom Spaltenmerkmal)
H1 : Abhängigkeit
B
B̄
Summe
A
a
c
a+c
Ā
b
d
b+d
Summe
a+b
c+d
n=a+b+c+d
Getestet wird, mit welcher Wahrscheinlichkeit das beobachtete Ereignis oder ein extremeres eintritt. Die Testentscheidung richtet sich danach, wie sich P(Beobachtung oder
extremeres Ereignis) und α zueinander verhalten. Ist der Testwert kleiner als α, besteht
ein signifikanter Unterschied und H0 wird abgelehnt. Ist der Testwert hingegen größer als
α, dann besteht kein signifikanter Unterschied und die Nullhypothese wird beibehalten.
Berechnung:
Es gibt insgesamt 8 verschiedene Möglichkeiten zur Berechnung der Wahrscheinlichkeit
der Beobachtung. Es wird immer eines der 4 Felder als Orientierungspunkt ausgewählt
und dann die Zeilen-“ oder Spaltenmethode“ verwendet. Meistens benutzt man als
”
”
Orientierungspunkt das Feld mit dem kleinsten Wert. Für die folgenden Formeln wird
beispielshalber a genutzt.
Zeilenmethode:
P (Beobachtung) =
a+b
a
c+d
c
b+d
b
·
n
a+c
Spaltenmethode:
P (Beobachtung) =
a+c
a
·
n
a+b
Der Orientierungswert wird dann schrittweise extremer gestaltet, soweit es die Randsummen zulassen. Für jeden Schritt wird dann erneut die Wahrscheinlichkeit berechnet und zu
P(Beobachtung) hinzu addiert. So wird am Ende P(Beobachtung oder extremeres Ereignis)
erhalten.
28
9.5
Einfacher Rangsummentest
Dieser Test ist ein nichtparametrisches Verfahren zur Überprüfung der signifikanten
Abweichung einer Stichprobe vom Mittelwert. Andere Bezeichnungen für die Anwendung
des zugrundeliegenden Testprinzips sind Wilcoxon-/Mann-Whitney- oder U-Test.
Sei X eine ordinale Zufallsgröße und S die beobachtete Stichprobe, dann wird die Wahrscheinlichkeit für eine ähnliche oder extremere Beobachtung berechnet (gleiches Testprinzip
wie beim Fisher-Test). Die Bestimmung der Wahrscheinlichkeit erfolgt nach dem Prinzip
von Laplace, d.h. die Anzahl der günstigen Möglichkeiten (alle Stichproben mit gleicher
oder extremerer Rangsumme) wird durch die Anzahl aller denkbaren Möglichkeiten geteilt.
Ist die Wahrscheinlichkeit kleiner als α, so liegt ein signifikantes Ergebnis, d.h. eine signifikante Abweichung vom allgemeinen Mittelwert, vor.
9.6
9.6.1
Odds Ratio
Bedeutung und Berechnung
Odds Ratios sind statistische Maßzahlen zur Beurteilung der Stärke des Zusammenhangs
von zwei Merkmalen. Andere Bezeichnungen für Odds Ratio sind unter anderem Chancenverhältnis und Quotenverhältnis. Als Grundlage zur Berechnung wird eine Vierfeldertafel
genutzt.
B
B̄
Summe
A
a
c
a+c
Ā
b
d
b+d
Summe
a+b
c+d
n=a+b+c+d
Odds Ratio:
d = a·d
OR
b·c
Odds Ratios finden bevorzugt in der medizinischen Datenauswertung Verwendung. Meist,
um zu untersuchen, wie stark ein potentieller Risikofaktor mit einer bestimmten Erkrankung zusammenhängt. Wäre in der obigen Tabelle beispielsweise A der Risikofaktor und
d an, um wie viel größer die Chance zu erkranken in der
B die Erkrankung, dann gibt OR
Gruppe mit Risikofaktor ist, verglichen mit der Gruppe ohne Risikofaktor. Odds Ratios
liegen immer zwischen 0 und ∞.
d < 1 : Die Chance, dass B eintritt, ist bei A geringer als bei Ā
OR
d = 1 : Die Chance, dass B eintritt, ist unabhängig von A
OR
d > 1 : Die Chance, dass B eintritt, ist bei A höher als bei Ā
OR
29
9.6.2
d
Konfidenzintervalle für OR
Konfidenzintervalle basieren auf der Annahme der Normalverteilung, allerdings sind
Odds Ratios selbst nicht normalverteilt, logarithmierte Odds Ratios hingegen schon. Aus
diesem Grund werden stets erst Konfidenzintervalle für die logarithmierten Odds Ratios
bestimmt, deren Grenzen dann mithilfe der Exponentialfunktion zurück transformiert
werden.
d :
KI für ln(OR)
r
h
i
d − c · se ; ln(OR)
d + c · se mit se = 1 + 1 + 1 + 1
ln(OR)
a b c d
d:
Transformation zum KI für OR
h
i h
i
d
d
d
d
eln(OR)−c·se ; eln(OR)+c·se = elinke Grenze von ln(OR) ; erechte Grenze von ln(OR)
Für c werden basierend auf der Normalverteiung die üblichen Werte genutzt, also c = 1, 96
bzw. c = 2 für das 95%-Konfidenzintervall und c = 3 für das 99,9%-Konfidenzintervall.
9.7
Normalverteilungstest zum Vergleich zweier Wahrscheinlichkeiten
p1 , p2 : Wahrscheinlichkeiten, basierend auf zwei Stichproben
n1 , n2 : Stichprobenumfänge
D : Differenz der Wahrscheinlichkeiten
H0 : p1 − p2 = 0, d.h. D = 0
H1 : D 6= 0
p̂ : Schätzer für p in der Gesamtpopulation
p̂ =
T =q
p1 · n1 + p2 · n2
n1 + n2
D
p̂(1 − p̂) · ( n11 +
1
)
n2
Als Ablesetabelle für kritische Werte dient jene der Standardnormalverteilung.
9.8
α und β bei Hypothesentests mit Normalverteilung
X : Zufallsgröße
H0 : Nullhypothese (mit µ0 und σ0 )
H1 : Alternativhypothese (mit µ1 und σ1 )
G : fixierte Grenze
Φ : Verteilungsfunktion der Standardnormalverteilung (Tabelle)
30
Z(X) =
X−µ
σ
: Standardisierung von X (für G analog)
Falls H1 rechts von H0 liegt, also µ0 < µ1 gilt:
α = PH0 (X > G) = PH0 (Z(X) > Z(G)) = 1 − Φ(Z(G))
β = PH1 (X ≤ G) = PH1 (Z(X) ≤ Z(G)) = Φ(Z(G))
Falls H1 links von H0 liegt, also µ0 > µ1 gilt:
α = PH0 (X < G) = PH0 (Z(X) < Z(G)) = Φ(Z(G))
β = PH1 (X ≥ G) = PH1 (Z(X) ≥ Z(G)) = 1 − Φ(Z(G))
9.9
F-Test für lineare Regressionsmodelle
Mit diesem Verfahren kann getestet werden, ob ein Regressionskoeffizient, d.h. im einfachsten Fall die Steigung einer Regressionsgerade, signifikant verschieden von 0 ist. Hier
betrachten wir nur diesen einfachen Fall, wir haben dann eine Regressionsgerade der Form:
ŷ = β0 + β1 x
Getestet wird also, ob sich β1 signifikant von 0 unterscheidet, denn nur dann kann davon
ausgegangen werden, dass x wirklich Einfluss auf ŷ ausübt.
H0 : β1 = 0, d.h. die Steigung ist 0
H1 : β1 6= 0, d.h. die Steigung ist nicht 0
n : Stichprobenumfang
R : linearer Korrelationskoeffizient nach Pearson
f : Freiheitsgrade; f = (1, n − 2)
R2
· (n − 2)
1 − R2
Mithilfe von α und f wird aus der Tabelle der F-Verteilung der korrespondierende Grenzwert abgelesen und mit der Testgröße T verglichen. Ist T größer als der Grenzwert, so liegt
Signifikanz vor und x ist wirklich ein Regressor für ŷ mit dem Faktor β1 .
T =
9.10
Varianzanalyse
9.10.1
Allgemeine Varianzanalyse (ANOVA)
Die Varianzanalyse untersucht, ob mehrere Gruppen oder Messreihen hinsichtlich einer
meist ordinalskalierten Variable einer gemeinsamen Population entstammen. Häufig wird
31
der Begriff ”Varianzanalyse”mit ANOVA (engl. analysis of variance) abgekürzt. In der
Regel wird zunächst die gesamte Varianz aller beobachteten Werte bestimmt. Diese
Varianz wird dann in jenen Teil, der durch das untersuchte Merkmal erklärt werden
kann, sowie die Restvarianz aufgeteilt. Die eigentliche Testgröße ist dann das Verhältnis
dieser beiden Anteile zueinander. Sie wird mit einem aus der Tabelle der F-Verteilung
abgelesenen Grenzwert verglichen.
H0 : Es besteht kein Unterschied zwischen den Gruppen d.h. µ1 = µ2 = · · · = µm
H1 : Mindestens 2 der getesteten Stichproben unterscheiden sich d.h. es gibt mindestens 2
lllllk Stichproben i und j mit µi 6= µj
m : Anzahl der Stichproben
n : Anzahl der gesamten Stichprobenelemente
ni : Größe der einzelnen Stichproben
f : m − 1 und n − m (2 Freiheitsgrade wegen der F-Verteilung)
SQtotal : gesamte Varianz, es gilt: SQtotal = SQF aktor + SQresidual
SQF aktor : Anteil der Varianz, der durch das untersuchte Gruppierungsmerkmal (Faktor)
mmmlllllk erklärt wird
SQresidual : Restvarianz, die nicht durch das untersuchte Merkmal erklärt wird
SQtotal =
ni
m X
X
(xik − x̄)2
i=1 k=1
SQF aktor =
m
X
ni (x̄i − x̄)2
i=1
SQresidual =
ni
m X
X
(xik − x̄i )2
i=1 k=1
T =
9.10.2
1
· SQF aktor
m−1
1
· SQresidual
n−m
Rangvarianzanalyse
Die Rangvarianzanalyse ist ein parameterfreies Testverfahren. Sie untersucht, ob mehrere
Gruppen oder Messreihen hinsichtlich einer ordinalskalierten Variablen einer gemeinsamen
Population entstammen. Die Rangvarianzanalyse wird auch Kruskal-Wallis-Test genannt
und ist dem Wilcoxon-/Mann-Whitney-/U-Test sehr ähnlich. Der Unterschied besteht
darin, dass bei der Rangvarianzanalyse mehr als 2 Gruppen gleichzeitig getestet werden
können. Als Ablesetabelle wird die Tabelle der Chi-Quadrat-Verteilung genutzt. Es gibt
2 Varianten der Rangvarianzanalyse: für abhängige oder unabhängige Stichproben. Die
folgende Formel bezieht sich auf den unabhängigen Fall:
32
H0 : Es besteht kein Unterschied zwischen den Gruppen (gleiche Grundgesamtheit)
H1 : Mindestens 2 der getesteten Stichproben unterschieden sich
m : Anzahl der Stichproben
n : Anzahl der gesamten Stichprobenelemente
ni : Größe der einzelnen Stichproben
Ri : Rangsummen
f : m − 1 d.h. Anzahl der Stichproben-1
m
X R2
12
i
T = −3(n + 1) +
n(n + 1) i=1 ni
33
10
10.1
Elementare Prinzipien
Markov-Ungleichung
Die Markow-Ungleichung gibt eine obere Schranke für die Wahrscheinlichkeit an, dass
eine Zufallsvariable eine positive Konstante oder das c-fache ihres Erwartungswertes
überschreitet.
E(|X|)
P [|X| ≥ a] ≤
a
bzw.
1
P [|X| ≥ c · E(|X|)] ≤
c
10.2
Tschebyscheff-Ungleichung
Diese Tschebyscheff-Ungleichung gibt eine obere Grenze für die Wahrscheinlichkeit an, dass
eine Zufallsvariable mit endlicher Varianz Werte außerhalb eines symmetrisch um den Erwartungswert gelegenen Intervalls annimmt. Sei X eine Zufallsvariable mit Erwartungswert
µ und Varianz σ 2 . Dann gilt für alle reellen Zahlen k > 0:
P [|X − µ| ≥ k] ≤
10.3
σ2
k2
Benford-Gesetz
Mithilfe des Benford-Gesetztes können Gesetzmäßigkeiten der Verteilung von Ziffernstrukturen in empirischen Datensätzen beschrieben werden. Anwendung findet das Gesetz z.B.
bei der Analyse von Einwohnerzahlen oder Geldbeträgen. Möchte man die Häufigkeiten
verschiedener Ziffern als erste Ziffer einer Zahl untersuchen, dann verwendet man:
hi = Wahrscheinlichkeit des Auftretens der Ziffer i als erste Zahl z.B. i = 1, . . . , 9
h0 = 0
1
hi = log10 (1 + )
i
Als Basis im Logarithmus nutzt man dabei immer die Gesamtanzahl der möglichen Ziffern.
Im Dezimalsystem sind dies die Ziffern 0, . . . , 9 , also ist die Basis 10. Für die Ziffern
1, . . . , 9 als erste Ziffer von Zahlen im Dezimalsystem ergeben sich so folgende Häufigkeiten:
Ziffer
rel. Häufigkeit
1
30, 1%
2
17, 6%
3
12, 5%
4
9, 7%
34
5
7, 9%
6
6, 7%
7
5, 8%
8
5, 1%
9
4, 6%
Herunterladen