Formelübersicht - Statistik

Formelübersicht - Statistik I + II
Inhaltsverzeichnis
1 Elementare Wahrscheinlichkeitsrechnung
1.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 PIE - Prinzip von Inklusion und Exklusion . . . . . . . . . . . . . . . . . .
1
1
1
2
2 Wahrscheinlichkeitsverteilungen
2.1 Binomialverteilung . . . . . . . . . . . . . .
2.2 Poisson-Verteilung . . . . . . . . . . . . . .
2.3 Exponentialverteilung . . . . . . . . . . . . .
2.4 Dichtefunktionen und Verteilungsfunktionen
2.4.1 Dichtefunktionen . . . . . . . . . . .
2.4.2 Verteilungsfunktionen . . . . . . . .
.
.
.
.
.
.
3
3
3
4
4
4
5
3 Grundlegende Parameter
3.1 Erwartungswert/Mittelwert/Durchschnitt .
3.1.1 Eigenschaften des Erwartungwerts .
3.2 Varianz und Streuung . . . . . . . . . . .
3.2.1 Eigenschaften der Varianz . . . . .
3.3 Kovarianz . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
6
7
7
4 Untersuchung linearer Zusammenhänge
4.1 Lineare Regression . . . . . . . . . . . . . . . . . . .
4.2 Robuste Regression nach Theil . . . . . . . . . . . . .
4.3 Lineare Regression nach Gauß-Markov . . . . . . . .
4.3.1 Regressionsmodell und Koeffizientenschätzung
4.3.2 Schätzung der Varianz . . . . . . . . . . . . .
4.4 Korrelationskoeffizient nach Pearson . . . . . . . . .
4.5 Rangkorrelationskoeffizient nach Spearman . . . . . .
4.6 Anpassungsgüte . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
8
8
8
9
10
10
10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Visualisierungsmethoden
5.1 Stängel-Blatt-Diagramm . . . . .
5.2 Boxplot und benötigte Parameter
5.3 Histogramm . . . . . . . . . . . .
5.4 Lorenzkurve und Gini-Koeffizient
5.5 Verteilungstabellen . . . . . . . .
5.6 Empirische Verteilungsfunktion .
6 Stochastische Graphen
6.1 Allgemeine Markov-Ketten . . .
6.2 Mittelwertsregeln . . . . . . . .
6.3 Stationäre Verteilung . . . . . .
6.4 Gewinnwahrscheinlichkeiten . .
6.5 Mittlere Spielzeiten/Wartezeiten
6.6 Mittleres Kapital . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Ökonomische Modelle
7.1 Bedienungstheorie . . . . . . . . . .
7.2 Zinsen und Kredite . . . . . . . . .
7.3 Preisindizes . . . . . . . . . . . . .
7.4 Zeitreihen . . . . . . . . . . . . . .
7.5 Shapley-Index . . . . . . . . . . . .
7.6 Clusteranalyse . . . . . . . . . . . .
7.6.1 Complete-Linkage Verfahren
7.6.2 Single-Linkage Verfahren . .
7.6.3 Average-Linkage Verfahren .
7.7 Akzelerator-Multiplikator-Modell .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
12
12
13
14
.
.
.
.
.
.
15
15
15
15
16
16
16
.
.
.
.
.
.
.
.
.
.
17
17
17
18
18
18
19
19
20
20
20
8 Schätzer
8.1 Einfache Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.2 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.3 Quantile der Standardnormalverteilung . . . . . . . . . . . . . . . .
8.3 Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.1 Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Wirksamkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3.3 Die Ungleichung vom arithmetischen und geometrischen Mittel (vereinfachte Form) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . .
8.4.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Logarithmen-Gesetze . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
22
22
22
22
23
23
23
23
23
23
24
9 Tests
9.1 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Eine Stichprobe . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Zwei unabhängige Stichproben . . . . . . . . . . . . . . . .
9.2.3 Zwei abhängige Stichproben . . . . . . . . . . . . . . . . .
9.3 Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.1 Allgemeines Testverfahren . . . . . . . . . . . . . . . . . .
9.3.2 Vereinfachte Formel für Vierfeldertafeln . . . . . . . . . . .
9.4 Fisher-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5 Einfacher Rangsummentest . . . . . . . . . . . . . . . . . . . . . .
9.6 Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.6.1 Bedeutung und Berechnung . . . . . . . . . . . . . . . . .
d. . . . . . . . . . . . . . . . . .
9.6.2 Konfidenzintervalle für OR
9.7 Normalverteilungstest zum Vergleich zweier Wahrscheinlichkeiten
9.8 α und β bei Hypothesentests mit Normalverteilung . . . . . . . .
9.9 F-Test für lineare Regressionsmodelle . . . . . . . . . . . . . . . .
9.10 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.10.1 Allgemeine Varianzanalyse (ANOVA) . . . . . . . . . . . .
9.10.2 Rangvarianzanalyse . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
25
26
26
26
27
27
27
28
29
29
29
30
30
30
31
31
31
32
10 Elementare Prinzipien
10.1 Markov-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2 Tschebyscheff-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3 Benford-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
34
34
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1.1
Elementare Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl möglicher Anordnungen von n Elementen:
n! = n · (n − 1) · (n − 2) · . . . · 2 · 1
Binomialkoeffizient:
n
n!
n
=
=
k
(n − k)! · k!
n−k
Anzahl verschiedener Möglichkeiten der Auswahl von k Elementen aus n:
mit Beachtung der Reihenfolge
mit Wiederholung
k
n
n+k−1
k
ohne Beachtung der Reihenfolge
ohne Wiederholung
n
k ·k!
n
k
Lottoformel: Wahrscheinlichkeit für k Richtige bei einer Ziehung von l Zahlen aus n
n−l
l
·
p(k) = pk = k nl−k
l
1.2
Wahrscheinlichkeit
Definition der Wahrscheinlichkeit nach Laplace:
Ω = Menge aller möglichen Ereignisse
E = Menge aller günstigen Ereignisse, E ⊆ Ω
P (E) =
|E|
Anzahl günstiger Ereignisse
=
|Ω|
Anzahl möglicher Ereignisse
Allgemein:
P (∅) = 0
P (Ω) = 1
A ⊆ Ω ⇒ P (A) ∈ [0, 1]
A ⊆ B ⇒ P (A) ≤ P (B)
Komplementäre Wahrscheinlichkeit:
P (Ac ) = 1 − P (A)
1
Bedingte Wahrscheinlichkeit / Satz von Bayes:
P (A|B) =
P (A ∩ B)
P (B)
P (A ∩ B) = P (A|B) · P (B)
Totale Wahrscheinlichkeit:
P (A) =
n
X
P (A|Bi ) · P (Bi )
i=1
A und B sind stochastisch unabhängig, wenn:
P (A|B) = P (A)
oder äquivalent:
P (A ∩ B) = P (A) · P (B)
1.3
PIE - Prinzip von Inklusion und Exklusion
PIE ist eine Technik zur Bestimmung der Mächtigkeit einer (zusammengesetzten) Menge
mithilfe ihrer Teilmengen. Für je zwei endliche Mengen A und B gilt: |A ∪ B| = |A| +
|B| − |A ∩ B|. Angewendet auf Mengen in einem Wahrscheinlichkeitsraum resultiert die
Siebformel bzw. der Additionssatz für Wahrscheinlichkeiten.
Zwei Teilmengen A und B:
P (A ∪ B) = P (A) + (B) − P (A ∩ B)
Drei Teilmengen A, B und C:
P (A ∪ B ∪ C) = P (A) + (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Allgemein: Abwechselnde Inklusionen und Exklusionen, d.h. einzelne Teilmengen addieren
(Inklusion), Kombinationen von 2 Teilmengen abziehen (Exklusion), Kobminationen von 3
Teilmengen addieren (Inklusion), Kombinationen von 4 Teilmengen abziehen (Exklusion),
Kombinationen von 5 Teilmengen addieren (Inklusion), ...
2
2
2.1
Wahrscheinlichkeitsverteilungen
Binomialverteilung
Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer Serie von Versuchen. Sei
p die Erfolgswahrscheinlichkeit für einen einzelnen Versuch und n die Anzahl der durchgeführten Versuche, dann ist P (X = k) die Wahrscheinlichkeit, dass die binomial verteilte
Zufallsgröße X den Wert k annimmt, d.h. dass genau k Erfolge erzielt werden. Die Misserfolgswahrscheinlichkeit 1 − p wird dabei meist duch q dargestellt.
n k n−k
P (X = k) =
p ·q
für k = 0, 1, . . . , n
k
k X
n i n−i
P (X ≤ k) =
p ·q
= 1 − P (X ≥ k + 1)
i
i=0
n X
n i n−i
P (X ≥ k) =
p ·q
= 1 − P (X ≤ k − 1)
i
i=k
Erwartungswert:
E(X) = µ = n · p
Varianz:
V (X) = σ 2 = n · p · q
2.2
Poisson-Verteilung
Die Poisson-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung und gilt als Spezialfall der Binomialverteilung. Sie modelliert die Verteilung seltener Ereignisse (sehr
kleine Erfolgswahrscheinlichkeit). Die Poisson-Verteilung besitzt einen Parameter λ, dieser
bezeichnet die erwartete Ereignishäufigkeit im Beobachtungsintervall. Beispielsweise kann
λ = 2 für 2 gesichtete Sternschnuppen pro Jahr gewählt werden. P2 (X = k) wäre dann
die Wahrscheinlichkeit, dass in einem Jahr k Sternschnuppen gesichtet werden, wobei
durchschnittlich 2 Sichtungen erwartet würden.
Wahrscheinlichkeitsfunktion:
Pλ (k) =
Erwartungswert:
λk −λ
e
k!
∞
X
λk
E(X) =
k e−λ = λ
k!
k=0
Varianz:
V (X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ
3
2.3
Exponentialverteilung
Dichtefunktion:
(
λe−λx
fλ (x) =
0
x≥0
x<0
Verteilungsfunktion:
Zx
F (x) =
(
1 − e−λx
fλ (t) dt =
0
x ≥ 0,
x < 0.
−∞
Erwartungswert:
Z∞
E(X) =
λxe−λx dx =
1
λ
0
Varianz:
2
Z∞ 1
1
V (X) =
x−
λe−λx dx = 2
λ
λ
0
In der Übung hergeleitet:
1
P (X > k · E(X)) = P (X > k · ) = e−k
λ
2.4
2.4.1
Dichtefunktionen und Verteilungsfunktionen
Dichtefunktionen
Die Dichtefunktion, auch Dichte oder Wahrscheinlichkeitsdichte genannt, dient zur
Beschreibung einer stetigen Wahrscheinlichkeitsverteilung. Die Integration der Dichtefunktion über ein Intervall [a, b] liefert die Wahrscheinlichkeit dafür, dass die zugehörige
Zufallsgröße einen Wert zwischen a und b annimmt. Die Werte einer Dichtefunktion sind
immer ≥ 0 und die Fläche unter ihr ist stets 1.
Vorsicht Verwechslungsgefahr: Die Dichtefunktion an der Stelle a gibt nicht die Wahrscheinlichkeit für das Eintreten von a wieder.
Ist X eine stetige Zufallsvariable, dann benennen wir die Dichte dieser Zufallsgröße mit
f(x) und es gilt:
f (x) ≥ 0
Z ∞
f (x)dx = 1
−∞
Z
b
f (x)dx = P (a ≤ x ≤ b)
a
4
Mithilfe der Dichtefunktion kann man den Erwartungswert und die Varianz stetiger Zufallsvariablen bestimmen:
Z ∞
xf (x)dx
E(X) =
−∞
Z
∞
V (X) =
(x − E(X))2 f (x)dx
−∞
2.4.2
Verteilungsfunktionen
Die kumulative Verteilungsfunktion F (x) einer Zufallsgröße X ist das Integral der Dichtefunktion von −∞ bis x. Umgekehrt ist die Dichtefunktion die Ableitung der Verteilungsfunktion.
Z x
f (t)dt
F (x) =
−∞
dF (x)
dx
Der Wert der Verteilungsfunktion an der Stelle a gibt die Wahrscheinlichkeit an, mit der
die Zufallsgröße X einen Wert ≤ a annimmt:
Z a
P (x ≤ a) = F (a) =
f (x)dx
f (x) = F 0 (x) =
−∞
Z
∞
P (x > a) = 1 − F (a) =
f (x)dx
a
Z
P (a ≤ x ≤ b) = F (b) − F (a) =
b
f (x)dx
a
Die Verteilungsfunktion einer Zufallsgröße nimmt nur Werte von 0 bis 1 an und ist monoton
steigend.
5
3
Grundlegende Parameter
Alle Berechnungsformeln dieses Kapitels sind auf zugrunde liegende Stichproben ausgerichtet. Natürlich können mit ihnen auch die theoretischen Parameter ausgerechnet werden,
wenn die theoretische Verteilung der Zufallsgröße bekannt ist.
3.1
Erwartungswert/Mittelwert/Durchschnitt
Der Erwartungswert d.h. der theoretische Mittelwert einer Größe X wird mit E(X) oder
µ bezeichnet. Meist liegt aber nur eine Stichprobe vor, auf deren Basis dieser theoretische
Mittelwert geschätzt werden muss. Den genutzten Schätzer nennt man meist Durchschnitt,
Stichprobenmittelwert oder empirischen Mittelwert. Er wird mit x̄ oder auch µ̂ bezeichnet.
x̄ = Mittelwert/Durchschnitt (n = Gesamtanzahl, xi = Ausprägungen)
 Pn
1

 n · Pi=1 xi , wenn n Werte x1 . . . xn gegeben
x̄ = n1 · m
i=1 xi · H(xi ), wenn absolute Häufigkeiten H(xi ) für m Klassen x1 . . . xm gegeben

P m
i=1 xi · h(xi ), wenn relative Häufigkeiten h(xi ) für m Klassen x1 . . . xm gegeben
3.1.1
Eigenschaften des Erwartungwerts
X und Y seinen Zufallsgrößen, a sei eine Konstante.
E(a · X) = a · E(X)
E(X + Y ) = E(X) + E(Y )
E(X + a) = E(X) + a
3.2
Varianz und Streuung
Die Varianz V (X) oder σ 2 beschreibt die mittlere quadratische Abweichung vom Mittelwert. Ihre positive Wurzel σ wird Streuung oder Standardabweichung genannt. Ähnlich
wie beim Erwartungswert muss die wahre Varianz meist basierend auf einer Stichprobe
geschätzt werden. Ihr Schätzer wird empirische Varianz oder Stichprobenvarianz genannt
und mit s2 bezeichnet.
s2 = s2x =Varianz
√
s = sx = s2 = Streuung
Allgemeine Formel:
n
1 X
s = ·
(xi − x̄)2
n i=1
2
6
Äquivalente Momentenformel:
s2 = x2 − x̄2
Häufig wird die Varianz mit den obigen Formeln zu gering eingeschätzt, weshalb zur Bestimmung der Stichprobenvarianz meist eine korrigierte Formel Verwendung findet, bei der
man nicht durch n, sondern durch n − 1 teilt:
s2 =
3.2.1
n
X
1
·
(xi − x̄)2
n − 1 i=1
Eigenschaften der Varianz
X sei eine Zufallsgröße und a eine Konstante.
V (X) = E(X 2 ) − E(X)2
V (a · X) = a2 · V (X)
V (X + a) = V (X)
V (−X) = V (X)
3.3
Kovarianz
sxy =Kovarianz von x und y
Allgemeine Formel:
sxy =
n
1 X
·
(xi − x̄) · (yi − ȳ)
n i=1
Äquivalente Momentenformel:
sxy = xy − x̄ · ȳ
Hinweis: Die Kovarianz einer Zufallsgröße mit sich selbst liefert ihre Varianz.
7
4
Untersuchung linearer Zusammenhänge
4.1
Lineare Regression
Wertepaare/Punkte (xi , yi ) sind gegeben. Es wird eine Gerade berechnet, sodass die
Summe aller quadrierten Abstände zwischen den Punkten und dieser Gerade minimal ist.
Regressionsgerade:
y = ȳ +
4.2
sxy
xy − x̄ · ȳ
· (x − x̄) = ȳ +
· (x − x̄)
2
sx
x2 − x̄2
Robuste Regression nach Theil
bestimmt.
In der obigen Variante wird die Steigung der Regressionsgerade durch xy−x̄·ȳ
x2 −x̄2
Bei der robusten Regression nach Theil wird sie stattdessen als Median der Steigungen
einzelner Punkt-Paare berechnet, um den Einfluss von Ausreißern zu verringern.
Berechnung:
1. Ordne alle xi aufsteigend an und teile diese Reihe dann in zwei Hälften (bei einer
ungeraden Anzahl von Werten wird der Mittlere weggelassen).
2. Für jedes xi aus der unteren Hälfte wird dann die Steigung zu jedem xj aus der
y −y
oberen Hälfte berechnet: mij = xjj −xii
3. Bestimme den Median aller berechneten Anstiege und verwende diesen als robuste
Steigung anstelle von xy−x̄·ȳ
in der allgemeinen Formel für die Regressionsgrade.
x2 −x̄2
4.3
Lineare Regression nach Gauß-Markov
Bei der einfachen linearen Regression wird eine Regressionsgerade bestimmt, welche die
Veränderung der Zielgröße in Abhängigkeit von der Einflussgröße beschreibt. Meist wirken sich aber mehrere Einflussgrößen auf eine Zielgröße aus. Den Grundsatz für die Modellierung solcher komplexer wirtschaftlicher Zusammenhänge bietet das Gauß-MarkovTheorem. Seine Anwendung wird auch als GM-Schätzung bezeichnet.
4.3.1
Regressionsmodell und Koeffizientenschätzung
Y : Zielgröße (Response)
X1 , . . . , Xk : Einflussgrößen (Regressoren)
k : Anzahl der Einflussgrößen
n : Anzahl der Messungen
β1 , . . . , βk : Regressionskoeffizienten (Anstiege von Y ) für die Einflussgrößen
8
Für jede Messung gibt es einen Wert von Y und einen für jedes X1 , . . . , Xk . Mithilfe der
Regressionskoeffizienten kann man dann pro Messung eine Gleichung aufstellen, welche die
Effekte von X1 , . . . , Xk auf Y beschreibt:
y1 = β1 x11 + β2 x12 + β3 x13 + · · · + βk x1k + 1
y2 = β1 x21 + β2 x22 + β3 x23 + · · · + βk x2k + 2
y3 = β1 x31 + β2 x32 + β3 x33 + · · · + βk x3k + 3
..
.
yn = β1 xn1 + β2 xn2 + β3 xn3 + · · · + βk xnk + n
Fasst man alle gemessenen y1 . . . yn in einem Vektor y zusammen, sowie alle β1 . . . βk in
einem weiteren Vektor β, dann kann man auch alle x11 . . . xnk in einer n × k−Matrix X
zusammen fassen. Die Gleichungen von oben vereinfachen sich dann zu:
y =β·X +
Für das Regressionsmodell ist nun der Koeffizientenvektor β zu schätzen. Ein erwartungstreuer Schätzer hierfür ist nach dem Gauß-Markov-Theorem:
β̂ = (X T X)−1 X T y
Vorgehensweise zum Berechnen von β̂:
1. Aufstellen der Matrix X und des Vektors y aus den gegebenen Daten
2. Matrix X zu X T transformieren
3. X T X berechnen und Inverse davon bilden
4. Alles in die obige Formel einsetzen und so β̂ berechnen
Bei Bedarf kann als 5. Schritt das komplette Modell aufgestellt werden, indem β̂ in die
Modellgleichung y = β · X + eingesetzt wird.
4.3.2
Schätzung der Varianz
Wurde β̂ berechnet, so kann auch die Gauß-Markov-Varianz (GM-Varianz) geschätzt werden durch:
1
(y − X β̂)T (y − X β̂)
σ̂ 2 =
n−k
9
4.4
Korrelationskoeffizient nach Pearson
Der Korrelationskoeffizient r ist ein Maß für den linearen Zusammenhang von 2 Merkmalen.
r=
sxy
xy − x̄ · ȳ
q
=p
sx · sy
2
2
x − x̄ · y 2 − ȳ 2
Es gilt −1 ≤ r ≤ 1.
Falls r ≈ 0 ⇒ x und y sind unkorreliert.
Falls r > 0 ⇒ x und y sind positiv korreliert.
Falls r < 0 ⇒ x und y sind negativ korreliert.
Unabhängige Variablen sind stets unkorreliert, aber die Umkehrung gilt nicht: Unkorrelierte
Variablen können durchaus abhängig voneinander sein!
4.5
Rangkorrelationskoeffizient nach Spearman
Den Datenreihen x1 ...xn und y1 ...yn werden Rangzahlen Ri bzw. Si zugeordnet. Jedes
Wertepaar (xi , yi ) hat dann ein Rangpaar (Ri , Si ) mit der Rangdifferenz di = Ri − Si .
P
6 · ni=1 d2i
, wobei − 1 ≤ rspearman ≤ 1
rspearman = 1 −
n · (n2 − 1)
4.6
Anpassungsgüte
P
Totale Variabilität: SQtotal = ni=1 (yi − ȳ)2
P
(yi − ŷi )2
Residuenanteil der totalen Variabilität: SQresidual = ni=1P
Regressionsanteil der totalen Variabilität: SQregression = ni=1 (ŷi − ȳ)2
Es gilt: SQtotal = SQresidual + SQregression
Anpassungsgüte:
SQresidual
R2 = 1 −
, wobei 0 ≤ R2 ≤ 1
SQtotal
2
Bei linearer Regression gilt: R2 = rpearson
10
5
5.1
Visualisierungsmethoden
Stängel-Blatt-Diagramm
Dieses Diagramm dient zur Visualisierung von Häufigkeitsverteilungen, wobei jede Einzelbeobachtung erhalten bleibt (nur für geringe Datenmengen geeignet).
Es besteht aus zwei Spalten. Die linke Spalte enthält die Äquivalenzklassen (Stängel), in
welche die auf der rechten Seite dargestellten Merkmale (Blätter) eingeteilt werden.
5.2
Boxplot und benötigte Parameter
min = Minimum, kleinster Wert
max = Maximum, größter Wert
Modus/Modalwert = häufigster Wert
Quantile für Gesamtanzahl n und Anteil p:
(
1
(xn·p + xn·p+1 ), wenn n · p ganzzahlig
x̃p = 2
xdn·pe , wenn n · p nicht ganzzahlig
x̃0,25 = unteres Quartil
x̃0,5 = Median
x̃0,75 = oberes Quartil
x̃0,75 − x̃0,25 = IQR (Interquartilsabstand)
xi ist ein Ausreißer, falls xi ≤ x̃0,25 − 1, 5 · IQR oder xi ≥ x̃0,75 + 1, 5 · IQR
Box-Plot:
11
5.3
Histogramm
Das Histogramm ist eine Möglichkeit zur Darstellung der Häufigkeitsverteilung metrischer
Variablen. Dazu ist eine Einteilung der Daten in Klassen gleicher oder unterschiedlicher
Breite nötig.
Es wird ein Balken pro Klasse gezeichnet, der direkt an die Balken der Nachbarklassen
anschließt und dessen Fläche proportional zur relativen Häufigkeit der Klasse ist. (Höhe
des Balkens = Klassenhäufigkeit/Klassenbreite)
5.4
Lorenzkurve und Gini-Koeffizient
Die Lorenzkurve ist eine Funktion im Einheitsquadrat und dient zur Veranschaulichung
der Disparität/Ungleichheit einer Verteilung.
Die X-Achse wird entsprechend der Klassen von Merkmalsträgern in gleich oder
verschieden große Abschnitte eingeteilt. Für jede Klasse wird ihr Anteil an der Merkmalssumme berechnet. Die Lorenz-Kurve ist dann abschnittsweise linear durch die Punkte
(0|0), (u1 |v1 ) , (u2 |v2 ) , . . . , (un |vn ) = (1|1) definiert.
xj = Abschnittslängen für die Klassen der Merkmalsträger
yj = Anteile an der Merkmalssumme
i
P
ui =
xj
vi =
j=1
i
P
yj
j=1
Die Lorenz-Kurve ist konvex und liegt daher immer unter der Diagonale. Je gleichmäßiger
die Verteilung ist, umso mehr nähert sie sich der Diagonalen an.
12
Der Gini-Koeffizient G ∈ [0, 1] beschreibt die zweifache Abweichung der Lorenzkurve von
der Diagonalen. Je ungleichmäßiger die Verteilung, desto größer G.
G=1−
5.5
1
· (2 · (v0 + v1 + · · · + vn−1 ) + 1)
n
Verteilungstabellen
1-dimensional:
Die Zufallsvariable X habe die Ausprägungen x1 , x2 und x3 . Bei n Beobachtungen treten
diese mit den Häufigkeiten H(x1 ), H(x2 ) und H(x3 ) auf. Die relativen Häufigkeiten der
1)
....
einzelnen Ausprägungen sind somit P (X = x1 ) = H(x
n
P
xi
x1
x2
x3
absolute Häufigkeiten:
H(xi ) H(x1 ) H(x2 ) H(x3 ) n
P
xi
x1
x2
x3
relative Häufigkeiten:
P (X = xi ) P (x1 ) P (x2 ) P (x3 ) 1
2-dimensional:
Analog zum 1-dimensionalen Fall, aber es wird zusätzlich eine zweite Zufallsariable Y mit
den Ausprägungen y1 und y2 betrachtet.
P
x1
x2
x3
y
H(x1 ∩ y1 ) H(x2 ∩ y1 ) H(x3 ∩ y1 ) H(y1 )
absolute Häufigkeiten: 1
y2 H(x1 ∩ y2 ) H(x2 ∩ y2 ) H(x3 ∩ y2 ) H(y2 )
P
H(x1 )
H(x2 )
H(x3 )
n
P
x1
x2
x3
y1 P (x1 ∩ y1 ) P (x2 ∩ y1 ) P (x3 ∩ y1 ) P (y1 )
relative Häufigkeiten:
y2 P (x1 ∩ y2 ) P (x2 ∩ y2 ) P (x3 ∩ y2 ) P (y2 )
P
P (x1 )
P (x2 )
P (x3 )
1
13
5.6
Empirische Verteilungsfunktion
absolute Häufigkeit: H(aj ), Anzahl des Auftretens von aj
H(a )
relative Häufigkeit: h(aj ) = n j , wobei n =Gesamtanzahl
empirische Verteilungsfunktion:
X
F (x) =
h(aj )
aj ≤x
Die Funktion wächst monoton von 0 bis 1 und verläuft konstant zwischen aj und aj+1 ∀j.
Ihre Erscheinung ähnelt dadurch einer Treppe.
14
6
6.1
Stochastische Graphen
Allgemeine Markov-Ketten
n verschiedene Zustände, n ≥ 2
zufälliger Übergang von Zustand i nach
Übergangsmatrix:

p00
 p10


M =  p20
 ..
 .
pn0
Zustand j mit der Wahrscheinlichkeit pij
p01 p02
p11 p12
p21 p22
..
..
.
.
pn1 pn2

. . . p0n
. . . p1n 

. . . p2n 

. . . .. 
. 
. . . pnn
pii < 1 → i ist ein innerer Zustand
pii = 1 → i ist ein absorbierender Zustand/Randzustand
R = Randmenge, Menge aller absorbierenden Zustände
6.2
Mittelwertsregeln
1. Mittelwertsregel
Die Wahrscheinlichkeit eines inneren Zustands ist das gewichtete Mittel der Wahrscheinlichkeiten seiner Nachbarn.
2. Mittelwertsregel
Der Erwartungswert eines inneren Zustands ist 1 + das gewichtete Mittel der Erwartungswerte seiner Nachbarn.
Alle folgenden Berechnungsformeln für stochastische Graphen beruhen im Wesentlichen
auf diesen beiden Mittelwertsregeln.
6.3
Stationäre Verteilung
vt = (v (0) , v (1) , v (2) , . . . v (n) ): Verteilungsvektor zum Zeitpunkt t
v (i) entspricht der Wahrscheinlichkeit, zum Zeitpunkt t in Zustand i zu sein.
Die Summe der v (i) ist für jeden Zeitpunkt gleich 1.
Es gilt:
vt+1 = vt · M ⇒ vt+1 = vo · M t ∀t
Existiert eine stationäre Verteilung v, so gilt für diese:
v =v·M
Mithilfe dieser Eigenschaft kann ein Gleichungssystem aufgestellt werden.
v (0) + v (1) + v (2) + · · · + v (n) = 1 wird als weitere Gleichung aufgenommen.
Damit ist die Bestimmung aller v (i) durch Lösen des Systems möglich.
15
6.4
Gewinnwahrscheinlichkeiten
Die Randzustände werden in Gewinn- und Verlustzustände eingeteilt.
gi = Gewinnwahrscheinlichkeit von Zustand i


0, falls i Verlustzustand
gi = 1, falls i Gewinnzustand

P
j pij · gj , sonst
Ermittlung der gi durch Lösen des resultierenden Gleichungssystems.
6.5
Mittlere Spielzeiten/Wartezeiten
wi = mittlere Spielzeit beim Start in Zustand i
(mittlere Anzahl der Übergänge bis zum Erreichen eines Zustands aus R)
(
0, falls i ∈ R
wi =
P
1 + j pij · wj , sonst
Ermittlung der wi durch Lösen des resultierenden Gleichungssystems.
6.6
Mittleres Kapital
Beim Übergang von Zustand i nach Zustand j mit der Wahrscheinlichkeit pij erhält bzw.
zahlt der Spieler einen zuvor festgelegten Betrag bij . Dieser Betrag kann konstant sein,
oder für jedes i bzw. j verschieden.
ki = mittleres Kapital, das beim Start in Zustand i erspielt wird (oder gezahlt werden
muss falls ki < 0)
(
0, falls i ∈ R
ki = P
j pij · (kj + bij ), sonst
Ermittlung der ki durch Lösen des resultierenden Gleichungssystems.
16
7
7.1
Ökonomische Modelle
Bedienungstheorie
λ: eintreffende Kunden pro Zeiteinheit
µ: bearbeitete Kunden pro Zeiteinheit
ρ = µλ : Auslastungskoeffizient/Verkehrsrate
Formeln für das Modell: 1 Bedienelement und ∞ viele Warteplätze
Gültigkeit der Formeln nur bei ρ < 1
Stationäre Verteilung:
p0 = 1 − ρ
pn = ρ n · p0
Mittlere Anzahl der Kunden im System:
L=
λ
µ−λ
Mittlere Anzahl der Kunden in der Warteschlange:
LS =
7.2
λ2
µ · (µ − λ)
Zinsen und Kredite
i = Zinssatz
r = 1 + i = Aufzinsungsfaktor
v = 1r = Abzinsungs-/Diskontierungsfaktor
Kt = K(t) = Kapital zur Zeit t
n = Laufzeit in Jahren
m = Anzahl der Zahlungsperioden pro Jahr
1
im = m · (r m − 1) = Zinssatz für die Periode
1
m
(rm und vm analog)
Verzinsung über mehrere Jahre:
Kn = K0 · r n
Annuitätentilgung zur Kreditrückzahlung:
A=K·
i
1 − vn
Am = K ·
bzw.
17
im
n)
m · (1 − vm
7.3
Preisindizes
p0 (i) = Preis der Ware i zum Zeitpunkt 0
pt (i) = Preis der Ware i zum Zeitpunkt t
q0 (i) = Menge der Ware i zum Zeitpunkt 0
qt (i) = Menge der Ware i zum Zeitpunkt t
Preisindex nach Laspeyres:
pLaspeyres
0t
Pn
pt (i) · q0 (i)
= Pni=1
i=1 p0 (i) · q0 (i)
pP0taasche
Pn
pt (i) · qt (i)
= Pni=1
i=1 p0 (i) · qt (i)
Preisindex nach Paasche:
7.4
Zeitreihen
Eine Zeitreihe x1 , x2 , x3 , x4 , . . . , xT = {xt }Tt=1 ist eine Folge von Datenpunkten. Um kleine,
zufällige Schwankungen zu eliminieren, oder Saisoneffekte zu reduzieren, können Zeitreihen
geglättet werden. Eine einfache Methode dafür sind gleitende Durchschnitte:
yt =
k
X
xt+i · ai
wobei ai Gewichte und
X
ai = 1
i
i=−k
Saisonbereinigung
1. Glättung mit gleitendem Durchschnitt, die Länge entspricht jener der vermuteten
Periode der Saison
2. Differenzenbildung zwischen Ursprungsreihe und geglätteter Reihe
3. Berechnung der Saisonfigur durch Mittelung der Differenzen gleicher Zeitpunkte innerhalb der Periode
4. Standardisierung der Saisonfigur auf den Mittelwert 0 (von jedem Wert den Durchschnitt abziehen)
5. Bestimmung der bereinigten Zeitreihe, durch Abziehen der standardisierten Saisonfigur von der Ursprungsreihe
7.5
Shapley-Index
1.) Bildung aller möglichen Permutationen der Elemente
2.) Bestimmung des mehrheitslieferden Elements für jede Permutation
mit xi als Mehrheitsbringer
3.) Shapley-Index von Element xi = Permutationen
alle Permutationen
18
7.6
Clusteranalyse
Die Clusteranalyse dient zur Entdeckung von Ähnlichkeitsstrukturen in Datenbeständen.
Einzelne Objekte werden mit ähnlichen Elementen schrittweise in Gruppen, den sogenannten Clustern, zusammengefasst. Am Ende befinden sich alle Objekte in einem
einzigen großen Cluster, aber das wichtige Ergebnis der Clusteranalyse sind die Cluster
der einzelnen Zwischenschritte. Man erhält so Cluster mit ähnlichen Elementen, mithilfe
derer man die Objekte in n, n − 1, . . . 3, 2, 1 Klassen einteilen kann.
Es gibt verschiedene Methoden der Clusteranalyse. Diese unterscheiden sich hinsichtlich
der Berechnung der Abstände zwischen den einzelnen Clustern.
7.6.1
Complete-Linkage Verfahren
Bei dieser Methode der Cluster-Analyse wird der Abstand zwischen zwei Clustern als
maximaler Abstand aller Elementpaare aus den beiden Clustern bestimmt. Ein Cluster
hat dabei zu sich selbst immer den Abstand 0.
D(C1 , C2 ) := Abstand der Cluster C1 und C2
d(i, j) := Abstand der Objekte i und j
D(C1 , C2 ) =
max d(i, j) und D(C, C) = 0
i∈C1 ,j∈C2
Ablauf der Clusteranalyse
Zu Beginn ist eine Matrix mit den Abständen d(i, j) aller Objekte untereinader gegeben.
Es werden dann die folgenden 4 Schritte solange wiederholt, bis nur noch 2 Cluster übrig
sind:
1. Suche aus der Matrix den geringsten Abstand, der nicht null ist.
2. Fasse die beiden Elemente mit diesem minimalen Abstand zu einem Cluster zusammen. Alle weiteren Cluster bleiben bestehen und werden nur entsprechend umbenannt.
3. Bestimme die Distanzen des neu gebildeten Clusters zu den anderen. Die Abstände
zwischen unveränderten Clustern bleiben gleich, man muss aber die Umbenennungen
beachten.
4. Stelle eine aktualisierte Distanzmatrix auf und beginne von vorn. Es gibt jetzt insgesamt ein Cluster weniger als vorher.
Wenn nur noch zwei Cluster übrig sind, dann werden diese in einem letzten Schritt zu
einem einzigen zusammengefasst. Rechenschritte sind dafür nicht mehr nötig.
19
7.6.2
Single-Linkage Verfahren
Hier wird der Abstand zwischen zwei Clustern als minimaler Abstand aller Elementpaare
aus den beiden Clustern bestimmt. Ein Cluster hat dabei zu sich selbst immer den
Abstand 0.
D(C1 , C2 ) =
7.6.3
min
i∈C1 ,j∈C2
d(i, j) und D(C, C) = 0
Average-Linkage Verfahren
Hier wird der Abstand zwischen zwei Clustern als durchschnittlicher Abstand aller
Elementpaare aus den beiden Clustern bestimmt. Ein Cluster hat dabei zu sich selbst
immer den Abstand 0.
D(C1 , C2 ) =
X
1
d(i, j) und D(C, C) = 0
|C1 | · |C2 | i∈C ,j∈C
1
7.7
2
Akzelerator-Multiplikator-Modell
Dieses Modell dient zur Beschreibung des Zusammenhangs von Einkommen, Investitionen und Konsum. α (Sparen) und β (Ausgeben) sind konstante Koeffizienten, xt (Weißes
Rauschen) beschreibt das zufällige Einkommen zur Zeit t.
Ct = α · Yt−1
It = β · (Ct − Ct−1 ) + xt
Yt = Ct + It
Einsetzen liefert den Einkommensprozess:
Yt = α · (1 + β) · Yt−1 − α · β · Yt−2 + xt
20
8
Schätzer
Schätzer werden verwendet, um unbekannte statistische Größen anzunähern. Geschätzt
werden meist Mittelwerte, Streuungen oder Wahrscheinlichkeiten, es sind aber auch zahlreiche andere Parameter möglich. Für die Schätzung existiert dabei oft mehr als ein Schätzer,
genutzt werden aber hauptsächlich die einfachen, intuitiven Schätzfunktionen. Es wird unter anderem zwischen Punkt-Schätzern und Bereichs- bzw. Intervallschätzern differenziert.
Punkt-Schätzer, wie beispielsweise der Stichprobenmittelwert, liefern einen einzelnen Wert
für den zu schätzenden Parameter. Intervallschätzer (Konfidenzintervalle) hingegen liefern
einen Bereich, in welchem der geschätzte Parameter mit einer gewissen Sicherheit liegt.
8.1
Einfache Punktschätzer
geschätzter Parameter
Schätzer
Mittelwert/Erwartungswert
E(X) bzw. µ
Durchschnitt/Stichprobenmittelwert
x̄ bzw. µ̂
Streuung/
Standardabweichung
σ
Stichprobenstreuung/empirische Streuung/
empirische Standardabweichung
s
Varianz
V (X) bzw. σ 2
empirische Varianz
s2
relative Ereignishäufigkeit/
Wahrscheinlichkeit
π bzw. p
geschätzte relative Häufigkeit/
geschätzte Wahrscheinlichkeit
p̂
Odds Ratio
OR
geschätzter Odds Ratio
d
OR
Beispiele für einfache intuitive Schätzformeln bei einer Stichprobe der Größe n mit
Beobachtungen xi und k- fachem Auftreten eines bestimmten Ereignisses:
p̂ =
x̄ = µ̂ =
v
u
u
s=t
k
n
n
1 X
·
xi
n i=1
n
X
1
·
(xi − x̄)2
n − 1 i=1
21
8.2
Konfidenzintervalle
Ein Konfidenzintervall gibt Informationen über die Präzision der Schätzung eines Parameters. Würde man denselben Versuch beliebig oft durchführen, so enthielte das Konfidenzintervall mit einer gewissen Häufigkeit (Konfidenzniveau) den wahren Wert des Parameters. Als Konfidenzniveau wird meist 95% verwendet. Im folgenden Abschnitt gilt
c = Φ−1 (1 − α2 ), dies beschreibt das (1 − α2 )-Quantil der Standardnormalverteilung.
8.2.1
Mittelwerte
KI für µ bei bekannter Streuung σ:
h
σ
σi
x̄ − c · ; x̄ + c ·
n
n
KI für µ bei geschätzter Streuung s:
v
u
n
i
h
X
u 1
s
s
t
mit s =
·
(xi − x̄)2
x̄ − c · ; x̄ + c ·
n
n
n − 1 i=1
oder äquivalent:
x̄ − c ·
8.2.2
s
s
; x̄ + c ·
n−1
n−1
v
u
n
u1 X
t
·
(xi − x̄)2
mit s =
n i=1
Wahrscheinlichkeiten
KI für p, mithilfe des Schätzers p̂:
"
#
r
r
p̂ · (1 − p̂)
p̂ · (1 − p̂)
p̂ − c ·
; p̂ + c ·
n
n
8.2.3
Quantile der Standardnormalverteilung
Konfidenzniveau 1 − α
90%
95%
99%
99,7%
99,9%
c = Φ−1 (1 − α2 )
1, 64
1, 96
2, 58
3
3, 2
In der Regel wird für 95% vereinfacht c = 2 und oft auch für 99,9% c = 3 genutzt.
22
8.3
8.3.1
Eigenschaften von Schätzern
Erwartungstreue
Ein Schätzer heißt erwartungstreu, wenn sein Erwartungswert dem wahren Wert des
zu schätzenden Parameters entspricht. Anderenfalls spricht man von einem verzerrten
Schätzer. Die Abweichung des Erwartungswerts von der zu schätzenden Größe wird dann
Verzerrung oder Bias genannt.
Beispiel:
P
Sei X eine Zufallsgröße mit dem Erwartungswert µ und x̄ := n1 · ni=1 xi der Schätzer für
µ basierend auf der Stichprobe S = x1 , x2 , ...xn . Dann ist x̄ ein erwartungstreuer Schätzer
wenn gilt: E(x̄) = µ
8.3.2
Wirksamkeit
Gibt es mehrere erwartungstreue Schätzer für einen Parameter, so besitzt der wirksamste
Schätzer die geringste durchschnittliche Abweichung vom wahren Wert. Ein wirksamster
Schätzer ist also immer jener mit der minimalsten Varianz.
8.3.3
Die Ungleichung vom arithmetischen und geometrischen Mittel (vereinfachte Form)
Es gilt:
Pn
i=1
n
8.4
8.4.1
ai
2
Pn
≤
i=1
a2i
n
Maximum-Likelihood-Schätzung
Schätzverfahren
Bei der Schätzung von Parametern nach dem Maximum-Likelihood-Prinzip wird jener
Schätzer bestimmt, welcher basierend auf der beobachteten Stichprobe, die größte bzw.
maximale Wahrscheinlichkeit hat. Es werden dabei immer folgende 3 Schritte durchgeführt:
1. Aufstellen der Likelihood-Funktion L(λ), wobei λ der zu schätzende Parameter ist.
Diese Funktion drückt vereinfacht die Wahrscheinlichkeit des Eintretens der beobachteten Stichprobe in Abhängigkeit von λ aus. Sie wird meist durch Multiplikation
aller Einzelereignisse aufgestellt.
2. Logarithmieren der Likelihood-Funktion L(λ) zu L (λ)
3. Ableiten der logarithmierten Funktion L (λ) und Bestimmen des Maximums. (übliche
Extremwertbestimmung)
23
Bei mehreren Parametern λ1 , λ2 , . . . wird L (λ) für jeden Parameter einzeln abgeleitet und
das jeweilige Maximum bestimmt. Dies ist dann der Maximum-Likelihood-Schätzer für den
Parameter, nach dem abgeleitet/differenziert wurde.
8.4.2
Logarithmen-Gesetze
log(a · b) = log(a) + log(b)
log(ab ) = b · log(a)
log(a)0 =
24
1
a
9
9.1
Tests
Testtheorie
H0 : Nullhypothese
H1 : Alternativhypothese
T : Testgröße
Die Testgröße T wird basierend auf dem gewählten Test bestimmt. Meist gibt es eine Grenze
(einseitiger Test) oder zwei Grenzpunkte (zweiseitiger Test), wodurch der Wertebereich
der Testgröße in den Normal- und den Extrembereich eingeteilt wird. Liegt T innerhalb
des Normalbereichs, so ist das Ergebnis nicht signifikant und H0 bleibt bestehen. Liegt T
dagegen im Extrembereich, so ist das Ergebnis signifikant; in diesem Fall wird H0 verworfen
bzw. abgelehnt und H1 angenommen.
Realität
H0 gilt
H1 gilt
H0 gilt
richtige Entscheidung
(Spezifität, 1- α)
β (Fehler 2. Art)
H1 gilt
α (Fehler 1. Art)
richtige Entscheidung
(Power, Sensitivität, 1- β)
Test
Wird H0 abgelehnt, obwohl korrekt, nennt man dies α oder den Fehler 1. Art. α wird
oftmals zu Beginn der Analysen als angestrebte Irrtumswahrscheinlichkeit des Tests
festgelegt, um die Grenze zur Annahme oder Ablehnung von H0 zu bestimmen. In der
Regel gilt dabei α = 5%. Kommt es aufgrund des Tests nicht zur Ablehnung von H0 ,
obwohl H1 zutrifft, wird dies β oder Fehler 2. Art genannt.
Es gilt:
Je größer α desto kleiner β und umgekehrt.
Je größer n desto kleiner α und β bei gleicher Grenze.
9.2
Der t-Test
Ein parametrisches Testverfahren zum Vergleich eines Mittelwertes mit einem festen Wert oder zum Vergleich der Mittelwerte zweier Stichproben. Der Test basiert auf
der t-Verteilung; zum Ablesen der Grenzwerte wird eine Tabelle dieser Verteilung benötigt.
Der errechnete Wert für T wird bei jeder Form des t-Tests mit dem Grenzwert aus der
Tabelle für das festgelegte α und die Freiheitsgrade f verglichen. Ist T positiv, dann ist
der Test signifikant, falls T > Grenzwert. Ist T negativ, dann ist der Test signifikant, falls
T < −Grenzwert.
25
9.2.1
Eine Stichprobe
X : normalverteilte Zufallsgröße mit Beobachtungen xi
H0 : µ = µ0
H1 : Alternativhypothese, µ 6= µ0 (zweiseitig) oder µ < µ0 bzw. µ > µ0 (einseitig)
f = n − 1 : Anzahl der Freiheitsgrade
T : Testgröße
v
u
n
X
u 1
x̄ − µ0 √
t
· n mit s =
·
T =
(xi − x̄)2
s
n − 1 i=1
äquivalent ist:
T =
9.2.2
x̄ − µ0 √
· n−1
s
mit
v
u
n
u1 X
t
s=
·
(xi − x̄)2
n i=1
Zwei unabhängige Stichproben
X : normalverteilte Zufallsgröße mit n1 Beobachtungen xi , Mittelwert x̄, Varianz s2x
Y : normalverteilte Zufallsgröße mit n2 Beobachtungen yi , Mittelwert ȳ, Varianz s2y
H0 : µx = µy
H1 : µx 6= µy (zweiseitig) oder µx < µy bzw. µx > µy (einseitig)
f = n1 + n2 − 2 : Anzahl der Freiheitsgrade
T : Testgröße
s
(n1 − 1) · s2x + (n2 − 1) · s2y
1
x̄ − ȳ
1
T =
mit s =
·
+
s
n1 + n2 − 2
n1 n2
9.2.3
Zwei abhängige Stichproben
X : Erste Messung der Zufallsgröße mit Beobachtungen xi
Y : Zweite Messung der Zufallsgröße mit Beobachtungen yi
di = xi − yi : Differenzen z.B. pro Individuum
H0 : µx = µy , also δ = µx − µy = 0 oder ein δ ∈ R
H1 : µx 6= µy , also δ 6= 0 bzw. ungleich dem Wert aus H0 (zweiseitig, einseitig analog)
f = n − 1 : Anzahl der Freiheitsgrade
T : Testgröße
v
u
n
n
X
¯
u1 X
d−δ √
1
t
¯
¯2
T =
· n − 1 mit d = ·
di und sd =
·
(di − d)
sd
n i=1
n i=1
26
äquivalent ist:
d¯ − δ √
T =
· n
sd
9.3
9.3.1
n
1 X
¯
d= ·
di
n i=1
mit
und
v
u
u
sd = t
n
X
1
¯2
·
(di − d)
n − 1 i=1
Chi2 -Test
Allgemeines Testverfahren
Der Chi2 -/χ2 -/Chi-Quadrat-Test prüft die stochastische Abhängigkeit von zwei Merkmalen basierend auf einer Häufigkeitstabelle. Die Tabelle muss dabei keine Vierfeldertafel
sein, sondern kann beliebig viele Zeilen und Spalten besitzen. Jedoch ist es Voraussetzung
für den Chi2 -Test, dass die Einträge in jedem Feld mindestens 5 betragen. Ist dies nicht der
Fall, dann können Zeilen oder Spalten zusammengeführt werden, um die Voraussetzung
zu erfüllen. Der Wert für die Testgröße χ2 wird mit dem abgelesenen Grenzwert aus der
Chi2 -Tabelle verglichen. Der Test ist dann signifikant, falls χ2 > Grenzwert.
H0 : Unabhängigkeit
H1 : Abhängigkeit
m, n : Anzahl der Zeilen bzw. der Spalten der Tabelle
f : (m − 1) · (n − 1), also (Zeilenzahl − 1) · (Spaltenzahl − 1)
beobachtete Häufigkeiten: Einträge der Tabelle
erwartete Häufigkeiten:
Zeilensumme · Spaltensumme
Gesamtsumme
Testgröße:
( beobachtete H. − erwartete H. )2
χ =
erwartete H.
alleF elder
2
X
Hinweis: Sind die beobachteten und erwarteten Häufigkeiten nicht für alle Felder bekannt,
so kann χ2 zumindest für die bekannten Felder bestimmt werden. Ist dieses ”partielle”χ2
bereits größer als der Grenzwert, dann ist der Test signifikant. Ist es aber kleiner als der
Grenzwert, so kann keine Aussage über die Signifikanz getroffen werden.
9.3.2
Vereinfachte Formel für Vierfeldertafeln
Soll der Chi2 -Test für eine Vierfeldertafel durchgeführt werden, dann kann auch die folgende äquivalente Formel genutzt werden:
χ2 =
n(ad − bc)2
(a + b)(a + c)(b + d)(c + d)
27
9.4
Fisher-Test
Der Fisher-Test ist ein Abhängigkeitstest mit Hilfe der Vierfeldertafel. Er ist ein exaktes
Testverfahren, das auch bei geringen Werten zuverlässig ist, allerdings basiert es auf der
Berechnung von Binomialkoeffizienten, die extrem schnell größer werden. Deshalb können
wir bei wirklich großen Stichproben keinen Fisher-Test mehr anwenden.
H0 : Unabhängigkeit (des Zeilenmerkmals vom Spaltenmerkmal)
H1 : Abhängigkeit
B
B̄
Summe
A
a
c
a+c
Ā
b
d
b+d
Summe
a+b
c+d
n=a+b+c+d
Getestet wird, mit welcher Wahrscheinlichkeit das beobachtete Ereignis oder ein extremeres eintritt. Die Testentscheidung richtet sich danach, wie sich P(Beobachtung oder
extremeres Ereignis) und α zueinander verhalten. Ist der Testwert kleiner als α, besteht
ein signifikanter Unterschied und H0 wird abgelehnt. Ist der Testwert hingegen größer als
α, dann besteht kein signifikanter Unterschied und die Nullhypothese wird beibehalten.
Berechnung:
Es gibt insgesamt 8 verschiedene Möglichkeiten zur Berechnung der Wahrscheinlichkeit
der Beobachtung. Es wird immer eines der 4 Felder als Orientierungspunkt ausgewählt
und dann die Zeilen-“ oder Spaltenmethode“ verwendet. Meistens benutzt man als
”
”
Orientierungspunkt das Feld mit dem kleinsten Wert. Für die folgenden Formeln wird
beispielshalber a genutzt.
Zeilenmethode:
P (Beobachtung) =
a+b
a
c+d
c
b+d
b
·
n
a+c
Spaltenmethode:
P (Beobachtung) =
a+c
a
·
n
a+b
Der Orientierungswert wird dann schrittweise extremer gestaltet, soweit es die Randsummen zulassen. Für jeden Schritt wird dann erneut die Wahrscheinlichkeit berechnet und zu
P(Beobachtung) hinzu addiert. So wird am Ende P(Beobachtung oder extremeres Ereignis)
erhalten.
28
9.5
Einfacher Rangsummentest
Dieser Test ist ein nichtparametrisches Verfahren zur Überprüfung der signifikanten
Abweichung einer Stichprobe vom Mittelwert. Andere Bezeichnungen für die Anwendung
des zugrundeliegenden Testprinzips sind Wilcoxon-/Mann-Whitney- oder U-Test.
Sei X eine ordinale Zufallsgröße und S die beobachtete Stichprobe, dann wird die Wahrscheinlichkeit für eine ähnliche oder extremere Beobachtung berechnet (gleiches Testprinzip
wie beim Fisher-Test). Die Bestimmung der Wahrscheinlichkeit erfolgt nach dem Prinzip
von Laplace, d.h. die Anzahl der günstigen Möglichkeiten (alle Stichproben mit gleicher
oder extremerer Rangsumme) wird durch die Anzahl aller denkbaren Möglichkeiten geteilt.
Ist die Wahrscheinlichkeit kleiner als α, so liegt ein signifikantes Ergebnis, d.h. eine signifikante Abweichung vom allgemeinen Mittelwert, vor.
9.6
9.6.1
Odds Ratio
Bedeutung und Berechnung
Odds Ratios sind statistische Maßzahlen zur Beurteilung der Stärke des Zusammenhangs
von zwei Merkmalen. Andere Bezeichnungen für Odds Ratio sind unter anderem Chancenverhältnis und Quotenverhältnis. Als Grundlage zur Berechnung wird eine Vierfeldertafel
genutzt.
B
B̄
Summe
A
a
c
a+c
Ā
b
d
b+d
Summe
a+b
c+d
n=a+b+c+d
Odds Ratio:
d = a·d
OR
b·c
Odds Ratios finden bevorzugt in der medizinischen Datenauswertung Verwendung. Meist,
um zu untersuchen, wie stark ein potentieller Risikofaktor mit einer bestimmten Erkrankung zusammenhängt. Wäre in der obigen Tabelle beispielsweise A der Risikofaktor und
d an, um wie viel größer die Chance zu erkranken in der
B die Erkrankung, dann gibt OR
Gruppe mit Risikofaktor ist, verglichen mit der Gruppe ohne Risikofaktor. Odds Ratios
liegen immer zwischen 0 und ∞.
d < 1 : Die Chance, dass B eintritt, ist bei A geringer als bei Ā
OR
d = 1 : Die Chance, dass B eintritt, ist unabhängig von A
OR
d > 1 : Die Chance, dass B eintritt, ist bei A höher als bei Ā
OR
29
9.6.2
d
Konfidenzintervalle für OR
Konfidenzintervalle basieren auf der Annahme der Normalverteilung, allerdings sind
Odds Ratios selbst nicht normalverteilt, logarithmierte Odds Ratios hingegen schon. Aus
diesem Grund werden stets erst Konfidenzintervalle für die logarithmierten Odds Ratios
bestimmt, deren Grenzen dann mithilfe der Exponentialfunktion zurück transformiert
werden.
d :
KI für ln(OR)
r
h
i
d − c · se ; ln(OR)
d + c · se mit se = 1 + 1 + 1 + 1
ln(OR)
a b c d
d:
Transformation zum KI für OR
h
i h
i
d
d
d
d
eln(OR)−c·se ; eln(OR)+c·se = elinke Grenze von ln(OR) ; erechte Grenze von ln(OR)
Für c werden basierend auf der Normalverteiung die üblichen Werte genutzt, also c = 1, 96
bzw. c = 2 für das 95%-Konfidenzintervall und c = 3 für das 99,9%-Konfidenzintervall.
9.7
Normalverteilungstest zum Vergleich zweier Wahrscheinlichkeiten
p1 , p2 : Wahrscheinlichkeiten, basierend auf zwei Stichproben
n1 , n2 : Stichprobenumfänge
D : Differenz der Wahrscheinlichkeiten
H0 : p1 − p2 = 0, d.h. D = 0
H1 : D 6= 0
p̂ : Schätzer für p in der Gesamtpopulation
p̂ =
T =q
p1 · n1 + p2 · n2
n1 + n2
D
p̂(1 − p̂) · ( n11 +
1
)
n2
Als Ablesetabelle für kritische Werte dient jene der Standardnormalverteilung.
9.8
α und β bei Hypothesentests mit Normalverteilung
X : Zufallsgröße
H0 : Nullhypothese (mit µ0 und σ0 )
H1 : Alternativhypothese (mit µ1 und σ1 )
G : fixierte Grenze
Φ : Verteilungsfunktion der Standardnormalverteilung (Tabelle)
30
Z(X) =
X−µ
σ
: Standardisierung von X (für G analog)
Falls H1 rechts von H0 liegt, also µ0 < µ1 gilt:
α = PH0 (X > G) = PH0 (Z(X) > Z(G)) = 1 − Φ(Z(G))
β = PH1 (X ≤ G) = PH1 (Z(X) ≤ Z(G)) = Φ(Z(G))
Falls H1 links von H0 liegt, also µ0 > µ1 gilt:
α = PH0 (X < G) = PH0 (Z(X) < Z(G)) = Φ(Z(G))
β = PH1 (X ≥ G) = PH1 (Z(X) ≥ Z(G)) = 1 − Φ(Z(G))
9.9
F-Test für lineare Regressionsmodelle
Mit diesem Verfahren kann getestet werden, ob ein Regressionskoeffizient, d.h. im einfachsten Fall die Steigung einer Regressionsgerade, signifikant verschieden von 0 ist. Hier
betrachten wir nur diesen einfachen Fall, wir haben dann eine Regressionsgerade der Form:
ŷ = β0 + β1 x
Getestet wird also, ob sich β1 signifikant von 0 unterscheidet, denn nur dann kann davon
ausgegangen werden, dass x wirklich Einfluss auf ŷ ausübt.
H0 : β1 = 0, d.h. die Steigung ist 0
H1 : β1 6= 0, d.h. die Steigung ist nicht 0
n : Stichprobenumfang
R : linearer Korrelationskoeffizient nach Pearson
f : Freiheitsgrade; f = (1, n − 2)
R2
· (n − 2)
1 − R2
Mithilfe von α und f wird aus der Tabelle der F-Verteilung der korrespondierende Grenzwert abgelesen und mit der Testgröße T verglichen. Ist T größer als der Grenzwert, so liegt
Signifikanz vor und x ist wirklich ein Regressor für ŷ mit dem Faktor β1 .
T =
9.10
Varianzanalyse
9.10.1
Allgemeine Varianzanalyse (ANOVA)
Die Varianzanalyse untersucht, ob mehrere Gruppen oder Messreihen hinsichtlich einer
meist ordinalskalierten Variable einer gemeinsamen Population entstammen. Häufig wird
31
der Begriff ”Varianzanalyse”mit ANOVA (engl. analysis of variance) abgekürzt. In der
Regel wird zunächst die gesamte Varianz aller beobachteten Werte bestimmt. Diese
Varianz wird dann in jenen Teil, der durch das untersuchte Merkmal erklärt werden
kann, sowie die Restvarianz aufgeteilt. Die eigentliche Testgröße ist dann das Verhältnis
dieser beiden Anteile zueinander. Sie wird mit einem aus der Tabelle der F-Verteilung
abgelesenen Grenzwert verglichen.
H0 : Es besteht kein Unterschied zwischen den Gruppen d.h. µ1 = µ2 = · · · = µm
H1 : Mindestens 2 der getesteten Stichproben unterscheiden sich d.h. es gibt mindestens 2
lllllk Stichproben i und j mit µi 6= µj
m : Anzahl der Stichproben
n : Anzahl der gesamten Stichprobenelemente
ni : Größe der einzelnen Stichproben
f : m − 1 und n − m (2 Freiheitsgrade wegen der F-Verteilung)
SQtotal : gesamte Varianz, es gilt: SQtotal = SQF aktor + SQresidual
SQF aktor : Anteil der Varianz, der durch das untersuchte Gruppierungsmerkmal (Faktor)
mmmlllllk erklärt wird
SQresidual : Restvarianz, die nicht durch das untersuchte Merkmal erklärt wird
SQtotal =
ni
m X
X
(xik − x̄)2
i=1 k=1
SQF aktor =
m
X
ni (x̄i − x̄)2
i=1
SQresidual =
ni
m X
X
(xik − x̄i )2
i=1 k=1
T =
9.10.2
1
· SQF aktor
m−1
1
· SQresidual
n−m
Rangvarianzanalyse
Die Rangvarianzanalyse ist ein parameterfreies Testverfahren. Sie untersucht, ob mehrere
Gruppen oder Messreihen hinsichtlich einer ordinalskalierten Variablen einer gemeinsamen
Population entstammen. Die Rangvarianzanalyse wird auch Kruskal-Wallis-Test genannt
und ist dem Wilcoxon-/Mann-Whitney-/U-Test sehr ähnlich. Der Unterschied besteht
darin, dass bei der Rangvarianzanalyse mehr als 2 Gruppen gleichzeitig getestet werden
können. Als Ablesetabelle wird die Tabelle der Chi-Quadrat-Verteilung genutzt. Es gibt
2 Varianten der Rangvarianzanalyse: für abhängige oder unabhängige Stichproben. Die
folgende Formel bezieht sich auf den unabhängigen Fall:
32
H0 : Es besteht kein Unterschied zwischen den Gruppen (gleiche Grundgesamtheit)
H1 : Mindestens 2 der getesteten Stichproben unterschieden sich
m : Anzahl der Stichproben
n : Anzahl der gesamten Stichprobenelemente
ni : Größe der einzelnen Stichproben
Ri : Rangsummen
f : m − 1 d.h. Anzahl der Stichproben-1
m
X R2
12
i
T = −3(n + 1) +
n(n + 1) i=1 ni
33
10
10.1
Elementare Prinzipien
Markov-Ungleichung
Die Markow-Ungleichung gibt eine obere Schranke für die Wahrscheinlichkeit an, dass
eine Zufallsvariable eine positive Konstante oder das c-fache ihres Erwartungswertes
überschreitet.
E(|X|)
P [|X| ≥ a] ≤
a
bzw.
1
P [|X| ≥ c · E(|X|)] ≤
c
10.2
Tschebyscheff-Ungleichung
Diese Tschebyscheff-Ungleichung gibt eine obere Grenze für die Wahrscheinlichkeit an, dass
eine Zufallsvariable mit endlicher Varianz Werte außerhalb eines symmetrisch um den Erwartungswert gelegenen Intervalls annimmt. Sei X eine Zufallsvariable mit Erwartungswert
µ und Varianz σ 2 . Dann gilt für alle reellen Zahlen k > 0:
P [|X − µ| ≥ k] ≤
10.3
σ2
k2
Benford-Gesetz
Mithilfe des Benford-Gesetztes können Gesetzmäßigkeiten der Verteilung von Ziffernstrukturen in empirischen Datensätzen beschrieben werden. Anwendung findet das Gesetz z.B.
bei der Analyse von Einwohnerzahlen oder Geldbeträgen. Möchte man die Häufigkeiten
verschiedener Ziffern als erste Ziffer einer Zahl untersuchen, dann verwendet man:
hi = Wahrscheinlichkeit des Auftretens der Ziffer i als erste Zahl z.B. i = 1, . . . , 9
h0 = 0
1
hi = log10 (1 + )
i
Als Basis im Logarithmus nutzt man dabei immer die Gesamtanzahl der möglichen Ziffern.
Im Dezimalsystem sind dies die Ziffern 0, . . . , 9 , also ist die Basis 10. Für die Ziffern
1, . . . , 9 als erste Ziffer von Zahlen im Dezimalsystem ergeben sich so folgende Häufigkeiten:
Ziffer
rel. Häufigkeit
1
30, 1%
2
17, 6%
3
12, 5%
4
9, 7%
34
5
7, 9%
6
6, 7%
7
5, 8%
8
5, 1%
9
4, 6%

Zugehörige Unterlagen

Hypothesentest/Konfidenzintervall

Blatt 5 - LMU Moodle

Formelübersicht - Statistik

Zugehörige Unterlagen

Produkte

Unterstützung

Formelübersicht - Statistik

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können