Biostatistik 2 - Institut für Stochastik und Anwendungen

Werbung
Biostatistik 2
Jürgen Dippon
4. April 2016
1
Inhaltsverzeichnis
1 Testen von Hypothesen
1.1 Binomial- und Gauß-Test . . . . . . . . . . . . . .
1.1.1 Approximativer Binomialtest . . . . . . . .
1.1.2 Gauß-Test . . . . . . . . . . . . . . . . . . .
1.2 Prinzipien des Testens . . . . . . . . . . . . . . . .
1.2.1 Fehlentscheidungen . . . . . . . . . . . . . .
1.2.2 Zusammenhang zwischen statistischen Tests
1.2.3 Überschreitungswahrscheinlichkeit . . . . .
1.2.4 Gütefunktion . . . . . . . . . . . . . . . . .
1.3 Durchführung eines Tests mit R . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
und Konfidenzintervallen
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
2 Nichtparametrische Tests
2.1 Tests auf Lageparameter . . . . . . . . . . . . . . . . . . . .
2.1.1 Vorzeichen-Test für den Median . . . . . . . . . . . .
2.1.2 Vorzeichen-Rang-Test von Wilcoxon (eine Stichpr.) .
2.1.3 Rangsummen-Test von Wilcoxon (zwei Stichproben)
2.2 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . .
2.2.2 Shapiro-Wilk-Test . . . . . . . . . . . . . . . . . . .
2.3 Test auf Unabhängigkeit: Exakter Test von Fisher . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
6
8
9
10
11
11
12
13
15
15
15
16
17
18
18
19
20
3 Verfahrensübersicht
22
4 Einfache lineare Regression
4.1 Einfache lineare Regression . . . . . . . .
4.2 Methode der kleinsten Quadrate . . . . .
4.3 Gütemaß für die Anpassung der Geraden .
4.4 Stochastisches Modell . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
27
29
5 Varianzanalyse
5.1 Einfache Klassifikation . . . . . . . . . . . .
5.2 Einfache Varianzanalyse mit R . . . . . . .
5.3 Nichtparametrische einfache Varianzanalyse
5.4 Zweifache Varianzanalyse . . . . . . . . . .
5.5 Zweifache Varianzanalyse mit R . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
40
46
49
51
53
6 Lineare Modelle
6.1 Testen von Hypothesen . . . . . . . . . . . . . .
6.1.1 Globaler F -Test . . . . . . . . . . . . . .
6.1.2 Partieller F -Test . . . . . . . . . . . . .
6.2 Test einzelner metrischer Regressoren . . . . . .
6.2.1 Einschub: Partielle Korrelation . . . . .
6.3 Variablenselektion . . . . . . . . . . . . . . . .
6.4 Regressionsdiagnostik . . . . . . . . . . . . . .
6.5 Vorhersage . . . . . . . . . . . . . . . . . . . . .
6.6 Allgemeines lineares Modell . . . . . . . . . . .
6.7 Nichtlineare und nichtparametrische Regression
6.7.1 Nichtlineare Regression . . . . . . . . .
6.7.2 Nichtlineare Regression in R . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
59
59
60
60
62
63
63
65
65
66
66
67
2
6.7.3
Nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . 69
7 Verallgemeinertes Lineares Modell
7.1 Logistische Regression . . . . . .
7.1.1 Hypothesentests . . . . .
7.1.2 Logistische Regression mit
7.2 Poisson-Regression . . . . . . . .
7.2.1 Poisson-Regression mit R
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
72
72
74
75
8 Bayesianische Statistik
8.1 Grundlagen der Bayesianischen Statistik . . . . . . . . . . . .
8.2 Diagnostische Tests . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Normalverteilte Zufallsgröße mit stetiger a-priori-Verteilung .
8.4 Bayesianisches Testen einer Hypothese . . . . . . . . . . . . .
8.5 Bernoulli-verteilte Zufallsgröße mit stetiger a-priori-Verteilung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
78
79
80
81
9 Versuchsplanung
9.1 Wahl geeigneter Merkmale . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung
9.3 Grundlegende Aspekte der Versuchsplanung . . . . . . . . . . . . . . .
9.3.1 Varianzquellen in biowissenschaftlichen Untersuchungen . . . .
9.3.2 Allgemeine Prinzipien der Versuchsplanung . . . . . . . . . . .
9.3.3 Typen von Stichproben . . . . . . . . . . . . . . . . . . . . . .
9.3.4 Einige wichtige Versuchspläne . . . . . . . . . . . . . . . . . . .
9.4 Bestimmung optimaler Stichprobenumfänge . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
82
83
83
84
84
84
84
10 Analyse hochdimensionaler Daten
10.1 Hauptkomponentenanalysis . . .
10.2 Multidimensionale Skalierung . .
10.3 Cluster-Methoden . . . . . . . . .
10.3.1 K-Means Clustering . . .
10.3.2 Hierarchisches Clustering
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
86
86
88
89
89
90
. .
. .
R
. .
. .
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Testen von Hypothesen
Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft von Interesse, Vermutungen über einen Parameter oder eine Verteilung in der Grundgesamtheit zu
überprüfen.
Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren Überprüfung
jedoch unter Verwendung einer Stichprobe durchgeführt. Inwieweit der Schluss von der
Stichprobe auf die Grundgesamtheit zulässig ist, ist Teil des statistischen Tests.
1.1 Binomial- und Gauß-Test
Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei
Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen
falsch.
Frage: Hat der Student geraten oder tatsächlich etwas gewusst?
1, falls i-te Antwort des Studenten richtig
Xi =
0, sonst
X1 , ..., X30 seien
P unabhängige Bin(1, p)-verteilte Zufallsvariablen.
Also ist S = 30
i=1 Xi Bin(30, p)-verteilt.
Wenn der Student nichts weiß, ist p = 12 .
Besitzt der Student gewisse Kenntnisse, so ist p > 12
Auf Grundlage der Daten (S = 19) wollen wir uns zwischen der Nullhypothese
Ho : p =
1
2
H1 : p >
1
2
und der Alternativhypothese
entscheiden.
Ist die Prüfgröße oder Teststatistik
S=
30
X
Xi
i=1
größer oder gleich einem kritischer Wert c, entscheiden wir uns für H1 .
Wie ist der kritische Wert c nun zu wählen?
c = 16, c = 17, c = 18, . . .?
Wähle das kleinste c so, dass H0 höchstens mit Wahrscheinlichkeit α = 0.05 fälschlicherweise abgelehnt wird:
α = 0.05 ≥ P (
S≥c
| {z }
|H0 )
H0 wird abgelehnt
= 1 − P (S ≤ c − 1|H0 )
c−1 i X
30
1
1 30−i
=1−
1−
i
2
2
i=0
4
Es ist also die kleinste natürliche Zahl c gesucht, so dass
c−1 30
X
30
1
i=0
i
2
≥ 0.95
Bestimmung des kritischen Wertes c mittels R:
> qbinom(0.95, size=30, prob=0.5)
> 19
Damit wählen wir c = 20 als kritischen Wert.
Da S = 19, können wir H0 nicht ablehnen, wenn wir sicherstellen wollen, dass H0 höchstens
mit Wahrscheinlichkeit α = 0.05, dem sogenannten Niveau, fälschlicherweise abgelehnt
wird.
Abbildung 1: Binomialverteilung
Erstellung der Grafiken mittels:
plot(dbinom(0:30, size=30, prob=0.5), type="h");
plot(pbinom(0:30, size=30, prob=0.5), type="s");
In unserem Beispiel wird
{0, 1, . . . , 19}
als Annahmebereich
{20, 21, . . . , 30} als Ablehnungsbereich
bezeichnet.
Der so konstruierte statistische Hypothesentest heißt exakter Binomialtest.
Da der kritische Wert c für große Stichprobenumfänge n aufwändig zu berechnen ist, verwendet man stattdessen den approximativen Binomialtest.
5
1.1.1 Approximativer Binomialtest
Beispiel: statistische Qualitätskontrolle Bei der Produktion von Speicherchips entstehen 10% unbrauchbare Chips. Anhand einer Stichprobe mit Umfang n = 1000 soll
überprüft werden, ob der Produktionsprozess sich verschlechtert hat, also mehr als 10%
Ausschuss entsteht.
Wie oben seien
Xi =
1, falls i-tes Stichprobenelement Ausschuss ist
0, sonst
und X1 , ..., Xn unabhängige Bin(1, p)-verteilte Zufallsvariablen.
Dann ist
n
X
S=
Xi ∼ Bin(n, p)
i=1
und nach dem zentralen Grenzwertsatz von Moivre-Laplace
S − np
Z=p
ungefähr N (0, 1)-verteilt
np(1 − p)
Das Testproblem ist:
H0 : p = p0 = 0.1 gegen H1 : p > p0 = 0.1
Der eigentlich interessierende Sachverhalt wird durch die Alternativhypothese ausgedrückt.
Wir lehnen H0 ab, falls S bzw. Z zu groß ist. Dabei soll sichergestellt werden, dass die
Abweichung von S zu E(S) = np0 bei Vorliegen der Nullhypothese nicht alleine durch den
Zufall erklärt werden kann.
Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln:
|H0 )
0.05 = α > P ( Z
> }c
| {z
H0 ablehnen
≈ 1 − Φ(c), da Z ∼ N (0, 1) unter H0
Also ist c = z1−α , das (1−α)-Quantil der N (0, 1)-Verteilung, als kritischer Wert zu wählen.
Daraus ergibt sich der Ablehnungsbereich
c = (z1−α , ∞)
H0 wird also zum Niveau α abgelehnt, falls
S − np0
Z=p
> z1−α
np0 (1 − p0 )
6
Abbildung 2: Kritischer Bereich zum rechtsseitigen Test (Quellcode auf S.??)
Für n = 1000, p = 0.1, α = 0.05 wird H0 abgelehnt, falls
S − 100
√
> 1.64
90
Z=
d.h.
S > 115.56
Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität
verbessert hat, ist das Testproblem:
H0 : p = p0
gegen H1 : p < p0
zu betrachten. Der dazugehörige kritische Bereich lautet
c = (−∞, −z1−α ) = (−∞, zα )
Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität
verändert hat, ist das Testproblem:
H0 : p = p0
gegen H1 : p 6= p0
zu betrachten. Der dazugehörige kritische Bereich lautet
c = (−∞, zα/2 ) ∪ (z1−α/2 , ∞)
7
Abbildung 3: Kritischer Bereich zum zweiseitigen Test (Quellcode auf S.??)
Zusammenfassung: Approximativer Binomialtest
Gegeben seien folgende Testprobleme über den Parameter p in einer Bin(n, p)-Verteilung:
(a)
(b)
(c)
H0 : p = p0 gegen H1 : p 6= p0
H0 : p = p0 gegen H1 : p < p0
H0 : p = p0 gegen H1 : p > p0
Basierend auf der Prüfgröße
S − np0
Z=p
np0 (1 − p0 )
welche unter H0 näherungsweise N (0, 1)-verteilt ist, und dem vorgegebenen Niveau α entscheidet man sich für H1 im Testproblem
(a),
(b),
(c),
falls |z| > z1−α/2
falls z < −z1−α
falls z > z1−α
1.1.2 Gauß-Test
Beispiel: Kontrollkarten Es sei bekannt, dass ein Produktionsprozess Bleistifte produziert, deren Längen X approximativ N (µ, σ 2 )-verteilt sind mit Erwartungswert µ = 17[cm]
und bekannter Varianz σ 2 = 2.25[cm2 ]
Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit erlaubter zufälliger
Abweichung) entsprechen, d.h. EX = µ0 = 17, betrachtet man das Testproblem
H0 : µ = µ0 = 17 gegen H1 : µ 6= 17
8
Dazu entnimmt man der laufenden Produktion Bleistifte mit Längen X1 , ..., Xn ∼ N (µ, σ 2 )
und untersucht die Prüfgröße X̄ oder die standardisierte Prüfgröße
Z=
X̄ − µ0 √
n
σ
welche unter H0 N (0, 1)-verteilt ist.
H0 wird dann zum Niveau α abgelehnt, falls
|Z| > z1−α/2
Zahlenbeispiel: n = 5, x̄ = 18.1, α = 0.01
z=
x̄ − µ0 √
18.1 − 17 √
n=
5 = 1.64
σ
1.5
z1−α/2 = 2.5758
Da |z| ≤ z1−α/2 kann H0 zum Niveau α = 0.01 nicht abgelehnt werden. Ein Eingriff in den
Produktionsprozess ist also nicht nötig.
In der statistischen Qualitätskontrolle werden für jede Stichprobe die Mittelwerte x̄ über
der Stichprobennummer in einer Grafik eingetragen und mit den Kontrollgrenzen
σ
µ0 − z1−α/2 · √
n
und
σ
µ0 + z1−α/2 · √
n
verglichen. Befindet sich x̄ außerhalb dieses dadurch definierten horizontalen Streifens, gilt
der Prozess als statistisch außer Kontrolle.
Zusammenfassung: Gauß-Test
Unabhängige Zufallsvariablen X1 , ...Xn jeweils N (µ, σ 2 )-verteilt mit bekannter Varianz
σ 2 oder, falls n groß (Faustregel: n ≥ 30) mit beliebiger stetiger Verteilung, E(Xi ) =
µ, V ar(Xi ) = σ 2 . Betrachte folgende Testprobleme:
(a)
(b)
(c)
H0 : µ = µ0 gegen H1 : µ 6= µ0
H0 : µ = µ0 gegen H1 : µ < µ0
H0 : µ = µ0 gegen H1 : µ > µ0
Unter H0 (d.h. µ = µ0 ) ist
Z=
X̄ − µ0 √
n N (0, 1)-verteilt bzw. näherungsweise N (0, 1)-verteilt
σ
Basierend auf der Prüfgröße Z fällt die Entscheidung für H1 im Testproblem
(a),
(b),
(c),
falls |z| > z1−α/2
falls z < −z1−α
falls z > z1−α
1.2 Prinzipien des Testens
1. Schritt: Quantifizierung der Fragestellung
2. Schritt: Formulierung der Modellannahmen
3. Schritt: Festlegung der Null- und Alternativhypothese
9
4. Schritt: Wahl des Signifikanzniveaus
5. Schritt: Wahl einer Prüfgröße (Teststatistik), die in der Lage ist, zwischen H0 und H1
zu differenzieren. Bestimmung der Verteilung der Prüfgröße unter der Nullhypothese.
Konstruktion des Ablehnungsbereiches.
6. Schritt: Berechnung des Wertes der Prüfgröße für die konkrete Stichprobe
7. Schritt: Testentscheidung
Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im Gauß-Test, heißt
das Testproblem zweiseitig, falls nur Abweichungen in eine Richtung interessieren, wie im
Fall (b) und (c) im Gauß-Test, heißt das Testproblem einseitig.
Besteht die Hypothese H0 oder H1 nur aus einem Punkt, nennt man H0 bzw. H1 einfach,
sonst zusammengesetzt
Tests, die keine genaueren Annahmen über die Verteilung der Zufallsvariablen X1 , ...
Xn machen, heißen nichtparametrisch. Werden Annahmen über den Verteilungstyp gemacht, so heißen die Tests parametrisch.
1.2.1 Fehlentscheidungen
Bei einem statistischen Testproblem H0 gegen H1 und einem geeigneten statistischen Test
spricht man von einem
• Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist
• Fehler 2. Art, wenn H0 beibehalten wird, obwohl H1 wahr ist
Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar:
H0 wahr
H1 wahr
Entscheidung für
H0
H1
falsch
richtig
Fehler 1. Art
(α-Fehler)
falsch
Fehler 2. Art
richtig
(β-Fehler)
Ein statistischer Test heißt Test zum Signifikanzniveau α (wobei 0 < α < 1) oder
Signifikanztest, falls:
P (H1 annehmen |H0 wahr) ≤ α
d.h.
P (Fehler 1. Art) ≤ α
Typische Werte für das Signifikanzniveau α sind 0.1, 0.05, 0.01.
Interpretation: Es werden 100 Stichproben vom Umfang n gezogen und es gelte die Nullhypothese. Bei 100 Tests zum Niveau α wird die Nullhypothese dann im Mittel höchstens
in 5% der Fälle (fälschlicherweise) abgelehnt werden.
Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis statistisch
signifikant zum Niveau α sei. Die Wahrscheinlichkeit für einen Fehler 2. Art kann man
meist nicht kontrollieren. Diese Ungleichbehandlung der Fehler 1. und 2. Art ist der Grund
dafür, dass die zu sichernde Behauptung als Alternativhypothese formuliert wird.
10
1.2.2 Zusammenhang zwischen statistischen Tests und Konfidenzintervallen
Beispiel Gauß-Test
Verwerfe H0 , falls
Behalte H0 , falls
√ 0
|z| = x̄−µ
n > z1−α/2
σ
x̄ − µ0 √ n ≤ z1−α/2
|z| = σ
{z
}
|
σ
√
⇔ |x̄ − µ0 | ≤ z1−α/2 · n
h
⇔ µ0 ∈ x̄ − z1−α/2 · √σn , x̄ + z1−α/2 ·
√σ
n
i
Damit ist H0 genau dann beizubehalten, wenn µ0 im (1 − α)-Konfidenzintervall für µ liegt.
Allgemein: Ein 2-seitiges (1 − α)-Konfidenzintervall entspricht dem Annahmebereich des
zugehörigen 2-seitigen Signifikanztests zum Niveau α.
1.2.3 Überschreitungswahrscheinlichkeit
Der p-Wert oder die Überschreitungswahrscheinlichkeit ist definiert als die Wahrscheinlichkeit den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative
extremeren Wert zu beobachten — vorausgesetzt, die Nullhypothese H0 ist wahr:
Ist der p-Wert kleiner oder gleich dem vorgegebenen Signifikanzniveau, wird H0 verworfen,
andernfalls beibehalten.
Fortsetzung des Beispiels zum Gauß-Test: Dort wurde die Teststatistik |z| betrachtet, welche für die Stichprobe den Wert z = 1.64 lieferte. Der p-Wert ist jetzt gegeben
durch
p = P (|Z| ≥ 1, 64|H0 ) = 2(1 − Φ(1.64)) ≈ 0.1
Abbildung 4: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p. Inhalt der dunkleren
Fläche ist p) (Quellcode auf S.??)
11
1.2.4 Gütefunktion
Für vorgegebenes Signifikanzniveau α und festen Stichprobenumfang n gibt die Gütefunktion g die Wahrscheinlichkeit für einen statistischen Test an, die Nullhypothese zu
verwerfen:
g(µ) = P (H0 verwerfen|
µ
)
|{z}
wahrer Parameter
Ist µ ∈ H0 , so ist g(µ) ≤ α Ist µ ∈ H1 , so ist 1 − g(µ) die Wahrscheinlichkeit für den Fehler
2. Art
Abbildung 5: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist. (Quellcode auf S.??)
Abbildung 6: Verlauf der Gütefunktion beim einseitigen Gauß-Test. (Quellcode auf S.??)
12
Berechnung der Gütefunktion für den einseitigen Gauß-Test:
g(µ) = P (H0 verworfen | µ)
X̄ − µ0 √
n > z1−α µ
= P
σ
X̄ − µ + µ − µ0 √
= P
n > z1−α µ
σ
µ − µ0 √ X̄ − µ √
n > z1−α −
nµ
= P
σ
| σ{z }
∼N (0,1)
µ − µ0 √
= 1 − Φ z1−α −
n
σ
Abbildung 7: Verlauf der Gütefunktion beim zweiseitigen Gauß-Test. (Quellcode auf S.??)
Eigenschaften der Gütefunktionen eines statistischen Tests
• Für Werte aus H1 heißt die Gütefunktion Trennschärfe oder Macht
• Für Werte aus H0 ist die Gütefunktion kleiner oder gleich α
• Für wachsendes n wird die Macht eines Tests größer, d.h. die Gütefunktion wird
steiler
• Für wachsendes α wird die Macht eines Tests größer
• Für einen wachsenden Abstand zwischen Werten aus H1 und H0 wird die Macht
eines Tests größer.
1.3 Durchführung eines Tests mit R
Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch.
> binom.test(x=19, n=30, p=0.5, alternative="greater")
13
Exact binomial test
data: 19 and 30
number of successes = 19, number of trials = 30, p-value = 0.1002
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
0.4669137 1.0000000
sample estimates:
probability of success
0.6333333
14
2 Nichtparametrische Tests
In manchen Situationen ist es nicht möglich oder sinnvoll, eine Verteilungsannahme über
die Daten zu treffen. Nichtparametrische Verfahren bieten häufig eine höhere Flexibilität
in der Modellierung. Die damit unter Umständen in Kauf genommenen Nachteile, wie eine
geringeren Power, sind oft vernachlässigbar.
2.1 Tests auf Lageparameter
2.1.1 Vorzeichen-Test für den Median
Sei X ein ordinal skaliertes Merkmal und x1 , . . . , xn die Realisierungen von unabhängigen
wie X verteilten Zufallsvariablen X1 , . . . , Xn .
Zur Überprüfung der (Null-)Hypothese, ob der Median xmed von X verschieden von einem
hypothetischen Wert δ0 ist, wird kontrolliert, ob die Anzahl S der Messwerte X1 , . . . , Xn ,
die kleiner als der hypothetische Wert δ0 sind, “deutlich” von der Anzahl abweicht, die man
bei Gültigkeit der Nullhypothese H0 erwarten würde.
Hypothesen:
H0 : xmed = δ0
H1 : xmed 6= δ0
Gilt die Nullhypothese, dann ist S Bin(n, p = 1/2)-verteilt. Damit kann der exakte Binomialtest zur Überprüfung der Hypothese p = 1/2 angewendet werden.
Wähle zu einem vorgegebenen Signifikanzniveau α ∈ (0, 1) als kritischen Wert c den größten
Wert c, so dass
P (S = 0) + P (S = 1) + . . . + P (S = c) ≤ α/2
Für den kritischen Wert c muss also c ≤
PcBin(n, 1/2)α/2 gelten, wobei nur dann c =
Bin(n, 1/2)α/2 gewählt werden darf, falls i=0 Bin(n, 1/2; i) = α/2. Dann kann H0 zum
Niveau α abgelehnt werden, falls
S ≤ c oder S ≥ n − c
wobei S :=
Pn
i=1 1[Xi <δ0 ] .
In ähnlicher Weise können auch linksseitige oder rechtsseitige Tests formuliert werden.
Zusammenfassung: Vorzeichen-Test
X1 , . . . , Xn unabhängige Wiederholungen der Zufallsgröße X mit stetiger VF.
1. H0 : xmed = δ0 versus H1 : xmed 6= δ0
2. H0 : xmed ≥ δ0 versus H1 : xmed < δ0
3. H0 : xmed ≤ δ0 versus H1 : xmed > δ0
Teststatistik: S = Anzahl der Stichprobenvariablen mit einem Wert ≤ δ0 .
Unter xmed = δ0 ist S Bin(n, 0.5)-verteilt oder für n ≥ 25 approximativ N (0.5n, 0.25n)verteilt.
Ablehnungsbereiche:
15
1. S < Bin(n, 0.5)α/2 oder S > 1 − Bin(n, 0.5)α/2
2. S > 1 − Bin(n, 0.5)α
3. S < Bin(n, 0.5)α
Gibt es ein Stichprobenelement mit xi = δ0 , so wird dieses Element aus der Stichprobe
ausgeschlossen, da es keinen Hinweis über die Richtung der Abweichung von der Nullhypothese liefert. Da die Verteilung von X als stetig angenommen wird, sollte dies nur selten
auftreten.
2.1.2 Vorzeichen-Rang-Test von Wilcoxon (eine Stichpr.)
Der Vorzeichen-Test nützt von den Daten nur die Information aus, ob sie kleiner oder
größer als der hypothetische Wert δ0 sind.
Der Vorzeichen Rang-Test von Wilcoxon geht mit der in der Stichprobe enthaltenen Information effizienter um:
• Berechne die Differenzen Di = Xi − δ0 , i = 1, . . . , n
• Bilde die Beträge dieser Differenzen |D1 |, . . . , |Dn |
• Ermittle die Ränge rg|Di | dieser Beträge: der kleinste Betrag erhält den Rang 1, . . . ,
der größte Betrag erhält den Rang n
• Bilde die Summe über alle Ränge, die zu Beobachtungen mit Di > 0 gehören:
W
+
:=
n
X
rg|Di |1[Di >0]
i=1
Ist der wahre Median tatsächlich δ0 , sollten bei symmetrischer Verteilung von Xi die Summen der Ränge mit Di > 0 und Di < 0 etwa gleich sein. In diesem Fall gilt E(W + ) =
n(n+1)
, was der Hälfte der totalen Rangsumme von n(n + 1)/2 entspricht.
4
Ist der tatsächliche Median kleiner als δ0 reduziert sich auch der Erwartungswert von W + .
Da die Verteilung der Teststatistik W + unter Annahme, dass der wahre Median von X
gleich δ0 ist, berechnet werden kann, können auch die kritischen Werte ermittelt werden.
X1 , . . . , Xn unabhängig und identisch verteilt wie X
X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion.
1. H0 : xmed = δ0 versus H1 : xmed 6= δ0
2. H0 : xmed ≥ δ0 versus H1 : xmed < δ0
3. H0 : xmed ≤ δ0 versus H1 : xmed > δ0
Teststatistik W + :=
Pn
i=1 rg|Di |1[Di >0]
Für n ≥ 20 ist W + approximativ N ( n(n+1)
, n(n+1)(2n+1)
)-verteilt
4
24
Ablehnungsbereiche:
+
1. W + < wα/2
oder W + > w1−α/2
2. W + < wα+
16
+
3. W + > w1−α
wobei wα+ das α-Quantil der Verteilung von W + mit Parameter n ist.
Treten bei den Rängen Bindungen (Ties) auf, d.h. es tritt für mehrere i derselbe Wert für
|Di | auf, so ordnet man diesen Beobachtungen den Durchschnittsrang zu.
Beispiel:
|Di |
rg|Di |
2.5
1
3.8
2
4.1
4
4.1
4
4.1
4
da die drei Beobachtungen mit Betragsdifferenz |Di | = 4.1 den Durchschnittsrang (3 + 4 +
5)/3 = 4 besitzen.
Beobachtungen mit Di = 0 werden wie beim Vorzeichen-Test ignoriert.
2.1.3 Rangsummen-Test von Wilcoxon (zwei Stichproben)
X1 , . . . , Xn unabhängig und identisch verteilt wie X mit VF F
Y1 , . . . , Ym unabhängig und identisch verteilt wie Y mit VF G
Es soll überprüft werden, ob X und Y dieselbe Verteilung besitzen.
Unterscheiden sich die beiden Verteilungsfunktionen F und G nur um eine horizontale
Verschiebung δ0 , so ist die Hypothese, dass die beiden Verteilungen denselben Median
besitzen, äquivalent mit δ0 = 0. Dies ist wiederum äquivalent damit, dass die beiden
Verteilungen von X und Y übereinstimmen.
In diesem Fall erwartet man, dass die Ränge der Xi -Werte in der gepoolten Stichprobe X1 , . . . , Ym in etwa dieselbe Verteilung aufweisen wie die Ränge der Yj -Werte in der
gepoolten Stichprobe. Dies führt zum Rangsummen-Test von Wilcoxon.
Bei Bindungen werden wieder die Durchschnittsränge gebildet.
X1 , . . . , Xn unabhängig und identisch verteilt wie X
Y1 , . . . , Ym unabhängig und identisch verteilt wie Y
X und Y besitzen stetige Verteilungsfunktionen F und G, die sich nur durch eine horizontale Verschiebung unterscheiden, d.h., es gibt ein δ0 , so dass F (x − δ0 ) = G(x).
1. H0 : xmed = ymed versus H1 : xmed 6= ymed
2. H0 : xmed ≥ ymed versus H1 : xmed < ymed
3. H0 : xmed ≤ ymed versus H1 : xmed > ymed
Bilde aus sämtlichen Beobachtungen X1 , . . . , Xn , Y1 , . . . , Ym die gemeinsamen Ränge rg(X1 ), . . . , rg(Xn ), rg(Y
P
Teststatistik W := ni=1 rg(Xi )
Ablehnungsbereiche:
1. W < wα/2 oder W > w1−α/2
2. W < wα
3. W > w1−α
wobei wα das α-Quantil der Verteilung von W zu den Parametern n und m ist.
Für große Stichproben (n oder m ≥ 25) ist W approximativ N ( n(n+m+1)
, nm(n+m+1)
)2
12
verteilt
17
2.2 Anpassungstests
Mittels Anpassungstests (oder Goodness-Of-Fit-Tests) kann überprüft werden, ob eine Zufallsvariable einer oder einer Familie hypothetischer Wahrscheinlichkeitsverteilungen folgt.
Mit dem χ2 -Anpassungstest haben wir bereits einen ersten nichtparametrischen Test kennengelernt, der für beliebige Skalenniveaus eine Überprüfung der Verteilung erlaubt. Dieser
Test ist sehr flexibel, ist aber von asymptotischer Art.
Im Weiteren stellen wir den Kolmogorov-Smirnov-Test vor, der auch für sehr kleine Stichprobenumfänge (und in erster Linie stetige Verteilungen) geeignet ist.
Der Shapiro-Wilk-Test dient zur Überprüfung der Hypothese, ob die zugrunde liegende
Verteilung normalverteilt ist. Er zeichnet sich gegenüber dem χ2 - und dem KolmogorovSmirnov-Test in vielen Testsituationen durch eine vergleichsweise hohe Trennschärfe aus.
2.2.1 Kolmogorov-Smirnov-Test
X1 , X2 , . . . unabhängige identisch verteilte reellwertige Zufallsvariablen, die jeweils die VF
F besitzen
Beobachtet sei die Realisierung x1 , . . . , xn von X1 , . . . , Xn
Die empirische Verteilungsfunktion (empirical cumulative distribution function) Fn : R →
[0, 1] zur Stichprobe x1 , . . . , xn ist definiert durch
n
Fn (x) := Fn (x1 , . . . , xn ; x) =
1X
1[xi ≤x]
n
i=1
Die Schätzfunktion Fn zur VF F ist erwartungstreu und konsistent.
Es gilt sogar der
Satz von Glivenko-Cantelli:
Dn := sup |Fn (X1 , . . . , Xn ; x) − F (x)| → 0 (n → ∞) f.s.
x∈R
Ist F stetig, dann ist Dn unabhängig von der speziellen Wahl von F .
Die Quantile Dn,α der Verteilung von Dn sind vertafelt.
√
Für n → ∞ konvergiert nDn in Verteilung gegen die Kolmogorov-Smirnov-Verteilung.
Es kann deshalb der folgende Kolmogorov-Smirnov-Test formuliert werden:
Sei F0 eine hypothetische Verteilung mit stetiger Verteilungsfunktion.
H0 :F = F0 versus
H1 :F 6= F0
Lehne H0 zum Niveau α ∈ (0, 1) ab, falls
Dn > Dn,1−α
Es gibt verschiedene Varianten dieses Tests, z.B. 1-seitige Tests oder Tests, bei denen sich
die Nullhypothese auf eine ganze Familie von Verteilungen bezieht.
18
## Normalverteilte Zufallszahlen
x <- rnorm(20)
## Empirische Verteilungsfunktion
Fn <- ecdf(x)
plot(Fn)
z <- seq(from=min(x),to=max(x),by=0.05)
lines(z,pnorm(z),col="green")
diff <- Fn(z) - pnorm(z,mean=0,sd=1)
maxdiff <- which(abs(diff) == max(abs(diff)))
xmax <- z[maxdiff]
lines(c(xmax,xmax), c(Fn(xmax),pnorm(xmax,mean=0,sd=1)),
lwd=3, col="blue")
text(xmax, Fn(xmax)-diff[maxdiff]/2, "Kolmogorov-Smirnov-D",
pos=4)
## Kolmogorov-Smirnov-Test
ks.test(x,"pnorm",mean=0,sd=1)
Abbildung 8: Kolmogorov-Smirnov-Teststatistik (Quellcode auf S.??)
> ks.test(x,"pnorm",mean=0,sd=1)
One-sample Kolmogorov-Smirnov test
data: x
D = 0.1633, p-value = 0.6035
alternative hypothesis: two-sided
2.2.2 Shapiro-Wilk-Test
Beim Shapiro-Wilks-Test werden die Differenzen zwischen größtem und kleinstem Wert,
zwischen zweitgrößtem und zweitkleinstem Wert, . . . der Stichprobe mit entsprechenden
Differenzen aus der Normalverteilung verglichen und bewertet.
19
Spezifikation einer bestimmten Normalverteilung durch Angabe konkreter Parameterwerte
für µ und σ ist nicht möglich.
## Normalverteilte Zufallszahlen
> x <- rnorm(20)
## Shapiro-Wilk-Test
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9658, p-value = 0.6647
2.3 Test auf Unabhängigkeit: Exakter Test von Fisher
Um die Unabhängigkeit zweier kategorialer Merkmale zu überprüfen, kann der χ2 -Unabhängigkeitstest
angewendet werden. Hierbei muss allerdings sichergestellt werden, dass die erwarteten Zellhäufigkeiten nicht kleiner als 5 sind.
Beispiel: Besteht ein Zusammenhang zwischen der Fähigkeit in einem Versuch einzuparken und dem Geschlecht?
erfolgreich
nicht erfolgreich
weiblich
1
2
3
männlich
3
2
5
4
4
8
Da die erwarteten Zellhäufigkeiten durchweg kleiner als 5 sind, sollte der χ2 -Test auf Unabhängigkeit nicht angewendet werden.
Wir betrachten die folgende 1-seitige Testsituation:
Nullhypothese H0 : Männer parken nicht häufiger besser ein als Frauen
Alternativhypothese H1 : Männer parken häufiger besser ein als Frauen
Der exakte Test von Fisher berechnet jetzt unter Voraussetzung der Gültigkeit der Nullhypothese bei festgehaltenen Randsummen die bedingte Wahrscheinlichkeit, das vorliegende
Ergebnis oder ein aus Sicht der Nullhypothese extremeres Ergebnis zu beobachten,
Sei X die zufällige Anzahl der Frauen, die in der Untersuchung erfolgreich einparkten, so
ist X unter der Voraussetzung, dass die Einpark-Geschicklichkeit geschlechtsunabhängig
ist, hypergeometrisch verteilt mit den Parametern n = 1 + 3, M = 3, N = 8, also
M N −M
3 5
P (X = 1) =
1
n−1
N
n
=
1
3 = 0.429
8
4
Lautet die Alternativhypothese, dass Männer häufiger besser einparken als Frauen, so stellt
die folgende Tabelle aus Sicht der Nullhypothese ein extremeres Ergebnis dar:
erfolgreich
nicht erfolgreich
weiblich
0
3
3
20
männlich
4
1
5
4
4
8
also
P (X = 0) =
M
0
N −M
n−0
N
n
5
=
3
0
4 = 0.071
8
4
Damit ist die Wahrscheinlichkeit, das vorliegende Ergebnis oder ein extremeres zu beobachten, gleich P (X = 0) + P (X = 1) = 0.5.
Dies ist zugleich der p-Wert für den 1-seitigen Test. Ist er kleiner oder gleich dem vorgegebenen Signifikanzniveau α, wird die Nullhypothese zu diesem Niveau α verworfen.
Zum Niveau α = 0.05 gibt es also keinen Grund, die Alternativhypothese, wonach Männer
häufiger auf einen Versuch einparken als Frauen, anzunehmen.
Wir betrachten jetzt die folgende 2-seitige Testsituation:
H0 : Erfolgreiches Einparken und Geschlecht sind unabhängig
H1 : Erfolgreiches Einparken und Geschlecht sind abhängig
Als p-Wert wählen wir den doppelten Wert des p-Wertes des 1-seitigen Tests.
Der Test kann auch auf größere als 2 × 2-Tabellen angewendet werden.
Wird der Test von Hand durchgeführt (was praktisch nie gemacht wird), empfiehlt es sich,
die Tabelle so anzuordnen, dass links oben die kleinste Häufigkeit steht. Wir untersuchen
dann wieder, wie groß die bedingte Wahrscheinlichkeit ist (bei festgehaltenen Randsummen), diesen oder einen kleineren Wert zu beobachten, vorausgesetzt, die Nullhypothese
hinsichtlich Unabhängigkeit ist richtig.
Der exakte Test von Fisher kann sowohl als Unabhängigkeitstest als auch als Homogenitätstest zu zwei kategorialen Merkmalen X und Y verwendet werden:
• Sind X und Y stochastisch unabhängig? D.h. gilt
P (X = i, Y = j) = P (X = i) · P (Y = j)?
• Sind die bedingten Verteilungen von X gegeben Y identisch? D.h. gilt
P (X = i|Y = 1) = . . . = P (X = i|Y = k)
für alle möglichen Werte von i von X und j von Y ?
21
3 Verfahrensübersicht
Bestimme zunächst:
• die Struktur der Stichprobe: 1-Stichprobenfall, 2-Stichprobenfall usw.
• Funktion der Beobachtungsvariablen
– keine Funktionsdifferenzierung der Variablen
– Differenzierung in
∗ Kriteriumsvariable (Zielgröße, Regressand)
∗ Kovariable (Begleitvariable, Prädiktor, Regressor, Faktor)
• Skalentyp
– kategorial
∗ normal
∗ ordinal
– metrisch
∗ intervallskaliert
∗ verhältnisskaliert
Variablen gleichberechtigt und vom gleichen Skalentyp
Datenstruktur
1 Stichprobe
kategorial
Binomialtest
χ2 -Anpassungstest
Skalentyp
ordinal
K-S-Anpassungstest
t-Test
Wilc. Vorz.-Rang-T.,
jew. für Differenzen
2 verbundene
Stichproben
2 unabh.
Stichproben
metrisch
t-Test
χ2 -Varianztest
Wilc. Vorz.-Rang-T.
χ2 -Homogenitätstest
in 2 × j Tafeln
k verbundene
Stichproben
Wilc. Rang-Su.-T.
2-Stichpr. t-Test
2-Stichpr. Varianztest
FriedmanRang-VA
Zweifache VA
(mit Besetzungszahl 1)
K-W-Rang-VA
Einfache VA
Bartlett-Test
Levene-Test
k unabh.
Stichproben
χ2 -Homogenitätstest
in k × j Tafeln
bivariate
Stichprobe
χ2 -Unabhängigkeit
in Kontingenztafeln
Gewöhnlicher
Korrelationskoeff.
m-variate
Stichprobe
log-lineare
Modelle
Korrelationsanalyse
Kriteriumsvariable 1-dimensional, Kovariable m-dimensional
22
Skalentyp der
Kovariablen
alle kategorial
Skalentyp der Kriteriumsvariablen
kategorial
ordinal
metrisch
Logit-Modell
VA mit m-fach
Klassif.
alle metrisch
logistische RA
kumul. logist. RA
gemischt
kateg./metrisch
multiple RA
KovarianzAnalyse
Kriteriumsvariable k-dimensional
Datenstruktur
ohne Kovariablen
Analyse
Faktorenanalyse , falls Gruppenstruktur der Variablen
gesucht.
Clusteranalyse, falls Gruppenstruktur der Fälle
gesucht.
mit 1 kat. Faktor
MANOVA mit Einfachklassifkation
mit 2, 3,. . . kat. Faktoren
MANOVA mit 2-fach, 3-fach, . . . Klassifkation
mit m metrischen
Regressoren
Multivariate Regressionsanalyse
23
4 Einfache lineare Regression
4.1 Einfache lineare Regression
Beispiel: Rohöl und Benzinpreise
Die folgenden Daten geben die mittleren Rohöl-Preise xi (in Dollar/Barrel) und Benzinpreise yi (in Cent/Gallone) wieder:
i
1
2
3
..
.
Jahr i
1980
1981
1982
..
.
yi
125
138
129
..
.
xi
28.07
35.24
31.87
..
.
21
22
2000
2001
151
146
28.26
22.96
Zu diesen Daten stellen sich einige Fragen:
• Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis feststellbar?
• Welchen Benzinpreis würde man im Mittel anhand der Daten prognostizieren, wenn
der Rohölpreis auf 50$ pro Barerel steigt?
• In welchem Bereich würde der Benzinpreis — nicht nur sein Erwartungswert — mit
großer Wahrscheinlichkeit liegen?
Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms
Abbildung 9: Darstellung der Daten als Streudiagramm (Quellcode auf S.??)
Schritt 2: Vermutung über Zusammenhang anstellen. Nicht unerwartet korrespondieren
größere Ölpreise mit höheren Benzinpreisen. Man könnte näherungsweise einen linearen
Zusammenhang mutmaßen. Seien (xi , yi ) die Datenpaare, wobei xi den Rohölpreisen und
yi den Benzinpreisen entspricht, dann gilt:
yi = a + bxi + ei
24
wobei die ei die Abweichungen von der Gerade a + bx beschreiben.
Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den Daten möglichst gut beschreibt. Dazu wird die Methode der kleinsten Quadrate verwendet.
4.2 Methode der kleinsten Quadrate
Ausgehend von der Beziehung:
yi = a + bxi + ei ,
ei = yi − (a + bxi ) “Fehler” (Residuum)
sucht man nach einer Gerade, für die alle “Fehlerterme” (error) ei möglichst klein werden.
Das erreicht man z.B. in dem man
Q(a, b) :=
n
X
e2i
i=1
=
n
X
[yi − (a + bxi )]2
i=1
minimiert. Wir gehen im Folgenden davon aus, dass die xi nicht alle identisch sind.
Abbildung 10: Darstellung der Fehlerquadrate (Quellcode auf S.??)
Das Minimierungsproblem ist:
Q(a, b) =
n
X
[yi − (a + bxi )]2 → Min
i=1
Die kritischen Stellen werden ermittelt:
n
X
∂Q
(a, b) =
2 · [yi − (a + bxi )] · (−1)
∂a
i=1
∂Q
(a, b) =
∂b
n
X
2 · [yi − (a + bxi )] · (−xi )
i=1
25
Die Lösung des linearen Gleichungssystems
∂Q
(a, b) = 0
∂a
∂Q
(a, b) = 0
∂b
führt auf genau eine Lösung â, b̂, die Q minimiert:
Pn
xi yi − nx̄ȳ
, â = ȳ − b̂x̄
b̂ = Pi=1
n
2
2
i=1 xi − nx̄
Einfache lineare Regression und Kleinste-Quadrate-Methode
Gegeben seien die reellwertigen Beobachtungswerte (x1 , y1 ), ..., (xn , yn ). Dann heißt
yi = a + bxi + ei ,
i = 1, ..., n
einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b den Steigungsparameter und ei die Residuen (Fehler) bezeichnen. Unter der Annahme s2X > 0 sind die
Kleinste-Quadrate-Koeffizienten für a und b gegeben durch:
Pn
1 Pn
xi yi − nx̄ȳ
i=1 (xi − x̄)(yi − ȳ)
n−1
i=1
â = ȳ − b̂x̄, b̂ = Pn
=
Pn
2
1
2
2
i=1 xi − nx̄
i=1 (xi − x̄)
n−1
Die Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch ŷ(x) = â + b̂x. Die
Werte yˆi = â + b̂xi und eˆi = yi − yˆi bezeichnen wir als KQ-gefittete Werte bzw. KQResiduen.
Eigenschaften
• Die KQ-Gerade geht durch den Mittelpunkt (x̄, ȳ).
â = ȳ − b̂x̄ ⇒ ȳ = â + b̂x̄ = ŷ/(x̄).
• Die Summe der KQ-Residuen ist gleich 0:
n
X
êi = 0
i=1
• ŷ¯ = ȳ
• Wenn alle Punkte (xi , yi ) auf der Geraden a + bx liegen, dann sind:
â = a,
b̂ = b,
yˆi = yi ,
eˆi = 0
• Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen Wert x prognostiziert man den y-Wert:
ŷ(x) = â + b̂x
26
4.3 Gütemaß für die Anpassung der Geraden
Wie gut lassen sich die Daten mit einer Geraden beschreiben?
Streuungszerlegung der Regression
n
X
(yi − ȳ)2 =
i=1
n
X
(yˆi − ȳ)2 +
i=1
n
X
(yi − yˆi )2
i=1
Ansatz:
• Die Residualstreuung ist die Summe der verbliebenen quadrierten Fehler nach Anpassung der Geraden.
• Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der Gesamtstreuung
groß ist:
Pn
(yˆi − ȳ)2
Erklärte Streuung
2
R = Pi=1
=
n
2
Gesamtstreuung
(y
−
ȳ)
i=1 i
Bestimmtheitsmaß
Gegeben seien die reellwertigen Beobachtungswerte (x1 , y1 ), ..., (xn , yn ) mit
s2X > 0 und s2Y > 0
Dann ist das Bestimmtheitsmaß der KQ-Regression gegeben durch:
Pn
Pn
(yˆi − ȳ)2
(yi − yˆi )2
2
i=1
R = Pn
= 1 − Pi=1
n
2
2
i=1 (yi − ȳ)
i=1 (yi − ȳ)
Eigenschaften
• 0 ≤ R2 ≤ 1
2
• R2 = rXY
• R2 = 1 genau dann, wenn alle Punkte (xi , yi ) auf einer Geraden liegen.
• R2 = 0 genau dann, wenn sXY = 0 ist.
Eine gute Beschreibung der Daten durch eine Gerade liegt bei großen Werten von R2 (nahe
1) vor, eine schlechte bei kleinen Werten von R2 (nahe 0).
Beispiel (fortgesetzt): Ölpreise Direkte Berechnung der Regressionsgeraden:
X
x̄ = 21.572, ȳ = 117.635,
x2i = 11078.277
i
X
yi2 = 309218,
X
i
2
i xi
− nx̄2
11078.277 − 22 · 21.5722
=
= 40.026
n−1
21
P 2
2
57284.35 − 22 · 117.6362
i yi − nȳ
=
= 227.475
21
P n−1
57284.35 − 22 · 21.572 · 117.636
i xi yi − nx̄ȳ
=
= 69.342
n−1
21
P
s2X
=
s2Y
=
sXY
=
xi yi = 57284.35
i
27
Daher:
b̂ =
sxy
69.342
=
= 1.732, â = ȳ − b̂x̄ = 117.636 − 1.732 · 21.572 = 80.273
2
40.026
sX
Und für das Bestimmtheitsmaß ergibt sich:
69.342
sXY
= 0.727,
=√
rXY = q
40.026 · 227.475
s2X s2Y
2
R2 = rXY
= 0.529
Prognose für x = 50 durch Einsetzen in KQ-Gleichung
ŷ(x) = â + b̂x,
x = 50 ergibt ŷ(50) ≈ 166.9.
In R lässt sich die Regressionsgerade mit eine paar einfachen Kommandos berechnen und
in das Streudiagramm einzeichnen:
plot(oelpreis,benzinpreis)
## Scatterplot
myregression <- lm(benzinpreis~oelpreis)
myregression
## zeigt Ergebnis der Regressionsrechnung an
abline(myregression)
## zeichnet Regressionsgerade
Abbildung 11: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??)
Vorhersage des Blutdrucks
Für 15 zufällig ausgewählte Frauen wurde das Alter (xi ) festgestellt und der Blutdruck
(yi ) gemessen.
Wie kann zu gegebenem Alter der zu erwartende Blutdruck vorhergesagt werden?
28
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Alter (xi )
47
52
30
35
59
44
63
38
49
41
32
55
46
51
63
Blutdruck (yi )
129
139
112
119
145
133
152
117
145
136
115
137
134
141
157
Die Berechnung der KQ-Daten und des Bestimmtheitsmaßes wird R überlassen.
Abbildung 12: Regression zu Blutdruckdaten (Quellcode auf S.??)
Der “Fit” der Geraden ist hier besser: R2 ist größer als im vorigen Beispiel.
ŷ(45) = 77.363 + 1.2065 · 45 = 131.6 ≈ 132
Im Mittel würde man bei einer 45-jährigen Frau einen Blutdruck von 132 erwarten. Wie
genau ist der Wert und wie groß ist der “normale” Schwankungsbereich dieses Wertes für
einzelne Frauen?
4.4 Stochastisches Modell
Um für Datenpaare (xi , yi ), i = 1, ..., n, für die man lineare Zusammenhänge zwischen den
xi und yi -Werten vermutet, Wahrscheinlichkeitsaussagen ableiten zu können, muss man sie
mit einem geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt sollen
die Daten durch eine Geradenbeziehung
yi = α + βxi + ei
beschrieben werden.
Wenn die yi funktional beschrieben werden durch die xi bezeichnet man
29
• yi als abhängige oder endogene Variablen
• xi als unabhängige oder exogene Variablen oder Regressoren und die
• ei als latente Variablen oder Störvariablen.
Die ei können nicht beobachtet werden und die Parameter α und β sind unbekannt.
Wo gibt es im Modell zufällige Komponenten?
Beispiel: College-Absolventen
Die folgenden Daten geben die Anzahl der Absolventen eines kleinen Colleges an, die im
Jahr (xi ) ihres Abschlusses einen Job gefunden haben. Die Anzahl (yi ) der Absolventen
soll über die Jahre etwa gleich groß gewesen sein.
Jahr
Berufseinsteiger
1
121
2
138
3
115
4
162
5
160
6
174
Die Jahre xi sind nichtzufällig, während die konkreten Berufseinsteigerzahlen yi nicht vorhersehbar waren und als “zufällig” interpretiert werden können.
Streudiagramm
Abbildung 13: Berufseinsteiger (Quellcode auf S.??)
Modell mit deterministischen Regressoren
xi sind deterministisch und yi sind als Realisierungen von Zufallsvariablen Yi aufzufassen.
Dann sind aber auch die ei = yi − α − βxi als Realisierungen von Zufallsvariablen εi =
Yi − α − βxi aufzufassen.
Modellansatz:
Yi = α + βxi + εi
Beispiel (fortgesetzt): Blutdruckdaten
Im Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld der Erhebung
ist i.A. sowohl das Alter (xi ) als auch der Blutdruck (yi ) nicht bekannt und muss als
Realisierung von Zufallsvariablen Xi bzw. Yi aufgefasst werden.
30
Modell mit stochastischen Regressoren:
Das “zufällige” Verhalten der Beobachtung xi und yi sowie ei werden beschrieben mit
Zufallsvariablen Xi , Yi und εi , die in folgender Beziehung stehen:
Yi = α + βXi + εi
Dabei wird die Zusatzannahme getroffen, dass
Xi und εi unabhängig
sind. Beide Regressionsmodelle haben große Gemeinsamkeiten:
• Die Schätzer für die Parameter α und β werden mit den gleichen Formeln berechnet,
s.u.
• Die bedingte Verteilung von Yi gegeben Xi = xi ist gleich der Verteilung, die sich
aus dem deterministischen Ansatz ergibt.
Wir beschränken uns im Folgenden auf die nähere Untersuchung des Modells mit deterministischen Regressoren.
Standardmodell der linearen Einfachregression
x1 , . . . , xn seien reelle Zahlen und Y1 , . . . , Yn seien reelle Zufallsvariablen. Die Vektoren
(x1 , Y1 ), . . . , (xn , Yn ) erfüllen das Standardmodell der linearen Einfachregression mit den
Parametern α, β und σ 2 > 0, wenn
Yi = α + βxi + εi ,
i = 1, . . . , n
gilt, wobei εi u.i.v. Zufallsvariablen sind, für die E(εi ) = 0 und V ar(εi ) = σ 2 gilt.
Anmerkungen:
• Die Zufallsvariablen εi können nicht beobachtet werden. Sie beschreiben die Abweichungen der Yi -Werte von der Regressionsgeraden α + βx.
• Die xi -Werte sind entweder als einstellbare deterministische, d.h. nicht zufällige, Regressoren oder als Realisierungen von Zufallsvariablen Xi aufzufassen.
• Der Parameter β beschreibt die lineare Abhängigkeit der yi - von den xi -Werten.
Ist β = 0, gibt es keine (lineare) Abhängigkeit.
Die Schätzer im Standardmodell berechnen wir wie oben durch Minimierung von
Q(α, β) :=
n
X
[Yi − (α + β · xi )]2 → Minα,β
i=1
Als Ergebnis erhalten wir in Analogie zu oben:
Wenn s2X > 0 ergeben sich als Schätzer α̂ und β̂ im Standardmodell
α̂ = Ȳn − β̂ · x̄,
Pn
1 Pn
xi Yi − nx̄Ȳn
sXY
i−1 (xi − x̄)(Yi − Ȳn )
n−1
i=1
β̂ = Pn
=
=
.
Pn
2
1
2
2
s2X
i=1 xi − nx̄
i=1 (xi − x̄)
n−1
α̂ und β̂ sind erwartungstreue Schätzer von α bzw. β, d.h.
E(α̂) = α
und
31
E(β̂) = β .
Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen α̂ und β̂ i.F.
sowohl die Schätzer als auch die Schätzwerte für α und β. Die jeweilige Bedeutung erschließt
sich aus dem Kontext.
Beispiel (fortgesetzt): College-Absolventen.
X
X
X
x̄ = 3.5, ȳ = 145,
x2i = 91,
yi2 = 129030,
xi yi = 3234
i
i
i
2
i xi
− n · x̄2
91 − 6 · 3.52
=
= 3.5
n−1
5
P 2
y − n · ȳ 2
29030 − 6 · 1452
s2Y = i i
=
= 576
5
P n−1
xi yi − n · x̄ · ȳ
3234 − 6 · 3.5 · 145
sXY = i
=
= 37.8
n−1
5
s2X
P
=
Daher
β̂ =
37.5
sXY
=
= 10.8
2
3.5
sX
α̂ = ȳ − β̂ · x̄ = 145 − 10.8 · 3.5 = 107.2
37.5
sXY
=√
rXY = q
= 0.8419
3.5 · 576
s2 · s2
X
2
R2 = rXY
= 0.84192 = 0.788
Y
Abbildung 14: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??)
Zur näheren Beschreibung der Verteilung von α̂ und β̂ kann man die Varianzen berechnen.
Dazu macht man sich zunutze, dass
n
n X
X
1
β̂ = β +
ci εi und α̂ = α +
− ci x̄ εi
n
i=1
mit
i=1
xi − x̄
2
i=1 (xi − x̄)
ci = Pn
32
gilt. Die Varianzen berechnen sich als
σ2
2
i=1 (xi − x̄)
P
σ 2 n x2
Pn i=1 i 2
V ar(α̂) = σα̂2 =
n · i=1 (xi − x̄)
V ar(β̂) = σβ̂2 = Pn
Die Varianzen kann man nicht direkt berechnen, da sie vom unbekannten Parameter σ 2
abhängen.
Aber: α̂ bzw. β̂ sind MSE- und schwach konsistent für α bzw. β, wenn die Konsistenzbedingung
n
X
(xi − x̄)2 → ∞ für n → ∞
i=1
gilt.
Ausgehend von der Definition des Bestimmtheitsmaß kann man die Berechnung von σ̂ 2 auf
bekannte Größen zurückführen:
P2
(yi − ŷi )2
2
R = 1 − Pi=1
n
2
i=1 (yi − ȳ)
⇒
n
n
X
X
(yi − ŷi )2 = (1 − R2 )
(yi − ȳ)2 = (1 − R2 )(n − 1)s2Y
i=1
Also
i=1
n−1
n−1
σ̂ =
(1 − R2 )s2Y =
n−1
n−2
2
s2XY
2
2
mit R2 = RXY
sY − 2
sX
Beispiel (fortgesetzt): Für die College-Daten gilt dann
σ̂ 2 =
n−1 2
5
s (1 − R2 ) = 576 · (1 − 0.7088) = 209.664
n−2 Y
4
Mit dem Schätzer für σ 2 kann man die Varianzen bzw. Standardfehler von α̂ und β̂ schätzen
P
q
σ̂ 2 ni=1 x2i
2
P
σ̂α̂ =
σ̂α̂ = σ̂α̂2
n · ni=1 (xi − x̄)2
q
σ̂ 2
σ̂β̂2 = Pn
σ̂
=
σ̂ 2
β̂
2
β̂
i=1 (xi − x̄)
Unter präziseren Verteilungsannahmen kann auch die Verteilung der Schätzer genauer beschrieben werden und es können Tests konstruiert werden.
Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi u.i.v. und
εi ∼ N (0, σ 2 ).
Unter der Normalverteilungsannahme gilt
• α̂ und β̂ sind gemeinsam normalverteilt.
• (n − 2) · σ̂ 2 /σ 2 ist χ2 -verteilt mit n − 2 Freiheitsgraden.
• α̂ und σ̂ 2 bzw. β̂ und σ̂ 2 sind unabhängig.
33
Aus der Normalverteilungsannahme und der Definition der t-Verteilung folgt
α̂ − α
α̂ − α σ̂α̂
α̂ − α σ̂
=
=
σ̂α̂
σα̂
σα̂
σα̂
σ
s
s
α̂ − α
(n − 2)σ̂ 2
W2
=
=
Z
∼ tn−2
σα̂
σ 2 (n − 2)
(n − 2)
mit Z =
α̂
(n − 2)σ̂ 2
∼ N (0, 1), W 2 =
∼ χ2n−1 .
σα̂
σ2
Eine analoge Aussage gilt für β̂
Unter der Normalverteilungsannahme gilt
α̂ − α
β̂ − β
∼ tn−2
∼ tn−2 und
σ̂α̂
σ̂β̂
Mit Hilfe dieser Aussagen lassen sich Tests für α und β konstruieren:
Tests für die Regressionskoeffizienten
Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung sowie s2X > 0. Wir betrachten folgende Testprobleme über die Parameter α
und β:
a) H0 :α = α0 gegen H1 :α 6= α0 ,
d) H0 :β = β0 gegen H1 :β 6= β0 ,
b) H0 :α ≥ α0 gegen H1 :α < α0 ,
e) H0 :β ≥ β0 gegen H1 :β < β0 ,
c) H0 :α ≤ α0 gegen H1 :α > α0 ,
f) H0 :β ≤ β0 gegen H1 :β > β0 .
Basierend auf der Teststatistik
β̂ − β0
α̂ − α0
Tα0 = q
bzw. Tβ0 = q
σ̂ 2
σ̂α̂2
β̂
und dem vorgegebenen Signifikanzniveau α∗ fällt die Entscheidung für H1 im Testproblem
a) , falls |Tα0 | > tn−2,1−a∗ /2 ,
d) , falls |Tβ0 | > tn−2,1−α∗ /2
∗
b) , falls Tα0 < −tn−2,1−a ,
e) , falls Tβ0 < −tn−2,1−α∗
c ) , falls Tα0 > tn−2,1−a∗ ,
f ) , falls Tβ0 > tn−2,1−α∗
Insbesondere der Test H0 : β = 0 ist wichtig, da hiermit überprüft wird, ob es einen linearen
Zusammenhang zwischen den yi - und xi -Werten gibt.
Beispiel (fortgesetzt) College-Daten.
Wir wollen überprüfen, ob β = 0 ist. Das Signifikanzniveau sei α∗ = 0.05. Dazu berechnen
wir den Schätzer für den Standardfehler von β̂.
σ̂ 2
209.664
σ̂ 2
=
=
= 11.9808 ⇒ σ̂β̂ = 3.4613.
2
2
5 · 3.5
(n − 1)sX
i=1 (xi − x̄)
σ̂β̂2 = Pn
Damit ist
β̂ − β0
10.8 − 0
t= q
=
= 3.12.
2
3.4613
σ̂
β̂
Der kritische Wert ist tn−2,1−α∗ /2 = t4,0.975 = 2.7764. Wegen 3.12 > 2.7 ist die Nullhypothese β = 0 abzulehnen. Es gibt also einen signifikanten linearen Trend bei den Berufseinsteigerzahlen.
Statistische Tests für die Regressionsparameter mit R
34
> x <- 1:6
> y <- c(121,138,115,162,160,174)
> mymodel <- lm(y~x)
> summary(mymodel)
Call:
lm(formula = y ~ x)
Residuals:
1
2
3
3.0
9.2 -24.6
4
11.6
5
-1.2
6
2.0
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 107.200
13.481
7.952
x
10.800
3.462
3.120
0.00135 **
0.03553 *
Residual standard error: 14.48 on 4 degrees of freedom
Multiple R-squared: 0.7087,
Adjusted R-squared: 0.6359
F-statistic: 9.734 on 1 and 4 DF, p-value: 0.03553
Konfidenzintervalle für die Regressionsparameter
Ausgehend von der Verteilungsaussage zu α̂ und β̂ kann man Konfidenzintervalle für α
und β herleiten:
Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung. Dann sind
α̂ − tn−2,1−α∗ /2 σ̂α̂ , α̂ + tn−2,1−α∗ /2 σ̂α̂
bzw.
h
i
β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂
(1 − α∗ )-Konfidenzintervalle für die Parameter α bzw. β.
Anmerkung: Diese Struktur von Konfidenzintervallen ist sehr typisch.
θ̂ sei ein Parameterschätzer für einen Parameter θ und σθ̂ sein Standardfehler.
θ̂ − θ
∼ N (0, 1) für alle zulässigen θ
σθ̂
h
i
⇒ θ̂ − z1−α/2 σθ̂ , θ̂ + z1−α/2 σθ̂ ist (1 − α)-Konfidenzintervall für θ
Beispiel: Konfidenzintervall für µ bei bekanntem σ 2 . X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann gilt
für den Schätzer X̄n für µ : V ar(X̄n ) = σ 2 /n:
h
i
p
p
X̄n − z1−α/2 σ 2 /n, X̄n + z1−α/2 σ 2 /n
= X̄n − z1−α/2 σX̄n , X̄n + z1−α/2 σX̄n
θ̂ sei ein Parameterschätzer für einen Parameter θ und σ̂θ̂ ein Schätzer für seinen Standardfehler.
θ̂ − θ
∼ tm für alle zullässigen θ
σ̂θ̂
h
i
⇒ θ̂ − tm,1−α/2 σ̂θ̂ , θ̂ + tm,1−α/2 σ̂θ̂ ist (1 − α)-Konfidenzintervall für θ
35
Anmerkung: i.A. m = n Anzahl der geschätzten Parameter.
Beispiel: Konfidenzintervall für µ bei unbekanntem σ 2 . X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann gilt
2 = S 2 /n,
für den Schätzer X̄n für µ : V ar(X̄n ) = σ 2 /n und σ̂X̄
n
n
h
X̄n − tn−1,1−α/2
i
p
p
Sn2 /n, X̄n + tn−1,1−α/2 Sn2 /n
= X̄n − t−1,1−α/2 σ̂X̄n , X̄n + tn−1,1−α/2 σ̂X̄n
Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen Modellen
Schätzwerte für die Parameter und Standardfehler. Wenn die zugehörigen standardisierten
Schätzer t-verteilt oder asymptotisch normal verteilt sind, kann man obige Konfidenzintervallkonstruktion direkt verwenden.
Beispiel: College-Absolventen.
Wir berechnen ein 0.95-Konfidenzintervall für β. σ̂β̂ = 3.4613 und β̂ = 10.8 wurde bereits
früher berechnet. Mit tn−2,1−α∗ = t4,0.975 = 2.7764 gilt
h
i
β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂
= [10.8 − 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613]
= [1.19, 20.41]
Falls die Normalverteilungsannahme εi ∼ N (0, σ 2 ) verletzt, aber die Konsistenzbedingung
n
X
(xi − x̄)2 → ∞ für n → ∞
i=1
erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer auch approximativ. Dann gelten auch die angegebenen Tests und Konfidenzintervalle approximativ.
Beispiel (Fortsetzung): College-Daten.
Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen Regression,
n
X
2
n
X
}
|i=1 {z
(yi − ȳ) =
|i=1 {z
(ŷi − ȳ)
2
+
}
Gesamtstreuung
Erklärte Streuung
(SQT)
(SQE)
n
X
(yi − ŷi )2
|i=1 {z
Reststreuung
(SQR)
Konfidenzintervalle für die Regressionsparameter mit R
> x <- 1:6
> y <- c(121,138,115,162,160,174)
> mymodel <- lm(y~x)
> confint(mymodel)
2.5 %
97.5 %
(Intercept) 69.770472 144.62953
x
1.188984 20.41102
Prognose
Ausgehend vom Regressionsmodell
Yi = α + βxi + εi
36
}
interessiert man sich für die Regressionsgerade
y(x) = α + βx
für einen Vorgabewert x.
Schätzung von y(x) : Ŷ (x) = α̂ + β̂ · x
Dann gilt
E(Ŷ (x)) = E(α̂ + β̂ · x) = E(α̂) + E(β̂) · x = α + β · x = y(x)
1
(x − x̄)2
2
2
+P
σŶ (x) = V ar(Ŷ (x)) = V ar(α̂ + β̂ · x) = . . . = σ
.
2
n
i (xi − x̄)
Ŷ (x) ist also erwartungstreu und MSE- bzw. schwach konsistent.
Die Varianz können wir schätzen mit
1
(x − x̄)2
+P
.
σ̂Ŷ2 (x) = σ̂ 2
2
n
i (xi − x̄)
Prognose für y(x):
Ŷ (x) = α̂ + β̂ · x ist der Schätzer für y(x). Unter der Normalverteilungsannahme ist
i
h
Ŷ (x) − tn−2,1−α∗ /2 σ̂Ŷ (x) , Ŷ (x) + tn−2,1−α∗ /2 σ̂Ŷ (x)
ein (1 − α)-Konfidenzintervall für y(x).
y(x0 ) beschreibt nur die “Mittellage” einer Zufallsvariable Y0 , die zu einem Regressor x0
erhoben wird. Interessant ist häufig der Wertebereich, in dem wir Y0 mir großer Wahrscheinlichkeit finden. Dazu muss nicht nur die Mittellage y(x0 ), sondern auch der Schwankung
um diese Mittellage mit einem Störterm ε0 Rechnung getragen werden. Ansatz:
Ỹ0 = α̂ + β̂ · x0 + ε0 = Ŷ (x0 ) + ε0 ,
E(ε0 ) = 0,
V ar(ε0 ) = σ 2 ,
wobei ε0 unabhängig von ε1 , . . . , εn .
Damit ist
1
(x0 − x̄)2
V ar(Ỹ0 ) = V ar(Ŷ (x0 )) + V ar(ε0 ) = σ 1 + + P
2
n
i (xi − x̄)
2
und
1
(x0 − x̄)2
σ̂Ỹ2 = σ̂ 2 1 + + P
.
2
0
n
i (xi − x̄)
Prognose für Y0 zu gegebenen x0 :
Unter der Normalverteilungsannahme ist
h
i
Ŷ (x0 ) − tn−2,1−α∗ /2 σ̂Ŷ0 , Ŷ (x0 ) + tn−2,1−α∗ /2 σ̂Ŷ0
ein (1 − α)-Konfidenz- oder Prognoseintervall für Y0 .
Beispiel: College-Absolventen.
37
Wir berechnen ein 0.95-Konfidenzintervall für y(x0 ) und Y0 zu x0 = 7. Aus
x̄ = 3.5,
s2x = 3.5,
σ̂ = 14.461,
t4,0.975 = 2.7764
ergibt sich
σ̂Ŷ2 (7)
= σ̂
2
1
(x0 − x̄)2
+P
2
n
i (xi − x̄)
σ̂Ỹ2 = σ̂ 2 + σ̂Ŷ2 (7) = 391.44,
0
= 209.7 ·
1 (7 − 3.5)2
+
6
5 · 3.5
σ̂Ŷ (7) = 13.4811,
= 181.74
σ̂Ỹ0 = 19.7848
Damit sind Ŷ (7) = α̂ + β̂ · 7 = 107.2 + 10.8 · 7 = 182.8, t4,0.975 = 2.7764, und
h
i
Ŷ (7) − tn−2,1−α∗ /2 σ̂Ŷ (7) , Ŷ (7) + tn−2,1−α∗ /2 σ̂Ŷ (7) = [145.37, 220.23]
i
h
bzw. Ŷ (7) − tn−2,1−α∗ /2 σ̂Ỹ0 , Ŷ (7) + tn−2,1−α∗ /2 σ̂Ỹ0 = [127.87, 237.73]
die gesuchten Konfidenzintervalle.
Abbildung 15: Prognose und Konfidenzintervalle (Quellcode auf S.??)
In das Streudiagramm der “College-Absolventen” wurde in der obenstehenden Abbildung
die geschätzte Regressionsgerade Ŷ (x) und zu jedem x0 die Konfidenzintervalle zu Ŷ (x0 )
und Ỹ0 eingezeichnet. Der rote Punkt kennzeichnet den Prognosenpunkt zu x0 = 7.
Die Konfidenzintervalle werden größer, je weiter x0 von x̄ = 3.5 entfernt ist.
Konfidenz- und Prognosestreifen mit R
x <- 1:6; y <- c(121,138,115,162,160,174)
plot(x,y,xlim=c(0,8.5), ylim=c(50,260),
xlab="Jahr",ylab="Berufseinsteiger",col="blue")
mymodel <- lm(y~x)
y0 <- sum(mymodel$coefficients*c(1,0))
38
y8 <- sum(mymodel$coefficients*c(1,8))
lines(matrix(c(0,y0,8,y8),byrow=TRUE,ncol=2))
newx <- data.frame(x=seq(0,8,by=0.1))
predEY <- predict(mymodel, newx, interval="confidence")
lines(data.matrix(newx), data.matrix(predEY[,2]),col="red")
lines(data.matrix(newx), data.matrix(predEY[,3]),col="red")
predY <- predict(mymodel, newx, interval="prediction")
lines(data.matrix(newx), data.matrix(predY[,2]),col="green")
lines(data.matrix(newx), data.matrix(predY[,3]),col="green")
points(7,predict(mymodel, data.frame(x=7)),col="red", pch=15)
39
5 Varianzanalyse
Modelle der Varianzanalyse (ANOVA - Analysis of Variance) dienen zur Untersuchung der
Frage, ob eine oder mehrere kategoriale Größen (Faktoren) einen Einfluss auf die metrische
Kriteriumsvariable besitzen.
Je nach Anzahl der Faktoren spricht man von einer Varianzanalyse mit Einfach-, Zweifach-,
. . . Klassifikation.
Ausprägungen eines Faktors werden als Stufen des Faktors bezeichnet.
Ist jede Stufe eines Faktors mit jeder Stufe eines anderen kombiniert, so spricht man von
(einem Versuchsplan mit) Kreuzklassifikation, andernfalls von hierarchischer Klassifikation.
5.1 Einfache Klassifikation
Welchen (Mittelwert-) Einfluss haben die k Stufen eines Faktors auf die Kriteriumsvariable
Y ?[10pt]
Gruppe
(=Faktorstufe)
EW
Umfang
1
..
.
µ1
..
.
n1
..
.
Y11
..
.
...
Y1n1
..
.
Ȳ1
..
.
i
..
.
µi
..
.
ni
..
.
Yi1
..
.
...
Yini
..
.
Ȳi
..
.
k
µk
nk
Yk1
...
Yknk
Ȳk
Ȳi =
ni
1 X
Yi,j
ni
Stichprobe
Mittelwert
Mittelwert der Gruppe i
j=1
n = n 1 + · · · + nk
k
Ȳ
Umfang der gesamten Stichprobe
n
=
i
1 XX
Yi,j
n
=
k
1X
ni Ȳi
n
i=1 j=1
Mittelwert der gesamten Stichprobe
i=1
Modell 1
Yij = µi + eij
i = 1, . . . , k, j = 1, . . . , ni
mit unabhängigen Zufallsvariablen e11 , . . . , ek,nk (Fehlervariablen) und Gruppen-Erwartungswerten
µ1 , . . . , µ k .
Annahmen:
E(eij ) = 0
Var(eij ) = σ 2 (Varianzhomogenität)
40
Matrixschreibweise der Modellgleichungen:
Y = Xβ + e
mit


Y11


Y =  ... 
n-dim. Beobachtungsvektor
Yk,nk


µ1
 .. 
β= . 
n-dim. Vektor der unbekannten Parameter
µk

1
 ..
.

1

0

 ..
.
X=
0

 ..
.

0

 ..
.
0
0 ···
..
.

0 )
.. 
.
n1 Zeilen

0

)
0

.. 
n2 Zeilen
.

0

..

.

 )

1
nk Zeilen
.. 
.
0 ···
1
0 ···
..
.
0 ···
1 ···
..
.
1 ···
..
.
X ist eine n × k-Matrix mit Rang(X) = k, die sog. Designmatrix.


e11


e =  ... 
n-dim. Fehlervektor
ek,nk
Andere Parametrisierung
µi =
:=
1
n
µ0
|{z}
Pk
+
αi
|{z}
:= µi − µ0
i=1 ni µi
Effekt der Gruppe i
mittlerer EW
Modell 2 (Effektdarstellung)
Yij = µ0 + αi + eij
Hier gilt
Pk
i=1 ni αi
i = 1, . . . , k j = 1, . . . , ni
= 0 (Reparametrisierungsbedingung).
Aufgabe: Schreibe das Modell in Matrixschreibweise
Y = Xβ + e
41
mit geeigneter Designmatrix X und Parametervektor β.
Schätzen des Parametervektors β in Modell 1 mittels Methode der kleinsten Quadrate:
ni
k X
X
(Yij − µi )2
Minimiere
i=1 j=1
liefert die Schätzwerte µ̂i = Ȳi
Für Modell 2 erhält man:
und α̂i = Ȳi − Ȳ
µ̂0 = Ȳi
Schätzung der Varianz in beiden Modellen durch:
σ̂ 2 =
SSE
n−k
(mittlere Fehlerquadratsumme)
wobei
SSE :=
ni
k X
X
(Yij − Ȳi )2
i=1 j=1
(Sum of Squares due to Errors — Summe der quadrierten Residuen).
Es gilt die folgende Streuungszerlegung:
ni
ni
k X
k
k X
X
X
X
2
2
(Yij − Ȳ ) =
ni (Ȳi − Ȳ ) +
(Yij − Ȳi )2
i=1 j=1
i=1
i=1 j=1
Kurz:
SST
=
SSA
+
SSE
Sum of Squares
Sum of Squares
Sum of Squares
Total
due to factor A
due to Errors
Die Variation der gesamten Stichprobe (SST) ist also die Summe der Variation zwischen
den Gruppen und der Variation innerhalb der Gruppen.
Begründung:
SST =
ni
k X
X
(Yij − Ȳ )2
i=1 j=1
=
ni
k X
X
(Yij − Ȳi + Ȳi − Ȳ )2
i=1 j=1
=
ni
k X
X
(Yij − Ȳi )2 + 2(Yij − Ȳi )(Ȳi − Ȳ ) + (Ȳi − Ȳ )2
i=1 j=1
= SSA + 2
k
X
i=1
(Ȳi − Ȳ )
ni
X
(Yij − Ȳi ) +SSE
j=1
|
{z
=0
}
= SSA + SSE
Man sagt auch, dass die Gesamtvariation SST der Daten sich aus der erklärten Variation
SSA und der unerklärten Restvariation SSE zusammensetzt.
42
Zur Überprüfung der globalen Nullhypothese
H0 : µ1 = · · · = µk
(oder äquivalent α1 = · · · = αk = 0)
vergleicht man SSA und SSE, genauer
SSE
SSA
und M SE :=
M SA :=
k−1
n−k
Haben die Faktorstufen von A keinen unterschiedlichen Einfluss auf die Zielgröße, dann ist
SSA/(k − 1) klein im Vergleich zu SSE/(n − k).
Sind die Fehlervariablen ei normalverteilt (also N(0, σ 2 )-verteilt), so ist
F :=
SSA/(k − 1)
M SA
=
SSE/(n − k)
M SE
unter der Nullhypothese F-verteilt mit den Freiheitsgraden k − 1 und n − k
Definition: Seien Z1 , . . . , Zm , Z̃1 , . . . , Z̃n unabhängige N(0, 1)-verteilte Zufallsvariablen.
Dann heißt die Verteilung von
F :=
2 )/m
(Z12 + · · · + Zm
(Z̃12 + · · · + Z̃n2 )/n
F-verteilt mit den Freiheitsgraden m und n.
F-Test
Damit ergibt sich der F-Test der einfaktoriellen (oder einfachen) Varianzanalyse:
Lehne H0 zum Niveal α ab, falls
F > Fk−1,n−k;1−α
|
{z
}
(1 − α)-Quantil der F-Verteilung mit (k − 1) und
(n − k) Freiheitsgraden.
Zur Beurteilung der Teststatistik von F verwendet man idealerweise die folgende Tafel der
einfachen Varianzanalyse:
Quadratsummen
Freiheitsgrade
mittlere
Quadratsummen
zwischen den Stufen
des Faktors A
SSA
(k − 1)
M SA
innerhalb der Stufen
des Faktors A
SSE
(n − k)
M SE
Gesamt
SST
(n − 1)
Variationsursache
F =
Überprüfung der Vorraussetzung zur Varianzhomogenität
• Grafisch mit parallelen Boxplots
• Inferenzstatistisch mit
– Levene-Test oder
– Bartlett-Test
zur Überprüfung der Nullhypothese:
H0 : σ12 = · · · = σn2
43
wobei σi2 = Var(Yij )
M SA
M SE
Multiple Mittelwertvergleiche
Führt der F-Test zur Ablehnung der globalen Nullhypothese, so sind zumindest nicht alle
Gruppen-Erwartungswerte identisch.
Welche (Kombination von) Gruppen sind für die Ablehnung verantwortlich?
Zur Beantwortung dieser Frage gibt es mehrere Methoden:
Scheffé-Test: Lehne H0 : µi = µj zum Niveau α ab, falls:
q
|µ̂i − µ̂j |
> (k − 1)Fk−1,n−k,1−α
se(µ̂i − µ̂j )
wobei
r
se(µ̂i − µ̂j ) =
SSE
·
n−k
s
1
1
+
ni nj
Den Scheffé-Test gibt es auch in einer allgemeineren Version für lineare Kontraste zur
Überprüfung von Hypothesen der Form
H0 :
k
X
ci µi = 0 wobei
i=1
k
X
ci = 0.
i=1
Wichtiges Beispiel (s.o.): ci = 1, cj = −1, alle übrigen c0 s = 0.
Anderer populärer Test zum simultanen Vergleich von Mittelwerten: Tukey-Test.
Kumulierung der Fehlerwahrscheinlichkeit beim multiplen Testen
Werden alle Nullhypothesen:
H0ij : µi = µj
z.B. mittels 2-Stichproben-t-Test durchgeführt, so sind insgesamt
k
k · (k − 1)
l=
=
2
2
Einzeltests erforderlich. Wird jeder Einzeltest zum Niveau α durchgeführt, so führt dies zu
einer Inflation des multiplen α-Fehlers (auch experimentwise oder familywise error rate),
definiert durch
p = P(mindestens eine Nullhypothese H0ij fälschlicherweise ablehnen)
Sei Aij das Ereignis, H0ij fälschlicherweise abzulehnen:
p = P(A12 ∪ A13 ∪ · · · ∪ A(i−1)j )


[
= P  Aij 
i6=j

= 1 − P

\
Aij 
i6=j
|
{z
}
Y
ij
≥
P(A )
| {z }
i6=j =1−α
≤ 1 − (1 − α)l
44
wobei l die Gesamtzahl der Einzeltests zum Niveau α.
Bei Unabhängigkeit der Ereignisse Aij gilt Gleichheit.
Beispiel: α = 0.05, k = 5, also l = 10 ⇒ p ≤ 1 − (1 − 0.05)10 ≈ 0.4
Paarvergleiche nach dem Bonferroni-Verfahren
Nach der Bonferroni-Ungleichung gilt:
X
P ∩Aij ≥ 1 −
P(Aij )
| {z }
l·α
Also gilt für die multiple Fehlerrate p:
α ≤ p ≤ lα
Werden die Einzelvergleiche statt zum Niveau α zum Niveau α/l durchgeführt, so ist die
multiple Fehlerrate höchstens gleich α!
Die Bonferroni-Korrektur ist jedoch sehr konservativ, der resultierende multiple Test besitzt eine geringe Power!
Äquivalente Formulierung des Bonferroni-Verfahrens: Seien pij die p-Werte zu den Tests
mit den Hypothesen H0ij : µi = µj
Dann ist der Bonferroni-korrigierte multiple p-Wert gegeben durch:
pBonf = l · max pij
i6=j
Bonferroni-Holm-Verfahren (Holm 1979)
Multiple Testsitiuation zur Überprüfung von K Nullhypothesen. geordnete p-Werte: p(1) ≤
(1)
(2)
(K)
p(2) ≤ · · · ≤ p(K) zugehörige Nullhypothesen: H0 , H0 , . . . , H0
Die schrittweise verwerfende Bonferroni-Holm Prozedur kontrolliert wie folgt das multiple
Niveau α:
(1)
(K)
α
• 1. Schritt p(1) > K
: Behalte H0 , . . . , H0
ab. Weiter mit Schritt 2.
• 2. Schritt p(2) >
(2)
H0
α
K−1
(2)
bei. STOP p(1) ≤
(K)
: Behalte H0 , . . . , H0
α
K
bei. STOP p(2) ≤
(1)
: Lehne H0
α
K−1
: Lehne
ab. Weiter mit Schritt 3.
• ...
Beweisidee:
Sei W die (unbekannte!) Anzahl wahrer Hypothesen unter den H0k , k = 1, . . . , K.
W = K : Ein Fehler 1. Art passiert auf jeden Fall dann, wenn für mindestens eine der K
α
wahren Nullhypothesen gilt: p ≤ K
. Die Wahrscheinlichkeit dafür ist ≤ α (nach BonferroniUngleichung)
45
W = K − 1 : Ein Fehler 1. Art passiert auf jeden Fall dann, wenn für mindestens eine der
α
K − 1 wahren Nullhypothesen gilt: p ≤ K−1
. Die Wahrscheinlichkeit dafür ist ≤ α (nach
Bonferroni-Ungleichung)
W = K − 2 : ...
Also kontrolliert das Bonferroni-Holm-Verfahren das multiple Niveau α
Bemerkung:
Das Bonferroni-Holm-Verfahren lehnt mindestens so viele Nullhypothesen ab, wie das
Bonferroni-Verfahren und kontrolliert dasselbe multiple Niveau α.
⇒ Verwende Bonferroni-Holm, da i.A. höhere Power!
5.2 Einfache Varianzanalyse mit R
Im Datensatz survey aus dem Paket MASS finden sich die Variablen Pulse (Pulsrate pro
Minute), Smoke (Rauchverhalten) und weitere.
Frage: Besteht ein Zusammenhang zwischen Pulsrate und Rauchverhalten?
> library(MASS)
> attach(survey)
> summary(Pulse)
Min. 1st Qu.
35.00
66.00
Median
72.50
Mean 3rd Qu.
74.15
80.00
Max.
104.00
NA’s
45.00
> summary(Smoke)
Heavy Never Occas Regul
11
189
19
17
NA’s
1
Die Faktorstufen werden in R standardmäßig in alphanumerischer Reihenfolge dargestellt.
Referenzkategorie (“Baseline”) ist damit die Faktorstufe, welche alphabetisch (oder numerisch) gesehen als erste auftaucht. In obigem Beispiel ist dies die Faktorstufe Heavy.
Vermutlich ist es jedoch sinnvoller, Never als Referenzkategorie zu wählen:
> table(Smoke)
Smoke
Heavy Never Occas Regul
11
189
19
17
> Smoke <- factor(Smoke,levels=c("Never","Occas","Regul","Heavy"))
> table(Smoke)
Smoke
Never Occas Regul Heavy
189
19
17
11
46
Abbildung 16: Puls in Abhängigkeit vom Rauchverhalten
> boxplot(Pulse ~ Smoke)
> aov(Pulse ~ Smoke)
Call:
aov(formula = Pulse ~ Smoke)
Terms:
Sum of Squares
Deg. of Freedom
Smoke Residuals
127.433 25926.797
3
187
Residual standard error: 11.77480
Estimated effects may be unbalanced
46 observations deleted due to missingness
> summary(aov(Pulse ~ Smoke))
Df Sum Sq Mean Sq F value Pr(>F)
Smoke
3
127.4 42.478 0.3064 0.8208
Residuals
187 25926.8 138.646
46 observations deleted due to missingness
Besteht ein Zusammenhang zwischen Pulsrate und Geschlecht?
Überprüfen Sie, dass die Varianzanalyse bei einem Merkmal mit zwei Gruppen der Vergleich
der Gruppenmittel identisch ist zum 2-Stichproben-t-Test. Zunächst die Varianzanalyse:
47
> summary(aov(Pulse ~ Sex))
Df Sum Sq Mean Sq F value Pr(>F)
Sex
1
177.6 177.56 1.2953 0.2565
Residuals
189 25909.7 137.09
46 observations deleted due to missingness
Um zu vermeiden, dass R beim 2-Stichproben-t-Test den Welch-Test, welcher die Gleichheit
der Varianzen nicht veraussetzt, verwendet, muss explizit die Gleichheit der Varianzen
angenommen werden:
> t.test(Pulse ~ Sex, var.equal=TRUE)
Two Sample t-test
data: Pulse by Sex
t = 1.1381, df = 189, p-value = 0.2565
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.413995 5.270794
sample estimates:
mean in group Female
mean in group Male
75.12632
73.19792
Wird im linearen Modell für die Gruppenmittel angenommen, dass
µi = µ + α i ,
i = 1, . . . , I
mit unbekannten µ und αi , so sind diese Parameter nicht eindeutig bestimmt.
Für ungeordnete Faktoren wird in R wird standardmäßig angenommen, dass
α1 = 0 (Berechne die Behandlungskontraste)
α2 , . . . αI sind dann die Abweichungen vom ersten Gruppenmittel in den Gruppen 2, . . . , I.
Über das Argument contrasts kann der Typ der Kontraste auch explizit gewählt werden.
> model1 <- lm(Pulse ~ Smoke, contrasts=list(Smoke="contr.treatment"))
> model1
Call:
lm(formula = Pulse ~ Smoke, contrasts = list(Smoke = "contr.treatment"))
Coefficients:
(Intercept)
SmokeOccas
73.99342
-0.05592
SmokeRegul
-0.30592
SmokeHeavy
4.29229
> dummy.coef(model1)
Full coefficients are
(Intercept):
Smoke:
73.99342
Never
Occas
Regul
0.00000000 -0.05592105 -0.30592105
> mean(Pulse[Smoke=="Never"], na.rm=TRUE)
[1] 73.99342
Heavy
4.29229323
Eine andere Wahl der Parametrisierung liefert die Nebenbedingung:
I
X
αi = 0
Berechne die Kontraste so, dass deren Summe = 0
i=1
In R:
48
> model2 <- lm(Pulse ~ Smoke, contrasts=list(Smoke="contr.sum"))
> model2
Call:
lm(formula = Pulse ~ Smoke, contrasts = list(Smoke = "contr.sum"))
Coefficients:
(Intercept)
74.9760
Smoke1
-0.9826
Smoke2
-1.0385
Smoke3
-1.2885
> dummy.coef(model2)
Full coefficients are
(Intercept):
Smoke:
74.97603
Never
Occas
Regul
-0.9826128 -1.0385338 -1.2885338
> sum(dummy.coef(model2)$Smoke)
[1] -4.440892e-16
Heavy
3.3096805
Überprüfung auf gleiche Varianzen:
> bartlett.test(Pulse ~ Smoke)
Bartlett test of homogeneity of variances
data: Pulse by Smoke
Bartlett’s K-squared = 2.8627, df = 3, p-value = 0.4133
> library(car)
> leveneTest(Pulse ~ Smoke, data=survey)
Levene’s Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group
3 0.6535 0.5817
187
Multipler paarweiser Vergleich von Hypothesen:
> pairwise.t.test(Pulse, Smoke, pool.sd=FALSE)
Pairwise comparisons using t tests with non-pooled SD
data:
Pulse and Smoke
Heavy
Never 1
Occas 1
Regul 1
Never
1
1
Occas
1
P value adjustment method: holm
Hier könnte die Varianz auch aus der gesamten Stichprobe ermittelt werden: pool.sd=TRUE.
5.3 Nichtparametrische einfache Varianzanalyse: Der Kruskal-Wallis-Test
Vergleich der Mittelwerte zweier unabhängiger Stichproben:
parametrisch:
nichtparametrisch:
t-Test
Wilcoxon-Test
Vergleich der Mittelwerte von k ≥ 3 unabhängigen Stichproben:
49
parametrisch:
nichtparametrisch:
Einfache Varianzanalyse
Kruskal-Wallis-Test
Beim Kruskal-Wallis-Test werden nicht die Mittelwerte Ȳ1 , . . . , Ȳk jeder Stichprobe (Gruppe / Faktorstufe) miteinander verglichen, sondern deren mittleren Ränge.
Stichprobe
Umfang
1
n1
..
.
..
.
k
nk
Summe
n
Stichprobenwerte
Rangzahlen
Rangsummen
Rangmittelwerte
Y11 , . . . , Y1,n1
R11 , . . . , R1,n1
..
.
R1
R̄1
Rk
R̄k
n(n + 1)/2
(n + 1)/2
Yk1 , . . . , Yk,nk
Rk1 , . . . , Rk,nk
Bei Bindungen werden mittlere Ränge vergeben.
Die Teststatistik H des Kruskal-Wallis-Tests vergleicht die Rangmittelwerte R̄1 , . . . , R̄k
mit dem mittleren Gesamtrang R̄ = (1 + · · · + n)/n = n+1
2 :
H =
=
2
k
X
12
1
ni R̄i − (n + 1)
n(n + 1)
2
12
n(n + 1)
i=1
k
X
i=1
Ri2
− 3(n + 1)
ni
Man kann zeigen, dass H asymptotisch χ2k−1 -verteilt ist (ni → ∞ für jedes i = 1, . . . , k),
falls alle Yij unabhängig identisch verteilt sind mit jeweiligen stetigen Verteilungsfunktionen F1 = · · · = Fk (zu Y1j , . . . , Ykj ).
Deshalb ist folgender Test sinnvoll:
H0 : F1 = · · · = Fk
d.h. alle Xij besitzen die dieselbe Verteilungsfunktion F . Lehne H0 zum Niveau α ab, falls
H > χ2k−1,1−α
(und n1 , . . . , nk “groß”)
Für kleine n1 , . . . , nk ist die Verteilung von H vertafelt.
Für Mathematiker: Zeigen Sie die Gültigkeit der beiden Darstellungen für H.
Für Alle: Zeigen Sie, dass der Kruskal-Wallis-Test für k = 2 zum Wilcoxon-Test äquivalent
ist.
Beispiel in R:
> boxplot(Ozone ~ Month, data=airquality)
> kruskal.test(Ozone ~ Month, data=airquality)
Kruskal-Wallis rank sum test
data: Ozone by Month
Kruskal-Wallis chi-squared = 29.2666, df = 4, p-value = 6.901e-06
50
5.4 Zweifache Varianzanalyse
Welchen Einfluss haben zwei Faktoren A und B auf die Zielvariable Y ?
Faktor A mit I Stufen Faktor B mit J Stufen
Der Einfachheit halber mögen für jeden Stufenkombination (i, j) gleich viele unabhängige
Messungen Yij,1 , . . . , Yij,k vorliegen (mit i = 1, . . . , I; j = 1, . . . , J).
Modell 1:
i = 1, . . . , I
j = 1, . . . , J
k = 1, . . . , K
Yij,k = µij + eij,k
wobei EYij,k = µij und alle ejij,k unabhängig mit E(eij,k ) = 0, Var(eij,k ) = σ 2 .
Interessanter ist das Modell 2:
Yij,k = µ0 + αi + βj + γij + eij,k
mit z.B. den Nebenbedingungen:
X
X
αi = 0,
βj = 0,
X
γij = 0,
i
X
γij = 0
j
Die αi bzw. βj beschreiben die Haupteffekte der Faktoren A bzw. B, die γij die Wechselwirkungen (Interaktionen) zwischen den Faktoren.
Schätzung der unbekannten Modellparameter mittels Methode der kleinsten Quadrate.
K
1X
Yij,k
Für Modell 1: µ̂ij = Ȳij =
k
k=1
Für Modell 2:
µ̂0 = Ȳ =
1 XX
Ȳij
IJ
i
1X
Ȳij
J
j
1X
wobei Ȳ·j =
Ȳij
I
α̂i = Ȳi· − Ȳ
β̂j
j
wobei Ȳi· =
= Ȳ·j − Ȳ
i
γ̂ij
= Ȳij − Ȳi· − Ȳ·j + Ȳ (= Ȳij − µ̂0 − α̂i − β̂j )
Tafel der Mittelwerte bei der zweifachen Varianzanalyse
B
A
1
2
J
MW
1
2
..
.
Ȳ11
..
.
Ȳ12
..
.
···
..
.
Ȳ1J
..
.
Ȳ1·
..
.
I
ȲI1
ȲI2
···
ȲIJ
ȲI·
MW
Ȳ·1
Ȳ·2
···
Ȳ·J
Ȳ·· = Ȳ
51
Schätzer für die Varianz σ 2 der Fehlervariablen:
σ̂ 2 =
1
SSE
n − IJ
mit
XXX
(Yij,k − Ȳij )2
SSE =
i
j
k
Testen von Hypothesen
HA :
α1 = . . . = αI = 0 (Faktor A hat keinen Einfluss)
HB :
β1 = . . . = βJ = 0 (Faktor B hat keinen Einfluss)
HA×B :
γ11 = . . . = γIJ = 0 (Keine Wechselwirkungen)
Man kann zeigen, dass die Teststatistiken:
FA =
MSA
,
MSE
FB =
MSB
,
MSE
FA×B =
MSAB
MSE
unter den jeweiligen Nullhypothesen FI−1,n−IJ - bzw. FJ−1,n−IJ - bzw. F(I−1)(J−1),n−IJ verteilt sind.
Tafel der zweifachen Varianzanalyse mit Zellenbesetzung K ≥ 2
Variation
SS
DF
i (Ȳi·
− Ȳ )
I −1
MSA =
SSA
I−1
i (Ȳi·
− Ȳ )2
J −1
MSB =
SSB
J−1
Faktor A
SSA = JK
Faktor B
SSB = IK
P
Wechselwirkung
innerhalb
total
MS
2
P
P
SSAB = K i,j Ci,j
P
SSE = i,j,k (Yij,k − Ȳij )2
P
SST = i,j,k (Yij,k − Ȳ )2
(I − 1)(J − 1)
IJ(K − 1)
MSAB =
MSE =
n−1
wobei Ci,j = (Ȳij − Ȳi· − Ȳ·j + Ȳ )2
Streuungszerlegung:
SST = SSA + SSB + SSAB + SSE
Testentscheidungen:
Lehne HA , HB , HA×B zum Niveau α ab, falls
FA > FI−1,n−IJ;1−α
bzw. FB > FJ−1,n−IJ;1−α
bzw. FA×B > F(I−1)(J−1),n−IJ;1−α
52
SSAB
(I−1)(J−1)
SSE
n−IJ
5.5 Zweifache Varianzanalyse mit R
Beispiel: Aggression im Straßenverkehr.
Wie hängt die Dauer bis zum ersten Hupen von den beiden Faktoren Autotyp des blockierenden Fahrzeugs (BMW X5 oder Ford Ka) und dem Geschlecht des hupenden Fahrers
ab.
> aggression <- read.table("aggression.dat",
+
header=TRUE)
> attach(aggression)
> huper <- subset(aggression, subset=(frequenz > 0))
> detach(aggression)
> attach(huper)
> dim(huper)
[1] 109
4
Boxplot und Mittelwerttabelle
> boxplot(dauer ~ (Auto + Geschlecht), ylab="Sekunden")
> mittelwerte <- tapply(dauer, list(Auto, Geschlecht),
+
mean)
> round(mittelwerte, digits=2)
Frau Mann
BMW 6.21 5.13
Ford 3.80 5.30
53
Abbildung 17: Hupdauer in Abhängigkeit von Fahrzeug und Geschlecht.
Interaktionsplot:
par(mfrow=c(1,2))
interaction.plot(Geschlecht, Auto, dauer,
ylab="Mittlere Dauer bis zum Hupen")
interaction.plot(Auto, Geschlecht, dauer, ylab="...")
54
Abbildung 18: Interaktions-Plot
Modellselektion in der Varianzanalyse
Allgemeine Devise: So einfach wie möglich — so komplex wie nötig.
Einfachheit: möglichst wenig Parameter Komplexität: guter Erklärungswert des Modells
für die Daten
Anwendung des partiellen F-Tests auf unser Beispiel: Vergleich von Modell 2 (mit Interaktion) und Modell 1 (ohne Interaktion).
H0 :
γij = 0 für alle i = 1, . . . , I und j = 1, . . . , J
SSE1
df1
SSE2
df2
Residualquadratsumme des Modells ohne Interaktion
dazugehörige Anzahl an Freiheitsgraden
Residualquadratsumme des Modells mit Interaktion
dazugehörige Anzahl an Freiheitsgraden
F =
(SSE1 − SSE2 )/(df1 − df2 )
SSE2 /df2
Diese Teststatistik ist unter H0 Fdf1 −df2 ,df2 −verteilt. Lehne H0 zum Niveau α ab, falls
F > Fdf1 −df2 ,df2 ;1−α
Zweifache Varianzanalyse mit R
Mit Interaktion:
> model2 <- lm(dauer ~ Auto * Geschlecht)
> anova(model1)
Analysis of Variance Table
55
Response: dauer
Df Sum Sq Mean Sq F value Pr(>F)
Auto
1 11.53 11.529 1.7504 0.18871
Geschlecht
1
3.01
3.012 0.4573 0.50039
Auto:Geschlecht
1 38.09 38.086 5.7821 0.01794 *
Residuals
105 691.63
6.587
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05
’.’ 0.1 ’ ’ 1
Ohne Interaktion:
> model1 <- lm(dauer ~ Auto + Geschlecht)
> anova(model1)
Analysis of Variance Table
Response: dauer
Df Sum Sq Mean Sq F value Pr(>F)
Auto
1 11.53 11.5295 1.6748 0.1984
Geschlecht
1
3.01 3.0120 0.4375 0.5098
Residuals 106 729.72 6.8841
Reihenfolge in der Interpretation der Effekte:
1. Zuerst Wechselwirkungseffekt interpretieren
2. Nur wenn Wechselwirkungseffekt nicht signifikant, Haupteffekte interpretieren
Was tun, wenn der Wechselwirkungseffekt nicht signifikant?
Partieller F-Test mit R:
> anova(model1, model2)
Analysis of Variance Table
Model 1: dauer ~ Auto + Geschlecht
Model 2: dauer ~ Auto * Geschlecht
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
106 729.72
2
105 691.63 1
38.086 5.7821 0.01794 *
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05
’.’ 0.1 ’ ’ 1
Besteht ein signifikanter Unterschied zwischen diesen beiden Modellen, wird man die Interaktion beibehalten.
Andernfalls überprüft man analog, ob einer der beiden Haupteffekte überflüssig ist.
56
Gegebenenfalls schließlich, ob nicht das Nullmodell sinnvoll ist.
Abbildung 19: Reihenfolge der Interpretation
57
6 Lineare Modelle
Varianzanalyse: Besteht ein Mittelwerteinfluss von Faktoren A, B, . . . auf eine intervallskalierte Kriteriumsvariable Y ? [0.5cm] Regressionsanalyse: Besteht ein Mittelwerteinfluss von intervallskalierten Regressoren X1 , X2 , . . . auf eine intervallskalierte Kriteriumsvariable Y (auch Regressand oder Zielvariable genannt)?
Fall Nr. Regressorenwerte
Kriteriumswerte
1
x11
x21 . . . xm1
Y1
..
..
..
..
..
..
.
.
.
.
.
.
n
x1n
...
...
xmn
Yn
m = 1: einfache Regression
m ≥ 2: m-fache oder multiple Regression
Lineares Modell
Yi = α + β1 x1i + . . . + βm xmi + ei , i = 1, . . . , n
mit unabhängigen zufallsabhängigen Fehlern e1 , . . . , en mit E(ei ) = 0 und Var(ei ) = σ 2 .
In Matrixschreibweise
Y = Xβ + e.
mit

 
e1
 e2 
 
e=. ,
 .. 
en

Y1
 .. 
Y= .  ,
Yn


α
 β1 
 
β= . 
 .. 
βm
und der n × (m + 1)-Matrix der Einflussgrößen (Designmatrix)


1 x11 . . . x1m
1 x21 . . . x2m 


X = .
..
..  .
.
.
.
.
.
.
. 
1 xn1 . . . xnm
Annahme: Rang(X) = m + 1 ≤ n.
Bestimmung des Parametervektors β mittels der Methode der kleinsten Quadrate: Wähle
α, β1 , β2 , . . . , βm so dass
SSE(β) :=
n
X
(yi − (α + β1 x1i + . . . + βm xmi ))2
i=1
minimal. Vorgehen: Setze partielle Ableitungen von SSE(β) gleich Null und löse nach
α, β1 , . . . , βm auf.
Äquivalent, aber kompakter
!
SSE(β) = (y − Xβ)T (y − Xβ) = Min
!
∇β SSE(β) = −XT y − yT X + XT Xβ + β T XT X = 0
⇔ (XT X)β = XT y
⇔ β̂ = (XT X)−1 XT y
(X T X)−1 existiert, da XT X und X denselben Rang gesitzen (Übung)
58
• β̂ ist der Kleinste-Quadrate-Schätzer für β
• ŷ = Xβ̂ ist die Vorhersage (Prädiktion) von Y mittels linearer Regression
• ê = y − ŷ Vektor der empirischen Residuen
P
• SSE := SSE(β̂) = êT ê = ni=1 (yi − ŷi )2
• Ein erwartungstreuer Schätzer für die unbekannte Fehlervarianz σ 2 = Var(ei ) ist
σ̂ 2 =
SSE
n−m−1
6.1 Testen von Hypothesen
6.1.1 Globaler F -Test
Im Folgenden gehen wir immer davon aus, dass ei ∼ N(0, σ 2 ).
Besteht eine lineare Abhängigkeit des Kriteriums Y von den Regressoren?
Globale Nullhypothese:
H0 : β1 = . . . = βm = 0
Zu diesem Fall gilt also yi = α+ei . Damit liegt also keine Abhängigkeit von den Regressoren
x1 , . . . , xm vor.
Wie im Fall der einfachen linearen Regression kann gezeigt werden, dass die folgende Streuungszerlegung gilt:
SST = SSE + SSR
n
X
mit SST =
(yi − ȳ)2
SSE =
SSR =
i=1
n
X
i=1
n
X
totale Streuung
(yi − ŷi )2
Reststreuung
(ŷi − ȳ)2
erklärte Streuung
i=1
Ferner
SSE
mittlere Reststreuung (mean squares due to error)
n−m−1
SSR
MSR =
mittlere erklärte Streuung (mean squares due to regression)
m
MSE =
Ist der Wert der Teststatistik
MSR
MSE
groß, so spricht dies eher gegen H0 . Unter H0 ist F Fm,n−m−1 -verteilt. Testentscheidung:
Lehne H0 zum Niveau α ab, falls
F =
F > Fm,n−m−1;1−α
Tafel der Varianzanalyse der m-fachen linearen Regression
59
Variationsursache
Regression
SS
P
SSR = (ŷi − ȳ)2
FG
m
Abweichung von
der Regression
Total
SSE =
P
(yi − ŷi )2
n−m−1
SST =
P
(yi − ȳ)2
n−1
MS
MSR =
MSE =
SSR
m
SSE
n−m−1
6.1.2 Partieller F -Test
Partielle Nullhypothese:
Hk : βk+1 = . . . = βm = 0 mit k < m
In diesem Fall gilt, dass das Teilmodell
LM(k) : yi = α + β1 x1i + . . . + βk xki mit i = 1, . . . , n
nicht von den Regressoren xk+1,i , . . . , xm,i abhängt.
Das volle Modell
LM(m) : yi = α + β1 x1i + . . . + βm xmi
erklärt die Kriteriumsvariablen besser als das Teilmodell LM(k), falls die Reststreuung des
vollen Modells LM(m)
X
SSE(m) =
(yi − ŷi )2
deutlich kleiner ist, als die des Teilmodells LM(k)
X
SSE(k) =
(yi − ỹi )2 ,
ỹi := α̃ + β̃1 x1i + . . . + β̃k xki .
Hierbei sind die Parameter α̃, β̃1 , . . . , β̃k Lösungen der Normalgleichung bezüglich des Modells LM(k). Da für
(SSE(k) − SSE(m)) /(m − k)
Fk :=
SSE(m)/(n − m − 1)
unter H0 : Fk ∼ Fm−k,n−m−1 , kann H0 zum Niveau α abgelehnt werden, falls
Fk > Fm−k,n−m−1;1−α .
Tafel der Varianzanalyse für den partiellen Test auf das Modell LM(k) innerhalb LM(m),
k<m
Abweichungen von
der Regression
im Modell LM(k)
SSE
FG
SSE(k)
n−k−1
im Modell LM(m)
Differenz
SSE(m)
SSE(k) − SSE(m)
n−m−1
m−k
MS
MSE(m)
6.2 Test einzelner metrischer Regressoren
Für den Kleinsten-Quadrate-Schätzer β̂ im linearen Modell
Y = Xβ + e
Eei = 0
60
Var(ei ) = σ 2
gilt
β̂ = (X T X)−1 X T Y
β̂ ist erwartungstreu, d.h.Eβ̂ = β
Σ := Cov(β̂) := E (β̂ − β)T (β̂ − β) = σ 2 (X T X)−1
und, falls e ∼ N(0, σ 2 ) (Normalitätsannahme),
β̂ ∼ N(β, Σ)-verteilt.
Daraus könnte, falls σ 2 bekannt wäre, ein Test zur Überprüfung von
H0 : βi = 0
abgeleitet werden. Da β̂ unter H0 normalverteilt ist mit Kovarianzmatrix Σ, gilt unter H0
p
β̂i ∼ N(0, se(β̂i ))
wobei se(β̂i ) = Σii
H0 könnte also zum Niveau α abgelehnt werden, falls
β̂ i > z1− α2 .
se(β̂i ) Da σ 2 in der Praxis meist unbekannt ist, wird es erwartungstreu geschätzt durch
σ̂ 2 := MSE :=
SSE
,
n−m−1
σ̂ wird im R-Output residual standard error genannt (häufig auch standard error of regression).
Dann kann Cov(β̂) durch Σ̂ := σ̂ 2 (X T X)−1 geschätzt werden und es gilt unter H0
t :=
wobei se(
ˆ β̂i ) :=
β̂i
se(
ˆ β̂i )
∼ tn−m−1 -verteilt
q
σ̂ 2 (X T X)−1
ii den geschätzten Standardfehler von β̂i darstellt.
H0 kann also zum Niveau α abgelehnt werden, falls
|t| > tn−m−1,1−α/2
(Wald-Test)
Bemerkung: Dieser Test ist (im hier behandelten Fall der linearen Regression) äquivalent
zum partiellen F -Test, falls sich die dort betrachteten Modelle nur um einen zusätzlichen
Regressor unterscheiden.
Beispiel in R
>
>
>
>
library(DAAG)
data(litters)
model1 <- lm(brainwt ~ lsize, data = litters)
summary(model1)$coef
Estimate Std. Error t value
Pr(>|t|)
(Intercept)0.447000000 0.009624762 46.44270 3.3911e-20
lsize
-0.004033333 0.001198423 -3.36553 3.4445e-03
> model2 <- lm(brainwt
> summary(model2)$coef
Estimate
(Intercept)0.178246962
lsize
0.006690331
bodywt
0.024306344
~ lsize + bodywt, data = litters)
Std. Error t value Pr(>|t|)
0.075322590 2.366448 0.0300972
0.003132075 2.136070 0.0475132
0.006778653 3.585719 0.0022784
61
Zur Interpretation
• Im Modell brainwt~lsize wird ignoriert, dass lsize stark negativ mit bodywt korreliert ist, welches wiederum positiv mit brainwt korreliert ist.
• Das Modell brainwt~lsize+bodywt zeigt, dass bei konstant gehaltenem Körpergewicht, dass die Wurfgröße (allein) einen positiven Einfluss auf die Gehirngröße hat
(brain sparing).
6.2.1 Einschub: Partielle Korrelation
Hängen zwei Größen X und Y noch jeweils von der dritten Größe Z ab, so könnte die
Interpretation des Korrelationskoeffizienten
Cor(X, Y )
irreführend sein, solange der Einfluss von Z auf X und Y nicht korrigert wird.
Vorhersage von X und Y aus Z mittels linearer Regression
Ŷi = a0 + b0 zi
X̂i = a + bzi
aus den Stichproben (zi , xi ), i = 1, . . . , n und (zi , yi ), i = 1, . . . , n.
Der empirische partielle Korrelationskoeffizient von X und Y gegeben Z ist definiert
durch
rX,Y |Z := rX−X̂,Y −Ŷ
rX,Y − rX,Z · rY,Z
=q
2 ) · (1 − r 2 )
(1 − rX,Z
Y,Z
Besitzen die drei Variablen X, Y, Z eine gemeinsame 3-dimensionale Normalverteilung, so
wird die Hypothese
H0 : ρX,Y |Z = 0
zum Niveau α verworfen, falls
für die Teststatistik t =
√
rX,Y = 0, 7
rX,Y |Z = 0
|t| > tn−3,1− α2
r
n − 3 √1−r
mit r = rX,Y |Z .
2
rX,Y = 0.7
rX,Y |Z = 0.9
rX,Y = 0
rX,Y |Z = −0, 7
Beispiel in R:
Diskutiere die Daten litters aus dem Paket DAAG unter Verwendung des partiellen Korrelationskoeffizienten.
62
6.3 Variablenselektion
Bestimmtheitsmaß R2
R2 =
SSR
erklärte Variation
=
∈ [0, 1]
SST
Gesamtvariation
R2 = 1 ⇔ Alle Punkte (xi , yi ) ∈ Rm × R liegen
auf einer Hyperebene des Rm+1
Also: Je näher R2 bei 1 umso besser ist die Vorhersage eines Zielwertes Y durch Ŷ = α +
β1 x1 +. . .+βm xm — zumindest für Paare (x, y) aus der Stichprobe {(x1 , y1 ), . . . , (xn , yn )}.
Für neue Paare (x, y) braucht dies nicht zu gelten (Problem des Overfittings bei m groß).
(Empirischer) multipler Korrelationskoeffizient
Cor(Y, Ŷ ) = Cor(Y, X β̂) = . . . = R
R2 wird deshalb auch quadrierter multipler Korrelationskoeffizient genannt.
Problem: R2 % für wachsende Anzahl von Parametern. Alternative: Adjustiere R2
2
Radj
:= 1 −
wobei σ̂ 2 = MSE und s2y =
n−1
σ̂ 2
R2 = 1 − 2
n−m−1
sy
SST
n−1 .
• Forward
• Backward
• Forward-Backward
z.B. mittels partiellem F -Test oder AIC liefert nicht notwendigerweise “bestes” Modell.
Best Subset Selection
2 -Kriterium oder Akaikes Informationskriterium AIC. Ist rechentechZ.B. mit R2 oder Radj
nisch unter Umständen sehr aufwendig. R: Z.B. mit leaps()aus der leaps-Bibliothek. R:
Z.B. mit step oder stepAIC aus der MASS-Bibliothek.
6.4 Regressionsdiagnostik
Sind die Residuen normalverteilt?
>
>
>
>
mymodel <- lm(Volume ~ Girth + Height, data = trees)
qqnorm(residuals(mymodel))
qqline(residuals(mymodel))
shapiro.test(residuals(mymodel))
Shapiro-Wilk normality test
data: residuals(mymodel)
W = 0.9743, p-value = 0.644
63
Abbildung 20: QQ-Plot
Ist die Varianz des Fehlerterms konstant im gesamten Bereich der erklärenden Variablen
(Homoskedastizität)?
plot(fitted(mymodel),residuals(mymodel))
Abbildung 21: Residualplot
Bei heteroskedastischen Fehlern sollte
64
• ein adäquates Modell oder
• eine Transformation der Responsevariablen und/oder der erklärenden Variablen
in Erwägung gezogen werden.
Beispiele für Transformationen
• Logarithmus
• quadratische oder kubische Wurzel
Allgemeiner: Box-Cox-Transformation
(
Y (λ) =
Y λ −1
λ
log(Y )
für λ 6= 0
für λ = 0
Beispiel: Klassische Allometrieformel
Y = aX b
wobei X z.B. die Körpermaße eines Tieres und Y das Gewicht eines Organs. Die damit
zusammenhängende Differentialgleichung kann in der Form
dX
dY
=b
Y
X
geschrieben werden.
a ist die sog. Integrationskonstante und beschreibt den Schnittpunkt mit der y-Achse
b ist die relative Wachstumsgeschwindigkeit
Zur Bestimmung von a und b aus Daten (x1 , y1 ), . . . , (xn , yn ) aus Daten wird die Allometrieformel logarithmiert
log Y = log a + b log X
Die Bestimmung von log a und b kann jetzt mit Methoden der Regressionsanalyse erfolgen.
6.5 Vorhersage
Vorhersage der Zielgröße bei neuen Daten (erklärende Variable) mittels Regressionsgleichung
Ŷ = α̂ + β̂1 x1 + . . . + β̂m xm
In R:
predict(fitted.model, newdata = mydataframe)
Hierbei muss mydataframe exakt dasselbe Format haben wie der Datensatz, welcher zur
Modellanpassung verwendet wurde.
6.6 Allgemeines lineares Modell
Y = Xβ + e
beinhaltet als Spezialfälle unter anderem
• Einfache und mehrfache Varianzanalyse
• Einfache und mehrfache Regressionsanalyse
• Polynomiale Regression
• Trigonometrische Regression
• Lineare Modelle mit Interaktion
65
6.7 Nichtlineare und nichtparametrische Regression
Metrische Zielvariable Y , metrischer Regressor x.
(Multiple) Lineare Regression
Y = xT β + e
mit unbekanntem Parametervektor β ∈ Rp .
Nichtlineare (parametrische) Regression
Y = f (x, β) + e
mit bekannter Funktion f , aber unbekanntem Parametervektor β ∈ Rp .
Nichtparametrische Regression
Y = f (x) + e
mit unbekannter Funktion f .
6.7.1 Nichtlineare Regression
Modell:
Yi = f (xi , β) + ei mit i = 1, . . . , n
wobei
Yi metrisch
xi = (xi1 , . . . , xim ) ∈ Rm
β = (β1 , . . . , βp ) ∈ Rp
f : Rm × Rp → R
e1 , . . . , en unabhängig, Eei = 0 und Var(ei ) = σ 2
Beispiele für f
1. f (xi , β) = exp(xTi β) exponentielles Wachstum in η(xi , β) = xTi β
2. f (xi , β) =
exp(xT
i β)
1+exp(xT
i β)
logistisches Wachtum in η(xi , β) = xTi β
3. f (xi , β) = α + xTi β m-faches lineares Regressionsmodell
4. f (xi , β) = β1 eβ2 xi wobei p = 2
5. f (xi , β) = β1 + xβi 2 wobei p = 2
Schätzen des unbekannten Parametervektors β mittels Methode der kleinsten Quadrate:
β̂ := argminβ
n
X
(Yi − f (xi , β))2
i=1
Setze


Y1
 
Y :=  ...  ,
Yn
 
e1
 .. 
e :=  .  ,
en


f (x1 , β)


..
f (x, β) := 

.
f (xn , β)
66
Funktionalmatrix von f (x, β):
..
.
...
..
.
∂f (x1 ,β)
∂βp
∂f (xn ,β)
∂β1
...
∂f (xn ,β)
∂βp
 ∂f (x
1 ,β)
∂β1

M (β) := 

..
.




Wir setzen voraus: M (β) besitzt vollen Rang (p < n). Aufgabe: Zeige, dass β̂ Lösung der
nichtlinearen Normalengleichungen
M (β)T (Y − f (x, β)) = 0
Diese Gleichungen werden mittels Newton-Verfahren (näherungsweise) gelöst.
Ŷi := f (xi , β̂) Prädiktionswerte
êi := Yi − Ŷi Residuen
n 2
X
SSE :=
(empirische) Residuenquadrat-Summe
Yi − Ŷi
i=1
Schätzer für σ 2 = Var(ei )
n
2
SSE
1 X
σ̂ =
=
Yi − Ŷi
n−p
n−p
2
i=1
Unter geeigneten Voraussetzungen gilt
√
D
n(β̂ n − β) → Np 0, σ 2 V −1 (β) für n → ∞
wobei σ 2 durch σ̂ 2 und V −1 (β) durch n(M̂ T M̂ )−1 approximiert werden können.
Daraus kann (wie im linearen Modell) eine Wald-Statistik hergeleitet werden, welche z.B.
den Test der Hypothesen
H0i : βi = 0 oder
H0 : Cβ = 0 wobei C die Kontrastmatrix
ermöglicht.
Ferner ermöglicht die asymptotische Verteilung die Konstruktion von asymptotischen Konfidenzintervallen.
6.7.2 Nichtlineare Regression in R
Die Daten wtloss in der Bibliothek MASS beschreiben den Gewichtsverlust eines männlichen Patienten, (193cm, 184kg), im Rahmen einer Therapie.
library(MASS)
attach(wtloss)
plot(Weight ~ Days)
Modell
Yi = β1 + β2 · 2−ti /β3 + ei mit i = 1, . . . , n
Interpretation der Parameter
β1 (asymptotisches) Gewicht bei Therapieende
67
β2 gesamter Gewichtsverlust
β3 Zeitspanne bis zum Verlust der Hälfte des Übergewichtes (Halbwertszeit)
Abbildung 22: Gewicht in Abhängigkeit von Tagen
> mymodel <- nls(Weight ~ b1 + b2*2^(-Days/b3),
+
start = c(b1=90, b2=93, b3=120))
> mymodel
Nonlinear regression model
model: Weight ~ b1 + b2 * 2^(-Days/b3)
data: parent.frame()
b1
b2
b3
81.37 102.68 141.91
residual sum-of-squares: 39.24
Number of iterations to convergence: 3
Achieved convergence tolerance: 2.969e-06
> summary(mymodel)
Formula: Weight ~ b1 + b2 * 2^(-Days/b3)
Parameters:
Estimate Std. Error t value Pr(>|t|)
b1
81.374
2.269
35.86
<2e-16
b2 102.684
2.083
49.30
<2e-16
b3 141.910
5.295
26.80
<2e-16
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01
’.’ 0.1 ’ ’ 1
***
***
***
’*’ 0.05
Residual standard error: 0.8949 on 49 degrees of freedom
68
Number of iterations to convergence: 3
Achieved convergence tolerance: 2.969e-06
> confint(mymodel)
Waiting for profiling to be done...
2.5%
97.5%
b1 76.48216 85.63207
b2 98.78366 107.18786
b3 131.98995 153.34165
6.7.3 Nichtparametrische Regression
Modell:
Yi = f (xi ) + ei mit i = 1, . . . , n
mit unbekannter Funktion f : R → R.
Es gibt eine Vielzahl von Methoden um f zu schätzen. Kernschätzer von Nadaraya-Watson
für die unbekannte Regressionsfunktion f :
Pn
x−xi
i=1 Yi K
h ˆ
fn (x) := Pn
, x∈R
x−xi
i=1 K
h
R∞
mit einem Kern K : R → R mit −∞ K(x)dx = 1.
Beispiele für eine Kernfunktion
(
1
für |x| ≤ 1
Rechteck-Fenster
K(x) = 2
0 sonst
(
1 − |x| für |x| ≤ 1
K(x) =
Dreiecks-Fenster
0 sonst
(
3
(1 − x2 ) für |x| ≤ 1
K(x) = 4
Epanechnikov-Fenster
0 sonst
x2
1
K(x) = √ e− 2 für x ∈ R Gauß-Fenster
2π
Problem: Bestimmung der Fensterbreite h > 0.
Methoden:
• Visuell: Kompromiss zwischen Over- und Unterfitting
• Leave-One-Out-Cross-Validation: Wähle h so, dass
n 2
X
−j Yj − Ŷj minimal
j=1
wobei Ŷj−j eine Vorhersage von Yj an der Stelle xj ohne das Datum (xj , Yj ) zu
verwenden:
P
xj −xi
Y
K
i6=j i
h
Ŷj−j := fn(−j) (xj ) := P
xj −xi
K
i6=j
h
69
Kern-Schätzer von Nadaraya-Watson mit R:
attach(cars)
plot(dist ~ speed)
K <- function(x){
1/(sqrt(2*pi))*exp(-x^2)
}
NW <- function(x,h,xi,yi){
t(yi) %*% K((x-xi)/h)/sum(K((x-xi)/h))
}
i <- 0
for(h in c(0.2, 1, 2, 5, 10)){
i <- i+1
x.seq <- seq(from=min(speed), to=max(speed),
by=0.1)
y.seq <- apply(as.matrix(x.seq), 1, FUN=NW,
xi=speed, yi=dist, h=h)
lines(x.seq, y.seq, type="l", col=i)
}
Abbildung 23: Nadaraya-Watson Kern-Schätzer
70
7 Verallgemeinertes Lineares Modell
Verallgemeinerte lineare Modelle (Generalized Linear Models) verallgemeinern lineare Modelle auf Zielvariable Y , deren Verteilung nicht normal und deren Erwartungswert nicht
linear in den Regressoren ist.
Bei verallgemeinerten linearen Modellen wird u.a. angenommen, dass
• Die Regressoren x1 , . . . , xp beeinflussen die Verteilung von Y nur über den linearen
Prädiktor η = β1 x1 + . . . + βp xp
• Es gibt eine Response-Funktion F : R → R mit
E(Y ) = F (β1 x1 + . . . + βp xp )
Die Umkehrfunktion F −1 heißt Link-Funktion.
• Die Verteilung von Y gehört zur sog. Exponentialfamilie (zu der u.a. die Normal-,
Binomial-, Gamma- und Poisson-Verteilung gehören.
7.1 Logistische Regression
Analyse und Modellierung des Zusammenhangs zwischen einer kategorialen Zielgröße und
metrischen (oder auch kategorialen) Regressoren.
Beispiel: Wie hängt die Reaktion eines Patienten (Y = 1 Patient bewegt sich, Y = 0
Patient bewegt sich nicht) bei einer OP von der Dosierung x des Anästhetikums ab?
Ist das Modell
Y = a + bx + e mit Ee = 0
sinnvoll?
Falls ja, würde daraus folgen, dass
+ bx
E(Y ) = a
| {z } | {z }
∈R
∈[0,1]
Deshalb neuer Ansatz
E(Y ) = F (a + bx) mit Y ∼ Bin(1, F (a + bx))
mit einer geeigneten Response-Funktion, z.B.
F (t) =
1
et
=
mit t ∈ R
1 + e−t
1 + et
Damit wäre sichergestellt, dass F (a + bx) ∈ [0, 1].
Annahme: Unabhängige 0-1-wertige Beobachtungen Y1 , . . . , Yn die jeweils von Regressoren
x11 , . . . , xm1 ; . . . ; x1n , . . . , xmn abhängen.
Modell der binären logistischen Regression
πi := P(Yi = 1) = E(Yi ) =
1
1 + e−ηi (β)
wobei
ηi (β) = β0 + β1 x1i + . . . + βm xmi mit i = 1, . . . , n
71
der sogenannte lineare Prädiktor.
Damit gilt
ln
πi
1 − πi
= ηi (β)
Schätzung des unbekannten Parametervektors β mittels ML-Methode.
β̂ : = argmaxβ
n
Y
|i=1
ln (β) := ln Ln (β) =
n
X
πiYi (1 − πi )1−Yi
{z
=:Ln (β)
}
(Yi ln πi + (1 − Yi ) ln(1 − πi ))
i=1
=
=
n
X
(Yi (ηi − ln(1 − πi )) + ln(1 − πi ) − Yi ln(1 − πi ))
i=1
n X
Yi ηi (β) + ln(1 + eηi (β) )
i=1
Löse ∇β ln (β) = 0 mittels Newton-Verfahren nach β auf und erhalte damit β̂.
7.1.1 Hypothesentests
Zum Überprüfen der Hypothese
H0 : βm−r+1 = . . . = βm = 0


berechnet man den ML-Schätzer β̃ = β̃1 , . . . , β̃m−r , 0, . . . , 0 im Untermodell mit m − r
| {z }
r-mal
Parametern. β̂ sei der ML-Schätzer im vollen Modell. Dann gilt unter H0 , dass die logLikelihood-Statistik
Tn = 2 ln (β̂) − ln (β̃)
asymptotisch χ2r -verteilt ist. Ferner kann man zeigen, dass unter H0 : βj = 0 die WaldStatistik
β̂n,j
se(β̂n,j )
asymptotisch N(0, 1)-verteilt ist.
7.1.2 Logistische Regression mit R
>
>
>
+
>
library(DAAG)
data(anesthetic)
mymodel <- glm(nomove ~ conc, family=binomial("logit"),
data=anesthetic)
summary(mymodel)
Call:
glm(formula = nomove ~ conc,
family = binomial("logit"), data = anesthetic)
72
Deviance Residuals:
Min
1Q
-1.76666 -0.74407
Median
0.03413
3Q
0.68666
Max
2.06900
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-6.469
2.418 -2.675 0.00748 **
conc
5.567
2.044
2.724 0.00645 **
--Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05
"." 0.1 " " 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.455
Residual deviance: 27.754
AIC: 31.754
on 29
on 28
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 5
Sind Ŷi die durch ein an die Daten angepassten Werte in einem Logit-Modell, dann heißen
êi := Yi − Ŷi
Residuen der Zielgröße (response residuals) und
r ˆ
di := sign(êi ) −2 Yi ln(Ŷi ) + (1 − Yi ) ln(1 − Ŷi )
heißen Devianz-Residuen.
Die Definition der dˆi wurde so gewählt, dass für die sogenannte (Residuen-)Devianz D gilt,
dass
D := 2 (log L(saturiertes Modell) − log L(aktuelles Modell))
n
X
=
dˆ2i
i=1
Hierbei bezeichnet L die Likelihood-Funktion des betrachteten Modells.
Im saturierten Modell ist die Zahl der Parameter identisch zur Anzahl der Beobachtungen.
Werden weitere Parameter in ein Modell aufgenommen, reduziert sich die Devianz.
Werden zwei geschachtelte Modelle mit p1 < p2 Parametern betrachtet, so gilt für die
Differenz ihrer Devianzen
D(p1 ) − D(p2 ) asymptotisch χ2p2 −p1 -verteilt
Die Devianz eignet sich deshalb zur Modellwahl.
Zusätzlich zur Devianz wird bei linearen und verallgemeinerten linearen Modellen der AICWert (Akaike Information Criterion) zur Modellwahl verwendet. Hierbei ist bei einem
Modell mit k Parametern
AIC(k) := −2LogLikelihood(betrachtetes Modell mit k Par.) + 2k
Angestrebt wird ein Modell mit einem möglichst kleinen AIC-Wert.
73
Da ein Modell mit mehr Parametern eine größere LogLikelihood besitzt, wird dieser Tatsache durch den Strafterm 2k Rechnung getragen.
Die Hinzunahme eines weiteren Parameter macht also keinen Sinn, wenn die LogLikelihood
nicht um mindestens den Wert 2 steigt.
Ansonsten würde eine Hinzunahme des Parameters den AIC-Wert nicht reduzieren.
Zur Interpretation der Parameter in einem logistischen Modell:
Logistisches Modell mit einer einer dichothomen Zielgröße Y mit Werten 0 und 1 und
einem dichothomen Regressor x ebenfalls mit Werten 0 und 1:
p := P (Y = 1) =
exp(α + βx)
1 + exp(α + βx)
Dann gilt:
Y =1
Y =0
x=1
P (Y = 1|x = 1) =
P (Y = 0|x = 1) =
exp(α+β)
1+exp(α+β)
1
1+exp(α+β)
x=0
P (Y = 1|x = 0) =
P (Y = 0|x = 0) =
exp(α)
1+exp(α)
1
1+exp(α)
Daraus folgt für das sogenannte Odds Ratio (Chancenverhältnis) von Y = 1 zu Y = 0:
OR :=
exp(α + β)
P (Y = 1|x = 1)/(1 − P (Y = 1|x = 1))
=
= exp(β)
P (Y = 1|x = 0)/(1 − P (Y = 1|x = 0))
exp(α)
also,
β = log(OR)
library(MASS)
data(bacteria)
help(bacteria)
attach(bacteria)
ap <- relevel(ap,"p")
logreg1 <- glm(y~ap,data=bacteria,family=binomial)
summary(logreg1)
logreg2 <- glm(y~ap+hilo,data=bacteria,family=binomial)
summary(logreg2)
anova(logreg1,logreg2,test="Chisq")
pchisq(0.95,df=1)
extractAIC(logreg1)
extractAIC(logreg2)
7.2 Poisson-Regression
Zur Modellierung von Zähldaten eignet sich in besonderer Weise die Poisson-Verteilung.
−µ
Sei Yi ∼ Pois(µi ) mit i = 1, . . . , n, d.h. P(Yi = k) = µki e k! i mit k ∈ N0 .
Dann gilt
E(Yi ) = µi und Var(Yi ) = µi
74
Die Abhängigkeit des Parameters µi von dem Regressionsvektor xi ∈ Rp kann z.B. durch
log(µi ) = XiT β
log-lineares Poisson-Modell
oder
µi = XiT β
lineares Poisson-Modell
modelliert werden.
7.2.1 Poisson-Regression mit R
Log-lineare Poisson-Regression:
glm(y ~ x, family=poisson(log))
Lineare Poisson-Regression:
glm(y ~ x, family=poisson(identity))
Problem: E(Yi ) < Var(Yi ) (Überdispersion)
Abhilfe: Var(Yi ) = ΦE(Yi ) mit Φ > 1.
> cellular <- read.csv("cellular.csv", header=TRUE)
> model1 <- glm(number.of.cells~TNF+INF,
+
family=poisson(log),data=cellular)
> summary(model1)
Call:
glm(formula = number.of.cells ~ TNF + INF, family = poisson(log),
data = cellular)
Deviance Residuals:
Min
1Q
Median
-4.8374 -3.1107 -0.7031
3Q
2.5661
Max
5.8151
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.5731167 0.0516829 69.135
<2e-16 ***
TNF
0.0131423 0.0005991 21.938
<2e-16 ***
INF
0.0058544 0.0006445
9.083
<2e-16 ***
--Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05
"." 0.1 " " 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 707.03
Residual deviance: 160.16
AIC: 259.46
on 15
on 13
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> model2 <- glm(number.of.cells~TNF+INF,
+
family=poisson(identity),data=cellular)
> summary(model2)
75
Call:
glm(formula = number.of.cells ~ TNF + INF, family = poisson(identity),
data = cellular)
Deviance Residuals:
Min
1Q
Median
-4.5442 -2.0895 -0.7052
3Q
1.8986
Max
4.0668
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 25.12879
2.07617 12.103
<2e-16 ***
TNF
1.26883
0.06804 18.649
<2e-16 ***
INF
0.49512
0.05395
9.177
<2e-16 ***
--Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05
"." 0.1 " " 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 707.03
Residual deviance: 117.59
AIC: 216.89
on 15
on 13
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 6
76
8 Bayesianische Statistik
Im Gegensatz zur klassischen oder frequentistischen Statistik geht man in der BayesStatistik davon aus, dass der Parameter θ selber Realisierung einer Zufallsvariablen Θ
mit einer vorgegebenen a-priori-Verteilung ist.
Unter Verwendung einer Bayes-Formel wird dann, basierend auf einer Stichprobe, die aposteriori-Verteilung von Θ bestimmt. Als Schätzwert für θ wählt man dann häufig den
Erwartungswert, Median oder Modus der a-posteriori-Verteilung von Θ.
8.1 Grundlagen der Bayesianischen Statistik
Wir betrachten zunächst den Fall, dass nur eine Beobachtung x der diskreten oder stetigen
Zufallsvariablen X vorliegt.
Benötigte Bezeichnungen:
• f (x, θ) gemeinsame Dichte von X und Θ
• f (θ) a-priori-Dichte von Θ (Randdichte von Θ)
• f (x) Randverteilung von X
• f (θ|x) a-posteriori-Dichte von Θ (bedingte Dichte von Θ, gegeben die Beobachtung
X = x)
• f (x|θ) die bedingte Dichte von X, gegeben Θ = θ
Dann gilt folgende Form des Satzes von Bayes
f (θ|x) =
=
f (x, θ)
f (x|θ)f (θ)
=
f (x)
f (x)
 f (x|θ)f (θ)
P
falls Θ diskret

 i f (x|θi )f (θi )


R f (x|θ)f (θ)
f (x|θ)f (θ)dθ
falls Θ stetig
Liegt statt einer Beobachtung x eine Stichprobe (x1 , . . . , xn ) vor, ersetzen wir f (x|θ) durch
die bedingte gemeinsame Dichte f (x1 , . . . , xn |θ). Sind die Variablen X1 , . . . , Xn unabhängig
und identisch verteilt, so gilt
f (x1 , . . . , xn |θ) = f (x1 |θ) · . . . · f (xn |θ) = L(θ)
Die a-posteriori-Dichte von θ zur Stichprobe (x1 , . . . , xn ) ist dann gegeben durch
f (θ|x1 , . . . , xn ) = R
L(θ)f (θ)
L(θ)f (θ)dθ
vorausgesetzt, Θ ist eine stetige Zufallsvariable.
(Ist Θ diskret, muss das Integral im Nenner sinngemäß durch eine Summe ersetzt werden.)
Daraus können dann verschiedene Bayes-Schätzer abgeleitet werden:
• A-posteriori-Erwartungswert:
Z
θ̂p = E(θ|x1 , . . . , xn ) =
(falls θ stetig)
77
θf (θ|x1 , . . . , xn )dθ
• A-posteriori-Modus oder Maximum-a-posteriori-Schätzer: Wähle denjenigen Parameterwert θ̂M AP , für den die a-posteriori-Dichte maximal wird, d.h.
L(θ̂M AP )f (θ̂M AP ) = max L(θ)f (θ)
θ
oder äquivalent
ln L(θ̂M AP ) + ln f (θ̂M AP ) = max {ln L(θ) + ln f (θ)}
θ
Bemerkungen
• Das Integral im Nenner der a-posteriori-Dichte ist nur in speziellen Fällen explizit
zu berechnen und muss deshalb häufig approximiert werden, z.B. mit Monte-CarloMethoden. Für die Berechnung des Maximum-a-posteriori-Schätzers genügt die Maximierung des Zählers.
• Je flacher die a-priori-Dichte von Θ, d.h. je geringer die (angenommene) Kenntnis
über die Lage des wahren Parameters θ, umso mehr stimmt der MAP-Schätzer mit
dem Maximum-Likelihood-Schätzer überein.
8.2 Diagnostische Tests
Bezeichnung
K+
K−
D+
D−
Ereignis
Krankheit K liegt bei einem Individuum vor
Krankheit K liegt bei diesem Individuum nicht vor
diagnostischer Test auf Krankheit K fällt positiv aus
diagnostischer Test auf Krankheit K fällt negativ aus
Die folgenden Wahrscheinlichkeiten seien bekannt:
• a-priori-Wahrscheinlichkeit P (K+) für die Krankheit (sog. Prävalenz)
• bedingten Wahrscheinlichkeiten P (D + |K+) und P (D + |K−) für eine positive
Diagnose, falls die Krankheit vorliegt bzw. nicht vorliegt
Sensitivität des diagnostischen Tests: P (D + |K+) Spezifität des Tests: P (D − |K−) =
1 − P (D + |K−)
Wie groß sind die (a-posteriori-)Wahrscheinlichkeiten P (K + |D+) und P (K + |D−) für
ein Vorliegen der Krankheit, vorausgesetzt, die Diagnose war positiv bzw. negativ?
positiver prädiktiver Wert:
P (K + |D+) =
P (D + |K+)P (K+)
P (D + |K+)P (K+) + P (D + |K−)P (K−)
negativer prädiktiver Wert:
P (K + |D−) =
P (D − |K+)P (K+)
P (D − |K+)P (K+) + P (D − |K−)P (K−)
Sensititivät und Spezifität können mittels relativer Häufigkeiten aus retrospektiven Studien geschätzt werden. Die Prävalenz muss aus einer u.U. großen Stichprobe von zufällig
ausgewählten Personen (aus einer bestimmten Gruppe) geschätzt werden.
Zahlenbeispiel für HIV unter Erwachsenen:
78
Sensitivität des HIV-Tests
Spezifität des HIV-Tests
Prävalenz
positiver prädiktiver Wert
negativer prädiktiver Wert
W-Europa
0,995
0,995
0,002
0,28
0,9999
Afrika südl. der Sahara
0,995
0,995
0,05
0,91
0,9997
Mit R:
ppv <- function(sens=0.995,spez=0.995,prae){
sens*prae/(sens*prae + (1-spez)*(1-prae))
}
npv <- function(sens=0.995,spez=0.995,prae){
spez*(1-prae)/(spez*(1-prae) + (1-sens)*prae)
}
In diesem Beispiel kann die Diagnose D als eine Bernoulli-verteilte Zufallsvariable mit
bedingter Wahrscheinlichkeit
(
sens,
falls k = K+,
P (D = D + |K = k) =
1 − spez, falls k = K−
und K als (zufallsabhängiger) Parameter mit a-priori-Verteilung
(
praev,
falls k = K+,
P (K = k) =
1 − praev, falls k = K−
angesehen werden.
Mittels Bayes-Formel wird die a-priori-Verteilung über die Prävalenz der Krankheit K zur
a-posteriori Verteilung von K|D verbessert, abhängig davon, ob eine positive oder negative
Diagnose D = D+ bzw. D = D− vorliegt.
8.3 Normalverteilte Zufallsgröße mit stetiger a-priori-Verteilung
X1 , . . . , Xn unabhängige Wiederholungen von X ∼ N (µ, σ 2 ), wobei µ gesucht und σ 2
bekannt sei.
A-priori-Verteilung von µ: N (µ0 , σ02 ) mit bekanntem µ0 und σ02
Likelihoodfunktion zu x1 , . . . , xn |µ:
1
(x1 − µ)2
1
(xn − µ)2
L(µ) = √
exp −
· ... · √
exp −
2σ 2
2σ 2
2πσ
2πσ
A-posteriori-Dichte von µ|x1 , . . . , xn
f (µ|x1 , . . . , xn ) = R
L(µ)f (µ)
L(µ)f (µ)dµ
= · · · = Dichte der N (µ̃, σ̃ 2 )-Verteilung
mit a-posteriori-Erwartungswert
µ̃ =
σ2
nσ02
x̄
+
µ0
2
2
nσ0 + σ 2
nσ0 + σ 2
79
und a-posteriori-Varianz
σ̃ 2 =
σ2
n+
σ2
σ02
Extremfälle:
Für σ02 → 0 (exaktes Vorwissen) folgt µ̃ → µ0 und σ̃ 2 → 0
Für σ02 → ∞ (kein Vorwissen) folgt µ̃ → x̄ und σ̃ 2 →
σ2
n
Je größer n desto geringer wird der Unterschied zwischen µ̃ und x̄
Je kleiner n desto geringer ist der Einfluss der Stichprobe auf die a-posteriori-Verteilung
8.4 Bayesianisches Testen einer Hypothese
Mit dem “impliziten” Stichprobenumfang der a-priori-Verteilung n0 = σ 2 /σ02 erhalten wir
im letzten Beispiel für die a-priori- und a-posteriori-Verteilung des Erwartungswertes µ:
µ ∼ N (µ0 , σ 2 /no )
n0 µ + nx̄
σ2
µ|X = x ∼ N
,
n0 + n n0 + n
Sei µ1 ein hypothetischer Wert für den Erwartungswert von X1
Überprüfung der Hypothesen H0 : µ ≤ µ1 gegen H1 : µ > µ1
A-priori-Wahrscheinlichkeit von H0 :
Z
µ1 − µ 0
P (H0 ) =
f (µ) dµ = Φ
√
σ/ n0
µ≤µ1
A-posteriori-Wahrscheinlichkeit von H0 :
Z
P (H0 |X = x) =
f (µ|X = x) dµ = Φ
µ≤µ1
→Φ
µ1 − x̄
√
σ/ n
+nx̄
µ1 − n0nµ00+n
√
σ/ n0 + n
!
(n0 → 0)
Für n0 → 0 konvergiert die a-priori-Verteilung von µ gegen eine “uninformative” a-prioriVerteilung.
Werden die Nullhypothese im Sinne der frequentistischen Statistik mittels einseitigem
Gauß-Test überprüft, folgt für den dazugehörigen p-Wert
X̄ − µ1
x̄ − µ1
√ ≥
√
P (X̄ ≥ x̄|H0 ) = P
σ/ n
σ/ n
x̄ − µ1
µ1 − x̄
√
√
=1−Φ
=Φ
σ/ n
σ/ n
Mit abnehmender Information über die a-priori-Verteilung des Erwartungswertes konvergiert die a-posteriori-Wahrscheinlichkeit von H0 gegen den p-Wert des entsprechenden
frequentistischen Tests.
80
8.5 Bernoulli-verteilte Zufallsgröße mit stetiger a-priori-Verteilung
Häufig ist es sinnvoll davon auszugehen, dass der Parameter p einer Bernoulli-verteilten
Zufallsvariablen Realisierung einer auf dem Intervall [0, 1] stetigen Zufallsgröße ist. Als apriori-Verteilung eignet sich hierzu insbesondere eine Beta-Verteilung mit den Parametern
a, b > 0 und der Dichte
( a−1
p
(1−p)b−1
,
falls p ∈ (0, 1),
Beta(a,b)
f (p; a, b) =
0,
sonst
Der Faktor Beta(a, b) dient nur zur Normierung und hat die Form Beta(a, b) = Γ(a)Γ(b)/Γ(a+
b).
R∞
Zur Erinnerung: Für x > 0 gilt Γ(x) = 0 tx−1 e−t dt, Γ(x + 1) = xΓ(x), Γ(1) = 1
Ist X eine Bin(n, p)-verteilte Zufallsgröße, so kann mittels Bayes-Formel gezeigt werden,
dass die a-posteriori-Verteilung von p|X = x wieder eine Beta-Verteilung mit neuen Parametern a + x und b + n − x besitzt:
p|X = x ∼ Beta(a + x, b + n − x)
Aus dieser a-posteriori-Verteilung können viele interessante Statistiken abgeleitet werden:
• Bayesianische Punktschätzer für den Erwartungswert, Median, Modus, . . .
• Bayesianische Intervallschätzer
• Bayesianische Tests
81
9 Versuchsplanung
Die folgende Darstellung orientiert sich an Köhler et alt., Biostatistik, 2007, und Rudolf et
alt., Biostatistik, 2008.
9.1 Wahl geeigneter Merkmale
Objektivität, Reliabilität, Validität
Liegt dem Fachwissenschaftler eine Fragestellung vor, so muss er sich entscheiden, welche
Merkmale er zur Beantwortung seiner Frage sinnvollerweise untersucht. Dazu sollte er
zunächst die folgenden drei Kriterien bei der Auswahl seiner Merkmale beachten:
Die Ausprägung des zu ermittelnden Merkmals ist unabhängig von der Person des Auswerters eindeutig festzustellen.
Beispiel: die Bewertung von Deutsch-Aufsätzen ist oft stark vom beurteilenden Lehrer
abhängig und somit wenig objektiv.
Das Merkmal gestattet reproduzierbare Mess- (bzw. Beobachtungs-) Ergebnisse, bei Wiederholung liegen also gleiche Resultate vor. Statt Reliabilität wird auch von “Zuverlässigkeit” gesprochen.
Beispiel: Beim Test einer neuen Methode zur Messung der Enzymaktivität wurde das
untersuchte Homogenat in mehrere gleiche Proben aufgeteilt und jeweils gemessen. Die
erhaltenen Ergebnisse unterschieden sich teilweise um eine Größenordnung (Faktor 10).
Die Methode musste als unzuverlässig verworfen werden.
Das Merkmal in seinen Ausprägungen spiegelt die für die Fragestellung wesentlichen Eigenschaften wider. Statt Valitität wird auch von “Gültigkeit” oder “Aussagekraft” gesprochen.
Beispiel: Bei der Zulassung zum Medizin-Studium spielt die Durchschnittsnote im Abitur eine wichtige Rolle. Hat dieses Merkmal tatsächlich eine zentrale Bedeutung für die
Beurteilung, ob die Fähigkeit zum Arztberuf vorliegt?
• Ableitung einer durch einen Versuch zu bearbeitenden Fragestellung.
• Überführung dieser Fragestellung in ein biowissenschaftliches Modell mit entsprechenden Forschungshypothesen.
• Erarbeitung einer Untersuchungsmethode zur Überprüfung der Hypothese.
9.2 Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung
• Formalisierung des biowissenschaftlichen Modells durch ein entpsrechendes mathematischstatistisches Modell mit den entsprechenden statistischen Hypothesen.
• Festlegung der Stichprobengewinnung.
• Detaillierte Festlegung des Versuchsplanes (zum Beispiel Anzahl der Faktorstufen,
Anzahl der Wiederholungen, Umgang mit Störvariablen, Verteilung der Untersuchungseinheiten auf die unterschiedlichen Versuchsbedingungen).
• Festlegung der Verfahren zur Datenanalyse einschließlich der Untersuchung der notwendigen Voraussetzungen.
• Bestimmung des optimalen Stichprobenumfangs.
82
Eine abgestimmte fachwissenschaftliche und biostatistische Versuchsplanung schafft die
Voraussetzungen für
• die Genauigkeit der Versuchsergebnisse und ihre Kontrolle bei der Auswertung
• die Kontrolle oder die Elimination vor Störgrößen
• die sachgerechte Beschreibung der Versuchsergebnisse durch grafische Darstellungen
und statistische Maßzahlen
• die Quantifizierung und kritischen Wertung charakteristischer Beziehungen (Zusammenhänge, Unterschiede) und
• die ökonomische Durchführung des Versuchs.
9.3 Grundlegende Aspekte der Versuchsplanung
9.3.1 Varianzquellen in biowissenschaftlichen Untersuchungen
Definition: Als Primärvarianz wird der Varianzanteil der Zielvariablen bezeichnet, der
auschließlich auf die Variation der experimentellen Bedingungen zurückgeführt werden
kann.
Die biostatistische Versuchsplanung soll die Voraussetzungen dafür schaffen, dass dieser
Varianzanteil möglichst groß sein kann, damit die interessierenden Effekte nachgewiesen
werden können.
Definition: Als Sekundärvarianz wird der Varianzanteil bezeichnet, der durch die Wirkung von Störvariablen hervorgerufen wird.
Die biostatistische Versuchsplanung soll eine Kontrolle potentieller Störvariablen sicherstellen.
Definition: Als Fehlervarianz wird der aus zufälligen Unterschieden zwischen den Untersuchungseinheiten oder aus unsystematischen, zufälligen Einflüssen der Untersuchung
resultierende Varianzanteil bezeichnet.
Die biostatistische Versuchsplanung hat die Aufgabe, diesen Varianzanteil so gering wie
möglich zu halten.
Merksatz: ein wichtiges Ziel der biostatistischen Versuchsplanung besteht darin, die Primärvarianz zu maximieren, die Sekundärvarianz zu kontrollieren und die Fehlervarianz zu
minimieren.
Das Verhältnis der Anteil von Primär-, Sekundär- und Fehlervarianz ist eng mit dem Begriff
der internen Validität einer Untersuchung verbunden.
Definition: eine Untersuchung ist intern valide (nach innen gültig), wenn die Unterschiede
in der abhängigen Variablen (dem interessierenden Merkmal) zwischen den verschiedenen
Versuchbedingungen eindeutig auf die Veränderungen der unabhängigen Variablen, d.h.
auf die unterschiedlichen Versuchsbedingungen zurückgeführt werden können.
Definition: Eine Untersuchung ist extern valide (nach außen gültig), wenn die Ergebnisse der Untersuchung auf die Population und auf andere Situationen übertragen werden
können.
83
9.3.2 Allgemeine Prinzipien der Versuchsplanung
• Maximieren der Primärvarianz
• Konstanthalten von Störgrößen
• Randomisierung von Versuchsbedingungen
• Matching
• Blockbildung
• Verblindung (einfach oder mehrfach)
• Wiederholungen
• mehrfaktorielle Strukturen
• statistische Kontrolle von Störfaktoren mittels Regressionsmethoden
• Einbeziehung einer Kontrollgruppe
• Symmetrie
9.3.3 Typen von Stichproben
• Einfache Zufallsstichproben
• Geschichtete Stichproben (zB hinsichtlich Alter und/oder Geschlecht)
• Klumpenstichproben (zB Herden oder Familien)
• Mehrstufige zufällige Auswahlverfahren
9.3.4 Einige wichtige Versuchspläne
• Einfaktorielle Randomisierungspläne für große Stichprobenumfänge, dreifache Zufallszuordnung
• Blockversuchspläne
• Messwiederholungspläne
• Mehrfaktorielle Pläne
• Mischversuchspläne
• Unvollständige Versuchspläne wie hierarchische Pläne oder Lateinische Quadrate
9.4 Bestimmung optimaler Stichprobenumfänge
Einfaches Beispiel: 1-Stichproben-Gaußtest
X1 , . . . , Xn unabhängige Zufallsgrößen, verteilt wie N (µ, σ 2 ) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 > 0.
Zu testen ist
H0 : µ ≤ µ0
gegen
H1 : µ > µ0
84
(Signifikanztest)
mit dem rechtsseitigen Gauß-Test: Lehne H0 zum Niveau α ∈ (0, 1) ab, falls
√ x̄ − µ0
n
> z1−α := Φ−1 (1 − α)
σ
Gütefunktion dieses Tests:
√ µ − µ0
n
G(µ) = Φ
− z1−α
σ
Die Wahrscheinlichkeit für einen Fehler 2. Art liegt damit für ein µ, das nur wenig größer
ist als µ0 , knapp unterhalb von 1 − α.
Sind wir nur an µ-Werten interessiert sind, die um mindestens eine von uns gewählte Größe
∆ > 0 von µ0 abweichen, testen wir die Hypothesen
H0 : µ ≤ µ0
gegen
H∆ : µ > µ0 + ∆
(Relevanztest)
Für diesen Test kann die Wahrscheinlichkeit β für einen Fehler 2. Art kontrolliert werden:
√ ∆
β = 1 − G(µ0 + ∆) = Φ z1−α − n
σ
Diese Beziehung ist äquivalent mit
σ
∆ = √ (z1−α − zβ )
n
Zu vorgegebenen Wahrscheinlichkeiten α und β für einen Fehler 1. bzw. 2. Art, Streuung
σ (geschätzt z.B. im Rahmen einer Pilotstudie) und minimaler relevanter Abweichung
(Mindesteffekt) ∆ ergibt sich für den minimalen Stichprobenumfang
n≥
σ 2 (z1−α + z1−β )2
∆2
85
10 Analyse hochdimensionaler Daten
Viele biologische Experimente wie Hochdurchsatzverfahren liefern hochdimensionale Daten, deren Information nicht mehr durch direkte visuelle Inspektion extrahiert werden
kann.
In diesem Abschnitt behandeln wir hierzu drei Verfahren:
• Hauptkomponentenanalyse
• Multidimensionale Skalierung
• Clustermethoden
10.1 Hauptkomponentenanalysis
Die Hauptkomponentenanalyse versucht, hochdimensionale Daten so auf niedrigdimensionale Räume zu projizieren, dass die wesentliche Information erhalten bleibt. Zu Daten
x1 , . . . , xn ∈ Rp ist deren Kovarianzmatrix gegeben durch
n
S :=
1 X
(xi − x̄)(xi − x̄)T
n−1
i=1
Da S symmetrisch und positiv semidefinit, existieren p nichtnegative Eigenwerte λ1 ≥
. . . ≥ λp ≥ 0. Die dazugehörigen Eigenvektoren r1 , . . . , rp können so gewählt werden, dass
rjT rk = δjk und Srj = λj rj
Sei R die p × p-dimensionale Matrix, deren Spalten aus den p Eigenvektoren von S besteht
und Λ eine p × p-dimensionale Matrix, deren Hauptdiagonale die Eigenwerte λ1 , . . . , λp
trägt.
Dann gilt die Zerlegung
S = RΛRT
Im Folgenden gehen wir oBdA davon aus, dass die Datenvektoren x1 , . . . , xn an ihrem
arithmetischen Mittel x̄ zentriert sind.
Sei x ∈ {x1 , . . . , xn } ein Datenvektor (∈ Rp ).
Die Linearkombination y i := rit x heißt i-te Hauptkomponente von x (i ∈ {1, . . . , p}).
Die Vektoren y = (y 1 , . . . , y p ) und x besitzen dieselbe Länge.
Die Koordinateneinträge der einzelnen Eigenvektoren werden auch als Ladungen bezeichnet, denn sie geben die Gewichte wieder, mit denen die einzelnen Variablen zu den Hauptkomponenten der Beobachtungen beitragen.
Die Scores der einzelnen Beobachtungen sind die Koordinaten bezüglich der Hauptkomponenten (also der orthonormierten Eigenvektoren).
Im Biplot (Gabriel 1971) werden die ersten beiden Hauptkomponenten aller Beobachtungen gemeinsam mit den ersten beiden Ladungen der Variablen dargestellt.
Der Biplot vereinigt damit Score- und Loadingplot:
• Projektionen der Pfeile auf die Achsen entspricht den Loadingwerten.
• Die Länge der Pfeile ist proportional zur Standardabweichung der dargestellten Variablen.
86
• Der Kosinus des Winkels zwischen zwei Variablen approximiert den Korrelationskoeffizienten dieser beiden Variablen.
• Der euklidische Abstand zweier Punkte approximiert ein gewisses Abstandsmaß der
Merkmalsträger. Je näher zwei Punkte im Biplot liegen, desto ähnlicher sind sich die
Merkmalsträger.
• Die Lage der Punkte steht in Beziehung zu den Pfeilen. Liegt der i-te Punkt in
derselben Richtung wie der j-te Pfeil, so ist der i-te Merkamlsträger bezüglich der
j-ten Variablen überdurchschnittlich ausgeprägt.
In Richtung der neuen Achse rj beträgt die Varianz der Daten λj .
Die im durch r1 , . . . , rk aufgespannten Unterraum liegende relative Anteil an der Gesamtvarianz beträgt
Pk
λj
Ppj=1
j=1 λj
Ist dieser Anteil schon für ein kleines k groß, so kann die weitere statistische Untersuchung
auf diesen Unterraum beschränkt werden.
Besitzen nicht alle Komponenten der Vektoren xi dieselbe Skalierung, sollte anstelle der
Kovarianzmatrix die Korrelationsmatrix verwendet werden.
Kriterien zur Bestimmung der Anzahl der relevanten Hauptkomponenten
• Wähle den kleinsten Wert, so dass
Pk
Pj=1
p
λj
j=1 λj
≥α
Typische Werte für α: 0.75, 0.8 oder 0.85
• Screeplot (Geröllhalde): Trage die Eigenwerte (=Varianzen) der Hauptkomponenten
über ihrem Rang auf. Verbinde die Punkte stückweise linear. Berücksichtige nur
diejenigen Hauptkomponenten, die links bis zum “Knick” liegen.
• Kriterium von Kaiser: Berücksichtige nur die Hauptkomponenten, deren zugehörige
Eigenwerte größer sind als das arithmetische Mittel aller Eigenwerte.
• Kriterium von Joliffe: Berücksichtige nur die Hauptkomponenten, deren zugehörige
Eigenwerte größer sind als das 0.7-fache des arithmetischen Mittels aller Eigenwerte.
In R:
noten <- read.csv("http://www.isa.uni-stuttgart.de/LstStoch/Dippon/
Lehre/Biostat-2/noten.csv")
noten.pca <- princomp(noten,cor=FALSE)
noten.pca
plot(noten.pca)
noten.pca$loadings
noten.pca$scores
## Anzahl der "relevanten" Hauptkomponenten
screeplot(noten.pca,type="lines")
## Loading-Plot
plot(noten.pca$loadings[,1:2],type="n")
text(noten.pca$loadings[,1:2],label=names(noten))
87
## Score-Plot
plot(noten.pca$scores[,1:2],type="n")
text(noten.pca$scores[,1:2],label=1:17)
## Biplot
biplot(noten.pca,choices=1:2,scale=0,pc.biplot=FALSE)
10.2 Multidimensionale Skalierung
Ausgehend von einer Datenmatrix X mit n Zeilen (Anzahl der Merkmalsträger) und d
Spalten (Anzahl der Merkmale) kann man eine n × n Distanzmatrix D gewinnen, welche die paarweisen (z.B. euklidischen) Distanzen zwischen den einzelnen Merkmalsträgern
widerspiegelt.
Umgekehrt sucht die multidimensionale Skalierung zu einer gegebenen Distanzmatrix, die
die paarweisen Abstände der Merkmalsträger beschreibt, zu jedem Merkmalsträger i einen
Vektor xi in einem Vektorraum der Dimension d, so dass die (euklidischen) Abstände
zwischen je zwei Vektoren mit den durch die Distanzmatrix vorgegebenen Werten übereinstimmt.
Beispiele: Fahrzeiten zwischen Städte, paarweiser Vergleich von Rassen einer Tierart mittels
eines Scores gebildet aus Einzelmerkmalen, paarweiser Vergleich von Automodellen
Sei D eine gegebene n × n Distanzmatrix
Definiere die symmetrische Matrix A mittels
1
aij := − d2ij − d2i· − d2·j + d2··
2
wobei
n
1X 2
di· =
dik
n
k=1
n
1X 2
dkj
d·j =
n
d·· =
k=1
n X
n
X
1
n2
k=1 l=1
88
d2kl
Führe eine Spektralzerlegung von A durch:
A = U ΛU 0
U : die orthogonale Matrix mit den Eigenvektoren von A als Spalten
Λ: die Diagonalmatrix mit den absteigend geordneten Eigenwerten von A
Sind die k ersten Eigenwerte positiv, die restlichen gleich Null, Uk die Matrix mit den
ersten k Eigenvektoren und Λk die Diagonalmatrix der ersten k Eigenwerte, so löst die
Matrix
1/2
Xk = Uk Λk
das MDS-Problem.
Für eine approximative grafische Darstellung der Matrix Xk , wählt man
1/2
X2 = U2 Λ2
Das MDS-Problem ist genau dann für eine n × n Distanzmatrix D lösbar, wenn die Matrix
A positiv semidefinit ist (mit Rang d ∈ {1, . . . , n − 1}). (Falk et alt. Satz 7.3.1)
Bemerkung: Diese Lösung ist im Allgemeinen nicht eindeutig, da Translationen und orthogonale Transformationen der Vektoren x1 , . . . , xn die Distanzmatrix invariant lassen.
Der Datensatz eurodist enthält die Straßendistanz zwischen 21 europäischen Städten.
loc <- cmdscale(eurodist)
x <- loc[, 1]
y <- -loc[, 2] # reflect so North is at the top
## note asp = 1, to ensure Euclidean distances are represented correctly
plot(x, y, type = "n", xlab = "", ylab = "", asp = 1, axes = FALSE,
main = "cmdscale(eurodist)")
text(x, y, rownames(loc), cex = 0.6)
Können die Abstände in D nur bezüglich ihrer Ordnung sinnvoll interpretiert werden, kann
die nichtmetrische MDS nach Shepard-Kruskal angewendet werden.
10.3 Cluster-Methoden
Cluster-Verfahren dienen zur Zerlegung von mehr- oder hochdimensionalen Datensätzen in
einzelne Gruppen, so dass die Ähnlichkeit innerhalb einer Gruppe möglichst groß, zwischen
den Gruppen jedoch möglichst klein ist.
Typisch für diese Verfahren ist, dass die wahre Gruppenzugehörigkeit nicht zur Konstruktion der Cluster verwendet wird (unüberwachtes Lernverfahren).
Wir behandeln zwei Cluster-Verfahren:
• K-Means-Clustering (Clusteranzahl K vorgegeben)
• Hierarchisches Clustering (Anzahl der Cluster unbekannt)
10.3.1 K-Means Clustering
Eines der populärsten Verfahren zur Gruppierung von Daten ist der k-Means-Algorithmus:
1. Wähle die Anzahl der zu bestimmenden Gruppen
2. Wähle k zufällige Punkte des Raumes als Cluster-Schwerpunkte
89
3. Ordne jeden Punkt der Stichprobe der im nächstliegenden Schwerpunkt zu. Die dabei
verwendete Distanzfunktion kann z.B. die euklidische Norm sein
4. Für jedes Cluster wird der Schwerpunkt neu berechnet
5. Basierend auf den neu berechneten Zentren werden die Stichprobenpunkte neu in
Gruppen eingeteilt. Wiederhole die Schritte 2 bis 5, bis sich die Schwerpunkte nicht
mehr wesentlich bewegen
Clustern des Iris-Datensatzes in 3 Gruppen
M <- data.matrix(iris)[,1:4]
fit <- kmeans(M,3)
fit
## Einfärbung gemäß Clusterverfahren
pairs(M, col=fit$cluster)
## Einfärbung gemäß wahrer Spezies-Zugehörigkeit
pairs(M, col=data.matrix(iris)[,5])
10.3.2 Hierarchisches Clustering
Sollen z.B. 1000 Gene mittels einer Stichprobe vom Umfang 50 anhand ihrer Genexpressionprofile klassifiziert werden, so müssen in einem 1000-dimensionalen Raum geeignete
Teilmengen (Cluster) gefunden werden
Zusätzlich kann auch die Stichprobe geclustert werden.
Probleme:
• Wahl einer Abstandsfunktion
• Strategie zur Konstruktion von Clustern
• Anzahl der Cluster
Typen von Verfahren:
• Divisive Verfahren
• Agglomerative Verfahren
90
A
G
OCI Ly3
OCI Ly10
DLCL-0042
DLCL-0007
DLCL-0031
DLCL-0036
DLCL-0030
DLCL-0004
DLCL-0029
Tonsil Germinal Center B
Tonsil Germinal Center Centroblasts
SUDHL6
DLCL-0008
DLCL-0052
DLCL-0034
DLCL-0051
DLCL-0011
DLCL-0032
DLCL-0006
DLCL-0049
Tonsil
DLCL-0039
Lymph Node
DLCL-0001
DLCL-0018
DLCL-0037
DLCL-0010
DLCL-0015
DLCL-0026
DLCL-0005
DLCL-0023
DLCL-0027
DLCL-0024
DLCL-0013
DLCL-0002
DLCL-0016
DLCL-0020
DLCL-0003
DLCL-0014
DLCL-0048
DLCL-0033
DLCL-0025
DLCL-0040
DLCL-0017
DLCL-0028
DLCL-0012
DLCL-0021
Blood B;anti-IgM+CD40L low 48h
Blood B;anti-IgM+CD40L high 48h
Blood B;anti-IgM+CD40L 24h
Blood B;anti-IgM 24h
Blood B;anti-IgM+IL-4 24h
Blood B;anti-IgM+CD40L+IL-4 24h
Blood B;anti-IgM+IL-4 6h
Blood B;anti-IgM 6h
Blood B;anti-IgM+CD40L 6h
Blood B;anti-IgM+CD40L+IL-4 6h
Blood T;Adult CD4+ Unstim.
Blood T;Adult CD4+ I+P Stim.
Cord Blood T;CD4+ I+P Stim.
Blood T;Neonatal CD4+ Unstim.
Thymic T;Fetal CD4+ Unstim.
Thymic T;Fetal CD4+ I+P Stim.
OCI Ly1
WSU1
Jurkat
U937
OCI Ly12
OCI Ly13.2
SUDHL5
DLCL-0041
FL-9
FL-9;CD19+
FL-12;CD19+
FL-10;CD19+
FL-10
FL-11
FL-11;CD19+
FL-6;CD19+
FL-5;CD19+
Blood B;memory
Blood B;naive
Blood B
Cord Blood B
CLL-60
CLL-68
CLL-9
CLL-14
CLL-51
CLL-65
CLL-71#2
CLL-71#1
CLL-13
CLL-39
CLL-52
DLCL-0009
DLBCL
Germinal Center B
Nl. Lymph Node/Tonsil
Activated Blood B
Resting/Activated T
Transformed Cell Lines
FL
Resting Blood B
CLL
Pan B cell
Germinal Center
B cell
T cell
Activated B cell
Proliferation
Lymph Node
-2
-1
0
1
2
0.250
0.500
1.000
2.000
4.000
91
Herunterladen