SS07 WeF Zusammenfassung Contents

Werbung
SS07 WeF Zusammenfassung
Oswald Berthold
April 11, 2008
Contents
1
2
3
Allgemeines
Basiskommandos in R
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Dateien lesen / schreiben . . . . . .
Ausgabe . . . . . . . . . . . . . . .
Matrix und data.frame Manipulation
Grak . . . . . . . . . . . . . . . .
Regression . . . . . . . . . . . . . .
Hypothesentests . . . . . . . . . . .
Diverses . . . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Schätzungen . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Eigenschaften von Schätzungen θ̂ . . . . . . .
3.1.2 Schätzmethoden: . . . . . . . . . . . . . . . .
3.1.3 Lageschätzungen . . . . . . . . . . . . . . . .
3.1.4 Skalenschätzungen / Streuungsmasse . . . . .
3.1.5 Formmasse . . . . . . . . . . . . . . . . . . . .
Boxplots . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 R . . . . . . . . . . . . . . . . . . . . . . . . .
Stamm- und Blatt Diagramme (Stemplot) . . . . . . .
3.3.1 R . . . . . . . . . . . . . . . . . . . . . . . . .
Q-Q-Plot . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 R . . . . . . . . . . . . . . . . . . . . . . . . .
Häugkeitstabellen . . . . . . . . . . . . . . . . . . .
3.5.1 Eindimensionale Zufallsvariable . . . . . . . . .
3.5.2 Zweidimensionale Zufallsvariablen . . . . . . .
3.5.3 R . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramme und Dichteschätzung . . . . . . . . . . .
3.6.1 R . . . . . . . . . . . . . . . . . . . . . . . . .
Zusammenhangsmasse . . . . . . . . . . . . . . . . .
3.7.1 Scatterplots . . . . . . . . . . . . . . . . . . .
3.7.2 Kovarianz, Korrelation, Korrelationskoezienten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Beschreibende Statistik
3.1
3.2
3.3
3.4
3.5
3.6
3.7
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
2
3
4
4
5
5
5
5
5
6
6
7
8
8
8
9
9
9
9
9
9
10
10
10
10
10
11
3.8
3.9
4
Regressionsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schliessende Statistik
4.1
4.2
4.3
Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . .
Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
T-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Einstichprobenproblem . . . . . . . . . . . . . . . . . .
4.3.2 Zweistichprobenproblem . . . . . . . . . . . . . . . . . .
4.3.3 Skalentests . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.4 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.5 Voraussetzungen für die Anwendung des T-Tests . . . .
4.4 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Vergleich von k unabhängigen Gruppen . . . . . . . . .
4.4.2 Vergleich von k verbundenen Stichproben . . . . . . . .
4.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Auf der empirischen Verteilungsfunktion beruhende Tests
4.5.2 Shapiro-Wilk-Test . . . . . . . . . . . . . . . . . . . . .
4.5.3 χ2 -Anpassungstest (Pearson) . . . . . . . . . . . . . . .
4.6 Nicht-parametrische Tests . . . . . . . . . . . . . . . . . . . . .
4.6.1 Einstichprobenproblem . . . . . . . . . . . . . . . . . .
4.6.2 Zweistichprobenproblem . . . . . . . . . . . . . . . . . .
4.6.3 Mehrere Stichproben . . . . . . . . . . . . . . . . . . .
4.7 Korrelation und Unabhängigkeit . . . . . . . . . . . . . . . . . .
4.7.1 Korrelationstest . . . . . . . . . . . . . . . . . . . . . .
4.8 Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . .
4.9 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.1 Einfache Lineare Regression . . . . . . . . . . . . . . . .
4.9.2 Multiple Lineare Regression . . . . . . . . . . . . . . . .
4.9.3 Residualanalyse . . . . . . . . . . . . . . . . . . . . . .
4.10 Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.11 Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.11.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
14
15
15
15
16
17
17
17
18
18
18
18
19
20
21
22
22
23
24
25
25
26
26
26
26
26
27
27
28
5
TODO
28
6
Literatur
28
2
Index1 - SS07_WeF2
1
Allgemeines
Dies ist meine prüfungsvorbereitende Zusammenfassung der Vorlesung Werkzeuge der empirischen
Forschung von PD Dr. Wolfgang Kössler im SS07. Seitenzahlen beziehen sich auf die Folien zur
Vorlesung WeF SS06 von W. Kössler, Institut f. Informatik der Humboldt Universität zu Berlin.
2
Basiskommandos in R
2.1 Dateien lesen / schreiben
## Datei ansehen
file.show('pfad/zur/datei.dat')
## datei als zeilenvektor einlesen, danach 'reformatieren'
scan('pfad/zur/datei.dat')
## falls es das format erlaubt gleich als datenframe einlesen
read.table('pfad/zur/datei')
2.2 Ausgabe
cat
print
dev.print(postscript, file='...')
2.3 Matrix und data.frame Manipulation
## basics
A <- matrix(seq(1, 9), 3, 3)
B <- matrix(seq(1, 9), 3, 3, byrow=T)
## dimensionen eines arrays / einer matrix
dim(A)
## indizierung
A[1]
A[1,]
A[,1]
## filtern
A[1,c(T, F, F)]
A[1,A[1,]>2]
## subset
subset(dataframe, select=c(spalte1,spalte2,...))
subset(dataframe, select=-c(spalte1,spalte2,...))
1 index.pdf
2 SS07_WeF.pdf
3
## operationen
apply(daten, spaltenweise(1)/zeilenweise(2), function)
colSums(A)
colMeans(A)
rowSums(B)
rowMeans(B)
## sortieren
order
sort
rank
[]
## zusammenfuegen
merge
cbind
rbind
## kontingenz-tafel / contingency oder frequency table
table(x)
## fuer stetige ZVs empfiehlt sich vorher ein
cut(x, breaks(anzahl der klasseneinteilungen))
## datenframe umbauen, auch neue spalten koennen angegeben werden
transform(df, spaltename=transformationsfunktion, spltn=tf, ...)
## faktor / gruppeneinteilung
f <- factor(x)
levels(f)
## generate levels
gl()
## differenz zweier zahlen
diff(c(a, b))
## stichprobenfunktion
sample(daten, laenge, replace=F)
2.4 Grak
## scatterplot
plot(...)
## adding stuff
points
abline(from, to)
abline(v=0)
abline(h=0)
lines(x, y, ...)
spline(...)
smooth.spline(...)
legend(x, y, text, pch
text(x, y, ...
boxplot(vector1, vec2, vec3, ..., parms, names=c(...), boxwex
4
## boxplot formelinterface
boxplot(wert ~ gruppe, ...
## multiple plots in einem fenster
layout(matrix(1:6, 3, 2)) ## 6 felder, 3 zeilen, 2 spalten
par(mfrow=c(nr, nc)) ## aequivalent
## stamm-blatt diagramm
stem(x)
## histogram
hist(x, anzahl-bins, .., plot=T|F)
## qq-plot
qqnorm(x)
qqline()
2.5 Regression
lm(y ~ x, data=...)
glm
nls(y ~ a + b * x + c * x^2 ..., data=, start=list(a=1,b=1,...))
coef
formula()
residuals()
## um model fit zu plotten
predict(model)
## nur predict.lm() kann konfidenz-intervall und vorhersage-intervall berechnen
predict(y~x, interval='c')
2.6 Hypothesentests
## t-Test: 1-sample,
t.test()
library(BSDA); sign.test()
wilcox.test()
## Varianzvergleich
var.test()
levene.test()
## korrelation / unabhängigkeit
cor.test()
chisq.test()
summary(table(...)) ## fuehrt chi-quadrat test auf unabhaengigkeit aus
## mehrstichproben mittelwertsvergleich
aov(wert ~ gruppe, data=dataframe) ## mehrere stichproben in einem vektor,
## mit gruppenvariable gekennzeichnet
anova(lm(wert ~ gruppe, data=dataframe)) ## wie aov
## Anpassungstest
5
2.7 Diverses
ecdf(daten) ## empirsche verteilungsfunktion
plot(ecdf(daten), verticals=T, do.p=F) ## schoenere darstellung
3
Beschreibende Statistik
3.1 Schätzungen
3.1.1 Eigenschaften von Schätzungen θ̂
Ab S. 119
Sei θ̂ = θ̂(X1 , ..., Xn ) eine Schätzung des Parameters θ die auf n Beobachten beruht.
• θ̂n →n→∞ θ, Konsistenz, Minimalforderung
• E θ̂n = θ, Erwartungstreue bzw. asymptotische Erwartungstreue
•
varθ̂n
• wenn
möglichst klein: gute, eziente Schätzung
varθ̂n
kleinstmöglich dann ist θ̂n optimale Schätzung
• MSE (mean squared error) soll minimal sein: M SE = varθ̂n + bias2 θ̂n = varθ̂n + (E θ̂n − θ)2
• Eigenschaften sollen auch bei Abweichungen von der Normalvtlg. gelten: robuste Schätzung.
Cramer-Rao Schranke, Fisher-Information
S. 121128
Sei θ̂ = θn eine erwartungstreue Schätzung von θ.
Dann gilt die Cramer-Rao Ungleichung:
var(θ̂) ≥
mit
I(f, θ) = E
die
1
nI(f, θ)0
∂lnf (x, θ)
∂θ
2
Fisher-Information.
3.1.2 Schätzmethoden:
• Momentemethode: wahre Momente werden durch empirische Momente ersetzt.
• Maximum-Likelihood Methode: Aufstellen der Likelihood-Funktion L(X1 , ..., Xn , a, b, ...) als gemeinsame Dichte der Stichprobe X = (X1 , ..., Xn ). Dann wird logL(...) maximiert.
• Kleinste-Quadrat-Schätzung: . . .
6
3.1.3 Lageschätzungen
Ab S. 111
1. Mittelwert:
X=
X →n→∞ EX
1 n
Σ Xi
n i=1
Gesetz der grossen Zahlen
Unter der Voraussetzung dass der Erwartungswert existiert. Der Mittelwert ist meist
ein gute Schätzung aber nicht robust.
2. Quantile: α-Quantil xα : mindestens α · n der Werte (x1 , ..., xn ) sind kleiner oder gleich xα ,
mindestens (1 − α) · n der Werte (x1 , ..., xn ) sind grösser oder gleich xα .
3. Median: ist das 0.5-Quantil x0.5 . Der Median ist robust aber meist nicht so gut.
4. Quartile: heissen die 0.25- und 0.75-Quantile x0.25 und x0.75
5. Modalwert: Häugster Wert falls diskrete ZV, Wert mit grösster Dichte falls stetige ZV.
6. Getrimmtes Mittel: (Ausreisserschutz) Sei α ∈ [0, 21 ). X α :=
X(bn·αc+1) +...+X(n−bn·αc)
n−2bn·αc
7. Winsorisiertes Mittel: Sei α ∈ [0, 12 und n1 := bn · αc + 1. Dann heisst
X α,ω :=
n1 X(n1 ) + X(n1 +1) + ... + X(n−n1 ) + n1 X(n−n1 +1)
n
α-winsorisiertes Mittel. Die jeweils bn·αc kleinsten und grössten Werte werden herangeschoben
und dann das arithmetische Mittel gebildet. α : 0.1, ..., 0.2.
3.1.4 Skalenschätzungen / Streuungsmasse
Ab S. 129
1. Varianz:
n
s2 =
1 X
(xi − X)2
n − 1 i=1
s2 →n→∞ var(X). Division durch n − 1: Erwartungstreue
2. Standardabweichung:
√
s=
s2
3. Spannweite / Range:
Range = X(n) − X(1)
4. (Inter-)Quartilsabstand:
IR = sF = x0.75 − x0.25
7
5. Mittlere absolute Abweichung vom Median:
n
1X
d=
|xi − x0.5 |
n i=1
6. Median aboslute Abweichung vom Median (MAD):
M AD = med(|xi − x0.5 |)
7. Variationskoezient:
CV =
8. Gini's Mean Dierence:
G=
s · 100
X
1 X
|xi − xj |
n
2
i<j
G ist mässig robust aber ezient.
9.
Sn = 1.1926 · medi ()medj (|xi − xj |)
Qn = 2.219 · {|xi − xj |, i < j}(k)
Bei X ∼ N ⇒ Skalierungsfaktoren fuer IR, MAD, G nach sigma.
• Varianz, Standardabweichung und Spannweite sind nicht robust.
• Quartilsabstand und MAD sind robust, MAD etwas besser.
• G ist bedingt robust, ezient bei F normal.
• MAD ist wenig ezient
• Sn oder Qn sind am geeignetsten.
3.1.5 Formmasse
• Schiefe (skewness): Theoretische Schiefe
X − EX
p
var(X)
β1 = E
Empirische Schiefe
n
1X
β̂1 =
n i=1
!3
Xi − X
s
3
β1 : gleich 0 F symmetrisch, kleiner 0 linksschief, grösser 0 rechtsschief
8
• Wölbung (kurtosis) Theoretische Wölbung
X − EX
p
var(X)
β2 = E
Empirische Wölbung
n
β̂2 =
1X
n i=1
!4
Xi − X
s
−3
4
−3
3.2 Boxplots
Schematische und skeletale Boxplots. Von oben nach unten:
Schematisch:
• Ausreisser
• x0.75 + 1.5 · IR
• x0.75
• Empirisches Mittel (+)
• x0.5
• x0.25
• x0.25 − 1.5 · IR
Skeletal:
• Max
• Wie schematisch
• Min
3.2.1 R
boxplot(x, y, args...)
3.3 Stamm- und Blatt Diagramme (Stemplot)
Ähnlich dem Histogramm
1. 1. Stelle in 10er Darstellung: Stamm
2. 2. Stelle in 10er Darstellung: Blätter, Zier wird explizit angegeben, Verfeinerung des Balkendiagramms
9
3.3.1 R
stem(runif(10))
3.4 Q-Q-Plot
Es werden die Quantile der Normalverteilung und die Quantile der empirischen Verteilung, also die
Punkte (Φ−1 (α), xα ) gegeneinander geplottet, falls F ∼ N (µ, σ sollten die Punkte in etwa auf einer
Geraden liegen.
3.4.1 R
x <- rnorm(100)
qqnorm(x)
qqline(x)
3.5 Häugkeitstabellen
Chart, eigentlich wie Histogramm. Vertikal und horizontal.
3.5.1 Eindimensionale Zufallsvariable
X:
x0
p0
x1
p1
... xn
... pn
...
...
Die pi sind zu schätzen:
ni
N
mit N Stichprobenumfang, ni : relative Häugkeiten.
p̂i =
3.5.2 Zweidimensionale Zufallsvariablen
Das Paar (X, Y ) heisst zweidimensionale ZV. Seien X und Y diskret und (xi , yi ) die möglichen Ergebnisse von (X, Y ).
pij = P (X = xi , Y = yi )
i = 1, ..., M, j = 1, ..., N heisst gemeinsame Wahrscheinlichkeitsfunktion von (X, Y ).
Eigenschaften
pij ≥ 0
X
pij = 1
i,j
pi. :=
N
X
pij
j=1
p.j :=
M
X
i=1
10
pij
Z.B. Rauchverhalten 0,1 und Geschlecht m,w. Die Tabelle der Häugkeiten heisst Kontingenztafel.
Def.: X und Y heissen unabhängig genau dann wenn
pij = pi. · p.j
(strip.chart, barchart)
3.5.3 R
x <- rnorm(100)
hist(x)
x <- floor(runif(100, 0, 3))
y <- floor(runif(100, 0, 3))
table(cbind(x,y))
3.6 Histogramme und Dichteschätzung
Histogramm oder auch Zähldichte.
Überlagerung des Histogramms mit einer glatten Dichtefunktion: Dichteschätzung mittels Kernfunktion.
Seien x1 , ..., xn die Beobachtungen und sei K(t) eine sogenannte Kernfunktion sowie
R
R
=0
R 2 K(t)dt = 1 R tK(t)dt
t K(t)dt = 1
K 2 (t)dt < ∞
und h ein sogen. Glättungsparameter, dann heisst
n
x − xi
1X1
K(
)
fˆ(x) =
n i=1 h
h
Dichteschätzung oder Dichtefunktionsschätzung.
3.6.1 R
x -> rnorm(100)
hist(x, freq=F)
lines(density(x))
3.7 Zusammenhangsmasse
3.7.1 Scatterplots
Zweidimensionale Stichproben können als Punkte in der Ebene (Punktwolke) dargestellt werden: Scatterplot.
11
3.7.2 Kovarianz, Korrelation, Korrelationskoezienten
Seinen X, Y Zufallsvariablen.
Varianz: var(X) = E(X − EX)2 = E[(X − EX)(X − EX)] = EX 2 − E 2 X
Denition: Kovarianz
Cov(X, Y ) := E[(X − EX)(Y − EY )] = XXX
Denition: Korrelation
Corr(X, Y ) :=
Empirische Varianz:
E[(X − EX)(Y − EY )]
p
var(X) · var(Y )
n
s2X :=
1 X
(Xi − X)(Xi − X)
n − 1 i=1
Empirische Kovarianz:
n
s2XY :=
1 X
(Xi − X)(Yi − Y )
n − 1 i=1
Normierung: sX , sY : empirische Standardabw. von X, Y .
1. Pearsonscher (empirischer) Korrelationskoezient:
rXY :=
sXY
sX sY
• Es gilt: −1 ≤ rXY ≤ 1
• Der Korrelationskoeezient ist invariant gegenüber linearen Transformationen: x → a + bx
• |rXY | = 1 gdw. alle Punkte auf einer Geraden liegen, y = mx + b, m 6= 0
• Korrelationskoezient ist ein Mass für die ineare Abhängigkeit von X und Y .
• rXY = 0 heisst: keine lineare Abhängigkeit, andere Abhängigkeiten sind aber durchaus
möglich.
2. Spearman Rangkorrelationskoezient
Pn
(Ri − R)(Si − S)
rS = pP i=1
P
2
2
i (Ri − R)
i (Si − S)
Ri =Rang von Xi in der geordneten Stichprobe
X(1) ≤ ... ≤ X(n)
Si =Rang von Yi in der geordneten Stichprobe
Y(1) ≤ ... ≤ Y(n)
rS ist auch für ordinale Merkmale geeignet, die X1 , ..., Xn ; Y1 , ..., Yn werden sersetzt
durch Rangzahlen
Xi → RXi = Ri
12
Yi → RYi = Si
Dann ist RXi = 1
falls
Xi = min(Xi , ..., Xn ),
RXi = n
falls
Xi = max(Xi , ..., Xn )
3. Kendalls Konkordanzkoezient (Xi , Yi ), i = 1, ..., n

 1 falls xi < xj ∧ yi < yj oder xi > xj ∧ yi > yj
−1 falls xi < xj ∧ yi > yj oder xi > xj ∧ yi < yj = sgn[(Xi − Xj )(Yi − Yj )]
aij =

0 sonst.
Falls
aij = 1
aij = −1
aij = 0
Paar heisst konkordant.
Paar heisst diskordant.
Paar heisst gebunden.
Kendalls Konkordanzkoezient τ :
τ
=
=
=
P
2· i<j aij
N ·(N P
−1)
1
· i<j aij
N
(2)
# konkordanter Paare−# diskordanter Paare
(N2 )
Vergleich Pearson - Spearman
Vorteile Spearman
• es genügt ordinales Messniveau
• leicht zu berechnen
• rS ist invariant gegenüber monotonen Transformationen
• gute Interpretation, wenn rS = −1, 0, 1 (wie bei Pearson)
• eignet sich als Teststatistik für Test auf Unabhängigkeit
• ist robust (gegen Abweichungen von der Normalverteilung).
Nachteile Spearman
• wenn kardinales (stetiges) Messniveau: Informationsverlust
• schwierige Interpretation wenn rS nicht nahe -1,0,1 (gilt eingeschränkt auch für Pearson).
13
3.8 Regressionsproblem
S. 200, . . .
Seien X, Y Zufallsvariablen (entsprechend höherdimensionaler Fall).
Ein Modell ist:
Y = f (X, θ1 , ..., θp ), + ∼ (0, σ 2 )
| {z }
P arameter zuf.F ehler
Dabei gibt es folgenden Fälle für f:
• linear, bekannte Form, suchen nur Parameter
• nonlinear, bekannte Form, suchen nur Parameter
• unbekannt, nichtparametrische Regression
Für f bekannt: Minimieren den quadratischen Erwartungswert des Fehlers zwischen Y und der Vorhersage.
minθ1 ,...,θp E(Y − f (X, θ1 , ..., θp ))2 .
Die θ1 , ..., θp sind unbekannt und werden anhand der Beobachten Xi , Yi geschätzt mit LSE:
n
minθ1 ,...,θp
1X
(Y − f (X, θ1 , ..., θp ))2
n i=1
Lösung des Minimu-Problems durch Ableiten und Nullsetzen des obigen Ausdrucks, führt auf GS mit p
Gleichungen.
Lineare Regression führt auf Polynom, sonst auch nichtlineare Basisfunktionen (ln, Exponentialfkt., . . . )
Für f unbekannt: z.B. kubischern Spline, Kernschätzung.
3.9 Zusammenfassung
Siehe Folien: S. 213 - 217
14
4
Schliessende Statistik
4.1 Hypothesentests
Es werden 2 Hypothesen aufgestellt bzgl. der Parameter eines Problems.
Einseitige Alternative:
Einseitige Alternative:
Zweiseitige Alternative:
H0 : µ ≤ µ0
H0 : µ ≥ µ0
H0 : µ = µ0
HA
HA
HA
µ > µ0
µ < µ0
µ 6= µ0
Teststatistik:
|X − µ0 | √
· n
S
Die Teststatistik geht gegen null für n gegen unendlich wegen des Gesetzes der grossen Zahlen:
X −→n→∞ EX (mit n -> unendl. geht der empirische Mittelwert gegen den wahren Mittelwert).
Die Entscheidung für H0 oder HA wird anhand der Teststatistik gefällt. Zeigt der Wert von T in einen
vorher bestimmten Bereich, den kritischen oder Ablehnungs-bereich wird H0 abgelehnt. Sonst wird H0
beibehalten. Die Testgrösse T ist t-verteilt mit n − 1 Freiheitsgraden wobei die n die Stichprobengrösse
ist.
Bei dieser Entscheidung kann man Fehlentscheidungen treen:
T (X1 , ..., Xn ) =
• Entscheidung für HA obwohl H0 richtig ist: Fehler 1. Art
• Entscheidung für H0 obwohl HA richtig ist: Fehler 2. Art
H0 richtig
HA richtig
Entscheidung für H0
richtig, Sicherheitswkt. 1 − α
Fehler 2. Art, Fehlerwkt. 1 − β
Entscheidung für HA
Fehler 1. Art, Fehlerwkt. α
richtig, Güte β
I.a. wird α festgelegt und β maximiert.
β(θ) heisst Gütefunktion
15
4.2 Gütefunktion
0.8
1.0
Gütefunktion des einseitigen Einstichproben T−Tests
0.0
0.2
0.4
Güte
0.6
| n=10
| n=20
| n=50
−2
−1
0
1
2
m
|
1|
________________________
|
/
|
|
|
|
|
|
|
/
|
|
|
|
|
/
| /
a|_/ = 0.05
|
+----------------------------------mu0
4.3 T-Test
4.3.1 Einstichprobenproblem
a)
b)
c)
H0 : µ ≤ µ0
H0 : µ ≥ µ0
H0 : µ = µ0
16
HA
HA
HA
µ > µ0
µ < µ0
µ 6= µ0
Teststatistik:
|X − µ0 | √
· n
S
T (X1 , ..., Xn ) =
R
t.test(rnorm(10, 0, 1), mu=0, alternative='less')
Dabei ist meist der Fehler 1. Art α z.B. α = 0.05, α = 0.01 d.h. Pµ0 (|T | > tkrit ) = α. α heisst
Signikanzniveau.
T ist eine Zufallsgrösse und besitzt eine best. Wahrscheinlichkeitsverteilung, in diesem Fall eine tVerteilung (Student's t), genauer T ∼ tn−1 .
p-Wert : Die Grösse P (|T | > t) heisst p-Wert (p-value). Wenn also p ≥ α so H0 angenommen, sonst
abgelehnt. Andere Interpretation: p-Wert ist Wahrscheinlichkeit der beobachteten Daten wenn H0
richtig ist.
Dichtefunktion einer t-Verteilung mit ν = n − 1 Freiheitsgraden:
ftν = p
Γ( ν+1
2 )
ν · π · Γ( ν2 )
Verteilungsfunktion:
Z
· (1 +
x2 ν+1
) 2
ν
x
F (x) =
f (t)dt
−∞
Kondenzintervalle
Das Intervall
s
s
X − √ · tt− α2 ,n−1 , X + √ · tt− α2 ,n−1
n
n
heisst (1 − α) Kondenzintervall für den unbekannten Parameter µ.
4.3.2 Zweistichprobenproblem
H1 : µ1 =
6 µ2
µ1 < µ2
µ1 > µ2
H0 : µ1 = µ2
Vergleich zweier abhängiger Gruppen
Beispiele:
• Gewicht einer Person zu den Zeitpunkten t1 , t2
• Banknoten: oben - unten, links - rechts
R
t.test(x, y, paired=T, alternative=c('two.sided', 'less', 'greater'))
17
Vergleich zweier unabhängiger Gruppen
den 2 Fälle unterschieden:
Seien X1 ∼ N (µ1 , σ12 ),
X2 ∼ N (µ2 , σ22 ) Es wer-
1. Die Varianzen sind gleich.
2. Die Varianzen sind verschieden oder unbekannt
R
t.test(x, y, var.equal=T)
4.3.3 Skalentests
F-Test zum Vergleich zweier Varianzen
F =
S12
∼ Fn−1,m−1
S22
F-Verteilung mit (n − 1, m − 1) Freiheitsgraden (Fisher-Verteilung).
F ist der Quotient zweier unabhängiger χ2 -verteilter Grössen.
Robuste Skalentests Besser Skalentests: Levene-Test, Brown-Forsythe-Test: Bilden neue ZV
durch Betrag der Dierenz der ZV und dem Mittelwert bzw. dem Median. Diese neue Zufallsvariable wird t-Test unterzogen. Lässt sich erweitern auf den Vergleich der Varianzen von k Stichproben.
4.3.4 R
var.test(x,y)
library(car)
levene.test(x,y)
4.3.5 Voraussetzungen für die Anwendung des T-Tests
• Normalverteilung
• Varianzhomogenität
Ist das Verhältnis der Varianzen bekannt (gleich, ungleich)?
Es kann ein Test auf gleiche Varianzen vorgeschaltet werden: F-Test
Aber: -stuger Test ist problematische bezüglich des Signikanzniveaus.
• F-Test (zum Skalenvergleich) ist nicht robust.
• Einstichproben t-Test ist nicht robust.
• Zweistichproben t-Test etwas robuster.
• Ausreisserempndlichkeit
• Wenn Varianz unklar /unbekannt: unterschiedliche Varianzen annehmen.
18
4.4 Varianzanalyse
4.4.1 Vergleich von
k
unabhängigen Gruppen
A: Faktor (Gruppenvariable) Y: anhängiges Merkmal /Responsevariable
Modell: Yij = µ + αi + ij i = 1...k, j = 1...ni
H0 : α1 = α2 = ... = αk
H1 : αi 6= αl ( für ein i 6= l)
Streuungszerlegung: Gesamtvarianz (SST) ist Varianz zwischen den Gruppen (SSB) plus Varianz innerhalb der Faktorstufen (SSW) + Fehler (SSE).
SB
F =M
M SE , also mittlere Varianz zw. den Gruppen durch mittl. Varianz innerhalb der Gruppen.
Bestimmtheitsmass: R2 := SSB/SST
• Der F-Test in der Varianzanalyse ist robust.
• Verlangt aber auch Varianzhomogenität, jedoch sind Abweichungen nicht so schwerwiegend
• Bei versch. Varianzen: Welch-Modikation
• Gibt auch hier Test auf Varianzhomogenität: Levene, BF
R
XXX
anova.lm
anova.glm
In R gibt es diese HOV Tests
bartlett.test(stats)
fligner.test(stats)
4.4.2 Vergleich von
k
Bartlett Test of Homogeneity of Variances
Fligner-Killeen Test of Homogeneity of
verbundenen Stichproben
Varianz innerhalb der Gruppen, Varianz ziwschen den Gruppen: Quadratsummen Chisq-verteilt und
unabhaengig
F = c ∗ SSB/SST (summed square between / summed square total)
χ2
= χ2k−1 , N ist gesamtstichprobenumfang
N −k
-> aov, anova
4.5 Anpassungstests
Ab S. 294
Klassische Test- und Schätzverfahren sind meist unter der Normalverteilungsannahme konzipiert. Gilt
diese überhaupt?
Sei (X1 , ..., Xn ) eine unabhängige Stichprobe, Xi ∼ F, F unbekannt.
1. Anpassungstest auf eine spezizierte Verteilung:
19
H 0 : F = F0
abhängt.
gegen
H1 : F 6= F0 , wobei F i.A. von unbekannten Parametern
2. Anpassungstest auf Normalverteilung:
H0 : F (x) = Φ( x−µ
σ )(µ, σ unbekannt)
H1 : F (x) 6= Φ( x−µ
σ )∀µ, σ, σ > 0
4.5.1 Auf der empirischen Verteilungsfunktion beruhende Tests
Seien X(1) ≤ ... ≤ X(n) die geordneten Beobachtungen. Die Funktion

 0 x, X(1)
i
X(i) ≤ x < X(i+1) i = 1...n
Fn (x) =
 n
1 X(n) ≤ x
heisst empirische Verteilungsfunktion.
Satz von Glivenko-Cantelli: Fn (x) → F (x), Hauptsatz der mathematischen Statistik.
R
e <- ecdf(rnorm(100))
plot(e, verticals=T, do.points=F)
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(rnorm(100))
−3
−2
−1
0
1
2
3
x
1.
Kolmogorov-Smirnov-Test
D
= sup x |Fn (x) − F0 (x)|
= max max i ( ni − U(i) ), max i (U(i) −
20
i−1
n )
2.
Cramer-von-Mises-Test
W − sq
= n
R∞
(Fn (x) − F0 (x))2 dF0 (x)
−∞
=
3.
1
12n
+
n
P
(U(i) −
i=1
2i−1 2
2n )
Anderson-Darling-Test
A − sq
= n
R∞
(Fn (x)−F0 (x))2
dF (x)
F0 (x)(1 − F0 (x)) 0
{z
}
|
n
P
= −n − n1
(2i − 1)(ln U(i) + ln(1 − Un+1−i ))
−∞
i=1
U(i) = F0 (X(i) ),
X(1) ≤ ... ≤ X(n)
D ∼ Dn ist Kolmogorov-verteilt. D wird approximiert. Für endliche Stichproben werden Modikationen
verwendet (S. 303)
R
library(nortest)
x <- rnorm(100) ##
ks.test(x)
## einstichproben test default, normalverteilung
ks.test(x, 'pnorm') ## einstichproben test mit gegebener verteilungsfunktion
ks.test(x, y) ## zweistichproben test: entstammen beide stichproben einer
## population mit gemeinsamer Verteilung?
## siehe auch: lillie.test
###
cvm.test(x)
## aus nortest
ad.test(x)
## aus nortest
shapiro.test(x) ## aus stat
sf.test(x)
## aus nortest
4.5.2 Shapiro-Wilk-Test
Ab. S.304, Sachs S.341
Kurze Version: Die Teststatistik Ŵ ist der Quotient aus zwei Schätzungen für σ 2 : das Quadrat
einer kleinsten Fehlerquadratschätzung für die Steigung einer Regressionsgeraden im QQ-Plot und die
Stichprobenvarianz. Im Fall einer Normalverteilung sollte der Quotient nahe bei 1 liegen.
n
2
P
ai x(i)
i=1
Ŵ = P
n
(xi − x)2
i=1
x(i) sind die geordneten Beobachtungen, ai sind konstante Werte (Tabelle).
Lange Version: XXX
21
• Shapiro-Wilk-Test hat (für kleine, mittlere und grössere Stichprobenumfänge) die höchste Güte
der angeführten Tests.
• Früher meist verwendet: χ2 -Anpassungstest. Hat geringe Güte.
• W ist etwas besser als A − sq , besser als W − sq und viel besser als D und χ2
• D erst ab Stichprobenumfängen n ≥ 2000 zu empfehlen.
• Signikanzniveau sollte auf α = 0.01 hochgesetzt werden, besonders bei weniger robusten Tests.
4.5.3
χ2 -Anpassungstest
(Pearson)
Daten werden in p Klassen eingeteilt.
• Klassenhäugkeiten: Ni
• theoretische Häugkeiten: npi
X2 =
p
X
(Ni − npi )2
i=1
npi
Dann ist
• X 2 ∼ χ2p−1 asymptotisch verteilt (bei bekannten µ, σ 2 ), (Fisher 1922)
• X 2 ∼ χ2p−3 approximativ (bei zu schätzenden Parametern, ML-Schäztung mit gruppierten Daten
oder Minimum χ2 -Schätzung).
Nachteile:
• Wert von X 2 abhängig von Klasseinteilung
• Geringe Güte
R
x <- rnorm(100)
chisq.test(x)
## oder
erbsen <- c(rep(1, 315), rep(2, 108), rep(3, 101), rep(4, 32));
chisq.test(table(erbsen)[], p=c(9,3,3,1), rescale.p=T)
## ...
22
4.6 Nicht-parametrische Tests
Analoga zu bereits behandelten parametrischen Tests.
1. Einstichprobenproblem, verbundene Stichproben: Vorzeichen-Test (Sign-Test), Vorzeichen-WilcoxonTest (Signed-Rank-Test)
2. Zwei unverbundene Stichproben: Wilcoxon-Test
3. Mehrere unabhängige Stichproben: Kruskal-Wallis-Test
4. Mehrere verbundene Stichproben: Friedman-Test
• Wenn keine Normalverteilung vorliegt: Verwendung von nicht-parametrischen Tests.
• Diese verwenden keine Parameterschätzungen
• Halten das Signikanzniveau (α) für jede stetige Verteilung ein, sind also unabhängig von der
zugrundeliegenden Verteilung.
• relativ ezient
• Annahme: stetige Verteilungsfunktion
4.6.1 Einstichprobenproblem
Hypothesen wie bei t-Test.
Es werden die Dierenzen Xi − µ0 gebildet.
1
Vi :=
0
Vorzeichentest
V+ =
n
P
fallsXi
fallsXi
− µ0 > 0
− µ0 < 0
Vi =# der Dierenzen mit positiven Vorzeichen.
i=1
Der Fall Xi − µ0 = 0 kommt wegen Stetigkeit der Vtlgs.fkt. nur mit Wkt. 0 vor, falls doch wird die
Beobachtung als Messungenauigkeit verworfen. Nachteil: Gerade Beobachtungen die für H0 sprechen
werden nicht berücksichtigt.
Es gilt: V + ∼ Bi(n, 21 )
Kritische Werte können daher leicht bestimmt werden:
Bi(1 − α, n, 1/2)
R
library(BSDA)
x <- rnorm(100)
y <- rnorm(100, 1, 1)
sign.test(x)
sign.test(y, md=1)
23
Wilcoxon-Vorzeichen-Test
Bilden neue Beobachtungen Di = |Xi − µ0 |, zu diesen dann die
Rangzahlen, d.h. den Rang in der geordneten Stichprobe:
D(1)
↓
≤ ...
... ≤
Rang 1
R(1) = 1
D(n)
↑
Rang n
R(n) = n
Sei Ri+ der Rang von Di :
Wn+ =
n
X
Ri+ · Vi =
i=1
Summe der Ränge von Di für die Xi − µ0 > 0
Berechnen E0 Wn+ und var(Wn+ ).
Es gilt: Wn+ ∼ N (EWn+ , var(Wn+ )) asympt.
XXX: Siehe Test_IQ_Daten.sas
R
x <- rexp(100)
wilcox.test(x, mu=0)
4.6.2 Zweistichprobenproblem
Zwei verbundene Stichproben Bilden Z := X − Y
und testen wie gehabt z.B.
H0 : µZ = 0
HA : µZ 6= 0
Beispiele: Banknote, Darwin
R
x <- rexp(100)
y <- rexp(100)
wilcox.test(x, y, paired=T)
Zwei unverbundene Stichproben Hypothesen wie gehabt: H0 : µ1 = µ2 resp. ≤, ≥
Die Beobachtungen X11 , ..., X1n , X21 , ..., X2n werden zu einer Stichprobe zusammengefasst und den
Elementen dieser Rangzahlen zugeordnet:
z(1) ≤ ... ≤ z(n+m)
Seien nun Rij die Rangzahlen zu xij , wobei i = 1, 2; j = 1, ...n, dann ist
S=
n
P
Rij = Summe der Ränge die zur ersten Stichprobe gehören.
j=1
Unter H0 gilt:
Z = √S−ES ist näherungsweise N (0, 1) verteilt.
var(S)
24
R
x <- rexp(100)
y <- rexp(100)
wilcox.test(x, y)
4.6.3 Mehrere Stichproben
Unverbunden Modell: Yij = µi + ij , ij ∼ N (0, σ2 ),
j = 1, ..., n,
i = 1, ..., k
H0 : µ1 = ... = µk
HA : ∃(µi1 , µi2 ) µi1 6= µi2
Wir fassen alle Beobachtungen
X11 , ..., X1n1 , ..., Xk1 , ..., Xknk
zusammen und bilden die Rangzahlen Rij , i = 1...k, j = 1, ..., ni
Mit den Rangzahlen führen wir eine einfaktorielle VA durch: Kruskal-Wallis-Test
k
P
KW =
mit
Ti =
(Ti − E0 (Ti ))2 · ni
i=1
S2
1 X
j = 1ni Rij
ni
die mittlere Rangsumme der i-ten Gruppe (vgl. Y i aus der VA).
E0 Ti = N2+1
Pk
N = i=1 ni Gesamtstichprobenumfang
+1)
S 2 = N ·(N
· (N − 1)
12
KW ∼ χ2k−1 (asympt.)
H0 ablehnen falls p-Wert < α.
R
x <- rexp(100)
y <- rexp(100)
z <- rexp(100)
kruskal.test(x, y, z)
• Bei Bindungen erfolgt Korrektur, Mittel der Rangzahlen
• relativ ezient
25
Verbundene Stichproben
Friedman-Test: Modell: Yij = µ + αi + βi + ij
ij ∼ N (0, σ 2 ), j = 1...k, i = 1...n
H0 : β1 = ... = βk (= 0)
HA : ∃(j1 , j2 ) : βj1 6= βj2
Ränge werden zeilenweise gebildet:
Y1(1) ≤ ... ≤ Y1(k) ,
Rij der Rang von Yij in der i-ten Zeile.
Tabelle: S.340
Fk =
n2
Pk
R1(1) = 1, ...
j=1 (R.j
− E(R.j ))2
n · k(k + 1)/12
Pn
R.j =
i=1 Rij Spaltenmittel der j-ten Spalte
1 n(k+1)
ER.j = n 2 = k+1
2
Unter H0 : Fk ∼ χ2k−1 (asympt.), H0 ablehnen falls Fk > χ21−α,k−1 bzw. p-value < α.
1
n
R
x <- rexp(100)
y <- rexp(100)
z <- rexp(100)
friedman.test(x, y, z)
4.7 Korrelation und Unabhängigkeit
Die Zufallsvariablen X1 , ..., XN heissen unabhängig falls für alle x1 , ..., xN ∈ R gilt:
P (X1 < x1 , ..., XN < xN ) = P (X1 < x1 ) · ... · P (XN < xN )
Die Zufallsvariablen X1 , ..., XN heissen unkorreliert falls:
E(X1 · · · XN ) = E(X1 ) · cdotcdotE(XN )
Aus Unabhängigkeit folgt Unkorreliertheit aber die Umkehrung gilt nicht.
Aus Xi ∼ N (µ, σ 2 ) folgt Unabhängigkeit und Unkorreliertheit.
4.7.1 Korrelationstest
Zwei Fälle
1. Stetige (metrische) Merkmale Mit rXY Pearsonscher Korrelationskoezient ist
T =
√
N −2· p
Also t-Test anwendbar.
26
rXY
2
1 − rXY
∼ tN −2
2. Ordinal oder Nominal skalierte Merkmale Z.B. Länge - Breite, Geschlecht - Studienfach, Studiengang - Note, Geburtsmontat - IQ H0 : pij = pi. · p.j , i = 1, ..., m; j = 1, ..., l HA : pij 6= pi. · p.j
für ein Paar (i, j). Also H0 : X, Y sind unabhängig. Berechnen einer Teststatistik QP die
χ2 -verteilt ist mit (m − 1) · (l − 1) Freiheitsgraden. Das ist der χ2 -Unabhängigkeitstest.
rangtest: spearman, kendall
Autokorrelationstest Durbin-Watson
4.8 Test auf Unabhängigkeit
χ2 -Unabhängigkeitstest, siehe oben.
Phi-Koezient
Run-Test
4.9 Lineare Regression
4.9.1 Einfache Lineare Regression
Yi = θ0 + θ1 Xi + i
i ∼ (0, σ 2 ), auch oft β statt θ.
θ̂1 =
SXY
2
SX
X
1 X
(
Yi − θ̂1
Xi )
n
Lösung einer Minimumsaufgabe (S. 358)
θ̂0 =
4.9.2 Multiple Lineare Regression
S. 359
Modell:
4.9.3 Residualanalyse
Residuen auf NV testen. S. 370
R
skull <- read.table('../daten/skull.dat');
names(skull) <- c('Group','MB','BH','BL','NH')
attach(skull)
## verwende multiple lineare regression, modellgleichung:
f <- MB ~ BL + BH + NH
model <- lm(f, subset=Group==1)
plot(residuals(model)); abline(0, 0, col=2, lty=2);
27
4.10 Zufallszahlen
Erzeugung von gleichverteilten Zufallsvariablen.
Beliebige Verteilungen:
• stetig: anwenden der Quantilfunktion F −1 (UI ) auf eine gleichverteilte ZV.
• diskret: zerteilen des Intervalls (0, 1) in entsprechende grosse Teile. Länge des Intervalls ist die
Wahrscheinlichkeit. Je nach Wert von Ui entsprechend zugeordnet diskreter Wert.
Siehe S. 400 sowie [projects/uni3 /informatik/SfI/Pruefung/pruefung.vorbereitung.tex]
4.11 Clusteranalyse
Ziel: Zusammenfassen von ähnlichen Objekten zu Gruppen (Clustern). Unähnliche Objekte sollen in
verschiedene Cluster. Cluster sind vorher nicht bekannt.
Es gibt zu unterscheiden:
• partionierende Clusteranalyse: Zahl der Cluster ist vorgegeben
• hierarchische Clusteranalyse
• Fuzzy Clusteranalyse: Zugehörigkeit eines Datenpunktes zu einem Cluster als Fuzzy-Wert
Für Ähnlichkeit eintscheidend: Denition des Abstandsmasses, wobei p : # Merkmale
• Euklidischer Abstand
d2E (x, y) =
p
X
(xi − yi )2
i=1
• City-Block / Manhattan-Abstand
dC (x, y) =
p
X
|xi − yi |
i=1
• Tschebysche-Abstand
dT (x, y) =
max
|xi − yi |
i
Agglomerative Verfahren: Jede Beobachtung ist ein Cluster, dann immer die zwei ähnlichsten Cluster
zusammenfassen, bis es nurmehr ein Cluster gibt.
Die Methoden unterscheiden sich durch die Denitionen der Abstände D(Ci , Cj ) zwischen Clustern
Ci und Cj .
• Single Linkage
DS (Ci , Cj ) = min{d(k, l), k ∈ Ci , l ∈ Cj }
3 index.pdf
28
• Complete Linkage
DC (Ci , Cj ) = max{d(k, l), k ∈ Ci , l ∈ Cj }
• Centroid
DCE (Ci , Cj ) = d(Xi , Yi ), Abstände der Schwerpunkte
• Average Linkage
DA (Ci , Cj ) =
1
ni nj
X
d(k, l)
k∈Ci ,l∈Cj
• Ward: Anova Abstände innerhalb der CLuster minimieren, nach Umrechnen erhält man
DW (Ci , Cj ) =
ni nj
DCE (Ci , Cj )
ni + nj
4.11.1 R
df <- data.frame(X=c(1,2,3), Y=c(4,5,6), method='euclidean')
## dist
hc <- hclust(dist(df), method='complete')
memb <- cutree(hc, k=3)
df[memb=1:3]
### oder
agnes(df)
5
TODO
• ein- und zwei-faktorielle Varianzanalyse
• nicht-parametrische Tests
• Kondenzbereiche
• ein paar praktische Experimente: check uebungen, check astrostat tutorials, check gulli etc data
6
Literatur
1. W. Kössler: Folien zur Vorlesung Werkzeuge der empirischen Forschung SS06, SS07, http:
//www2.informatik.hu-berlin.de/~koessler/
2. L. Sachs: Angewandte Statistik mit Beispiel in R, Springer 2006
3. http://astrostatistics.psu.edu/su07/R/
4. R Online Documentation
29
Herunterladen