SS07 WeF Zusammenfassung Oswald Berthold April 11, 2008 Contents 1 2 3 Allgemeines Basiskommandos in R 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Dateien lesen / schreiben . . . . . . Ausgabe . . . . . . . . . . . . . . . Matrix und data.frame Manipulation Grak . . . . . . . . . . . . . . . . Regression . . . . . . . . . . . . . . Hypothesentests . . . . . . . . . . . Diverses . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schätzungen . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Eigenschaften von Schätzungen θ̂ . . . . . . . 3.1.2 Schätzmethoden: . . . . . . . . . . . . . . . . 3.1.3 Lageschätzungen . . . . . . . . . . . . . . . . 3.1.4 Skalenschätzungen / Streuungsmasse . . . . . 3.1.5 Formmasse . . . . . . . . . . . . . . . . . . . . Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 R . . . . . . . . . . . . . . . . . . . . . . . . . Stamm- und Blatt Diagramme (Stemplot) . . . . . . . 3.3.1 R . . . . . . . . . . . . . . . . . . . . . . . . . Q-Q-Plot . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 R . . . . . . . . . . . . . . . . . . . . . . . . . Häugkeitstabellen . . . . . . . . . . . . . . . . . . . 3.5.1 Eindimensionale Zufallsvariable . . . . . . . . . 3.5.2 Zweidimensionale Zufallsvariablen . . . . . . . 3.5.3 R . . . . . . . . . . . . . . . . . . . . . . . . . Histogramme und Dichteschätzung . . . . . . . . . . . 3.6.1 R . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhangsmasse . . . . . . . . . . . . . . . . . 3.7.1 Scatterplots . . . . . . . . . . . . . . . . . . . 3.7.2 Kovarianz, Korrelation, Korrelationskoezienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beschreibende Statistik 3.1 3.2 3.3 3.4 3.5 3.6 3.7 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 3 4 4 5 5 5 5 5 6 6 7 8 8 8 9 9 9 9 9 9 10 10 10 10 10 11 3.8 3.9 4 Regressionsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schliessende Statistik 4.1 4.2 4.3 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Einstichprobenproblem . . . . . . . . . . . . . . . . . . 4.3.2 Zweistichprobenproblem . . . . . . . . . . . . . . . . . . 4.3.3 Skalentests . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Voraussetzungen für die Anwendung des T-Tests . . . . 4.4 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Vergleich von k unabhängigen Gruppen . . . . . . . . . 4.4.2 Vergleich von k verbundenen Stichproben . . . . . . . . 4.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Auf der empirischen Verteilungsfunktion beruhende Tests 4.5.2 Shapiro-Wilk-Test . . . . . . . . . . . . . . . . . . . . . 4.5.3 χ2 -Anpassungstest (Pearson) . . . . . . . . . . . . . . . 4.6 Nicht-parametrische Tests . . . . . . . . . . . . . . . . . . . . . 4.6.1 Einstichprobenproblem . . . . . . . . . . . . . . . . . . 4.6.2 Zweistichprobenproblem . . . . . . . . . . . . . . . . . . 4.6.3 Mehrere Stichproben . . . . . . . . . . . . . . . . . . . 4.7 Korrelation und Unabhängigkeit . . . . . . . . . . . . . . . . . . 4.7.1 Korrelationstest . . . . . . . . . . . . . . . . . . . . . . 4.8 Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . 4.9 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.1 Einfache Lineare Regression . . . . . . . . . . . . . . . . 4.9.2 Multiple Lineare Regression . . . . . . . . . . . . . . . . 4.9.3 Residualanalyse . . . . . . . . . . . . . . . . . . . . . . 4.10 Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 14 15 15 15 16 17 17 17 18 18 18 18 19 20 21 22 22 23 24 25 25 26 26 26 26 26 27 27 28 5 TODO 28 6 Literatur 28 2 Index1 - SS07_WeF2 1 Allgemeines Dies ist meine prüfungsvorbereitende Zusammenfassung der Vorlesung Werkzeuge der empirischen Forschung von PD Dr. Wolfgang Kössler im SS07. Seitenzahlen beziehen sich auf die Folien zur Vorlesung WeF SS06 von W. Kössler, Institut f. Informatik der Humboldt Universität zu Berlin. 2 Basiskommandos in R 2.1 Dateien lesen / schreiben ## Datei ansehen file.show('pfad/zur/datei.dat') ## datei als zeilenvektor einlesen, danach 'reformatieren' scan('pfad/zur/datei.dat') ## falls es das format erlaubt gleich als datenframe einlesen read.table('pfad/zur/datei') 2.2 Ausgabe cat print dev.print(postscript, file='...') 2.3 Matrix und data.frame Manipulation ## basics A <- matrix(seq(1, 9), 3, 3) B <- matrix(seq(1, 9), 3, 3, byrow=T) ## dimensionen eines arrays / einer matrix dim(A) ## indizierung A[1] A[1,] A[,1] ## filtern A[1,c(T, F, F)] A[1,A[1,]>2] ## subset subset(dataframe, select=c(spalte1,spalte2,...)) subset(dataframe, select=-c(spalte1,spalte2,...)) 1 index.pdf 2 SS07_WeF.pdf 3 ## operationen apply(daten, spaltenweise(1)/zeilenweise(2), function) colSums(A) colMeans(A) rowSums(B) rowMeans(B) ## sortieren order sort rank [] ## zusammenfuegen merge cbind rbind ## kontingenz-tafel / contingency oder frequency table table(x) ## fuer stetige ZVs empfiehlt sich vorher ein cut(x, breaks(anzahl der klasseneinteilungen)) ## datenframe umbauen, auch neue spalten koennen angegeben werden transform(df, spaltename=transformationsfunktion, spltn=tf, ...) ## faktor / gruppeneinteilung f <- factor(x) levels(f) ## generate levels gl() ## differenz zweier zahlen diff(c(a, b)) ## stichprobenfunktion sample(daten, laenge, replace=F) 2.4 Grak ## scatterplot plot(...) ## adding stuff points abline(from, to) abline(v=0) abline(h=0) lines(x, y, ...) spline(...) smooth.spline(...) legend(x, y, text, pch text(x, y, ... boxplot(vector1, vec2, vec3, ..., parms, names=c(...), boxwex 4 ## boxplot formelinterface boxplot(wert ~ gruppe, ... ## multiple plots in einem fenster layout(matrix(1:6, 3, 2)) ## 6 felder, 3 zeilen, 2 spalten par(mfrow=c(nr, nc)) ## aequivalent ## stamm-blatt diagramm stem(x) ## histogram hist(x, anzahl-bins, .., plot=T|F) ## qq-plot qqnorm(x) qqline() 2.5 Regression lm(y ~ x, data=...) glm nls(y ~ a + b * x + c * x^2 ..., data=, start=list(a=1,b=1,...)) coef formula() residuals() ## um model fit zu plotten predict(model) ## nur predict.lm() kann konfidenz-intervall und vorhersage-intervall berechnen predict(y~x, interval='c') 2.6 Hypothesentests ## t-Test: 1-sample, t.test() library(BSDA); sign.test() wilcox.test() ## Varianzvergleich var.test() levene.test() ## korrelation / unabhängigkeit cor.test() chisq.test() summary(table(...)) ## fuehrt chi-quadrat test auf unabhaengigkeit aus ## mehrstichproben mittelwertsvergleich aov(wert ~ gruppe, data=dataframe) ## mehrere stichproben in einem vektor, ## mit gruppenvariable gekennzeichnet anova(lm(wert ~ gruppe, data=dataframe)) ## wie aov ## Anpassungstest 5 2.7 Diverses ecdf(daten) ## empirsche verteilungsfunktion plot(ecdf(daten), verticals=T, do.p=F) ## schoenere darstellung 3 Beschreibende Statistik 3.1 Schätzungen 3.1.1 Eigenschaften von Schätzungen θ̂ Ab S. 119 Sei θ̂ = θ̂(X1 , ..., Xn ) eine Schätzung des Parameters θ die auf n Beobachten beruht. • θ̂n →n→∞ θ, Konsistenz, Minimalforderung • E θ̂n = θ, Erwartungstreue bzw. asymptotische Erwartungstreue • varθ̂n • wenn möglichst klein: gute, eziente Schätzung varθ̂n kleinstmöglich dann ist θ̂n optimale Schätzung • MSE (mean squared error) soll minimal sein: M SE = varθ̂n + bias2 θ̂n = varθ̂n + (E θ̂n − θ)2 • Eigenschaften sollen auch bei Abweichungen von der Normalvtlg. gelten: robuste Schätzung. Cramer-Rao Schranke, Fisher-Information S. 121128 Sei θ̂ = θn eine erwartungstreue Schätzung von θ. Dann gilt die Cramer-Rao Ungleichung: var(θ̂) ≥ mit I(f, θ) = E die 1 nI(f, θ)0 ∂lnf (x, θ) ∂θ 2 Fisher-Information. 3.1.2 Schätzmethoden: • Momentemethode: wahre Momente werden durch empirische Momente ersetzt. • Maximum-Likelihood Methode: Aufstellen der Likelihood-Funktion L(X1 , ..., Xn , a, b, ...) als gemeinsame Dichte der Stichprobe X = (X1 , ..., Xn ). Dann wird logL(...) maximiert. • Kleinste-Quadrat-Schätzung: . . . 6 3.1.3 Lageschätzungen Ab S. 111 1. Mittelwert: X= X →n→∞ EX 1 n Σ Xi n i=1 Gesetz der grossen Zahlen Unter der Voraussetzung dass der Erwartungswert existiert. Der Mittelwert ist meist ein gute Schätzung aber nicht robust. 2. Quantile: α-Quantil xα : mindestens α · n der Werte (x1 , ..., xn ) sind kleiner oder gleich xα , mindestens (1 − α) · n der Werte (x1 , ..., xn ) sind grösser oder gleich xα . 3. Median: ist das 0.5-Quantil x0.5 . Der Median ist robust aber meist nicht so gut. 4. Quartile: heissen die 0.25- und 0.75-Quantile x0.25 und x0.75 5. Modalwert: Häugster Wert falls diskrete ZV, Wert mit grösster Dichte falls stetige ZV. 6. Getrimmtes Mittel: (Ausreisserschutz) Sei α ∈ [0, 21 ). X α := X(bn·αc+1) +...+X(n−bn·αc) n−2bn·αc 7. Winsorisiertes Mittel: Sei α ∈ [0, 12 und n1 := bn · αc + 1. Dann heisst X α,ω := n1 X(n1 ) + X(n1 +1) + ... + X(n−n1 ) + n1 X(n−n1 +1) n α-winsorisiertes Mittel. Die jeweils bn·αc kleinsten und grössten Werte werden herangeschoben und dann das arithmetische Mittel gebildet. α : 0.1, ..., 0.2. 3.1.4 Skalenschätzungen / Streuungsmasse Ab S. 129 1. Varianz: n s2 = 1 X (xi − X)2 n − 1 i=1 s2 →n→∞ var(X). Division durch n − 1: Erwartungstreue 2. Standardabweichung: √ s= s2 3. Spannweite / Range: Range = X(n) − X(1) 4. (Inter-)Quartilsabstand: IR = sF = x0.75 − x0.25 7 5. Mittlere absolute Abweichung vom Median: n 1X d= |xi − x0.5 | n i=1 6. Median aboslute Abweichung vom Median (MAD): M AD = med(|xi − x0.5 |) 7. Variationskoezient: CV = 8. Gini's Mean Dierence: G= s · 100 X 1 X |xi − xj | n 2 i<j G ist mässig robust aber ezient. 9. Sn = 1.1926 · medi ()medj (|xi − xj |) Qn = 2.219 · {|xi − xj |, i < j}(k) Bei X ∼ N ⇒ Skalierungsfaktoren fuer IR, MAD, G nach sigma. • Varianz, Standardabweichung und Spannweite sind nicht robust. • Quartilsabstand und MAD sind robust, MAD etwas besser. • G ist bedingt robust, ezient bei F normal. • MAD ist wenig ezient • Sn oder Qn sind am geeignetsten. 3.1.5 Formmasse • Schiefe (skewness): Theoretische Schiefe X − EX p var(X) β1 = E Empirische Schiefe n 1X β̂1 = n i=1 !3 Xi − X s 3 β1 : gleich 0 F symmetrisch, kleiner 0 linksschief, grösser 0 rechtsschief 8 • Wölbung (kurtosis) Theoretische Wölbung X − EX p var(X) β2 = E Empirische Wölbung n β̂2 = 1X n i=1 !4 Xi − X s −3 4 −3 3.2 Boxplots Schematische und skeletale Boxplots. Von oben nach unten: Schematisch: • Ausreisser • x0.75 + 1.5 · IR • x0.75 • Empirisches Mittel (+) • x0.5 • x0.25 • x0.25 − 1.5 · IR Skeletal: • Max • Wie schematisch • Min 3.2.1 R boxplot(x, y, args...) 3.3 Stamm- und Blatt Diagramme (Stemplot) Ähnlich dem Histogramm 1. 1. Stelle in 10er Darstellung: Stamm 2. 2. Stelle in 10er Darstellung: Blätter, Zier wird explizit angegeben, Verfeinerung des Balkendiagramms 9 3.3.1 R stem(runif(10)) 3.4 Q-Q-Plot Es werden die Quantile der Normalverteilung und die Quantile der empirischen Verteilung, also die Punkte (Φ−1 (α), xα ) gegeneinander geplottet, falls F ∼ N (µ, σ sollten die Punkte in etwa auf einer Geraden liegen. 3.4.1 R x <- rnorm(100) qqnorm(x) qqline(x) 3.5 Häugkeitstabellen Chart, eigentlich wie Histogramm. Vertikal und horizontal. 3.5.1 Eindimensionale Zufallsvariable X: x0 p0 x1 p1 ... xn ... pn ... ... Die pi sind zu schätzen: ni N mit N Stichprobenumfang, ni : relative Häugkeiten. p̂i = 3.5.2 Zweidimensionale Zufallsvariablen Das Paar (X, Y ) heisst zweidimensionale ZV. Seien X und Y diskret und (xi , yi ) die möglichen Ergebnisse von (X, Y ). pij = P (X = xi , Y = yi ) i = 1, ..., M, j = 1, ..., N heisst gemeinsame Wahrscheinlichkeitsfunktion von (X, Y ). Eigenschaften pij ≥ 0 X pij = 1 i,j pi. := N X pij j=1 p.j := M X i=1 10 pij Z.B. Rauchverhalten 0,1 und Geschlecht m,w. Die Tabelle der Häugkeiten heisst Kontingenztafel. Def.: X und Y heissen unabhängig genau dann wenn pij = pi. · p.j (strip.chart, barchart) 3.5.3 R x <- rnorm(100) hist(x) x <- floor(runif(100, 0, 3)) y <- floor(runif(100, 0, 3)) table(cbind(x,y)) 3.6 Histogramme und Dichteschätzung Histogramm oder auch Zähldichte. Überlagerung des Histogramms mit einer glatten Dichtefunktion: Dichteschätzung mittels Kernfunktion. Seien x1 , ..., xn die Beobachtungen und sei K(t) eine sogenannte Kernfunktion sowie R R =0 R 2 K(t)dt = 1 R tK(t)dt t K(t)dt = 1 K 2 (t)dt < ∞ und h ein sogen. Glättungsparameter, dann heisst n x − xi 1X1 K( ) fˆ(x) = n i=1 h h Dichteschätzung oder Dichtefunktionsschätzung. 3.6.1 R x -> rnorm(100) hist(x, freq=F) lines(density(x)) 3.7 Zusammenhangsmasse 3.7.1 Scatterplots Zweidimensionale Stichproben können als Punkte in der Ebene (Punktwolke) dargestellt werden: Scatterplot. 11 3.7.2 Kovarianz, Korrelation, Korrelationskoezienten Seinen X, Y Zufallsvariablen. Varianz: var(X) = E(X − EX)2 = E[(X − EX)(X − EX)] = EX 2 − E 2 X Denition: Kovarianz Cov(X, Y ) := E[(X − EX)(Y − EY )] = XXX Denition: Korrelation Corr(X, Y ) := Empirische Varianz: E[(X − EX)(Y − EY )] p var(X) · var(Y ) n s2X := 1 X (Xi − X)(Xi − X) n − 1 i=1 Empirische Kovarianz: n s2XY := 1 X (Xi − X)(Yi − Y ) n − 1 i=1 Normierung: sX , sY : empirische Standardabw. von X, Y . 1. Pearsonscher (empirischer) Korrelationskoezient: rXY := sXY sX sY • Es gilt: −1 ≤ rXY ≤ 1 • Der Korrelationskoeezient ist invariant gegenüber linearen Transformationen: x → a + bx • |rXY | = 1 gdw. alle Punkte auf einer Geraden liegen, y = mx + b, m 6= 0 • Korrelationskoezient ist ein Mass für die ineare Abhängigkeit von X und Y . • rXY = 0 heisst: keine lineare Abhängigkeit, andere Abhängigkeiten sind aber durchaus möglich. 2. Spearman Rangkorrelationskoezient Pn (Ri − R)(Si − S) rS = pP i=1 P 2 2 i (Ri − R) i (Si − S) Ri =Rang von Xi in der geordneten Stichprobe X(1) ≤ ... ≤ X(n) Si =Rang von Yi in der geordneten Stichprobe Y(1) ≤ ... ≤ Y(n) rS ist auch für ordinale Merkmale geeignet, die X1 , ..., Xn ; Y1 , ..., Yn werden sersetzt durch Rangzahlen Xi → RXi = Ri 12 Yi → RYi = Si Dann ist RXi = 1 falls Xi = min(Xi , ..., Xn ), RXi = n falls Xi = max(Xi , ..., Xn ) 3. Kendalls Konkordanzkoezient (Xi , Yi ), i = 1, ..., n 1 falls xi < xj ∧ yi < yj oder xi > xj ∧ yi > yj −1 falls xi < xj ∧ yi > yj oder xi > xj ∧ yi < yj = sgn[(Xi − Xj )(Yi − Yj )] aij = 0 sonst. Falls aij = 1 aij = −1 aij = 0 Paar heisst konkordant. Paar heisst diskordant. Paar heisst gebunden. Kendalls Konkordanzkoezient τ : τ = = = P 2· i<j aij N ·(N P −1) 1 · i<j aij N (2) # konkordanter Paare−# diskordanter Paare (N2 ) Vergleich Pearson - Spearman Vorteile Spearman • es genügt ordinales Messniveau • leicht zu berechnen • rS ist invariant gegenüber monotonen Transformationen • gute Interpretation, wenn rS = −1, 0, 1 (wie bei Pearson) • eignet sich als Teststatistik für Test auf Unabhängigkeit • ist robust (gegen Abweichungen von der Normalverteilung). Nachteile Spearman • wenn kardinales (stetiges) Messniveau: Informationsverlust • schwierige Interpretation wenn rS nicht nahe -1,0,1 (gilt eingeschränkt auch für Pearson). 13 3.8 Regressionsproblem S. 200, . . . Seien X, Y Zufallsvariablen (entsprechend höherdimensionaler Fall). Ein Modell ist: Y = f (X, θ1 , ..., θp ), + ∼ (0, σ 2 ) | {z } P arameter zuf.F ehler Dabei gibt es folgenden Fälle für f: • linear, bekannte Form, suchen nur Parameter • nonlinear, bekannte Form, suchen nur Parameter • unbekannt, nichtparametrische Regression Für f bekannt: Minimieren den quadratischen Erwartungswert des Fehlers zwischen Y und der Vorhersage. minθ1 ,...,θp E(Y − f (X, θ1 , ..., θp ))2 . Die θ1 , ..., θp sind unbekannt und werden anhand der Beobachten Xi , Yi geschätzt mit LSE: n minθ1 ,...,θp 1X (Y − f (X, θ1 , ..., θp ))2 n i=1 Lösung des Minimu-Problems durch Ableiten und Nullsetzen des obigen Ausdrucks, führt auf GS mit p Gleichungen. Lineare Regression führt auf Polynom, sonst auch nichtlineare Basisfunktionen (ln, Exponentialfkt., . . . ) Für f unbekannt: z.B. kubischern Spline, Kernschätzung. 3.9 Zusammenfassung Siehe Folien: S. 213 - 217 14 4 Schliessende Statistik 4.1 Hypothesentests Es werden 2 Hypothesen aufgestellt bzgl. der Parameter eines Problems. Einseitige Alternative: Einseitige Alternative: Zweiseitige Alternative: H0 : µ ≤ µ0 H0 : µ ≥ µ0 H0 : µ = µ0 HA HA HA µ > µ0 µ < µ0 µ 6= µ0 Teststatistik: |X − µ0 | √ · n S Die Teststatistik geht gegen null für n gegen unendlich wegen des Gesetzes der grossen Zahlen: X −→n→∞ EX (mit n -> unendl. geht der empirische Mittelwert gegen den wahren Mittelwert). Die Entscheidung für H0 oder HA wird anhand der Teststatistik gefällt. Zeigt der Wert von T in einen vorher bestimmten Bereich, den kritischen oder Ablehnungs-bereich wird H0 abgelehnt. Sonst wird H0 beibehalten. Die Testgrösse T ist t-verteilt mit n − 1 Freiheitsgraden wobei die n die Stichprobengrösse ist. Bei dieser Entscheidung kann man Fehlentscheidungen treen: T (X1 , ..., Xn ) = • Entscheidung für HA obwohl H0 richtig ist: Fehler 1. Art • Entscheidung für H0 obwohl HA richtig ist: Fehler 2. Art H0 richtig HA richtig Entscheidung für H0 richtig, Sicherheitswkt. 1 − α Fehler 2. Art, Fehlerwkt. 1 − β Entscheidung für HA Fehler 1. Art, Fehlerwkt. α richtig, Güte β I.a. wird α festgelegt und β maximiert. β(θ) heisst Gütefunktion 15 4.2 Gütefunktion 0.8 1.0 Gütefunktion des einseitigen Einstichproben T−Tests 0.0 0.2 0.4 Güte 0.6 | n=10 | n=20 | n=50 −2 −1 0 1 2 m | 1| ________________________ | / | | | | | | | / | | | | | / | / a|_/ = 0.05 | +----------------------------------mu0 4.3 T-Test 4.3.1 Einstichprobenproblem a) b) c) H0 : µ ≤ µ0 H0 : µ ≥ µ0 H0 : µ = µ0 16 HA HA HA µ > µ0 µ < µ0 µ 6= µ0 Teststatistik: |X − µ0 | √ · n S T (X1 , ..., Xn ) = R t.test(rnorm(10, 0, 1), mu=0, alternative='less') Dabei ist meist der Fehler 1. Art α z.B. α = 0.05, α = 0.01 d.h. Pµ0 (|T | > tkrit ) = α. α heisst Signikanzniveau. T ist eine Zufallsgrösse und besitzt eine best. Wahrscheinlichkeitsverteilung, in diesem Fall eine tVerteilung (Student's t), genauer T ∼ tn−1 . p-Wert : Die Grösse P (|T | > t) heisst p-Wert (p-value). Wenn also p ≥ α so H0 angenommen, sonst abgelehnt. Andere Interpretation: p-Wert ist Wahrscheinlichkeit der beobachteten Daten wenn H0 richtig ist. Dichtefunktion einer t-Verteilung mit ν = n − 1 Freiheitsgraden: ftν = p Γ( ν+1 2 ) ν · π · Γ( ν2 ) Verteilungsfunktion: Z · (1 + x2 ν+1 ) 2 ν x F (x) = f (t)dt −∞ Kondenzintervalle Das Intervall s s X − √ · tt− α2 ,n−1 , X + √ · tt− α2 ,n−1 n n heisst (1 − α) Kondenzintervall für den unbekannten Parameter µ. 4.3.2 Zweistichprobenproblem H1 : µ1 = 6 µ2 µ1 < µ2 µ1 > µ2 H0 : µ1 = µ2 Vergleich zweier abhängiger Gruppen Beispiele: • Gewicht einer Person zu den Zeitpunkten t1 , t2 • Banknoten: oben - unten, links - rechts R t.test(x, y, paired=T, alternative=c('two.sided', 'less', 'greater')) 17 Vergleich zweier unabhängiger Gruppen den 2 Fälle unterschieden: Seien X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ) Es wer- 1. Die Varianzen sind gleich. 2. Die Varianzen sind verschieden oder unbekannt R t.test(x, y, var.equal=T) 4.3.3 Skalentests F-Test zum Vergleich zweier Varianzen F = S12 ∼ Fn−1,m−1 S22 F-Verteilung mit (n − 1, m − 1) Freiheitsgraden (Fisher-Verteilung). F ist der Quotient zweier unabhängiger χ2 -verteilter Grössen. Robuste Skalentests Besser Skalentests: Levene-Test, Brown-Forsythe-Test: Bilden neue ZV durch Betrag der Dierenz der ZV und dem Mittelwert bzw. dem Median. Diese neue Zufallsvariable wird t-Test unterzogen. Lässt sich erweitern auf den Vergleich der Varianzen von k Stichproben. 4.3.4 R var.test(x,y) library(car) levene.test(x,y) 4.3.5 Voraussetzungen für die Anwendung des T-Tests • Normalverteilung • Varianzhomogenität Ist das Verhältnis der Varianzen bekannt (gleich, ungleich)? Es kann ein Test auf gleiche Varianzen vorgeschaltet werden: F-Test Aber: -stuger Test ist problematische bezüglich des Signikanzniveaus. • F-Test (zum Skalenvergleich) ist nicht robust. • Einstichproben t-Test ist nicht robust. • Zweistichproben t-Test etwas robuster. • Ausreisserempndlichkeit • Wenn Varianz unklar /unbekannt: unterschiedliche Varianzen annehmen. 18 4.4 Varianzanalyse 4.4.1 Vergleich von k unabhängigen Gruppen A: Faktor (Gruppenvariable) Y: anhängiges Merkmal /Responsevariable Modell: Yij = µ + αi + ij i = 1...k, j = 1...ni H0 : α1 = α2 = ... = αk H1 : αi 6= αl ( für ein i 6= l) Streuungszerlegung: Gesamtvarianz (SST) ist Varianz zwischen den Gruppen (SSB) plus Varianz innerhalb der Faktorstufen (SSW) + Fehler (SSE). SB F =M M SE , also mittlere Varianz zw. den Gruppen durch mittl. Varianz innerhalb der Gruppen. Bestimmtheitsmass: R2 := SSB/SST • Der F-Test in der Varianzanalyse ist robust. • Verlangt aber auch Varianzhomogenität, jedoch sind Abweichungen nicht so schwerwiegend • Bei versch. Varianzen: Welch-Modikation • Gibt auch hier Test auf Varianzhomogenität: Levene, BF R XXX anova.lm anova.glm In R gibt es diese HOV Tests bartlett.test(stats) fligner.test(stats) 4.4.2 Vergleich von k Bartlett Test of Homogeneity of Variances Fligner-Killeen Test of Homogeneity of verbundenen Stichproben Varianz innerhalb der Gruppen, Varianz ziwschen den Gruppen: Quadratsummen Chisq-verteilt und unabhaengig F = c ∗ SSB/SST (summed square between / summed square total) χ2 = χ2k−1 , N ist gesamtstichprobenumfang N −k -> aov, anova 4.5 Anpassungstests Ab S. 294 Klassische Test- und Schätzverfahren sind meist unter der Normalverteilungsannahme konzipiert. Gilt diese überhaupt? Sei (X1 , ..., Xn ) eine unabhängige Stichprobe, Xi ∼ F, F unbekannt. 1. Anpassungstest auf eine spezizierte Verteilung: 19 H 0 : F = F0 abhängt. gegen H1 : F 6= F0 , wobei F i.A. von unbekannten Parametern 2. Anpassungstest auf Normalverteilung: H0 : F (x) = Φ( x−µ σ )(µ, σ unbekannt) H1 : F (x) 6= Φ( x−µ σ )∀µ, σ, σ > 0 4.5.1 Auf der empirischen Verteilungsfunktion beruhende Tests Seien X(1) ≤ ... ≤ X(n) die geordneten Beobachtungen. Die Funktion 0 x, X(1) i X(i) ≤ x < X(i+1) i = 1...n Fn (x) = n 1 X(n) ≤ x heisst empirische Verteilungsfunktion. Satz von Glivenko-Cantelli: Fn (x) → F (x), Hauptsatz der mathematischen Statistik. R e <- ecdf(rnorm(100)) plot(e, verticals=T, do.points=F) 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 ecdf(rnorm(100)) −3 −2 −1 0 1 2 3 x 1. Kolmogorov-Smirnov-Test D = sup x |Fn (x) − F0 (x)| = max max i ( ni − U(i) ), max i (U(i) − 20 i−1 n ) 2. Cramer-von-Mises-Test W − sq = n R∞ (Fn (x) − F0 (x))2 dF0 (x) −∞ = 3. 1 12n + n P (U(i) − i=1 2i−1 2 2n ) Anderson-Darling-Test A − sq = n R∞ (Fn (x)−F0 (x))2 dF (x) F0 (x)(1 − F0 (x)) 0 {z } | n P = −n − n1 (2i − 1)(ln U(i) + ln(1 − Un+1−i )) −∞ i=1 U(i) = F0 (X(i) ), X(1) ≤ ... ≤ X(n) D ∼ Dn ist Kolmogorov-verteilt. D wird approximiert. Für endliche Stichproben werden Modikationen verwendet (S. 303) R library(nortest) x <- rnorm(100) ## ks.test(x) ## einstichproben test default, normalverteilung ks.test(x, 'pnorm') ## einstichproben test mit gegebener verteilungsfunktion ks.test(x, y) ## zweistichproben test: entstammen beide stichproben einer ## population mit gemeinsamer Verteilung? ## siehe auch: lillie.test ### cvm.test(x) ## aus nortest ad.test(x) ## aus nortest shapiro.test(x) ## aus stat sf.test(x) ## aus nortest 4.5.2 Shapiro-Wilk-Test Ab. S.304, Sachs S.341 Kurze Version: Die Teststatistik Ŵ ist der Quotient aus zwei Schätzungen für σ 2 : das Quadrat einer kleinsten Fehlerquadratschätzung für die Steigung einer Regressionsgeraden im QQ-Plot und die Stichprobenvarianz. Im Fall einer Normalverteilung sollte der Quotient nahe bei 1 liegen. n 2 P ai x(i) i=1 Ŵ = P n (xi − x)2 i=1 x(i) sind die geordneten Beobachtungen, ai sind konstante Werte (Tabelle). Lange Version: XXX 21 • Shapiro-Wilk-Test hat (für kleine, mittlere und grössere Stichprobenumfänge) die höchste Güte der angeführten Tests. • Früher meist verwendet: χ2 -Anpassungstest. Hat geringe Güte. • W ist etwas besser als A − sq , besser als W − sq und viel besser als D und χ2 • D erst ab Stichprobenumfängen n ≥ 2000 zu empfehlen. • Signikanzniveau sollte auf α = 0.01 hochgesetzt werden, besonders bei weniger robusten Tests. 4.5.3 χ2 -Anpassungstest (Pearson) Daten werden in p Klassen eingeteilt. • Klassenhäugkeiten: Ni • theoretische Häugkeiten: npi X2 = p X (Ni − npi )2 i=1 npi Dann ist • X 2 ∼ χ2p−1 asymptotisch verteilt (bei bekannten µ, σ 2 ), (Fisher 1922) • X 2 ∼ χ2p−3 approximativ (bei zu schätzenden Parametern, ML-Schäztung mit gruppierten Daten oder Minimum χ2 -Schätzung). Nachteile: • Wert von X 2 abhängig von Klasseinteilung • Geringe Güte R x <- rnorm(100) chisq.test(x) ## oder erbsen <- c(rep(1, 315), rep(2, 108), rep(3, 101), rep(4, 32)); chisq.test(table(erbsen)[], p=c(9,3,3,1), rescale.p=T) ## ... 22 4.6 Nicht-parametrische Tests Analoga zu bereits behandelten parametrischen Tests. 1. Einstichprobenproblem, verbundene Stichproben: Vorzeichen-Test (Sign-Test), Vorzeichen-WilcoxonTest (Signed-Rank-Test) 2. Zwei unverbundene Stichproben: Wilcoxon-Test 3. Mehrere unabhängige Stichproben: Kruskal-Wallis-Test 4. Mehrere verbundene Stichproben: Friedman-Test • Wenn keine Normalverteilung vorliegt: Verwendung von nicht-parametrischen Tests. • Diese verwenden keine Parameterschätzungen • Halten das Signikanzniveau (α) für jede stetige Verteilung ein, sind also unabhängig von der zugrundeliegenden Verteilung. • relativ ezient • Annahme: stetige Verteilungsfunktion 4.6.1 Einstichprobenproblem Hypothesen wie bei t-Test. Es werden die Dierenzen Xi − µ0 gebildet. 1 Vi := 0 Vorzeichentest V+ = n P fallsXi fallsXi − µ0 > 0 − µ0 < 0 Vi =# der Dierenzen mit positiven Vorzeichen. i=1 Der Fall Xi − µ0 = 0 kommt wegen Stetigkeit der Vtlgs.fkt. nur mit Wkt. 0 vor, falls doch wird die Beobachtung als Messungenauigkeit verworfen. Nachteil: Gerade Beobachtungen die für H0 sprechen werden nicht berücksichtigt. Es gilt: V + ∼ Bi(n, 21 ) Kritische Werte können daher leicht bestimmt werden: Bi(1 − α, n, 1/2) R library(BSDA) x <- rnorm(100) y <- rnorm(100, 1, 1) sign.test(x) sign.test(y, md=1) 23 Wilcoxon-Vorzeichen-Test Bilden neue Beobachtungen Di = |Xi − µ0 |, zu diesen dann die Rangzahlen, d.h. den Rang in der geordneten Stichprobe: D(1) ↓ ≤ ... ... ≤ Rang 1 R(1) = 1 D(n) ↑ Rang n R(n) = n Sei Ri+ der Rang von Di : Wn+ = n X Ri+ · Vi = i=1 Summe der Ränge von Di für die Xi − µ0 > 0 Berechnen E0 Wn+ und var(Wn+ ). Es gilt: Wn+ ∼ N (EWn+ , var(Wn+ )) asympt. XXX: Siehe Test_IQ_Daten.sas R x <- rexp(100) wilcox.test(x, mu=0) 4.6.2 Zweistichprobenproblem Zwei verbundene Stichproben Bilden Z := X − Y und testen wie gehabt z.B. H0 : µZ = 0 HA : µZ 6= 0 Beispiele: Banknote, Darwin R x <- rexp(100) y <- rexp(100) wilcox.test(x, y, paired=T) Zwei unverbundene Stichproben Hypothesen wie gehabt: H0 : µ1 = µ2 resp. ≤, ≥ Die Beobachtungen X11 , ..., X1n , X21 , ..., X2n werden zu einer Stichprobe zusammengefasst und den Elementen dieser Rangzahlen zugeordnet: z(1) ≤ ... ≤ z(n+m) Seien nun Rij die Rangzahlen zu xij , wobei i = 1, 2; j = 1, ...n, dann ist S= n P Rij = Summe der Ränge die zur ersten Stichprobe gehören. j=1 Unter H0 gilt: Z = √S−ES ist näherungsweise N (0, 1) verteilt. var(S) 24 R x <- rexp(100) y <- rexp(100) wilcox.test(x, y) 4.6.3 Mehrere Stichproben Unverbunden Modell: Yij = µi + ij , ij ∼ N (0, σ2 ), j = 1, ..., n, i = 1, ..., k H0 : µ1 = ... = µk HA : ∃(µi1 , µi2 ) µi1 6= µi2 Wir fassen alle Beobachtungen X11 , ..., X1n1 , ..., Xk1 , ..., Xknk zusammen und bilden die Rangzahlen Rij , i = 1...k, j = 1, ..., ni Mit den Rangzahlen führen wir eine einfaktorielle VA durch: Kruskal-Wallis-Test k P KW = mit Ti = (Ti − E0 (Ti ))2 · ni i=1 S2 1 X j = 1ni Rij ni die mittlere Rangsumme der i-ten Gruppe (vgl. Y i aus der VA). E0 Ti = N2+1 Pk N = i=1 ni Gesamtstichprobenumfang +1) S 2 = N ·(N · (N − 1) 12 KW ∼ χ2k−1 (asympt.) H0 ablehnen falls p-Wert < α. R x <- rexp(100) y <- rexp(100) z <- rexp(100) kruskal.test(x, y, z) • Bei Bindungen erfolgt Korrektur, Mittel der Rangzahlen • relativ ezient 25 Verbundene Stichproben Friedman-Test: Modell: Yij = µ + αi + βi + ij ij ∼ N (0, σ 2 ), j = 1...k, i = 1...n H0 : β1 = ... = βk (= 0) HA : ∃(j1 , j2 ) : βj1 6= βj2 Ränge werden zeilenweise gebildet: Y1(1) ≤ ... ≤ Y1(k) , Rij der Rang von Yij in der i-ten Zeile. Tabelle: S.340 Fk = n2 Pk R1(1) = 1, ... j=1 (R.j − E(R.j ))2 n · k(k + 1)/12 Pn R.j = i=1 Rij Spaltenmittel der j-ten Spalte 1 n(k+1) ER.j = n 2 = k+1 2 Unter H0 : Fk ∼ χ2k−1 (asympt.), H0 ablehnen falls Fk > χ21−α,k−1 bzw. p-value < α. 1 n R x <- rexp(100) y <- rexp(100) z <- rexp(100) friedman.test(x, y, z) 4.7 Korrelation und Unabhängigkeit Die Zufallsvariablen X1 , ..., XN heissen unabhängig falls für alle x1 , ..., xN ∈ R gilt: P (X1 < x1 , ..., XN < xN ) = P (X1 < x1 ) · ... · P (XN < xN ) Die Zufallsvariablen X1 , ..., XN heissen unkorreliert falls: E(X1 · · · XN ) = E(X1 ) · cdotcdotE(XN ) Aus Unabhängigkeit folgt Unkorreliertheit aber die Umkehrung gilt nicht. Aus Xi ∼ N (µ, σ 2 ) folgt Unabhängigkeit und Unkorreliertheit. 4.7.1 Korrelationstest Zwei Fälle 1. Stetige (metrische) Merkmale Mit rXY Pearsonscher Korrelationskoezient ist T = √ N −2· p Also t-Test anwendbar. 26 rXY 2 1 − rXY ∼ tN −2 2. Ordinal oder Nominal skalierte Merkmale Z.B. Länge - Breite, Geschlecht - Studienfach, Studiengang - Note, Geburtsmontat - IQ H0 : pij = pi. · p.j , i = 1, ..., m; j = 1, ..., l HA : pij 6= pi. · p.j für ein Paar (i, j). Also H0 : X, Y sind unabhängig. Berechnen einer Teststatistik QP die χ2 -verteilt ist mit (m − 1) · (l − 1) Freiheitsgraden. Das ist der χ2 -Unabhängigkeitstest. rangtest: spearman, kendall Autokorrelationstest Durbin-Watson 4.8 Test auf Unabhängigkeit χ2 -Unabhängigkeitstest, siehe oben. Phi-Koezient Run-Test 4.9 Lineare Regression 4.9.1 Einfache Lineare Regression Yi = θ0 + θ1 Xi + i i ∼ (0, σ 2 ), auch oft β statt θ. θ̂1 = SXY 2 SX X 1 X ( Yi − θ̂1 Xi ) n Lösung einer Minimumsaufgabe (S. 358) θ̂0 = 4.9.2 Multiple Lineare Regression S. 359 Modell: 4.9.3 Residualanalyse Residuen auf NV testen. S. 370 R skull <- read.table('../daten/skull.dat'); names(skull) <- c('Group','MB','BH','BL','NH') attach(skull) ## verwende multiple lineare regression, modellgleichung: f <- MB ~ BL + BH + NH model <- lm(f, subset=Group==1) plot(residuals(model)); abline(0, 0, col=2, lty=2); 27 4.10 Zufallszahlen Erzeugung von gleichverteilten Zufallsvariablen. Beliebige Verteilungen: • stetig: anwenden der Quantilfunktion F −1 (UI ) auf eine gleichverteilte ZV. • diskret: zerteilen des Intervalls (0, 1) in entsprechende grosse Teile. Länge des Intervalls ist die Wahrscheinlichkeit. Je nach Wert von Ui entsprechend zugeordnet diskreter Wert. Siehe S. 400 sowie [projects/uni3 /informatik/SfI/Pruefung/pruefung.vorbereitung.tex] 4.11 Clusteranalyse Ziel: Zusammenfassen von ähnlichen Objekten zu Gruppen (Clustern). Unähnliche Objekte sollen in verschiedene Cluster. Cluster sind vorher nicht bekannt. Es gibt zu unterscheiden: • partionierende Clusteranalyse: Zahl der Cluster ist vorgegeben • hierarchische Clusteranalyse • Fuzzy Clusteranalyse: Zugehörigkeit eines Datenpunktes zu einem Cluster als Fuzzy-Wert Für Ähnlichkeit eintscheidend: Denition des Abstandsmasses, wobei p : # Merkmale • Euklidischer Abstand d2E (x, y) = p X (xi − yi )2 i=1 • City-Block / Manhattan-Abstand dC (x, y) = p X |xi − yi | i=1 • Tschebysche-Abstand dT (x, y) = max |xi − yi | i Agglomerative Verfahren: Jede Beobachtung ist ein Cluster, dann immer die zwei ähnlichsten Cluster zusammenfassen, bis es nurmehr ein Cluster gibt. Die Methoden unterscheiden sich durch die Denitionen der Abstände D(Ci , Cj ) zwischen Clustern Ci und Cj . • Single Linkage DS (Ci , Cj ) = min{d(k, l), k ∈ Ci , l ∈ Cj } 3 index.pdf 28 • Complete Linkage DC (Ci , Cj ) = max{d(k, l), k ∈ Ci , l ∈ Cj } • Centroid DCE (Ci , Cj ) = d(Xi , Yi ), Abstände der Schwerpunkte • Average Linkage DA (Ci , Cj ) = 1 ni nj X d(k, l) k∈Ci ,l∈Cj • Ward: Anova Abstände innerhalb der CLuster minimieren, nach Umrechnen erhält man DW (Ci , Cj ) = ni nj DCE (Ci , Cj ) ni + nj 4.11.1 R df <- data.frame(X=c(1,2,3), Y=c(4,5,6), method='euclidean') ## dist hc <- hclust(dist(df), method='complete') memb <- cutree(hc, k=3) df[memb=1:3] ### oder agnes(df) 5 TODO • ein- und zwei-faktorielle Varianzanalyse • nicht-parametrische Tests • Kondenzbereiche • ein paar praktische Experimente: check uebungen, check astrostat tutorials, check gulli etc data 6 Literatur 1. W. Kössler: Folien zur Vorlesung Werkzeuge der empirischen Forschung SS06, SS07, http: //www2.informatik.hu-berlin.de/~koessler/ 2. L. Sachs: Angewandte Statistik mit Beispiel in R, Springer 2006 3. http://astrostatistics.psu.edu/su07/R/ 4. R Online Documentation 29