Eine Einführung in R: Deskriptive Statistiken und Graphiken Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.bioinf.uni-leipzig.de/teaching/currentClasses/class211.html 17. November 2015 Katja Nowick, Lydia Müller und Markus Kreuz Grundlagen (IIInstitut für Medizinische 17. November Informatik, 2015 Statistik 1 und / 104 Epide I. Ergänzungen zu Übung 1 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 2 / 104 Univ Scope [Gültigkeitsbereich] von Variablen bei Funktionen Es können drei Arten von Variablen in einer Funktion auftauchen: Formale Parameter: Werden beim Aufruf der Funktion angegeben Lokale Variablen: Werden beim Abarbeiten einer Funktion erzeugt Freie Variablen: Alle anderen Frage: Wo sucht R nach freien Variablen? Antwort: In der Umgebung der Variable Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 3 / 104 Univ z <- 3 f <- function(x) { y <- 2*x print(z) } Ausgabe bei Aufruf der Funktion: f(1) 3 f(60) 3 x: Formaler Parameter y: Lokale Variable z: Freie Variable, die in diesem Bsp. von R auÿerhalb der Funktion gesucht wird Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 4 / 104 Univ z <- 3 f <- function(x) { y <- 2*x z <- 5 print(z) } Ausgabe bei Aufruf der Funktion: f(1) 5 f(60) 5 z ist keine freie Variable mehr, da sie nun innerhalb der Funktion deniert ist (lokale Variable) und die freie Variable z auÿerhalb der Funktion verdeckt Zugri auf verdeckte Variablen per Nowick , Müller , Kreuz <<- Befehl ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 5 / 104 Univ Ermittlung der Rechenzeit system.time(expr) expr: R-Befehl, dessen Rechenzeit Beispiel: colMeans gegen apply try<-matrix(1:4000000, nrow=4) system.time(colMeans(try)) ausgewertet werden soll user system elapsed 0.02 0.00 0.01 system.time(apply(try, MARGIN=2, FUN=mean, na.rm=TRUE)) user system elapsed 32.16 0.00 32.20 Alternativ: Nowick , Müller , Kreuz ptm <- proc.time() exrps proc.time()-ptm ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 6 / 104 Univ Pakete und Hilfe Download unter http://cran.r-project.org R besteht aus einem Grundprogramm mit vielen Zusätzen den sogenannten packages oder Pakete Hilfe per ?<Name> Übersicht über die help.search(suchbegriff) Hilfe help.start( ) oder Pakete speziell für Bioinformatik / Biostatistik: http://bioconductor.org/ Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 7 / 104 Univ Was sind Pakete? R bietet eine Vielzahl frei verfügbarer Pakete Ein Paket enthält unterschiedlichste, spezielle Funktionen Beim Start von R ist nur eine Grundausstattung geladen, alle anderen Pakete müssen zusätzlich geladen werden Jeder kann sein eigenes Paket schreiben Derzeit gibt es 7482 Pakete (Stand Oktober 2009: 2112 Pakete) Es besteht aber KEINE GARANTIE für richtige Funktionsweise! Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 8 / 104 Univ Was sind Pakete? sessionInfo( ) package laden require(packagename) oder library(packagename) package installieren install.packages(packagename) Repositories auswählen setRepositories() Überblick über die geladenen Pakete Wichtige Pakete: survival: Überlebenszeitanalysen (Kaplan-Meier, Log-Rank-Tests Cox-Modelle) mvtnorm: Multivariate Normalverteilung R2HTML: R Ausgabe in HTML Mögliche Pakete: sendmailR: send email from inside R twitteR: R based Twitter client sudoku: Sudoku Puzzle Generator and Nowick , Müller , Kreuz Solver ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17.und November Epidemiologie 2015 (IMISE), 9 / 104 Univ II. Diskrete Daten: Deskriptive Statistiken und Graphiken Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 10 / 104 Univ Was sind diskrete Variablen? Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an: Kategorial: Es besteht keine Rangordnung der Kategorien Ordinal: Kategorien können geordnet werden Kategoriale oder ordinale Variablen sollten in R als Faktoren deniert sein. Mit einer Häugkeitstabelle kann man ein kategoriales Objekt zusammenfassen: table(object): Absolute Häugkeiten prop.table(table(object)): Relative Nowick , Müller , Kreuz Häugkeiten ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 11 / 104 Univ Betrachten wir einen Faktor mit 4 Ausprägungen: DNA <- rep(c(A, C, G, T), 10) table(DNA) 1 A 2 C 3 G 3 T . . . . . . ergibt: A C G T 10 10 10 10 prop.table(table(DNA)) ergibt: A C G T 0.25 0.25 0.25 0.25 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 12 / 104 Univ Kuchendiagramm und Balkendiagramm Balkendiagramm A G T 0 2 4 6 C 8 10 Kuchendiagramm A C G T Zu erzeugen mit: pie(table(DNA)) Nowick , Müller , Kreuz barplot(table(DNA)) ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 13 / 104 Univ III. Stetige Daten: Deskriptive Statistiken und Graphiken Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 14 / 104 Univ Was sind stetige Variablen? Stetige Variablen können (in der Theorie) eine unendliche Anzahl an Werten annehmen. Beispiele: Gewicht Gröÿe Gehalt R speichert stetige Variablen als metrische Objekte (numeric) ab. Häugkeitstabelle sind für stetige Variablen meist nicht geeignet. Wichtiger sind: Maÿe für die Lage Maÿe für die Streuung Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 15 / 104 Univ Maÿe für die Lage Die Lage (location) gibt an, in welcher Gröÿenordnung sich Daten bewegen. (Empirische) Mittelwert x In = 1 n n X i =1 xi = 1 n (x1 + . . . + xn ) . R: mean() Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 16 / 104 Univ Maÿe für die Lage II x %-Quantile, trennen die Daten in zwei Teile. So liegen x % der Daten unter dem x %-Quantile und 100 − x% darüber. x0.5 entspricht dem 50%-Quantil R: median() 25%-Quantil x0.25 (das erste Quartil) In R: quantile(x,0.25) 75%-Quantil x0.75 (das dritte Quartil) In R: quantile(x,0.75) Median In Der Median ist robuster gegen Ausreiÿer als der Erwartungswert Oder gleich in Nowick , Müller , Kreuz R: summary() ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 17 / 104 Univ Maÿe für die Streuung Die Streuung (scale ) gibt an, wie stark die verschiedenen Werte voneinander abweichen. Die (empirische) Varianz s 2 = 1 n −1 n X (xi − x )2 = i =1 1 n −1 (x1 − x )2 + . . . + (xn − x )2 . Spannbreite: Dierenz vom gröÿten zum kleinsten Wert Interquartilsabstand: IQR Nowick , Müller , Kreuz = x0.75 − x0.25 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 18 / 104 Univ Beispiel: oecd -Daten Betrachten wir das durchnittliche, frei verfügbare Einkommen einer Familie [ pro Kind, in tausend US-Dollar ]. Einen Überblick erhält man durch: summary(Einkommen) Min. 1st Qu. Median Mean 3rd Qu. Max. 5.10 16.60 21.10 19.18 22.65 34.20 Die Varianz bzw. Standardabweichung var(Einkommen) [1] 50.75937 sd(Einkommen) (alternativ sqrt(var(Einkommen)) [1] 7.124561 Nowick , Müller , Kreuz ) ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 19 / 104 Univ Beispiel: oecd -Daten II Den Interquartilsabstand erhält man durch: IQR(Einkommen) [1] 6.05 Die Spannweite mit max(Einkommen)-min(Einkommen) [1] 29.1 Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder, die mindestens zweimal betrunken waren) bestehen fehlende Werte. Mittelwertsberechnung über mean(Alkohol,na.rm=TRUE) [1] 15.225 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 20 / 104 Univ Was ist ein Boxplot? Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen. Er enthält: Minimum und Maximum 25%-Quantil und 75%-Quantil Median In R: boxplot(variable) Um Variablen getrennt nach Faktorstufen zu untersuchen, bietet sich an: boxplot(variable ∼ factor) Einschub: Ein Label für den Faktor Geo factor(Geo,levels=c(R,E), labels=c(Nicht-Europa,Europa)) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 21 / 104 Univ Boxplot: Alkohol 15 15 10 20 25 Boxplot für Europa und Nicht−Europa 10 20 25 Boxplot Nicht−Europa Europa Zu erzeugen mit: boxplot(Alkohol) Nowick , Müller , Kreuz boxplot(Alkohol∼ Geo) ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 22 / 104 Univ Stripchart: Alkohol Eine Alternative zum Boxplot bei wenigen Beobachtungen ist der Nicht−Europa Europa Stripchart: 10 15 20 25 Alkohol Zu erzeugen mit: stripchart(Alkohol∼Geo) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 23 / 104 Univ Was ist ein Histogramm? Zur Erstellung eines Histogramms teilt man die Daten in homogene Teilintervalle ein und plottet dann die absolute Häugkeit pro Teilintervall Dieses Verfahren gibt einen ersten Überblick über die Verteilung der Daten ( => Ermitteln der empirischen Dichte möglich ) hist(x, breaks = AnzahlBins, freq = NULL ) x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=TRUE: absolute Häugkeiten freq=FALSE: relative Häugkeiten (empirische Dichte) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 24 / 104 Univ Histogramm: Einkommen Histogramme des Einkommens mit verschiedenen Binstärken Histogram of Einkommen 4 3 Frequency 0 1 2 6 0 2 4 Frequency 8 5 10 6 12 Histogram of Einkommen 5 10 15 20 Einkommen 25 30 35 5 10 15 20 25 30 35 Einkommen Zu erzeugen mit: hist(Einkommen) Nowick , Müller , Kreuz hist(Einkommen, breaks=15) ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 25 / 104 Univ Aufgabenkomplex 1 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 26 / 104 Univ IV. Graphiken in R: Grundaufbau und Parameter Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 27 / 104 Univ Graphiken in R R kennt einen Standardbefehl für einfache Graphiken (plot()), aber auch viele spezielle Befehle, wie hist() oder pie(). plot(x, y, type, main, par (...) ) x: Daten der x -Achse y: Daten der y -Achse type=l: Darstellung durch eine Linie type=p: Darstellung durch Punkte main: Überschrift der Graphik par (...): Zusätzlich können sehr viele Parametereinstellungen geändert werden Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 28 / 104 Univ Parameter für Graphiken in R par(cex, col, lty, mfrow, pch, x/yaxs) cex: Skalierung von Graphikelementen col: Farbe (colors() zeigt die vordenierten Farben an) lty: Linienart mfrow: Anordnen von mehreren Graphiken nebeneinander pch: Andere Punkte oder Symbole x/yaxs: Stil der x - bzw. y -Achse Einen Überblick über die Parameter erhält man mit par() kann entweder im plot() Funktion vor einem oder mehreren Nowick , Müller , Kreuz ?par. -Befehl gesetzt werden oder als eigene plot()-Befehlen. ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 29 / 104 Univ Aufbau von Graphiken in R 1 plot(): 2 Zusätzlich können weitere Elemente eingefügt werden wie: Bildet den Grundstein einer Graphik lines(): Linien points(): Punkte legend(): Legende text(): Text 3 dev.off(): schlieÿt die Graphik Einen Überblick erhält man mit der betreenden Hilfefunktion, z.B. ?legend. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 30 / 104 Univ Abspeichern von Graphiken Folgende Graphikformate können in R erzeugt werden: pdf() ps() jpg() Beispiel: pdf(file=boxplot.pdf, width=13, height=6) par(mfrow=c(1,2)) boxplot(Alkohol, main=Boxplot) boxplot(Alkohol∼Geo, main=Boxplot für ...) par(mfrow=c(1,1)) dev.off() Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 31 / 104 Univ 1.0 Cos und Sin y −1.0 −0.5 0.0 0.5 cosinus sinus −3 −2 −1 0 1 2 3 x pdf(file=RGraphiken/beispiel.pdf, width=12, height=6) plot(x,y, type=l, col=darkviolet, main=Cos und Sin) lines(x,z, col=magenta) points(x,null, pch=3) legend(topleft, c(cosinus,sinus), col=c(darkviolet, magenta), lty=1) dev.off() Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 32 / 104 Univ V. Dichten und Verteilungsfunktionen in R Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 33 / 104 Univ Einschub: Zufallsvariablen Eine Variable oder Merkmal X, dessen Werte die Ergebnisse eines Zufallsvorganges sind, heiÿt Zufallsvariable. Notation: X : Die Zufallsvariable x : Eine Realisierung oder Beobachtung der Zufallsvariable Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 34 / 104 Univ Induktive (Schlieÿende) Statistik: Mittels einer Stichprobe wird versucht Aussagen bezüglich einer Grundgesamtheit zu treen. Grundgesamtheit: Menge aller für die Fragestellung relevanten Objekte Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit Die Aussagen beziehen sich auf Merkmale der Grundgesamtheit. Merkmal: Die interessierende Gröÿe oder Variable Merkmalsausprägung: Der konkret gemessene Wert an einem Objekt der Stichprobe Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 35 / 104 Univ Das Model: Theoretische Ebene Statistische Analysen beruhen auf Modellannahmen. Ziel: Formalisierung eines reellen Sachverhaltes Stetige Variablen mit Erwartungswert und Varianz Diskrete Variablen mit Gruppenzugehörigkeiten Parametrischer Ansatz: Verteilungsannahmen, wie eine Zufallsvariable X ist normalverteilt mit Erwartungswert Varianz µ und σ2 Non-Parametrischer Ansatz: Ohne Verteilungsannahmen Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 36 / 104 Univ Die beobachteten Daten: Die empirische Ebene Erwartungswert und Varianz einer Grundgesamtheit können nicht in der Realität beobachtet werden, sondern müssen aus der Stichprobe geschätzt werden. Beobachtet werden n Realisierungen x1 , ..., xn einer Zufallsstichprobe X. Notation: Erwartungswert µ Schätzer für den Erwartungswert µ̂ = n1 Pn i =1 xi Gesetz der groÿen Zahlen: Je mehr Realisierungen einer Zufallszahl beobachtet werden, desto besser approximiert der Mittelwert den Erwartungswert Realisierungen einer Zufallsvariable folgen nicht exakt einer bestimmten Verteilung. Nur bei groÿer Stichprobenzahl nähert sich die empirische Dichte der theoretischen an. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 37 / 104 Univ Normalverteilung N (µ, σ) Die Normal- oder Gauÿ -Verteilung ist formalisiert durch Erwartungswert und Varianz σ 2 µ : f (x |µ, σ) = 1 σ· √ 2π exp − 1 2 x −µ σ 2 ! Diese Funktion ist in R implementiert: dnorm(x, mean=0, sd=1) (Vorsicht: mean steht hier für den Erwartungswert) Erzeugen von n Realisierungen x1 , ..., xn : rnorm(n, mean=0, sd=1) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 38 / 104 Univ Beispiel: Normalverteilung Darstellung: Gesetz der groÿen Zahlen x10<-matrix(rnorm(100),nrow=10,ncol=10) x1000<-matrix(rnorm(10000),nrow=10,ncol=1000) apply(x10,MARGIN=1, mean) -0.392 -0.309 0.195 -0.727 -0.150 0.327 0.142 0.020 0.069 0.594 apply(x1000,MARGIN=1, mean) -0.018 -0.011 0.007 -0.011 -0.021 -0.013 0.036 0.026 0.074 0.010 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 39 / 104 Univ Beispiel: Normalverteilung Anpassung der empirischen an die theoretische Verteilung: Histogram of data1000 Density 0.0 0.0 0.1 0.2 0.2 0.1 Density 0.3 0.3 0.4 0.4 Histogram of data10 −2 −1 0 1 data10 Nowick , Müller , Kreuz 2 3 −3 −2 −1 0 1 2 3 data1000 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 40 / 104 Univ V.I Diskrete Daten Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 41 / 104 Univ Eine Zufallsvariable heiÿt diskret, wenn sie endlich viele x1 , ..., xk Werte annehmen kann. Die Wahrscheinlichkeitsfunktion f (x ) einer diskreten Zufallsvariable X ist für x ∈R deniert durch die Wahrscheinlichkeiten pi : f (x ) = P (X = xi ) = pi 0 falls x = xi ∈ {x1 , ..., xk } sonst Die Verteilungsfunktion F (x ) einer diskreten Zufallsvariable ist gegeben durch die Summe: F (y ) = P (X ≤ y ) = X f (xi ) i :x i ≤ y Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 42 / 104 Univ Eigenschaften Für die Wahrscheinlichkeitsfunktion f (x ) gilt: 0 ≤ f (x ) ≤ 1 X pi = 1 i ≥1 Für die Verteilungsfunktion F (x ) gilt: F (x ) = 1 x 0 x ≥ max (x ) ≤ min(x ) F(x) ist monoton steigend mit Wertebereich 0 bis 1. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 43 / 104 Univ Bernoulli-Experiment Binäre Zufallsvariable X : Tritt ein Ereignis A ein? X = 1 falls A eintritt 0 falls A nicht eintritt Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 P (X P (X Nowick , Müller , Kreuz <π<1 ein = 1) = π = 0) = 1 − π ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 44 / 104 Univ Binomialverteilung Die Binomialverteilung entspricht dem n-maligen Durchführen eines Bernoulli-Experimentes mit Wahrscheinlichkeit n x π (1 − π)n−x f (x ) = x 0 π falls x = 0, 1, ..., n sonst Beispiel Ein Schütze schieÿt n = 10 mal auf eine Torwand. Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal trit, wenn er eine Treerwahrscheinlichkeit π von 25 % hat? P (X Nowick , Müller , Kreuz = 5) = 10 5 0.25 5 (1 − 0.25)10−5 = 0.058 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 45 / 104 Univ Diskrete Gleichverteilung Die diskrete Gleichverteilung charakterisiert die Situation, dass x1 , . . . , xk -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommen werden. f (x ) = 1 k falls xi mit i 0 sonst = 1, ..., k Beispiel Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit Nowick , Müller , Kreuz 1 6 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 46 / 104 Univ V.II Stetige Daten Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 47 / 104 Univ Eine Zufallsvariable heiÿt stetig, wenn sie unendlich viele Werte x1 , ..., xk , ... annehmen kann, wie beispielsweise metrische Variablen. Die Dichte f (x ) einer stetigen Zufallsvariable X ist für ein Intervall [a, b ] deniert als: Z P (a ≤ X ≤ b) = b f (x )∂ x a Die Verteilungsfunktion F (y ) einer stetigen Zufallsvariable ist gegeben durch das Integral: Z F (y ) y = P (X ≤ y ) = f (x )∂ x −∞ Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 48 / 104 Univ Eigenschaften Für die Dichte f (x ) gilt: Z +∞ f (x )∂ x =1 −∞ Z P (X = a) = a a f (x )∂ x =0 Für die Verteilungsfunktion F (x ) gilt: F (x ) F Nowick , Müller , Kreuz = 0 1 für x 0 für x (x ) = ≥ max(x ) ≤ min(x ) ∂ F (X ) = f (x ) ∂x ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 49 / 104 Univ Normalverteilung N (µ, σ) Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ -Verteilung mit Erwartungswert µ und Varianz f (x |µ, σ) Symmetrisch um = σ2: 1 σ· √ 2π exp − 1 2 x −µ σ 2 ! µ Nur abhängig von µ und σ Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler, Gröÿe und Gewicht Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 50 / 104 Univ Stetige Gleichverteilung U (a, b) Gegeben: ein Intervall, deniert durch reelle Zahlen a und b mit a f (x ) = 1 b −a für x 0 sonst < b: ∈ [a , b ] Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests. Hat man x1 , . . . , xn Realisierungen einer Variablen Verteilungsfunktion F, X mit so gilt: F (x1 ), . . . , F (xn ) ∼ U (0, 1) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 51 / 104 Univ Aufgabenkomplex 2 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 52 / 104 Univ V.III Umgang mit Zufallszahlen Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 53 / 104 Univ R ermöglicht den Umgang mit Zufallszahlen. Beispiel: (Standard)Normalverteilung 1 2 3 rnorm(n, mean=0, sd=1) Dichte im Wert x : dnorm(x, mean=0, sd=1) Beispiel: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 Ziehen von n Zufallszahlen: Verteilungsfunktion im Wert x : pnorm(x, mean=0, sd=1) Beispiel: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 4 Quantil für Wahrscheinlichkeit p: qnorm(p, mean=0, sd=1) Beispiel: qnorm(c(0.25,0.5,0.75)) -0.67449 0.00000 0.67449 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 54 / 104 Univ Beispiel: (Standard)Normalverteilung 1 Dichte im Wert x : dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 2 Verteilungsfunktion im Wert x : pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 Verteilungsfunktion 1.0 0.4 Dichte Fx ● 0.2 0.1 0.4 fx 0.2 0.6 0.3 0.8 ● 0.0 0.0 ● −4 −2 0 x Nowick , Müller , Kreuz 2 4 −4 −2 0 2 4 x ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 55 / 104 Univ R-Befehle für weitere Verteilungen rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean Standardabweichung sd rexp(n, rate=1) Exponentialverteilung mit Rate rate rpois(n, lambda) Poissonverteilung mit Rate lambda rcauchy(n, location=0, scale=1) Cauchyverteilung mit und Lokations- und Skalenparameter rt(n, df)(Studen)t -verteilung mit Freiheitsgraden df rbinom(n, size, prob) Binomialverteilung vom Umfang size und Wahrscheinlichkeit prob rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeit prob rhyper(nn, m, n, k) Hypergeometrische Verteilung runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min, max] Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 56 / 104 Univ Darstellung: Histogramme und Kerndichteschätzer 1 Histogramme: Darstellung von stetigen und diskreten Verteilungen hist(x, breaks = AnzahlBins, freq = NULL ) x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=TRUE: absolute Häugkeiten freq=FALSE: relative Häugkeiten (empirische Dichte) 2 Kerndichteschätzer: Darstellung von stetigen Verteilungen plot(density(x, kernel=gaussian, bw)) density(x): Kerndichteschätzung der Daten kernel: Option für spezielle Kerntypen bw: Bandbreite Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 57 / 104 Univ Darstellung: Kerndichteschätzer Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zur Schätzung von stetigen Dichten Hat man gegebene Daten x1 , . . . , xn und eine konstante Bandbreite h ∈ R so ist der Kerndichteschätzer gegeben durch: fˆ(x ) = 1 n n X 1 i =1 h K x − xi h Typische Kerne sind: Bisquare Kern: K (u ) = 15 1 16 ( − u 2 )2 für u ∈ [−1, 1] und 0 sonst ! Gauÿ Kern: K (u ) Nowick , Müller , Kreuz = √1 2π exp − 21 u 2 für u ∈R ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 58 / 104 Univ Beispiel: Simulation aus der Normalverteilung data10<-rnorm(10) hist(data10, freq=FALSE) lines(density(data10), col=2) data1000<-rnorm(1000) hist(data1000, freq=FALSE) lines(density(data1000), col=2) Histogram of data1000 Density 0.0 0.0 0.1 0.2 0.2 0.1 Density 0.3 0.3 0.4 0.4 Histogram of data10 −2 −1 0 1 data10 Nowick , Müller , Kreuz 2 3 −3 −2 −1 0 1 2 3 data1000 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 59 / 104 Univ Beispiel: Wie plottet man die Normalverteilung? x<-seq(from=-4, to=4, by=0.1) ] Dichte fx<-dnorm(x) plot(x,fx, type=l) ] Verteilungsfunktion Fx<-pnorm(x) plot(x,Fx, type=l) Verteilungsfunktion Fx 0.0 0.0 0.2 0.1 0.4 fx 0.2 0.6 0.3 0.8 1.0 0.4 Dichte −4 −2 0 x Nowick , Müller , Kreuz 2 4 −4 −2 0 2 4 x ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 60 / 104 Univ Darstellung: Q-Q-Plot Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch) zweier Verteilungen gegeneinander ab. Somit können Verteilungen miteinander verglichen werden. qqplot(x,y): Plottet die emp. Quantile von x gegen die emp. Quantile von y qqnorm(y): Plottet die emp. Quantile von y gegen die theoretischen Quantile einer Standard-Normalverteilung qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch das erste und dritte Quartil geht Bsp: Vergleich von Normal- und t -Verteilung data <- rt(400, df = 2) qqnorm(data, main = QQ-Plot, xlab= Normalverteilung, ylab = t-Verteilung) qqline(data, col = green) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 61 / 104 Univ Darstellung: Q-Q-Plot 10 QQ−Plot ● ● 5 ● −5 ● ● −10 t−Verteilung 0 ● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● −15 ● ● −3 −2 −1 0 1 2 3 Normalverteilung Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 62 / 104 Univ VI. Statistische Tests Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 63 / 104 Univ VI.I Einführungsbeispiel Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 64 / 104 Univ VI.I Einführungsbeispiel Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 65 / 104 Univ Fragestellung Einführungsbeispiel: Trinkt die Jugend in Europa mehr Alkohol als im Rest der Welt? Untersucht wird die Variable Alkohol im oecd-Datensatz: Der Anteil an 13-15 jährigen Jugendlichen, die mindestens zweimal betrunken waren. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 66 / 104 Univ Erster Schritt: Deskriptive Analyse 1 Graphisch mit Boxplot: boxplot(Alkohol∼Geo) 10 15 20 25 Boxplot für Europa und Nicht−Europa Nicht−Europa Nowick , Müller , Kreuz Europa ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 67 / 104 Univ Zweiter Schritt: Kennzahlen 2 Kennzahlen: Mittelwert: mu<-tapply(Alkohol, Geo, FUN=mean, na.rm=TRUE) Nicht-Europa Europa 13.700 15.443 Standardabweichung: sigma<-tapply(Alkohol, Geo, FUN=sd, na.rm=TRUE) Nicht-Europa Europa 4.518 4.341 Es ist zu erkennen, dass in Europa im Mittel ein höherer Anteil an Jugendlichen schon mindestens zweimal betrunken war als in nicht-europäischen Staaten. Doch dies könnte auch ein Zufall sein! Denn die Beobachtungen beruhen auf Stichproben, sie sind Realisierungen einer Zufallsvariable. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 68 / 104 Univ Eigentliches Ziel: Überprüfung von Annahmen über das Verhalten des interessierenden Merkmales in der Grundgesamtheit mittels Stichproben. Annahme: Jugendliche in Europa trinken mehr Alkohol als im Rest der Welt Merkmal: Alkoholkonsum der Jugend Grundgesamtheit: Jugendliche in Europa und im Rest der Welt Stichprobe: Die oecd-Daten Für solche Fragestellungen mit gleichzeitiger Kontrolle der Fehlerwahrscheinlichkeit sind statistische Tests geeignet! Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 69 / 104 Univ Statistisches Testen I 1 Aufstellen von zwei komplementären Hypothesen: Testhypothese (H0 ): Der Anteil in Europa ist kleiner dem im Rest der Welt µE ≤ µNE H Alternativhypothese ( 1 ): Der Anteil in Europa gröÿer als der im Rest der Welt 2 µE > µNE Fehlerwahrscheinlichkeit festlegen: H0 soll mit einer W'keit von weniger als 5% abgelehnt werden, wenn H0 wahr ist. Also: Wenn der Anteil in Wahrheit kleiner oder gleich ist, soll der Test nur mit einer Wahrscheilichkeit von weniger als 5% zu dem (falschen) Ergebnis kommen, dass der Anteil gröÿer ist. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 70 / 104 Univ Statistisches Testen II 3 4 5 Beobachtete Daten: 2 Gruppen µ̂ σ̂ Nicht-Europa 13.700 4.518 3 Europa 15.443 4.341 21 n (Weitere Annahmen, hier: Normalverteilung, Varianzgleichheit) Berechnen der Prüfgröÿe T , einer Kennzahl, die zeigt, wie stark die Gruppenmittel voneinander abweichen: Mittelwertsdierenz der beiden Gruppen Standardisieren mit der entsprechenden Standardabweichung s T = (µˆE − µNE ˆ )/ ( 1 nE + 2 (nE − 1)σ̂E2 + (nNE − 1)σ̂NE nNE nE + nNE − 2 1 ) (Hypothetische Verteilung der Prüfgröÿe festlegen, hier t-Verteilung mit 3 + 21 - 2 = 22 Freiheitsgraden) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 71 / 104 Univ Statistisches Testen III 6 Berechnung der Prüfgröÿe T in R: Mittelwertsdierenz der beiden Gruppen m.diff<-mu[2]-mu[1] Standardisieren mit der entsprechenden Standardabweichung diff.std2 <- sqrt((1/21+1/3)* (20*sigma[2]ˆ2+2*sigma[1]ˆ2)/(21+3-2)) Prüfgröÿe: pg.T <- m.diff/diff.std2 0.648 7 Wie wahrscheinlich ist es (unter der Nullhypothese), eine Prüfgröÿe T zu beobachten, die gröÿer oder gleich 0.648 ist? 1-pt(pg.T, df=22) 0.262 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 72 / 104 Univ y 0.0 0.1 0.2 0.3 0.4 Statistisches Testen IV −4 −2 0.738 0.262 pg.T 0 2 4 x Mit hoher Wahrscheinlichkeit (26.2%) kann eine solche Prüfgröÿe pg .T beobachtet werden, wenn der Mittelwert in Europa und kleiner als der in Nicht-Europa ist. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 73 / 104 Univ Statistisches Testen V 8 Entscheidung: Aus diesen Daten kann nicht geschlossen werden, dass in Europa Jugendliche mehr Alkohol trinken als im Rest der Welt. 9 Grund: Zu geringe Fallzahl! Mit nE = nNE = 101 ergibt sich Standardisieren mit der entsprechenden Standardabweichung diff.std <- sqrt((1/101+1/101)* (100*sigma[2]2+100*sigma[1]2)/(101+101-2)) Prüfgröÿe: pg.T2 <-m.di/di.std2 2.796 Vergleich mit der t -Verteilung: 1-pt(pg.T2, df=200) 0.003 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 74 / 104 Univ y 0.1 0.2 0.3 0.4 Statistisches Testen VI 0.0 0.997 −4 −2 0 0.003 pg.T2 2 4 x Mit nur sehr geringer Wahrscheinlichkeit (0.003%) kann eine solche Prüfgröÿe pg .T 2 beobachtet werden, wenn wenn der Mittelwert in Europa und kleiner als der in Nicht-Europa ist. Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 75 / 104 Univ Fünf Schritte zum Testergebnis I. Hypothesen aufstellen II. Betrachtung der Daten III. Aufstellen der Prüfgröÿe IV. Durchführen des Tests V. Testentscheidung Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 76 / 104 Univ I. Hypothesen aufstellen Was soll verglichen werden? Mittelwerte von unabhängigen Gruppen Mittelwert gegen einen festen Wert Gepaarte Messungen Einseitige oder zweiseitige Fragestellung? Einseitige Fragestellung: H0 : µ1 ≤ µ2 gegen H1 : µ1 > µ2 Zweiseitige Fragestellung: H0 : µ1 = µ2 gegen H1 : µ1 6= µ2 Aufstellen der eigentlich interessierenden Alternativhypothese H1 und der Nullhypothese H0 Signikanzniveau α festlegen Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 77 / 104 Univ Fehler bei statistischen Tests Entscheidung H0 H0 wahr H1 wahr richtig Fehler zweiter Art Entscheidung H1 Fehler erster Art (β) α richtig Fehler erster Art (α-Fehler): Obwohl H0 wahr ist, entscheidet man sich für H1 (Falsch positives Testergebnis) Fehler zweiter Art (β -Fehler): Obwohl H1 wahr ist, entscheidet man sich für H0 (Falsch negatives Testergebnis) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 78 / 104 Univ II. Betrachtung der Daten Können Verteilungsannahmen getroen werden? Ja: Parametrische Tests Nein: Nicht-Parametrische Tests Weitere Annahmen wie z.B. Varianzgleichheit in den Gruppen Aus Schritt I. und II. folgt die Auswahl eines geeigneten Tests und alle weiteren Schritte! Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 79 / 104 Univ III. Aufstellen der Prüfgröÿe Aus den Hypothesen ergibt sich die Form der Prüfgröÿe, z.B. die Mittelwertsdierenz Standardisieren der Prüfgröÿe mit: unter unter H0 gültigen Erwartungswert H0 gültigen Standardabweichung Festlegen der Verteilung, die unter H0 gültig ist Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 80 / 104 Univ IV./V. Durchführen des Tests und Testentscheidung Hier sind zwei Werte entscheidend: Kritischer Wert κ: Welchen Wert darf die Prüfgröÿe bei gegebenem Signikanzniveau α maximal/minimal annehmen, wenn H0 tatsächlich gültig ist p -Wert: Wahrscheinlichkeit, die vorliegenden Daten zu beobachten, wenn H0 gültig ist Entscheidung H0 ablehnen, falls: die Prüfgröÿe gröÿer als der kritische Wert ist (bzw. kleiner als der kritische Wert bei einigen nonparametrischen Tests) falls der p-Wert kleiner dem vorher festgelegten Signikanzniveau Nowick , Müller , Kreuz α ist ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 81 / 104 Univ t -Test - gegen festen Wert (Einstichproben-t -Test) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 82 / 104 Univ 1. Ziel, Hypothesen und Voraussetzungen Vergleich das emp. Populationsmittel x einer Population mit einem hypothetischen Mittelwert µ0 Voraussetzung: Normalverteilung der Stichprobe Varianz wird als unbekannt angenommen und aus den Daten geschätzt Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H0 : x ≤ µ0 gegen H1 : x > µ0 2 Einseitige Fragestellung 2: H0 : x ≥ µ0 gegen H1 : x < µ0 3 Zweiseitige Fragestellung: H0 : x = µ0 gegen H1 : x 6= µ0 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 83 / 104 Univ 2. Teststatistik Teststatistik T = x − µ0 √ · n s Schätzung der Standardabweichung Pn s Nowick , Müller , Kreuz = σ i =1 (x n durch: − xi )2 0.5 −1 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 84 / 104 Univ 3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t1−α (df = n − 1) 2 Einseitige Fragestellung 2: T < tα (df = n − 1) 3 Zweiseitige Fragestellung: |T | > t1−α/2 (df = n − 1) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 85 / 104 Univ t -Test für unabhängige Stichproben (Zweistichproben-t -Test) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 86 / 104 Univ 1. Ziel, Hypothesen und Voraussetzungen Vergleich das emp. Populationsmittel x 1 und x 2 miteinander Voraussetzung: Normalverteilung der Stichproben Varianz der Populationen unbekannt 2 Varianten: Varianzen der Populationen gleich oder ungleich Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H0 : x 1 ≤ x 2 gegen H1 : x 1 > x 2 2 Einseitige Fragestellung 2: H0 : x 1 ≥ x 2 gegen H1 : x 1 < x 2 3 Zweiseitige Fragestellung: H0 : x 1 = x 2 gegen H1 : x 1 6= x 2 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 87 / 104 Univ 2. Teststatistik Teststatistik T = x1 − x2 √ · n s Schätzung der Standardabweichung s = 1 n1 + 1 n2 · σ durch: (n1 − 1)s1 + (n2 − 1)s2 n1 + n2 − 1 0.5 wobei s1 und s2 die Standardvarianzschätzer für die Populationen sind Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 88 / 104 Univ 3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t1−α (n1 + n2 − 2) 2 Einseitige Fragestellung 2: T < tα (n1 + n2 − 2) 3 Zweiseitige Fragestellung: |T | > t1−α/2 (n1 + n2 − 2) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 89 / 104 Univ t -Test für Paardierenzen Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 90 / 104 Univ 1. Ziel, Hypothesen und Voraussetzungen P P = ni=1 di = ni=1 x1i − x2i Stichproben (x1i , x2i ) Teste die Dierenz d gepaarter miteinander Typisches Bsp.: Messen eines Blutwertes vor und nach einer med. Behandlung Voraussetzung: Normalverteilung der Stichproben Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H0 : d ≤ 0 gegen H1 : d > 0 2 Einseitige Fragestellung 2: H0 : d ≥ 0 gegen H1 : d < 0 3 Zweiseitige Fragestellung: H0 : d = 0 gegen H1 : d 6= 0 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 91 / 104 Univ 2. Teststatistik Teststatistik = T d s Schätzung der Standardabweichung Nowick , Müller , Kreuz = σ n i =1 (d "P s · n √ n durch: − di )2 #0.5 −1 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 92 / 104 Univ 3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t1−α (df = n − 1) 2 Einseitige Fragestellung 2: T < tα (df = n − 1) 3 Zweiseitige Fragestellung: |T | > t1−α/2 (df = n − 1) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 93 / 104 Univ Der Wilcoxon-Rangsummen-Test Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 94 / 104 Univ 1. Ziel, Hypothesen und Voraussetzungen Teste nicht-parametrisch, ob zwei Population den gleichen Median besitzen Zu verwenden, wenn Vor. für den t -Test nicht erfüllt sind Benötigt KEINE konkrete Verteilungsannahme Alternative für den t -Test Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H0 : x1,med ≤ x2,med gegen H1 : x1,med > x2,med 2 Einseitige Fragestellung 2: H0 : x1,med ≥ x2,med gegen H1 : x1,med < x2,med 3 Zweiseitige Fragestellung: H0 : x1,med = x2,med gegen H1 : x1,med 6= x2,med Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 95 / 104 Univ 2. Teststatistik Bilde für sämtlichen Beobachtungen x11 , . . . x1n1 , x21 , . . . x2n2 Ränge rg (x11 ), . . . rg (x1n1 ), rg (x21 ), . . . rg (x2n2 ) Teststatistik: R = n1 X rg (x1i ) i =1 Wertebereich: n1 (n1 +1) 2 <R< (n1 +n2 )(n1 +n2 +1) 2 − n1 (n1 +) 2 Nullverteilung von R liegt tabelliert vor Approximation durch die Normalverteilung ab einer Stichprobengröÿe von ca. 20 möglich Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 96 / 104 Univ 3. Kritische Bereiche 1 Einseitige Fragestellung 1: R > w1−α (n1 , n2 ) 2 Einseitige Fragestellung 2: R < wα (n1 , n2 ) 3 Zweiseitige Fragestellung: R > w1−α/2 (n1 , n2 ) oder R < wα/2 (n1 , n2 ) Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 97 / 104 Univ t -Test und Wilcoxon-Rangsummen - Test in R - Praktische Durchführung Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 98 / 104 Univ t -Test in R t.test(x, y, alternative, paired, var.equal) Erklärung der Parameter: x,y = NULL: Die Daten, beim t -Test für eine Population genügt es, x anzugeben alternative = c(two.sided, less, greater): Varianten für die Alternativhypothese var.equal = TRUE: Gibt an, ob Varianzgleichheit bei den Populationen vorliegt paired: Gibt an, ob x und y als gepaarte Stichprobe anzusehen sind Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. und November Epidemiologie 2015 (IMISE), 99 / 104 Univ Wilcoxon-Rangsummen - Test in R wilcox.test(x, y, alternative, paired, exact) Erklärung der Parameter: Im wesentlichen analog zum t -Test exact: Soll die Teststatistik exakt bestimmt werden, oder per Approximation an die Normalverteilung? Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. November und Epidemiologie 2015 (IMISE), 100 / 104 Univ Beispiel: Nettokaltmieten pro m 2 für 1- (X) und 2-Raum (Y) Wohnungen Gibt es einen Unterschied zwischen beiden Gruppen? Wir untersuchen diese Frage per Wilcoxon- und t -Test Nowick , Müller , Kreuz 1 2 3 4 5 X 8.70 11.28 13.24 8.37 12.16 Y 3.36 18.35 5.19 8.35 13.10 6 7 8 9 10 X 11.04 10.47 11.16 4.28 19.54 Y 15.65 4.29 11.36 9.09 ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. November und Epidemiologie 2015 (IMISE), 101 / 104 Univ t -Test miete <- read.csv(Miete.csv) attach(miete) t.test(X,Y, var.equal = FALSE, paired = FALSE) R-Ausgabe: Welch Two Sample t -test data: X and Y t = 0.5471, df = 14.788, p-value = 0.5925 alternative hypothesis: true difference in means is not equal to 0 p > 0.05, kein signikanter Unterschied Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. November und Epidemiologie 2015 (IMISE), 102 / 104 Univ Wilcoxon-Rangsummen-Test wilcox.test(X,Y, exact = TRUE) R-Ausgabe: Wilcoxon rank sum test data: X and Y W = 51, p-value = 0.6607 alternative hypothesis: true location shift is not equal to 0 p > 0.05, kein signikanter Unterschied Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. November und Epidemiologie 2015 (IMISE), 103 / 104 Univ Aufgabenkomplex 3 Nowick , Müller , Kreuz ( Institut fürGrundlagen Medizinische II Informatik, Statistik 17. November und Epidemiologie 2015 (IMISE), 104 / 104 Univ