Slides - Universität Leipzig

Werbung
Eine Einführung in R:
Deskriptive Statistiken und Graphiken
Katja Nowick, Lydia Müller und Markus Kreuz
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE),
Universität Leipzig
http://www.bioinf.uni-leipzig.de/teaching/currentClasses/class211.html
17. November 2015
Katja Nowick, Lydia Müller und Markus Kreuz
Grundlagen (IIInstitut für Medizinische
17. November
Informatik,
2015
Statistik 1
und
/ 104
Epide
I. Ergänzungen zu Übung 1
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
2 / 104
Univ
Scope [Gültigkeitsbereich]
von Variablen bei Funktionen
Es können drei Arten von Variablen in einer Funktion auftauchen:
Formale Parameter:
Werden beim Aufruf der Funktion angegeben
Lokale Variablen:
Werden beim Abarbeiten einer Funktion erzeugt
Freie Variablen:
Alle anderen
Frage: Wo sucht
R
nach freien Variablen?
Antwort: In der Umgebung der Variable
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
3 / 104
Univ
z <- 3
f <- function(x) {
y <- 2*x
print(z)
}
Ausgabe bei Aufruf der Funktion:
f(1)
3
f(60)
3
x: Formaler Parameter
y: Lokale Variable
z: Freie Variable, die in diesem Bsp. von
R
auÿerhalb der Funktion
gesucht wird
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
4 / 104
Univ
z <- 3
f <- function(x) {
y <- 2*x
z <- 5
print(z)
}
Ausgabe bei Aufruf der Funktion:
f(1)
5
f(60)
5
z ist keine freie Variable mehr, da sie nun innerhalb der Funktion
deniert ist (lokale Variable) und die freie Variable z auÿerhalb der
Funktion verdeckt
Zugri auf verdeckte Variablen per
Nowick , Müller , Kreuz
<<-
Befehl
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
5 / 104
Univ
Ermittlung der Rechenzeit
system.time(expr)
expr: R-Befehl, dessen Rechenzeit
Beispiel: colMeans gegen apply
try<-matrix(1:4000000, nrow=4)
system.time(colMeans(try))
ausgewertet werden soll
user system elapsed
0.02 0.00 0.01
system.time(apply(try, MARGIN=2, FUN=mean, na.rm=TRUE))
user system elapsed
32.16 0.00 32.20
Alternativ:
Nowick , Müller , Kreuz
ptm <- proc.time()
exrps
proc.time()-ptm
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
6 / 104
Univ
Pakete und Hilfe
Download unter http://cran.r-project.org
R
besteht aus einem Grundprogramm mit vielen Zusätzen den
sogenannten packages oder Pakete
Hilfe per
?<Name>
Übersicht über die
help.search(suchbegriff)
Hilfe help.start( )
oder
Pakete speziell für Bioinformatik / Biostatistik:
http://bioconductor.org/
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
7 / 104
Univ
Was sind Pakete?
R
bietet eine Vielzahl frei verfügbarer Pakete
Ein Paket enthält unterschiedlichste, spezielle Funktionen
Beim Start von
R
ist nur eine Grundausstattung geladen,
alle anderen Pakete müssen zusätzlich geladen werden
Jeder kann sein eigenes Paket schreiben
Derzeit gibt es 7482 Pakete (Stand Oktober 2009: 2112 Pakete)
Es besteht aber KEINE GARANTIE für richtige Funktionsweise!
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
8 / 104
Univ
Was sind Pakete?
sessionInfo( )
package laden require(packagename) oder library(packagename)
package installieren install.packages(packagename)
Repositories auswählen setRepositories()
Überblick über die geladenen Pakete
Wichtige Pakete:
survival:
Überlebenszeitanalysen (Kaplan-Meier, Log-Rank-Tests
Cox-Modelle)
mvtnorm: Multivariate Normalverteilung
R2HTML: R Ausgabe in HTML
Mögliche Pakete:
sendmailR: send email from inside R
twitteR: R based Twitter client
sudoku: Sudoku Puzzle Generator and
Nowick , Müller , Kreuz
Solver
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17.und
November
Epidemiologie
2015 (IMISE),
9 / 104
Univ
II. Diskrete Daten: Deskriptive Statistiken und Graphiken
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
10 / 104
Univ
Was sind diskrete Variablen?
Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an:
Kategorial: Es besteht keine Rangordnung der Kategorien
Ordinal: Kategorien können geordnet werden
Kategoriale oder ordinale Variablen sollten in R als Faktoren deniert
sein.
Mit einer Häugkeitstabelle kann man ein kategoriales Objekt
zusammenfassen:
table(object): Absolute Häugkeiten
prop.table(table(object)): Relative
Nowick , Müller , Kreuz
Häugkeiten
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
11 / 104
Univ
Betrachten wir einen Faktor mit 4 Ausprägungen:
DNA <- rep(c(A, C, G, T), 10)
table(DNA)
1
A
2
C
3
G
3
T
.
.
.
.
.
.
ergibt:
A C G T
10 10 10 10
prop.table(table(DNA))
ergibt:
A C G T
0.25 0.25 0.25 0.25
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
12 / 104
Univ
Kuchendiagramm und Balkendiagramm
Balkendiagramm
A
G
T
0
2
4
6
C
8
10
Kuchendiagramm
A
C
G
T
Zu erzeugen mit:
pie(table(DNA))
Nowick , Müller , Kreuz
barplot(table(DNA))
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
13 / 104
Univ
III. Stetige Daten: Deskriptive Statistiken und Graphiken
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
14 / 104
Univ
Was sind stetige Variablen?
Stetige Variablen können (in der Theorie) eine unendliche Anzahl an
Werten annehmen. Beispiele:
Gewicht
Gröÿe
Gehalt
R speichert stetige Variablen als
metrische Objekte (numeric) ab.
Häugkeitstabelle sind für stetige Variablen meist nicht geeignet. Wichtiger
sind:
Maÿe für die Lage
Maÿe für die Streuung
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
15 / 104
Univ
Maÿe für die Lage
Die Lage (location) gibt an, in welcher Gröÿenordnung sich Daten
bewegen.
(Empirische) Mittelwert
x
In
=
1
n
n
X
i =1
xi
=
1
n
(x1 + . . . + xn ) .
R: mean()
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
16 / 104
Univ
Maÿe für die Lage II
x %-Quantile, trennen die Daten in zwei Teile.
So liegen x % der Daten unter dem x %-Quantile
und 100
− x%
darüber.
x0.5 entspricht dem 50%-Quantil
R: median()
25%-Quantil x0.25 (das erste Quartil)
In R: quantile(x,0.25)
75%-Quantil x0.75 (das dritte Quartil)
In R: quantile(x,0.75)
Median
In
Der Median ist robuster gegen Ausreiÿer als der Erwartungswert
Oder gleich in
Nowick , Müller , Kreuz
R: summary()
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
17 / 104
Univ
Maÿe für die Streuung
Die Streuung (scale ) gibt an, wie stark die verschiedenen Werte
voneinander abweichen.
Die (empirische) Varianz
s
2
=
1
n
−1
n
X
(xi − x )2 =
i =1
1
n
−1
(x1 − x )2 + . . . + (xn − x )2 .
Spannbreite:
Dierenz vom gröÿten zum kleinsten Wert
Interquartilsabstand:
IQR
Nowick , Müller , Kreuz
= x0.75 − x0.25
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
18 / 104
Univ
Beispiel:
oecd -Daten
Betrachten wir das durchnittliche, frei verfügbare Einkommen einer Familie
[
pro Kind, in tausend US-Dollar ].
Einen Überblick erhält man durch:
summary(Einkommen)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.10 16.60 21.10 19.18 22.65 34.20
Die Varianz bzw. Standardabweichung
var(Einkommen)
[1] 50.75937
sd(Einkommen) (alternativ sqrt(var(Einkommen))
[1] 7.124561
Nowick , Müller , Kreuz
)
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
19 / 104
Univ
Beispiel:
oecd -Daten II
Den Interquartilsabstand erhält man durch:
IQR(Einkommen)
[1] 6.05
Die Spannweite mit
max(Einkommen)-min(Einkommen)
[1] 29.1
Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder, die
mindestens zweimal betrunken waren) bestehen fehlende Werte.
Mittelwertsberechnung über
mean(Alkohol,na.rm=TRUE)
[1] 15.225
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
20 / 104
Univ
Was ist ein Boxplot?
Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen.
Er enthält:
Minimum und Maximum
25%-Quantil und 75%-Quantil
Median
In
R: boxplot(variable)
Um Variablen getrennt nach Faktorstufen zu untersuchen, bietet sich
an:
boxplot(variable ∼ factor)
Einschub: Ein Label für den Faktor Geo
factor(Geo,levels=c(R,E),
labels=c(Nicht-Europa,Europa))
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
21 / 104
Univ
Boxplot:
Alkohol
15
15
10
20
25
Boxplot für Europa und Nicht−Europa
10
20
25
Boxplot
Nicht−Europa
Europa
Zu erzeugen mit:
boxplot(Alkohol)
Nowick , Müller , Kreuz
boxplot(Alkohol∼ Geo)
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
22 / 104
Univ
Stripchart:
Alkohol
Eine Alternative zum Boxplot bei wenigen Beobachtungen ist der
Nicht−Europa
Europa
Stripchart:
10
15
20
25
Alkohol
Zu erzeugen mit:
stripchart(Alkohol∼Geo)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
23 / 104
Univ
Was ist ein Histogramm?
Zur Erstellung eines Histogramms teilt man die Daten in homogene
Teilintervalle ein und plottet dann die absolute Häugkeit pro
Teilintervall
Dieses Verfahren gibt einen ersten Überblick über die Verteilung der
Daten
( => Ermitteln der empirischen Dichte möglich )
hist(x, breaks = AnzahlBins, freq = NULL )
x: Daten
breaks = AnzahlBins: Steuerung der Teilintervalle
freq=TRUE: absolute Häugkeiten
freq=FALSE: relative Häugkeiten (empirische Dichte)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
24 / 104
Univ
Histogramm:
Einkommen
Histogramme des Einkommens mit verschiedenen Binstärken
Histogram of Einkommen
4
3
Frequency
0
1
2
6
0
2
4
Frequency
8
5
10
6
12
Histogram of Einkommen
5
10
15
20
Einkommen
25
30
35
5
10
15
20
25
30
35
Einkommen
Zu erzeugen mit:
hist(Einkommen)
Nowick , Müller , Kreuz
hist(Einkommen, breaks=15)
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
25 / 104
Univ
Aufgabenkomplex 1
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
26 / 104
Univ
IV. Graphiken in R: Grundaufbau und Parameter
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
27 / 104
Univ
Graphiken in
R
R
kennt einen Standardbefehl für einfache Graphiken (plot()), aber auch
viele spezielle Befehle, wie
hist()
oder
pie().
plot(x, y, type, main, par (...) )
x: Daten der x -Achse
y: Daten der y -Achse
type=l: Darstellung durch eine Linie
type=p: Darstellung durch Punkte
main: Überschrift der Graphik
par (...): Zusätzlich können sehr viele
Parametereinstellungen
geändert werden
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
28 / 104
Univ
Parameter für Graphiken in
R
par(cex, col, lty, mfrow, pch, x/yaxs)
cex: Skalierung von Graphikelementen
col: Farbe (colors() zeigt die vordenierten Farben an)
lty: Linienart
mfrow: Anordnen von mehreren Graphiken nebeneinander
pch: Andere Punkte oder Symbole
x/yaxs: Stil der x - bzw. y -Achse
Einen Überblick über die Parameter erhält man mit
par()
kann entweder im
plot()
Funktion vor einem oder mehreren
Nowick , Müller , Kreuz
?par.
-Befehl gesetzt werden oder als eigene
plot()-Befehlen.
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
29 / 104
Univ
Aufbau von Graphiken in
R
1
plot():
2
Zusätzlich können weitere Elemente eingefügt werden wie:
Bildet den Grundstein einer Graphik
lines(): Linien
points(): Punkte
legend(): Legende
text(): Text
3
dev.off():
schlieÿt die Graphik
Einen Überblick erhält man mit der betreenden Hilfefunktion,
z.B.
?legend.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
30 / 104
Univ
Abspeichern von Graphiken
Folgende Graphikformate können in
R
erzeugt werden:
pdf()
ps()
jpg()
Beispiel:
pdf(file=boxplot.pdf, width=13, height=6)
par(mfrow=c(1,2))
boxplot(Alkohol, main=Boxplot)
boxplot(Alkohol∼Geo, main=Boxplot für ...)
par(mfrow=c(1,1))
dev.off()
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
31 / 104
Univ
1.0
Cos und Sin
y
−1.0
−0.5
0.0
0.5
cosinus
sinus
−3
−2
−1
0
1
2
3
x
pdf(file=RGraphiken/beispiel.pdf, width=12, height=6)
plot(x,y, type=l, col=darkviolet, main=Cos und Sin)
lines(x,z, col=magenta)
points(x,null, pch=3)
legend(topleft, c(cosinus,sinus), col=c(darkviolet,
magenta), lty=1)
dev.off()
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
32 / 104
Univ
V. Dichten und Verteilungsfunktionen in R
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
33 / 104
Univ
Einschub: Zufallsvariablen
Eine Variable oder Merkmal
X,
dessen Werte die Ergebnisse
eines Zufallsvorganges sind, heiÿt Zufallsvariable.
Notation:
X : Die Zufallsvariable
x : Eine Realisierung oder Beobachtung der Zufallsvariable
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
34 / 104
Univ
Induktive (Schlieÿende) Statistik:
Mittels einer Stichprobe wird versucht Aussagen bezüglich einer
Grundgesamtheit zu treen.
Grundgesamtheit: Menge aller für die Fragestellung relevanten Objekte
Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit
Die Aussagen beziehen sich auf Merkmale der Grundgesamtheit.
Merkmal: Die interessierende Gröÿe oder Variable
Merkmalsausprägung: Der konkret gemessene Wert an einem Objekt
der Stichprobe
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
35 / 104
Univ
Das Model: Theoretische Ebene
Statistische Analysen beruhen auf Modellannahmen.
Ziel: Formalisierung eines reellen Sachverhaltes
Stetige Variablen mit Erwartungswert und Varianz
Diskrete Variablen mit Gruppenzugehörigkeiten
Parametrischer Ansatz: Verteilungsannahmen,
wie eine Zufallsvariable X ist normalverteilt mit Erwartungswert
Varianz
µ
und
σ2
Non-Parametrischer Ansatz: Ohne Verteilungsannahmen
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
36 / 104
Univ
Die beobachteten Daten: Die empirische Ebene
Erwartungswert und Varianz einer Grundgesamtheit können nicht in
der Realität beobachtet werden, sondern müssen aus der Stichprobe
geschätzt werden.
Beobachtet werden n Realisierungen x1 , ..., xn einer Zufallsstichprobe
X.
Notation:
Erwartungswert
µ
Schätzer für den Erwartungswert
µ̂ = n1
Pn
i =1 xi
Gesetz der groÿen Zahlen: Je mehr Realisierungen einer Zufallszahl
beobachtet werden, desto besser approximiert der Mittelwert den
Erwartungswert
Realisierungen einer Zufallsvariable folgen nicht exakt einer
bestimmten Verteilung. Nur bei groÿer Stichprobenzahl nähert sich die
empirische Dichte der theoretischen an.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
37 / 104
Univ
Normalverteilung
N (µ, σ)
Die Normal- oder Gauÿ -Verteilung ist formalisiert durch Erwartungswert
und Varianz
σ
2
µ
:
f (x |µ, σ)
=
1
σ·
√
2π
exp
−
1
2
x
−µ
σ
2 !
Diese Funktion ist in R implementiert:
dnorm(x, mean=0, sd=1)
(Vorsicht: mean steht hier für den Erwartungswert)
Erzeugen von n Realisierungen x1 , ..., xn :
rnorm(n, mean=0, sd=1)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
38 / 104
Univ
Beispiel: Normalverteilung
Darstellung: Gesetz der groÿen Zahlen
x10<-matrix(rnorm(100),nrow=10,ncol=10)
x1000<-matrix(rnorm(10000),nrow=10,ncol=1000)
apply(x10,MARGIN=1, mean)
-0.392 -0.309 0.195 -0.727 -0.150 0.327 0.142 0.020 0.069 0.594
apply(x1000,MARGIN=1, mean)
-0.018 -0.011 0.007 -0.011 -0.021 -0.013 0.036 0.026 0.074 0.010
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
39 / 104
Univ
Beispiel: Normalverteilung
Anpassung der empirischen an die theoretische Verteilung:
Histogram of data1000
Density
0.0
0.0
0.1
0.2
0.2
0.1
Density
0.3
0.3
0.4
0.4
Histogram of data10
−2
−1
0
1
data10
Nowick , Müller , Kreuz
2
3
−3
−2
−1
0
1
2
3
data1000
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
40 / 104
Univ
V.I Diskrete Daten
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
41 / 104
Univ
Eine Zufallsvariable heiÿt diskret, wenn sie endlich viele
x1 , ..., xk
Werte
annehmen kann.
Die Wahrscheinlichkeitsfunktion f (x ) einer diskreten Zufallsvariable X ist
für x
∈R
deniert durch die Wahrscheinlichkeiten pi :
f (x )
=
P (X
= xi ) = pi
0
falls x
= xi ∈ {x1 , ..., xk }
sonst
Die Verteilungsfunktion F (x ) einer diskreten Zufallsvariable ist gegeben
durch die Summe:
F (y )
= P (X ≤ y ) =
X
f (xi )
i :x i ≤ y
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
42 / 104
Univ
Eigenschaften
Für die Wahrscheinlichkeitsfunktion f (x ) gilt:
0
≤ f (x ) ≤ 1
X
pi = 1
i ≥1
Für die Verteilungsfunktion F (x ) gilt:
F (x )
=
1
x
0
x
≥ max (x )
≤ min(x )
F(x) ist monoton steigend mit Wertebereich 0 bis 1.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
43 / 104
Univ
Bernoulli-Experiment
Binäre Zufallsvariable X : Tritt ein Ereignis A ein?
X
=
1
falls A eintritt
0
falls A nicht eintritt
Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0
P (X
P (X
Nowick , Müller , Kreuz
<π<1
ein
= 1) = π
= 0) = 1 − π
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
44 / 104
Univ
Binomialverteilung
Die Binomialverteilung entspricht dem n-maligen Durchführen eines
Bernoulli-Experimentes mit Wahrscheinlichkeit
  n x
π (1 − π)n−x
f (x ) =
x

0
π
falls x
= 0, 1, ..., n
sonst
Beispiel
Ein Schütze schieÿt n = 10 mal auf eine Torwand.
Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal trit,
wenn er eine Treerwahrscheinlichkeit π von 25 % hat?
P (X
Nowick , Müller , Kreuz
= 5) =
10
5
0.25
5
(1 − 0.25)10−5 = 0.058
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
45 / 104
Univ
Diskrete Gleichverteilung
Die diskrete Gleichverteilung charakterisiert die Situation, dass
x1 , . . . , xk -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommen
werden.
f (x )
=
1
k
falls xi mit i
0
sonst
= 1, ..., k
Beispiel
Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit
Nowick , Müller , Kreuz
1
6
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
46 / 104
Univ
V.II Stetige Daten
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
47 / 104
Univ
Eine Zufallsvariable heiÿt stetig, wenn sie unendlich viele
Werte
x1 , ..., xk , ...
annehmen kann, wie beispielsweise
metrische Variablen.
Die Dichte f (x ) einer stetigen Zufallsvariable X ist für ein Intervall [a, b ]
deniert als:
Z
P (a
≤ X ≤ b) =
b
f (x )∂ x
a
Die Verteilungsfunktion F (y ) einer stetigen Zufallsvariable ist gegeben
durch das Integral:
Z
F (y )
y
= P (X ≤ y ) =
f (x )∂ x
−∞
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
48 / 104
Univ
Eigenschaften
Für die Dichte f (x ) gilt:
Z
+∞
f (x )∂ x
=1
−∞
Z
P (X
= a) =
a
a
f (x )∂ x
=0
Für die Verteilungsfunktion F (x ) gilt:
F (x )
F
Nowick , Müller , Kreuz
=
0
1
für x
0
für x
(x ) =
≥ max(x )
≤ min(x )
∂ F (X )
= f (x )
∂x
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
49 / 104
Univ
Normalverteilung
N (µ, σ)
Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ -Verteilung
mit Erwartungswert
µ
und Varianz
f (x |µ, σ)
Symmetrisch um
=
σ2:
1
σ·
√
2π
exp
−
1
2
x
−µ
σ
2 !
µ
Nur abhängig von
µ
und
σ
Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler,
Gröÿe und Gewicht
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
50 / 104
Univ
Stetige Gleichverteilung
U (a, b)
Gegeben: ein Intervall, deniert durch reelle Zahlen a und b mit a
f (x )
=
1
b −a
für x
0
sonst
< b:
∈ [a , b ]
Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests.
Hat man
x1 , . . . , xn
Realisierungen einer Variablen
Verteilungsfunktion
F,
X
mit
so gilt:
F (x1 ), . . . , F (xn ) ∼ U (0, 1)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
51 / 104
Univ
Aufgabenkomplex 2
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
52 / 104
Univ
V.III Umgang mit Zufallszahlen
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
53 / 104
Univ
R
ermöglicht den Umgang mit Zufallszahlen.
Beispiel: (Standard)Normalverteilung
1
2
3
rnorm(n, mean=0, sd=1)
Dichte im Wert x : dnorm(x, mean=0, sd=1)
Beispiel: dnorm(c(-1,0,1))
0.24197 0.39894 0.24197
Ziehen von n Zufallszahlen:
Verteilungsfunktion im Wert x :
pnorm(x, mean=0, sd=1)
Beispiel: pnorm(c(-1,0,1))
0.15866 0.50000 0.84134
4
Quantil für Wahrscheinlichkeit p:
qnorm(p, mean=0, sd=1)
Beispiel: qnorm(c(0.25,0.5,0.75))
-0.67449 0.00000 0.67449
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
54 / 104
Univ
Beispiel: (Standard)Normalverteilung
1
Dichte im Wert x :
dnorm(c(-1,0,1))
0.24197 0.39894 0.24197
2
Verteilungsfunktion im Wert x :
pnorm(c(-1,0,1))
0.15866 0.50000 0.84134
Verteilungsfunktion
1.0
0.4
Dichte
Fx
●
0.2
0.1
0.4
fx
0.2
0.6
0.3
0.8
●
0.0
0.0
●
−4
−2
0
x
Nowick , Müller , Kreuz
2
4
−4
−2
0
2
4
x
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
55 / 104
Univ
R-Befehle
für weitere Verteilungen
rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean
Standardabweichung sd
rexp(n, rate=1) Exponentialverteilung mit Rate rate
rpois(n, lambda) Poissonverteilung mit Rate lambda
rcauchy(n, location=0, scale=1) Cauchyverteilung mit
und
Lokations- und Skalenparameter
rt(n, df)(Studen)t -verteilung mit Freiheitsgraden df
rbinom(n, size, prob) Binomialverteilung vom Umfang size und
Wahrscheinlichkeit prob
rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeit
prob
rhyper(nn, m, n, k) Hypergeometrische Verteilung
runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min,
max]
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
56 / 104
Univ
Darstellung: Histogramme
und Kerndichteschätzer
1
Histogramme: Darstellung von stetigen und diskreten Verteilungen
hist(x, breaks = AnzahlBins, freq = NULL )
x: Daten
breaks = AnzahlBins: Steuerung der Teilintervalle
freq=TRUE: absolute Häugkeiten
freq=FALSE: relative Häugkeiten (empirische Dichte)
2
Kerndichteschätzer: Darstellung von stetigen Verteilungen
plot(density(x, kernel=gaussian, bw))
density(x): Kerndichteschätzung der Daten
kernel: Option für spezielle Kerntypen
bw: Bandbreite
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
57 / 104
Univ
Darstellung: Kerndichteschätzer
Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zur
Schätzung von stetigen Dichten
Hat man gegebene Daten x1 , . . . , xn und eine konstante Bandbreite
h ∈ R so ist der Kerndichteschätzer gegeben durch:
fˆ(x ) =
1
n
n
X
1
i =1
h
K
x
− xi
h
Typische Kerne sind:
Bisquare Kern: K (u )
=
15
1
16
( − u 2 )2
für u
∈ [−1, 1] und 0
sonst
!
Gauÿ Kern: K (u )
Nowick , Müller , Kreuz
=
√1
2π
exp
− 21 u 2
für u
∈R
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
58 / 104
Univ
Beispiel: Simulation aus der Normalverteilung
data10<-rnorm(10)
hist(data10, freq=FALSE)
lines(density(data10), col=2)
data1000<-rnorm(1000)
hist(data1000, freq=FALSE)
lines(density(data1000), col=2)
Histogram of data1000
Density
0.0
0.0
0.1
0.2
0.2
0.1
Density
0.3
0.3
0.4
0.4
Histogram of data10
−2
−1
0
1
data10
Nowick , Müller , Kreuz
2
3
−3
−2
−1
0
1
2
3
data1000
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
59 / 104
Univ
Beispiel: Wie plottet man die Normalverteilung?
x<-seq(from=-4, to=4, by=0.1)
] Dichte
fx<-dnorm(x)
plot(x,fx, type=l)
] Verteilungsfunktion
Fx<-pnorm(x)
plot(x,Fx, type=l)
Verteilungsfunktion
Fx
0.0
0.0
0.2
0.1
0.4
fx
0.2
0.6
0.3
0.8
1.0
0.4
Dichte
−4
−2
0
x
Nowick , Müller , Kreuz
2
4
−4
−2
0
2
4
x
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
60 / 104
Univ
Darstellung: Q-Q-Plot
Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch)
zweier Verteilungen gegeneinander ab. Somit können Verteilungen
miteinander verglichen werden.
qqplot(x,y):
Plottet die emp. Quantile von x gegen die emp.
Quantile von y
qqnorm(y):
Plottet die emp. Quantile von y gegen die theoretischen
Quantile einer Standard-Normalverteilung
qqline(y):
Fügt dem Quantilplot eine Gerade hinzu die durch das
erste und dritte Quartil geht
Bsp: Vergleich von Normal- und t -Verteilung
data <- rt(400, df = 2)
qqnorm(data, main = QQ-Plot, xlab= Normalverteilung, ylab =
t-Verteilung)
qqline(data, col = green)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
61 / 104
Univ
Darstellung: Q-Q-Plot
10
QQ−Plot
●
●
5
●
−5
●
●
−10
t−Verteilung
0
●
●
●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
−15
●
●
−3
−2
−1
0
1
2
3
Normalverteilung
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
62 / 104
Univ
VI. Statistische Tests
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
63 / 104
Univ
VI.I Einführungsbeispiel
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
64 / 104
Univ
VI.I Einführungsbeispiel
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
65 / 104
Univ
Fragestellung
Einführungsbeispiel: Trinkt die Jugend in Europa mehr Alkohol als
im Rest der Welt?
Untersucht wird die Variable Alkohol im oecd-Datensatz: Der Anteil an
13-15 jährigen Jugendlichen, die mindestens zweimal betrunken waren.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
66 / 104
Univ
Erster Schritt: Deskriptive Analyse
1
Graphisch mit Boxplot:
boxplot(Alkohol∼Geo)
10
15
20
25
Boxplot für Europa und Nicht−Europa
Nicht−Europa
Nowick , Müller , Kreuz
Europa
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
67 / 104
Univ
Zweiter Schritt: Kennzahlen
2
Kennzahlen:
Mittelwert:
mu<-tapply(Alkohol, Geo, FUN=mean, na.rm=TRUE)
Nicht-Europa Europa
13.700
15.443
Standardabweichung:
sigma<-tapply(Alkohol, Geo, FUN=sd, na.rm=TRUE)
Nicht-Europa Europa
4.518
4.341
Es ist zu erkennen, dass in Europa im Mittel ein höherer Anteil an
Jugendlichen schon mindestens zweimal betrunken war als in
nicht-europäischen Staaten.
Doch dies könnte auch ein Zufall sein! Denn die
Beobachtungen beruhen auf Stichproben, sie sind
Realisierungen einer Zufallsvariable.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
68 / 104
Univ
Eigentliches Ziel:
Überprüfung von Annahmen über das Verhalten des interessierenden
Merkmales in der Grundgesamtheit mittels Stichproben.
Annahme: Jugendliche in Europa trinken mehr Alkohol als im Rest
der Welt
Merkmal: Alkoholkonsum der Jugend
Grundgesamtheit: Jugendliche in Europa und im Rest der Welt
Stichprobe: Die oecd-Daten
Für solche Fragestellungen mit gleichzeitiger Kontrolle der
Fehlerwahrscheinlichkeit sind statistische Tests geeignet!
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
69 / 104
Univ
Statistisches Testen I
1
Aufstellen von zwei komplementären Hypothesen:
Testhypothese (H0 ): Der Anteil in Europa ist kleiner dem im Rest der
Welt
µE ≤ µNE
H
Alternativhypothese ( 1 ): Der Anteil in Europa gröÿer als der im
Rest der Welt
2
µE > µNE
Fehlerwahrscheinlichkeit festlegen:
H0 soll mit einer W'keit von weniger als 5% abgelehnt werden, wenn
H0 wahr ist.
Also: Wenn der Anteil in Wahrheit kleiner oder gleich ist,
soll der Test nur mit einer Wahrscheilichkeit von weniger als
5% zu dem (falschen) Ergebnis kommen, dass der Anteil
gröÿer ist.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
70 / 104
Univ
Statistisches Testen II
3
4
5
Beobachtete Daten: 2 Gruppen
µ̂
σ̂
Nicht-Europa
13.700
4.518
3
Europa
15.443
4.341
21
n
(Weitere Annahmen, hier: Normalverteilung, Varianzgleichheit)
Berechnen der Prüfgröÿe T , einer Kennzahl, die zeigt, wie stark
die Gruppenmittel voneinander abweichen:
Mittelwertsdierenz der beiden Gruppen
Standardisieren mit der entsprechenden Standardabweichung
s
T = (µˆE − µNE
ˆ )/
(
1
nE
+
2
(nE − 1)σ̂E2 + (nNE − 1)σ̂NE
nNE
nE + nNE − 2
1
)
(Hypothetische Verteilung der Prüfgröÿe festlegen, hier t-Verteilung
mit 3 + 21 - 2 = 22 Freiheitsgraden)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
71 / 104
Univ
Statistisches Testen III
6
Berechnung der Prüfgröÿe T in R:
Mittelwertsdierenz der beiden Gruppen
m.diff<-mu[2]-mu[1]
Standardisieren mit der entsprechenden Standardabweichung
diff.std2 <- sqrt((1/21+1/3)*
(20*sigma[2]ˆ2+2*sigma[1]ˆ2)/(21+3-2))
Prüfgröÿe:
pg.T <- m.diff/diff.std2
0.648
7
Wie wahrscheinlich ist es (unter der Nullhypothese), eine
Prüfgröÿe T zu beobachten, die gröÿer oder gleich 0.648 ist?
1-pt(pg.T, df=22)
0.262
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
72 / 104
Univ
y
0.0
0.1
0.2
0.3
0.4
Statistisches Testen IV
−4
−2
0.738
0.262
pg.T
0
2
4
x
Mit hoher Wahrscheinlichkeit (26.2%) kann eine solche Prüfgröÿe pg .T
beobachtet werden, wenn der Mittelwert in Europa und kleiner als der in
Nicht-Europa ist.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
73 / 104
Univ
Statistisches Testen V
8
Entscheidung: Aus diesen Daten kann nicht geschlossen werden, dass
in Europa Jugendliche mehr Alkohol trinken als im Rest der Welt.
9
Grund: Zu geringe Fallzahl!
Mit nE
= nNE = 101
ergibt sich
Standardisieren mit der entsprechenden Standardabweichung
diff.std <- sqrt((1/101+1/101)*
(100*sigma[2]2+100*sigma[1]2)/(101+101-2))
Prüfgröÿe:
pg.T2 <-m.di/di.std2
2.796
Vergleich mit der
t -Verteilung:
1-pt(pg.T2, df=200)
0.003
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
74 / 104
Univ
y
0.1
0.2
0.3
0.4
Statistisches Testen VI
0.0
0.997
−4
−2
0
0.003
pg.T2
2
4
x
Mit nur sehr geringer Wahrscheinlichkeit (0.003%) kann eine solche
Prüfgröÿe pg .T 2 beobachtet werden, wenn wenn der Mittelwert in Europa
und kleiner als der in Nicht-Europa ist.
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
75 / 104
Univ
Fünf Schritte zum Testergebnis
I. Hypothesen aufstellen
II. Betrachtung der Daten
III. Aufstellen der Prüfgröÿe
IV. Durchführen des Tests
V. Testentscheidung
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
76 / 104
Univ
I. Hypothesen aufstellen
Was soll verglichen werden?
Mittelwerte von unabhängigen Gruppen
Mittelwert gegen einen festen Wert
Gepaarte Messungen
Einseitige oder zweiseitige Fragestellung?
Einseitige Fragestellung:
H0 : µ1 ≤ µ2 gegen H1 : µ1 > µ2
Zweiseitige Fragestellung:
H0 : µ1 = µ2 gegen H1 : µ1 6= µ2
Aufstellen der eigentlich interessierenden Alternativhypothese
H1 und der Nullhypothese H0
Signikanzniveau α festlegen
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
77 / 104
Univ
Fehler bei statistischen Tests
Entscheidung H0
H0 wahr
H1 wahr
richtig
Fehler zweiter Art
Entscheidung H1
Fehler erster Art
(β)
α
richtig
Fehler erster Art (α-Fehler):
Obwohl H0 wahr ist, entscheidet man sich für H1
(Falsch positives Testergebnis)
Fehler zweiter Art (β -Fehler):
Obwohl H1 wahr ist, entscheidet man sich für H0
(Falsch negatives Testergebnis)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
78 / 104
Univ
II. Betrachtung der Daten
Können Verteilungsannahmen getroen werden?
Ja: Parametrische Tests
Nein: Nicht-Parametrische Tests
Weitere Annahmen wie z.B. Varianzgleichheit in den Gruppen
Aus Schritt I. und II. folgt die Auswahl eines geeigneten Tests und alle
weiteren Schritte!
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
79 / 104
Univ
III. Aufstellen der Prüfgröÿe
Aus den Hypothesen ergibt sich die Form der Prüfgröÿe, z.B. die
Mittelwertsdierenz
Standardisieren der Prüfgröÿe mit:
unter
unter
H0 gültigen Erwartungswert
H0 gültigen Standardabweichung
Festlegen der Verteilung, die unter H0 gültig ist
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
80 / 104
Univ
IV./V. Durchführen des Tests und Testentscheidung
Hier sind zwei Werte entscheidend:
Kritischer Wert κ: Welchen Wert darf die Prüfgröÿe bei gegebenem
Signikanzniveau
α
maximal/minimal annehmen, wenn H0 tatsächlich
gültig ist
p
-Wert: Wahrscheinlichkeit, die vorliegenden Daten zu beobachten,
wenn H0 gültig ist
Entscheidung H0 ablehnen, falls:
die Prüfgröÿe gröÿer als der kritische Wert ist (bzw. kleiner als der
kritische Wert bei einigen nonparametrischen Tests)
falls der p-Wert kleiner dem vorher festgelegten Signikanzniveau
Nowick , Müller , Kreuz
α
ist
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
81 / 104
Univ
t -Test - gegen festen Wert (Einstichproben-t -Test)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
82 / 104
Univ
1. Ziel, Hypothesen und Voraussetzungen
Vergleich das emp. Populationsmittel x einer Population mit einem
hypothetischen Mittelwert
µ0
Voraussetzung: Normalverteilung der Stichprobe
Varianz wird als unbekannt angenommen und aus den Daten geschätzt
Varianten für die Hypothesen:
1
Einseitige Fragestellung 1:
H0 : x ≤ µ0 gegen H1 : x > µ0
2
Einseitige Fragestellung 2:
H0 : x ≥ µ0 gegen H1 : x < µ0
3
Zweiseitige Fragestellung:
H0 : x = µ0 gegen H1 : x 6= µ0
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
83 / 104
Univ
2. Teststatistik
Teststatistik
T
=
x
− µ0 √
· n
s
Schätzung der Standardabweichung
Pn
s
Nowick , Müller , Kreuz
=
σ
i =1 (x
n
durch:
− xi )2
0.5
−1
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
84 / 104
Univ
3. Kritische Bereiche
1
Einseitige Fragestellung 1:
T > t1−α (df = n − 1)
2
Einseitige Fragestellung 2:
T < tα (df = n − 1)
3
Zweiseitige Fragestellung:
|T | > t1−α/2 (df = n − 1)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
85 / 104
Univ
t -Test für unabhängige Stichproben (Zweistichproben-t -Test)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
86 / 104
Univ
1. Ziel, Hypothesen und Voraussetzungen
Vergleich das emp. Populationsmittel x 1 und x 2 miteinander
Voraussetzung: Normalverteilung der Stichproben
Varianz der Populationen unbekannt
2 Varianten: Varianzen der Populationen gleich oder ungleich
Varianten für die Hypothesen:
1
Einseitige Fragestellung 1:
H0 : x 1 ≤ x 2 gegen H1 : x 1 > x 2
2
Einseitige Fragestellung 2:
H0 : x 1 ≥ x 2 gegen H1 : x 1 < x 2
3
Zweiseitige Fragestellung:
H0 : x 1 = x 2 gegen H1 : x 1 6= x 2
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
87 / 104
Univ
2. Teststatistik
Teststatistik
T
=
x1
− x2 √
· n
s
Schätzung der Standardabweichung
s
=
1
n1
+
1
n2
·
σ
durch:
(n1 − 1)s1 + (n2 − 1)s2
n1 + n2 − 1
0.5
wobei s1 und s2 die Standardvarianzschätzer für die Populationen sind
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
88 / 104
Univ
3. Kritische Bereiche
1
Einseitige Fragestellung 1:
T > t1−α (n1 + n2 − 2)
2
Einseitige Fragestellung 2:
T < tα (n1 + n2 − 2)
3
Zweiseitige Fragestellung:
|T | > t1−α/2 (n1 + n2 − 2)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
89 / 104
Univ
t -Test für Paardierenzen
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
90 / 104
Univ
1. Ziel, Hypothesen und Voraussetzungen
P
P
= ni=1 di = ni=1 x1i − x2i
Stichproben (x1i , x2i )
Teste die Dierenz d
gepaarter
miteinander
Typisches Bsp.: Messen eines Blutwertes vor und nach einer med.
Behandlung
Voraussetzung: Normalverteilung der Stichproben
Varianten für die Hypothesen:
1
Einseitige Fragestellung 1:
H0 : d ≤ 0 gegen H1 : d > 0
2
Einseitige Fragestellung 2:
H0 : d ≥ 0 gegen H1 : d < 0
3
Zweiseitige Fragestellung:
H0 : d = 0 gegen H1 : d 6= 0
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
91 / 104
Univ
2. Teststatistik
Teststatistik
=
T
d
s
Schätzung der Standardabweichung
Nowick , Müller , Kreuz
=
σ
n
i =1 (d
"P
s
·
n
√
n
durch:
− di )2
#0.5
−1
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
92 / 104
Univ
3. Kritische Bereiche
1
Einseitige Fragestellung 1:
T > t1−α (df = n − 1)
2
Einseitige Fragestellung 2:
T < tα (df = n − 1)
3
Zweiseitige Fragestellung:
|T | > t1−α/2 (df = n − 1)
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
93 / 104
Univ
Der Wilcoxon-Rangsummen-Test
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
94 / 104
Univ
1. Ziel, Hypothesen und Voraussetzungen
Teste nicht-parametrisch, ob zwei Population den gleichen Median
besitzen
Zu verwenden, wenn Vor. für den t -Test nicht erfüllt sind
Benötigt KEINE konkrete Verteilungsannahme
Alternative für den t -Test
Varianten für die Hypothesen:
1
Einseitige Fragestellung 1:
H0 : x1,med ≤ x2,med gegen H1 : x1,med > x2,med
2
Einseitige Fragestellung 2:
H0 : x1,med ≥ x2,med gegen H1 : x1,med < x2,med
3
Zweiseitige Fragestellung:
H0 : x1,med = x2,med gegen H1 : x1,med 6= x2,med
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
95 / 104
Univ
2. Teststatistik
Bilde für sämtlichen Beobachtungen x11 , . . . x1n1 , x21 , . . . x2n2 Ränge
rg (x11 ), . . . rg (x1n1 ), rg (x21 ), . . . rg (x2n2 )
Teststatistik:
R
=
n1
X
rg (x1i )
i =1
Wertebereich:
n1 (n1 +1)
2
<R<
(n1 +n2 )(n1 +n2 +1)
2
−
n1 (n1 +)
2
Nullverteilung von R liegt tabelliert vor
Approximation durch die Normalverteilung ab einer Stichprobengröÿe
von ca. 20 möglich
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
96 / 104
Univ
3. Kritische Bereiche
1
Einseitige Fragestellung 1:
R > w1−α (n1 , n2 )
2
Einseitige Fragestellung 2:
R < wα (n1 , n2 )
3
Zweiseitige Fragestellung:
R > w1−α/2 (n1 , n2 ) oder R < wα/2 (n1 , n2 )
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
97 / 104
Univ
t -Test und Wilcoxon-Rangsummen - Test in R - Praktische
Durchführung
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
98 / 104
Univ
t -Test in R
t.test(x, y, alternative, paired, var.equal)
Erklärung der Parameter:
x,y = NULL:
Die Daten, beim t -Test für eine Population genügt es, x
anzugeben
alternative = c(two.sided, less, greater):
Varianten für die Alternativhypothese
var.equal = TRUE:
Gibt an, ob Varianzgleichheit bei den
Populationen vorliegt
paired:
Gibt an, ob x und y als gepaarte Stichprobe anzusehen sind
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. und
November
Epidemiologie
2015
(IMISE),
99 / 104
Univ
Wilcoxon-Rangsummen - Test in
R
wilcox.test(x, y, alternative, paired, exact)
Erklärung der Parameter:
Im wesentlichen analog zum t -Test
exact:
Soll die Teststatistik exakt bestimmt werden, oder per
Approximation an die Normalverteilung?
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. November
und Epidemiologie
2015
(IMISE),
100 / 104
Univ
Beispiel:
Nettokaltmieten pro m
2
für 1- (X) und 2-Raum (Y) Wohnungen
Gibt es einen Unterschied zwischen beiden Gruppen?
Wir untersuchen diese Frage per Wilcoxon- und t -Test
Nowick , Müller , Kreuz
1
2
3
4
5
X
8.70
11.28
13.24
8.37
12.16
Y
3.36
18.35
5.19
8.35
13.10
6
7
8
9
10
X
11.04
10.47
11.16
4.28
19.54
Y
15.65
4.29
11.36
9.09
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. November
und Epidemiologie
2015
(IMISE),
101 / 104
Univ
t -Test
miete <- read.csv(Miete.csv)
attach(miete)
t.test(X,Y, var.equal = FALSE, paired = FALSE)
R-Ausgabe:
Welch Two Sample t -test
data: X and Y
t = 0.5471, df = 14.788, p-value = 0.5925
alternative hypothesis: true difference in means is not
equal to 0
p > 0.05, kein signikanter Unterschied
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. November
und Epidemiologie
2015
(IMISE),
102 / 104
Univ
Wilcoxon-Rangsummen-Test
wilcox.test(X,Y, exact = TRUE)
R-Ausgabe:
Wilcoxon rank sum test
data: X and Y
W = 51, p-value = 0.6607
alternative hypothesis: true location shift is not
equal to 0
p > 0.05, kein signikanter Unterschied
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. November
und Epidemiologie
2015
(IMISE),
103 / 104
Univ
Aufgabenkomplex 3
Nowick , Müller , Kreuz
( Institut fürGrundlagen
Medizinische
II Informatik, Statistik
17. November
und Epidemiologie
2015
(IMISE),
104 / 104
Univ
Herunterladen