Biostatistik I - Institut für Stochastik und Anwendungen

Werbung
Biostatistik I
Jürgen Dippon
Institut für Stochastik und Anwendungen (ISA)
Universität Stuttgart
11. Dezember 2012
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
1 / 435
11. Dezember 2012
2 / 435
Teil I
Deskriptive Statistik
Jürgen Dippon (ISA)
Biostatistik I
Deskriptive Statistik
1
Einführung
2
Deskriptive Statistik univariater Daten
3
Deskriptive Statistik multivariater Daten
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
3 / 435
11. Dezember 2012
4 / 435
1. Einführung
1
Einführung
2
Deskriptive Statistik univariater Daten
3
Deskriptive Statistik multivariater Daten
Jürgen Dippon (ISA)
Biostatistik I
1. Einführung
Einführung
Grundaufgabe der Statistik
Beschreiben (Deskription)
Suchen (Exploration)
Schlieÿen (Induktion)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
5 / 435
1. Einführung
Die deskriptive Statistik dient zur beschreibenden und graschen
Aufarbeitung und Komprimierung von Daten. Beschrieben werden
Merkmale oder Variablen, die gewisse Ausprägungen oder Werte besitzen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
6 / 435
1. Einführung
Unterschiedliche Typen von Variablen
Zielgröÿen
Einussgröÿen oder Faktoren
Störgröÿen oder latente Gröÿen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
7 / 435
1. Einführung
Deskriptive Statistik wird auch zur Datenvalidierung eingesetzt: Sind die
erhobenen Daten plausibel und vertrauenswürdig?
Mögliche Probleme: Passt die Gröÿenordnung? Gibt es Ausreiser? Gibt es
Hinweise auf Übertragungs- oder Eingabefehler? Wurden die Daten
eventuell gefälscht?
Deskriptive Statistik verwendet im Gegensatz zur induktiven Statistik keine Wahrscheinlichkeitstheorie.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
8 / 435
1. Einführung
Die explorative Statistik sucht Strukturen oder Besonderheiten in den
Daten und dient zur Hypothesengewinnung.
Hypothesen können schlieÿlich in der induktiven Statistik formal mit
wahrscheinlichkeitstheoretischen Methoden überprüft werden, z.B. kann mit
groÿer Sicherheit geschlossen werden, dass ein in der Stichprobe gefundener
Zusammenhang auch in der Grundgesamtheit vorliegt ?
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
9 / 435
1. Einführung
Wichtige Grundbegrie
Statistische Einheit: Objekte, an denen interessierende Gröÿen erfasst
werden
Grundgesamtheit, Population: Menge aller für die Fragestellung
relevanten statistischen Einheiten
Teilgesamtheit: Teilmenge der Grundgesamtheit
Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit
Merkmal: interessierende Gröÿe, Variable
Merkmalsausprägung: konkreter Wert des Merkmals für eine statistische
Einheit
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
10 / 435
1. Einführung
Charakterisierung von Merkmalen
diskretes Merkmal: Menge der Merkmalsausprägung ist abzählbar
stetiges Merkmal: Merkmale nehmen Werte aus einem Intervall an
quasistetige Merkmale: Merkmal ist von seiner Natur her stetig,
mögliche Werte aber, z.B. aufgrund des Messprozesses, abzählbar
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
11 / 435
1. Einführung
Unterscheidung von Merkmalen aufgrund ihrer Skalenniveaus:
1
Nominalskala: Merkmalsausprägungen sind Namen oder Kategorien
(z.B. Haarfarbe, Religion) (endliche Menge)
2
Ordinalskala: Ausprägungen können geordnet werden (z.B.
Tumorstadien, Schulnoten)
3
Intervallskala: Abstände zwischen Ausprägungen können interpretiert
werden (z.B. Temperatur auf der Celsius-Skala, Jahreszahlen,
IQ-Skala)
4
Verhältnisskala: Quotienten zwischen Ausprägungen können
interpretiert werden (z.B. Temperatur in Kelvin, Gewicht in kg, Preis
in Euro)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
12 / 435
1. Einführung
Weitere Unterscheidung:
Qualitative Merkmale (endlich viele Ausprägungen, höchstens ordinal
skaliert)
versus
quantitative Merkmale (spiegeln eine Intensität wider)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
13 / 435
1. Einführung
Elemente der Versuchsplanung
Notwendigkeit eines Versuchsplans
Wie lautet das Ziel der Studie oder des Experiments ?
Wie soll das Ziel erreicht werden ?
Statistische Methoden
Fallzahl
Wie lassen sich Störvariablen kontrollieren ? (z.B. durch
Homogenisierung, Randomisierung, Parallelisierung, Kontrolle der
Störvariablen im Rahmen eines statistischen Modells)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
14 / 435
1. Einführung
Datengewinnung kann erfolgen
in einem Experiment
einer Erhebung
I
I
im Rahmen einer Vollerhebung
einer Stichprobe
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
15 / 435
1. Einführung
Verschiedene Methoden der Stichprobenbildung
einfache Zufallsstichprobe
systematische Ziehung (z.B. jeder siebte Patient)
geschichtete Zufallsstichproben (z.B. ziehe je eine Zufallsstichprobe
aus der Gruppe der Männer und der Frauen)
Klumpenstichprobe (z.B. Vollerhebung aller Tiere aus zufällig
ausgewählten Herden).
mehrstuge Auswahlverfahren
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
16 / 435
1. Einführung
Studiendesigns
Querschnittstudie: mehrere Objekte werden zu einem Zeitpunkt
beobachtet
Zeitreihe: ein Objekt wird zu mehreren Zeitpunkten beobachtet
Längsschnittstudie, Panel: mehrere Objekte und zwar immer die
gleichen werden zu
Jürgen Dippon (ISA)
mehreren
Zeitpunkten beobachtet
Biostatistik I
11. Dezember 2012
17 / 435
11. Dezember 2012
18 / 435
2. Deskriptive Statistik univariater Daten
1
Einführung
2
Deskriptive Statistik univariater Daten
Verteilungen und ihre Darstellungen
Beschreibung von Verteilungen
Lagemaÿe
Quantile und Box-Plot
Streuungsmaÿe
Maÿzahlen für Schiefe und Wölbung
Dichtekurven und Normalverteilung
3
Deskriptive Statistik multivariater Daten
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
Deskriptive Statistik univariater Daten
In diesem Kapitel betrachten wir Merkmalsträger mit nur einem Merkmal.
Im nächsten Kapitel betrachten wir auch Merkmalsträger mit mehreren
Merkmalen.
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
19 / 435
2.1. Verteilungen und ihre Darstellungen
Häugkeitsverteilung
X
x| , .{z. . , xn}
Ein Merkmal
werde an
n
Untersuchungseinheiten beobachtet:
1
sog. Urliste, Roh- oder Primärdaten
Problem: schon bei moderatem Stichprobenumfang unübersichtlich
a , . . . , ak
h(aj ) = hj
f (aj ) = fj = hnj
h , . . . , fk
f , . . . , fk
k n
Die dabei auftretenden verschiedenen Merkmalsausprägungen werden mit
bezeichnet
1
( ≤ )
xi
x , . . . , xn
aj
Anzahl der
aus
1
mit
d.h.
relative Häugkeit von
1
absolute Häugkeitsverteilung
1
relative Häugkeitsverteilung
Jürgen Dippon (ISA)
aj
xi = aj
absolute Häugkeit der Ausprägung
Biostatistik I
11. Dezember 2012
20 / 435
2. Deskriptive Statistik univariater Daten
2.1. Verteilungen und ihre Darstellungen
Grasche Methoden für univariate Daten
Stabdiagramm: Trage über a1 , . . . , ak
senkrechten Strich (Stab) mit Höhe
h , . . . , hk
f
jeweils einen zur
1
x
fk
-Achse
(oder 1 , . . . ,
) ab.
Säulendiagramm: Wie Stabdiagramm, aber mit Rechtecken statt Strichen
Balkendiagramm: Wie Säulendiagramm, aber mit vertikal statt horizontal
gelegter
x
-Achse
Kreisdiagramm: Flächen der Kreissektoren proportional zu den
Häugkeiten: Winkel des Kreissektors
Jürgen Dippon (ISA)
j : fj ·
Biostatistik I
2. Deskriptive Statistik univariater Daten
360
◦
11. Dezember 2012
21 / 435
2.1. Verteilungen und ihre Darstellungen
## Anzahl der Tiere je Wurf in 12 Würfen
x <- c ("2" ,"2" ,"3" ,"3" ,"3" ,"4" ,"2" ,"5" ,"5" ,"4" ,"4" ,"3")
n <- length ( x )
h <- table ( x )
## absolute Haeufigkeitsverteilung
f <- h /n
## relative Haeufigkeitsverteilung
## Stabdiagramm
plot ( h )
plot ( h / n )
## Säulendiagramm
barplot ( h )
barplot ( h / n )
## Balkendiagramm
barplot (h , horiz = TRUE )
## Kreisdiagramm
pie ( h )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
22 / 435
2. Deskriptive Statistik univariater Daten
Jürgen Dippon (ISA)
2.1. Verteilungen und ihre Darstellungen
Biostatistik I
11. Dezember 2012
Abbildung: Grasche Methoden zur Datenvisualisierung
2. Deskriptive Statistik univariater Daten
23 / 435
2.1. Verteilungen und ihre Darstellungen
Stamm-Blatt-Diagramm:
Die Urliste wird bis auf Rundungen in einer dem Histogramm ähnlichen
Darstellung reproduziert.Das Diagramm wird erzeugt mittels:
x <- c (2.46 , 2.3 , 3.1 , 3.6 , 3.8 , 4.4 , 2.7 , 5.9 , 5.9 ,
4.1 , 4.4 , 3.6)
stem ( x )
Das ausgegebene Diagramm ist:
2
3
4
5
|
|
|
|
357
1668
144
99
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
24 / 435
2. Deskriptive Statistik univariater Daten
2.1. Verteilungen und ihre Darstellungen
Histogramm
Für gröÿere Datensätze besser geeignet:
c c ), [c , c ), . . . , [ck , ck )
Histogramme: Gruppiere die Daten in Klassen, bestehend aus benachbarten
[ 0,
Intervallen
1
1
2
−1
Zeichne über diesen Klassen Rechtecke mit:
dj = cj − cj
Breite
:
Höhe
:
gleich (oder proportional zu)
Fläche
:
gleich (oder proportional zu)
−1
Jürgen Dippon (ISA)
hj
dj
hj
bzw
bzw
Biostatistik I
2. Deskriptive Statistik univariater Daten
fj
dj
fj
11. Dezember 2012
25 / 435
2.1. Verteilungen und ihre Darstellungen
Histogramm ist so konstruiert, dass die dargestellten Flächen proportional
zu den absoluten bzw. relativen Häugkeiten (Prinzip der Flächentreue).
Wähle, falls möglich, die Klassenbreiten
d , . . . , dk
1
gleich.
Faustregeln für die Klassenzahl:
k = [√n]
oder
k = [√n ]
2
oder
k=[
10 log10
n]
...
oder nach subjektivem Empnden.
Hierbei ist
x
[ ]
die gröÿte ganze Zahl kleiner gleich der reellen Zahl
Jürgen Dippon (ISA)
Biostatistik I
x
11. Dezember 2012
.
26 / 435
2. Deskriptive Statistik univariater Daten
2.1. Verteilungen und ihre Darstellungen
## Normalverteilte Zufallszahlen
x <- rnorm (20)
## Stamm - Blatt - Diagramm
stem ( x )
## Histogramm
hist ( x )
hist (x , freq = FALSE )
## Empirische Verteilungsfunktion
F <- ecdf ( x )
plot ( F )
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
27 / 435
2.1. Verteilungen und ihre Darstellungen
Abbildung: Weitere Methoden zur Datenvisualisierung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
28 / 435
2. Deskriptive Statistik univariater Daten
2.1. Verteilungen und ihre Darstellungen
Viele empirische Verteilungen sind unimodal (eingipig), es sind aber auch
bi- oder multimodale (zwei- oder mehrgipige) Verteilungen zu beobachten
(z.B. bei geschichteten Daten)
Symmetrische Verteilung
linkssteile oder rechtsschiefe Verteilungen
rechtssteile oder linksschiefe Verteilungen
Ist das betrachtete Merkmal ordinalskaliert, so lassen sich die beobachteten
Ausprägungen ordnen:
Jürgen Dippon (ISA)
a
1
a
< ... < k
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
29 / 435
2.1. Verteilungen und ihre Darstellungen
Kumulierte Häugkeitsverteilung
Absolute kumulierte Häugkeitsverteilung:
∀
x ∈R
H (x )
Hierbei ist
=
=
aj
xi ≤ x
h(a ) + . . . + h(aj ) = Pi ai x hi
aj ≤ x
Anzahl der Werte
xi
mit
1
: ≤
die gröÿte Ausprägung mit
Jürgen Dippon (ISA)
Biostatistik I
(also ist
aj
+1
>
x
)
11. Dezember 2012
30 / 435
2. Deskriptive Statistik univariater Daten
2.1. Verteilungen und ihre Darstellungen
Empirische Verteilungsfunktion
Wichtiger: Relative kumutierte Häugkeitsverteilung oder
Verteilungsfunktion
F (x ) = H (nx ) =
= f (a ) + . . . + f (aj ) =
relativer Anzahl der Werte
1
wobei
aj ≤ x
und
aj
+1
>
x
X
i : ai ≤x
fi
xi
empirische
mit
xi ≤ x
.
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
31 / 435
2.2. Beschreibung von Verteilungen
Lagemaÿe
Gesucht sind Maÿzahlen oder Parameter von Verteilungen
Ein
Lagemaÿ (im engeren Sinne) ist eine Abbildung L : Rn → R, falls
∀
a∈R
∀
x1 ,...,xn ∈R
Jürgen Dippon (ISA)
L(x + a, . . . , xn + a) = L(x , . . . , xn) + a
1
1
Biostatistik I
11. Dezember 2012
32 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Arithmetisches Mittel
Beispiele für Lagemaÿe:
Arithmetisches Mittel:
x̄ = n (x
1
1
f
fk
=1
Für Häugkeitsdaten mit Ausprägungen
Häugkeiten 1 , . . . ,
gilt
x̄ = a f
1 1
n
X
x n xi
i
a , . . . , ak
+ . . . + n) =
1
und relativen
1
af
+ ... + k k =
k
X
j =1
aj fj
(gewichtetes Mittel)
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
33 / 435
2.2. Beschreibung von Verteilungen
Das arithmetische Mittel ist i.a. nur für quantitative Merkmale sinnvoll
deniert.
Für das arithmetische Mittel gilt
(Schwerpunkteigenschaft)
Umfängen
x x̄
r
n , . . . , nr
x̄ . . . , x̄r
r
X
x̄ = n (n x̄ + . . . + nr x̄r ) = n ni x̄i
i
Stichprobe vom Umfang
1
n
n
X
( i− )=0
i =1
, verteilt auf
und arith. Mitteln
Schichten mit jeweiligen
, so gilt
1
1
1
1 1
=1
Beobachtung: arithmetische Mittel reagieren empndlich gegen Ausreiÿer,
wohingegen der Median ein
Jürgen Dippon (ISA)
robustes Lagemaÿ ist.
Biostatistik I
11. Dezember 2012
34 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Median
Urliste
x , . . . , xn
1
geordnete Urliste
Der (empirische)
x
(1)
≤ ... ≤
Median von
xn
x , . . . , xn
( )
1
ist deniert durch
xmed = x (nx n + x n
(
1
( +
2 )
1
2
(2)
für
( 2 +1) )
für
n
n
ungerade
gerade
Denition sinnvoll für ordinale Merkmale (oder besser)
Eigenschaften des Medians:
Mindestens 50% der Daten sind
x
x
(
≤ med
≥ med
Median häug einfacher zu interpretieren als das arithmetische Mittel
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
35 / 435
2.2. Beschreibung von Verteilungen
Modus
Der
Modus von x1 , . . . , xn
xmod =
ist deniert durch
Ausprägung mit gröÿter Häugkeit
Modus nur eindeutig, falls die Häugkeitsverteilung ein eindeutiges
Maximum besitzt.
Denition schon für nominalskalierte Merkmale sinnvoll.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
36 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Lageregeln
Symetrische Verteilungen
Linkssteile Verteilungen
Rechtssteile Verteilungen
x̄ ≈ xmed ≈ xmod
x̄ > xmed > xmod
x̄ < xmed < xmod
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
37 / 435
2.2. Beschreibung von Verteilungen
Im Folgenden stellen wir noch weitere Maÿe für die Lage einer Verteilung
vor, die jedoch keine Lageparameter im oben genannten Sinne sind
ri
Zur Motivation ein Beispiel:
Sei
Dann beträgt die Populationsgröÿe
im
0 1
0
Jürgen Dippon (ISA)
i
Pn n
Pn = P ( + r ) · . . . · ( + rn)
n
Y
=P
( + ri )
die Wachstumsrate einer Tierpopulation im
1
-ten Jahr
-ten Jahr
1
1
i =1
Biostatistik I
11. Dezember 2012
38 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Geometrisches Mittel
Das
geometrische Mittel zu den Faktoren x1 , . . . , xn
xgeom = (x
1
Dann ist
x
ist
1
· . . . · n) n
!1
n
n
Y
(1 + i )
i =1
r
der mittlere Wachstumsfaktor und
n
Y
i =1
r
!1
n
(1 + i )
−1
die mittlere Wachstumsrate.
Da
xgeom ≤ x̄
täuscht
x̄
statt
Jürgen Dippon (ISA)
xgeom
überhöhte Wachstumsraten vor.
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
39 / 435
2.2. Beschreibung von Verteilungen
Harmonisches Mittel
Das
harmonische Mittel
xharm =
1
Pn 1
1
n i =1 x i
ist z.B. zur Ermittlung der Durchschnittsgeschwindigkeit geeignet.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
40 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Quantile und Box-Plot
x
Jeder Wert
≤ p
xp
mit 0
p
<
p<
und mindestens ein Anteil 1
(empirisches)
np]
[
Speziell:
x
x
x
0.25
0.5
=
=
0.75
−
der Daten
-Quantil der Stichprobe.
Damit gilt für das
Dabei ist
p
p
x
1, für den mindestens ein Anteil
≥ p
p
der Daten
ist, heiÿt
-Quantil:
xp = x np ,
xp ∈ [x np , x np
np
([
]+1)
wenn
(
)
+1) ], wenn
(
die gröÿte ganze Zahl mit
nicht ganzzahlig
np
≤ np
ganzzahlig
25%-Quantil = unteres Quartil
50%-Quantil = Median
=
75%-Quantil = oberes Quartil
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
41 / 435
2.2. Beschreibung von Verteilungen
Quantile und Box-Plot
Abbildung: Darstellung der Quantile
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
42 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
dQ = x
Interquartilsabstand:
−
0.75
x
0.25
5-Punkte-Zusammenfassung einer Verteilung:
x ,x ,x ,x ,x
min
0.25
med
0.75
max
Grasche Darstellung der 5-Punkte-Zusammenfassung einer Verteilung
mittels eines Box-Plots
Abbildung: Box-Plot
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
43 / 435
2.2. Beschreibung von Verteilungen
x <- airquality$Ozone
x
quantile (x , probs = c (0.25 ,0.75))
## 25% - und 75% - Quantil
summary ( x ) ## 5 - Punkte - Zusammenfassung einer Verteilung
boxplot ( x )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
44 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Streuungsmaÿe
Ein
die
Streuungsmaÿ (im engeren Sinne) ist eine Abbildung S : Rn → R, für
∀
a∈R
S (x + a, . . . , xn + a) = S (x , . . . , xn)
∀
x1 ,...,xn
1
1
Beispiele für Streuungsmaÿe:
Stichprobenspannweite x(n) − x(1)
Interquartilsabstand dQ = x0.75 − x0.25
Standardabweichung s̃
wobei
s̃ = n {(x − x )
2
die sog.
1
1
2
x x
2
+ ... + ( n − ) } =
n
X
ni x x
1
( i − )2
=1
empirische Varianz der Stichprobe.
Beachte:
s̃
ist nur für metrische Merkmale deniert!
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
45 / 435
2.2. Beschreibung von Verteilungen
Im Falle von Häugkeitsdaten gilt:
s̃
2
a − x) f
=(
1
2
1
a x f
2
+ ... + ( k − ) k =
s̃
n
X
(xi − x )
Häug wird statt der empirischen Varianz
s = n−
2
1
2
k
X
j =1
auch die
a x f
( j − )2 j
Stichprobenvarianz
2
1
i =1
verwendet.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
46 / 435
2. Deskriptive Statistik univariater Daten
Da
x x
2.2. Beschreibung von Verteilungen
x x
n
n
( n − ) bereits durch die ersten ( − 1)
festgelegt. ( − 1) ist deshalb auch die Anzahl der
P
( i − ) = 0,
Abweichungen
ist
Freiheitsgrade.
Verschiebungssatz:
n
X
∀
Für
c=
i ∈R
i =1
x c
n
X
2
( i− ) =
i =1
x x
nx c
( i − )2 + ( − )2
0 folgt die praktische Darstellung
s̃
(
2
=
n
1 X
n i xi − x
xi yi = a + bxi
)
2
=1
Bei linearer Transformation der Daten
Transformationssatz
s̃y = b s̃x
2
2
2 2
Jürgen Dippon (ISA)
zu
s̃y = |b|s̃x
bzw.
Biostatistik I
2. Deskriptive Statistik univariater Daten
folgt der
11. Dezember 2012
47 / 435
2.2. Beschreibung von Verteilungen
Standardabweichung und Varianz sind sehr empndlich gegen Ausreiÿer.
Robuste Alternativen:
Mittlere absolute Abweichung vom Median
n
X
n i |xi − x
1
0.5
|
=1
Mediane absolute Abweichung vom Median
Median von
x −x
{|
1
0.5
Ein Streumaÿ im weiteren Sinne ist der
x x
|, . . . , | n −
0.5
|}
Variationskoezient
v = xs̃
welcher für Merkmale mit nichtnegativen Ausprägungen und positivem
arithmetischem Mittel sinnvoll deniert ist.
Der Variationskoezient liefert ein maÿstabsunabhängiges Streumaÿ.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
48 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
max ( x ) - min ( x )
## Stichprobenspannweite
iqr ( x )
## Interquartilsabstand
sd ( x )
## Standardabweichung ( mit Nenner n -1)
var ( x )
## Stichprobenvarianz ( mit Nenner n -1)
var ( x +10)
## Verschiebungsinvarianz der Varianz
mean ( abs (x - median ( x ))) ## mittlere Abweichung vom Median
sd ( x )/ mean ( x )
## Variationskoeffizient
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
49 / 435
2.2. Beschreibung von Verteilungen
Maÿzahlen für Schiefe und Wölbung
Verteilungen können sich nicht nur hinsichtlich Lage und Schiefe, sondern
auch in Bezug auf Symmetrie oder Schiefe und durch ihre Wölbung
(Kurtosis) unterscheiden.
(Empirischer)
gp = (x
p= .
Quantilskoezient der Schiefe:
1−
Für
x
x
x
x
0 25 erhält man den
Bei
x
p − med ) − ( med − p )
1−p − p
symmetrischen
p∈( ,
0 0.5)
Quartilskoezienten.
Verteilungen gilt
linkssteilen
rechtssteilen
Jürgen Dippon (ISA)
für ein festes
Biostatistik I
gp ≈
gp >
gp <
0
0
0
11. Dezember 2012
50 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
Maÿzahlen für Schiefe und Wölbung
gp
Der Nenner in
stellt sicher, dass
g
−1 ≤ p ≤ 1.
Quantilskoezienten sind robust im Gegensatz zum
der Schiefe:
gm = ms̃
3
mit
3
s̃
gm
Momentenkoezient
n
X
m = n (xi − x̄ )
i
1
3
3
=1
Interpretation wie beim Quantilskoezienten.
Division mit
3
macht
maÿstabsunabhängig.
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
51 / 435
2.2. Beschreibung von Verteilungen
Wölbungsmaÿ von Fisher
Das (empirische) Wölbungsmaÿ von Fisher ist deniert durch
m
γ=
s̃
4
4
−3
mit
m =n
1
4
n
X
( i − )4
i =1
Bei Normalverteilung gilt
bei spitzeren Verteilungen gilt
bei acheren Verteilungen gilt
Jürgen Dippon (ISA)
Biostatistik I
x x̄
γ≈0
γ>0
γ<0
11. Dezember 2012
52 / 435
2. Deskriptive Statistik univariater Daten
2.2. Beschreibung von Verteilungen
## Herzgewicht von Katzen
library ( MASS )
help ( cats )
attach ( cats )
## ab jetzt Spalten direkt ansprechen
hist ( Hwt ); density ( Hwt )
q12 <- quantile ( Hwt , c (0.25 ,0.75))
names ( q12 ) <- NULL
## Kosmetik
dQ <- q12 [2] - q12 [1] ## Interquartilsabstand
## Quartilskoeeffizient für die Schiefe
m <- median ( Hwt )
(( q12 [2] - m ) -(m - q12 [1]))/ dQ
## Momentenkoeffizient für die Schiefe
m3 <- mean (( Hwt - mean ( Hwt ))^3)
m3 / sd ( Hwt )^3
## Daten linkssteil
## Wölbungsmaÿ von Fisher
m4 <- mean (( Hwt - mean ( Hwt ))^4)
m4 / sd ( Hwt )^4 -3
## Daten spitzer als Normalverteilung
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
11. Dezember 2012
53 / 435
2.3. Dichtekurven und Normalverteilung
Dichtekurven und Normalverteilung
Zur Darstellung der Verteilung eines metrischen Merkmals kann z.B. die
empirische Verteilungsfunktion oder instruktiver das Histogramm
verwendet werden.
Abbildung: Empirische Verteilungsfunktion
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
54 / 435
2. Deskriptive Statistik univariater Daten
2.3. Dichtekurven und Normalverteilung
Nachteil: selbst bei stetigen Merkmalen ist das Histogramm eine
Treppenfunktion, die u.U. groÿe Sprünge ausweist.
f
Dichte(kurve), wenn f (x ) ≥ 0 und
Deshalb: Approximiere das Histogramm durch eine stetige Dichtefunktion.
f (x )dx =
p ∈ ( , ) xp
Eine stetige Funktion
R
R
1
Für
ist eine
p-Quantil
0 1
ist
das
p=
Z xp
f (x )dx
−∞
der Dichte
und
Jürgen Dippon (ISA)
1
f
−
, falls
p=
Z
xp
Biostatistik I
2. Deskriptive Statistik univariater Daten
∞
f (x )dx
!
11. Dezember 2012
55 / 435
2.3. Dichtekurven und Normalverteilung
Dichte der Normalverteilung
Wichtiges Beispiel einer Dichtekurve:
Dichte der Normalverteilung
f (x |µ, σ) = σ√ π
1
2
µ∈R
heiÿt Mittelwert,
exp
σ>0
−
1
x −µ
2
σ
,
Standardabweichung von
(genaue Denitionen dieser beiden Begrie später)
Jürgen Dippon (ISA)
x ∈R
2 !
Biostatistik I
f (x |µ, σ)
11. Dezember 2012
56 / 435
2. Deskriptive Statistik univariater Daten
2.3. Dichtekurven und Normalverteilung
Viele in der Anwedung auftretende Verteilungen können unter Verwendung
einer Normalverteilung gut approximiert werden.
Sind
und
x , . . . , xn
σ
s̃
1
durch
Beobachtungen eines solchen Merkmals, so wird
Biostatistik I
2. Deskriptive Statistik univariater Daten
f
11. Dezember 2012
σ,
x̃
57 / 435
2.3. Dichtekurven und Normalverteilung
die Dichtekurve einer normalverteilten Variablen
und Standardabweichung
X
mit Mittelwert
µ
dann besitzt die standardisierte Variable
Z = X σ− µ
die Dichtekurve einer Normalverteilung mit
Z
durch
approximiert.
Jürgen Dippon (ISA)
Ist
µ
µ=0
und
σ=1
Standardnormalverteilung und die Variable
entsprechend standardnormalverteilt.
Diese Normalverteilung heiÿt
Die zugehörige Dichtekurve wird mit
z
φ
1
φ( ) = √
2π
bezeichnet, also
exp
z
−
2
2
Quantile der Standardnormalverteilung ndet man in Tabellen oder mittels
Statistiksoftware.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
58 / 435
2. Deskriptive Statistik univariater Daten
Quantile
xp
zp
2.3. Dichtekurven und Normalverteilung
einer Normalverteilung mit Mittelwert
mit den den Quantilen
Transformation
µ
und Varianz
σ
stehen
der Standardnormalverteilung über die lineare
xp = µ + σzp
in Beziehung.
-σ-Regel für normalverteilte Merkmale:
Daraus ergibt sich die 3
68%
der Beobachtungen liegen im Intervall
95%
der Beobachtungen liegen im Intervall
99, 7%
der Beobachtungen liegen im Intervall
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
µ±σ
µ ± 2σ
µ ± 3σ
11. Dezember 2012
59 / 435
2.3. Dichtekurven und Normalverteilung
Normal-Quantil-Plots
Statt die Häugkeitsverteilung der Beobachtungen einer Variablen
X
direkt
mit einer Normalverteilung zu vergleichen, werden bei Normal-Quantil-Plots
die Quantile der Häugkeitsverteilung mit den entsprechenden Quantilen
der Standardnormalverteilung verglichen:
x
z
x
,...,z n
(1) , . . . , (n)
geordnete Stichprobe
(1)
n -Quantil,
( )
1
1−0,5
n
n -Quantil oder besser
n
n−0,5 -Quantil der
...,
n
...,
-Quantil,
Standardnormalverteilung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
60 / 435
2. Deskriptive Statistik univariater Daten
Der
Normal-Quantil-Plot besteht aus den Punkten
z ,x
(
im
2.3. Dichtekurven und Normalverteilung
zx
(1)
z x
(1) ), . . . , ( (n) , (n) )
- -Koordinatensystem.
z x
Ist die empirische Verteilung der Beobachtung approximativ
z =x
standard-normalverteilt, liegen die Punkte
oder auf der Winkelhalbierenden
Jürgen Dippon (ISA)
Biostatistik I
2. Deskriptive Statistik univariater Daten
( (i ) , (i ) )
des NQ-Plots nahe an
11. Dezember 2012
61 / 435
2.3. Dichtekurven und Normalverteilung
## Erzeugung normalverteilter ( Pseudo -) Zufallszahlen
x <- rnorm (100 , mean =2 , sd =2)
plot ( ecdf ( x ) , verticals = TRUE )
hist (x , freq = FALSE )
rug ( x )
## Standardisieren
z <- (x - mean ( x ))/ sd ( x )
hist (z , freq = FALSE )
## Hinzufügen der Dichtekurve einer N (0 ,1) - Verteilung
g <- seq ( -3 ,3 , by =0.01)
lines (g , dnorm ( g ) , col =" blue ")
## Normal - Quantil - Plot
qqnorm ( x )
qqline ( x )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
62 / 435
3. Deskriptive Statistik multivariater Daten
1
Einführung
2
Deskriptive Statistik univariater Daten
3
Deskriptive Statistik multivariater Daten
Diskrete multivariate Daten
Quantitative multivariate Merkmale
Grasche Darstellungen quantitativer Merkmale
Zusammenhangsmaÿe bei quantitativen Merkmalen
Lineare Regression
R Beispiel
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
63 / 435
3. Deskriptive Statistik multivariater Daten
Deskriptive Statistik multivariater Daten
In diesem Abschnitt stellen wir grasche und rechnerische Methoden zur
Darstellung multivariater Daten vor. Insbesondere geht es um die Frage,
wie eventuelle Zusammenhänge von Merkmalen erkannt werden können.
Gemäÿ dem deskriptive Ansatz können wir diese Frage hier nur recht
vorläug beantworten. Erst unter Verwendung von
wahrscheinlichkeitstheoretischen Methoden kann im Rahmen der induktiven
Statistik diese Frage zufriedenstellend gelöst werden.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
64 / 435
3. Deskriptive Statistik multivariater Daten
3.1. Diskrete multivariate Daten
Diskrete multivariate Daten
Eine Sonntagsfrage lieferte folgende Häugkeitstabelle oder Kontigenztafel:
CDU/CSU
SPD
FDP
Grüne
Rest
Männer
144
153
17
26
95
435
Frauen
200
145
30
50
71
496
344
298
47
76
166
931
Y
Besteht ein Zusammenhang zwischen dem Geschlecht
Parteipräferenz
?
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
X
und der
11. Dezember 2012
65 / 435
3.1. Diskrete multivariate Daten
Kontingenztafel der absoluten Häugkeiten
a . . . , ak
X
b , . . . , bm
Y
(k × m)-Kontingenztafel der absoluten Häugkeiten
1
Merkmalswerte der Variablen
1
Merkmalswerte der Variablen
X
hij = h(ai , bj )
h , . . . , hk
h ,...,hm
n
1·
·1
·
·
b
a h
ak hk
h
Y
1
...
1
11
...
.
.
.
.
.
.
1
...
·1
...
bm
hm h
hkm hk
hm
1
1·
.
.
.
.
.
.
·
·
n
X
Y
absolute Häugkeit der Kombination
Randhäugkeiten der Variablen
Randhäugkeiten der Variablen
Stichprobenumfang
Jürgen Dippon (ISA)
Biostatistik I
ab
( i, j)
(Zeilensummen)
(Spaltensummen)
11. Dezember 2012
66 / 435
3. Deskriptive Statistik multivariater Daten
3.1. Diskrete multivariate Daten
Kontingenztafel der relativen Häugkeiten
k m)-Kontingenztafel der relativen Häugkeiten
( ×
X
fij = Phnij m
fi = j fij = hni
f j = Pki fij = fnj
·
·
·
=1
·
=1
Jürgen Dippon (ISA)
b
a f
ak fk
f
Y
1
...
1
11
...
.
.
.
.
.
.
bm
fm f
fkm fk
fm
1
.
.
.
1
...
·1
...
·
1·
.
.
.
·
1
relative Häugkeit der Kombination
ab
X
Y
( i, j)
relative Randhäugkeiten der Variablen
(Zeilensummen)
relative Randhäugkeiten der Variablen
(Spaltensummen)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
67 / 435
3.1. Diskrete multivariate Daten
Grasche Darstellung von (k × m)-Kontingenztafeln
Säulendiagramm Säulenhöhe proportional zu
hij
bzw.
fij
Mosaikplot Flächeninhalt der Rechtecke proportional zu
Jürgen Dippon (ISA)
Biostatistik I
hij
11. Dezember 2012
bzw.
fij
68 / 435
3. Deskriptive Statistik multivariater Daten
3.1. Diskrete multivariate Daten
h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) ,
nrow =2 , byrow = TRUE ); h
f <- h / sum ( h )
f
dimnames ( h )[[1]] <- c (" Männer " ," Frauen ")
dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ")
h
barplot (h , beside = TRUE )
mosaicplot (h , col = c (" black " ," red " ," yellow " ," green " ," gray "))
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
69 / 435
3.1. Diskrete multivariate Daten
Zusammenhangsanalyse in Kontingenztafeln
Wie kann ein Zusammenhang von nominalen Merkmalen quantiziert
werden?
X
Sind die beiden Merkmale
b
a h
ak hk
h
Y
1
...
1
11
...
.
.
.
.
.
.
X
und
1
...
·1
...
Y
bm
hm h
hkm hk
hm
1
1·
.
.
.
.
.
.
·
·
n
unabhängig, würde man erwarten, dass
die Spalten proportional proportional zur Spalte der Zeilensummen sind.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
70 / 435
3. Deskriptive Statistik multivariater Daten
3.1. Diskrete multivariate Daten
Also:

∀
j ∈{1,...,m}


hj 
≈
hkj

1
.
.
.
h
hk

proportional zu

1·
.
.
.




·
oder äquivalent

h
j /h j



≈
hkj /h j
X

∀
j ∈{1,...,m}
Y = bj
1
.
.
.
proportional zu
·
Denn dann wäre die Verteilung von
·
Kurz:
∀
i ,j
Jürgen Dippon (ISA)

h
/n




hk /n

·
1·
.
.
.
·
unabhängig von der Ausprägung
hij ≈ hi n· h j
·
·
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
71 / 435
3.1. Diskrete multivariate Daten
Wir bezeichnen jetzt mit
hij h h
e
hij = i n j
··
·
die beobachteten Häugkeiten
Zusammenhang zwischen den Merkmalen
vorliegt
Der sog.
X
Y
die Häugkeiten, die zu erwarten sind, wenn kein
χ2 -Koezient
und
ist deniert durch
h h
h
k X
m
X
( ij − eij )2
2
χ =
eij
i =1 j =1
∈ [0, ∞)
und dient zur Messung der Diskrepanz zwischen der beobachteten
Verteilung und der Verteilung, die man bei Unabhängigkeit der beiden
Merkmale erwarten würde.
Der Nenner dient zur Normierung.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
72 / 435
3. Deskriptive Statistik multivariater Daten
Zur Interpretation des
Hängen
Hängen
X
X
und
und
Y
Y
3.1. Diskrete multivariate Daten
χ2 -Koezienten:
voneinander ab, sollte
χ2
groÿ sein.
nicht voneinander ab, sollte
χ2
nahe bei Null sein.
Erst die induktive Statistik stellt Methoden zur Verfügung, um zu
X
Y
entscheiden, ob die beobachteten Daten Anlass geben, an der
Unabhängigkeit der Merkmale
Jürgen Dippon (ISA)
und
zu zweifeln.
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
73 / 435
3.1. Diskrete multivariate Daten
h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) ,
nrow =2 , byrow = TRUE ); h
f <- h / sum ( h ); f
dimnames ( h )[[1]] <- c (" Männer " ," Frauen ")
dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ")
h
z . sum <- apply (h ,1 , sum ) # Zeilensummen ; z. sum
s . sum <- apply (h ,2 , sum ) # Spaltensummen ; s . sum
n <- sum ( h )
htilde <- z . sum %*% t ( s . sum )/ n # erw . Häufigkeiten bei Unabh .
htilde
chisquare . coeff <- sum (( h - htilde )^2/ htilde ) # chi ^2 - Koeff .
chisquare . coeff
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
74 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Multivariate quantitative Merkmale
Zur Untersuchung quantitativer multivariater Daten sind die im letzten
Abschnitt vorgestellten Methoden zur Untersuchung qualitativer
multivariater Daten meist ungeeignet.
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
75 / 435
3.2. Quantitative multivariate Merkmale
Grasche Darstellungen quantitativer Merkmale
Für bivariate Daten:
Streudiagramme
2-dimensionale Histogramme und Dichten
Für multivariate Daten:
Matrix von Streudiagrammen
Matrix von 2-dimensionalen Histogrammen und Dichten
pairs ( trees )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
76 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Zusammenhangsmaÿe bei quantitativen Merkmalen
Bravais-Pearson-Korrelationskoezient zur Stichprobe
x y ), . . . , (xn, yn)
Pn
r = pPn (ixi −(xx̄i )−px̄ )(Pyin −(ȳy)i − ȳ )
Der
( 1,
ist deniert durch
1
=1
2
i =1
2
i =1
∈ [−1, 1]
Der Bravais-Pearson-Korrelationskoezient ist ein Maÿ für die Stärke des
linearen Zusammenhangs zweier metrischer Merkmale.
r>
r<
r=
|r | <
0
positive Korrelation, gleichsinniger linearer
Zusammenhang
0
negative Korrelation, gegensinniger linearer
Zusammenhang
0
keine Korrelation, kein linearer Zusammenhang
0.5
r
r
schwache Korrelation
< | | < 0.8
0.8 < | |
0.5
mittlere Korrelation
starke Korrelation
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
77 / 435
3.2. Quantitative multivariate Merkmale
Beispiel
Obwohl der Bravais-Pearson-Koezient nur für metrische Variablen
deniert ist, liefert er auch für dichotome, d.h. binäre, Variablen X und Y
ein sinnvolles Ergebnis, falls man 0 und 1 als Kodierung für die
Merkmalsvariable verwendet. Damit lassen sich die Ergebnisse in einer
(2 × 2)-Tabelle
zusammenfassen:
Y
X
Jürgen Dippon (ISA)
0
1
0
1
11
12
1·
21
22
2·
·1
·2
h h h
h h h
h h
Biostatistik I
n
11. Dezember 2012
78 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Bemerkung
In diesem Fall besteht ein Zusammenhang mit dem
χ2 -Koezienten
für
Häugkeitstabellen:
r = h√hh h−hh hh
11 22
12 21
1· 2·
Jürgen Dippon (ISA)
r
=
·1 ·2
Biostatistik I
3. Deskriptive Statistik multivariater Daten
χ2
n
11. Dezember 2012
79 / 435
3.2. Quantitative multivariate Merkmale
Korrelationskoezient von Spearman
Stichprobe
x , ..., xn
1
Geordnete Stichprobe
Der
Rang rg(xi ) von
x
xi
x
(1) , ..., (n)
ist deniert als die Position von
geordneten Stichprobe. Es gilt also:
x
rg( (i ) )
=
xi
in der
i
Beispiel:
Stichprobe
4, 2, 5, 0
geordnete Stichprobe
0, 2, 4, 5
Ränge der Stichprobe
3, 2, 4, 1
Ränge der geordneten Stichprobe
1, 2, 3, 4
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
80 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Korrelationskoezient von Spearman
Treten gewisse Werte mehrfach in der Stichprobe auf, verwendet man den
mittleren Rang:
Stichprobe
4, 3, 2, 3, 5
geordnete Stichprobe
2, 3, 3, 4, 5
Ränge
1, 2.5, 2.5, 4, 5
x̄
ȳ
Ersetzt man im Korrelationskoezienten von Bravais-Pearson die X- und
Y-Werte durch ihre Ränge und
1
(= n+
),
2
so erhält man den
rsp = qPn
Pn
i =1
i =1
Jürgen Dippon (ISA)
und
durch die Mittelwerte der Ränge
Korrelationskoezient von Spearman:
xi ) − n
y
n +1 ·
rg( i ) −
2
2
q
∈ [−1, 1]
P
2
2
n
n+1 ·
n +1
rg( i ) −
i =1 rg( i ) − 2
2
rg(
x
+1
y
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
81 / 435
3.2. Quantitative multivariate Merkmale
Korrelationskoezient von Spearman
Der Korrelationskoezient von Spearman ist ein Maÿ für die Stärke des
monotonen Zusammenhangs zweier ordinaler Merkmale.
rsp >
rsp <
rsp =
0
gleichsinniger monotoner Zusammenhang
0
gegensinniger monotoner Zusammenhang
0
kein monotoner Zusammenhang
Der Spearmansche Korrelationskoezient eignet sich oensichtlich auch für
Messungen, die nur als Rangreihen vorliegen.
Beispiel: Vergleich zweier Weinkenner, die zehn Weinproben der Qualität
nach ordnen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
82 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Invarianzeigenschaften
Werden die ursprünglichen Merkmale x und y linear transformiert, so bleibt
der Korrelationskoezient von Bravais-Pearson (betragsmäÿig) invariant.
Werden die ursprünglichen Merkmale x und y mittels zweier streng
monotoner (wachsender oder fallender) Transformationen transformiert, so
bleibt der Korrelationskoezient von Spearman-Korrelation (betragsmäÿig)
invariant.
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
83 / 435
3.2. Quantitative multivariate Merkmale
Korrelation und Kausalität
y
Korrelation ist ein Maÿ für die Stärke des Zusammenhangs zwischen
x
und
. Über die Richtung der Wirkung falls überhaupt vorhanden kann
damit prinzipiell keine Aussage getroen werden.
Probleme
Scheinkorrelation: Eine hohe Korrelation zweier Merkmale x
entsteht dadurch, dass
korreliert sind.
x
und
y
und
über ein drittes Merkmal hoch
y
Beispiel:
Gesundheitszustand
∼
Abstand zur Hochspannungsleitung
Verdeckte Korrelation: Obwohl keine statistische Korrelation
berechnet wurde, besteht sachlich eine eindeutige Korrelation.
Beispiel: Blutdrucksenkung und Dosierung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
84 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Beispiel
Abbildung: Blutdrucksenkung und Dosierung
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
85 / 435
3.2. Quantitative multivariate Merkmale
help ( trees )
attach ( trees )
## Scatterplot - Matrix
pairs ( trees )
## Korrelation zweier Merkmale
cor ( Girth , Volume , method =" pearson ")
cor ( Girth , Volume , method =" spearman ")
## Korrelations - Matrizen
cor ( trees , method =" pearson ")
cor ( trees , method =" spearman ")
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
86 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Lineare Regression
Y
f :R→R
X
Y = f (X )
Problem: Gesucht ist eine Funktion
Merkmal
f
in Abhängigkeit des Merkmals
, welche das metrische
beschreibt.
Im Allgemeinen existiert jedoch kein solch klarer Zusammenhang. Deshalb:
Suche
Y
so, dass obiger Zusammenhang nur ungefähr erfüllt ist:
Y = f (X ) + mit einem
von
Fehlerterm , wobei ein möglichst groÿer Anteil der Variabilität
durch
f
erklärt werden soll.
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
Ein solches Modell heiÿt
Bei einem
11. Dezember 2012
87 / 435
3.2. Quantitative multivariate Merkmale
Regressionsmodell.
linearen Regressionsmodell nimmt man
f (X ) = α + β X
an.
Für eine Stichprobe
und eine Steigung
β
x y ), . . . , (xn, yn)
( 1,
1
sind also ein
gesucht, so dass
y
-Achsenabschnitt
α
yi = α| +{zβx}i +i
ŷi
mit möglichst kleinen Fehlern (Residuen)
Jürgen Dippon (ISA)
i .
Biostatistik I
11. Dezember 2012
88 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Methode der kleinsten Quadrate
Wähle
α
und
β
so, dass
n
X
Q (α, β) = n
1
2i
i =1
n
1 X
=
( i − i )2
i =1
n
1 X
=
( i − (α + β i ))2
i =1
n
y ŷ
n
y
x
minimal.
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
Nullstellen der partiellen Ableitung von
α̂
Q
β̂ von α bzw. β
nach α und β :
und
als
n
∂ (α, β)
2 X
!
=−
( i − (α + β i )) = 0
∂α
i =1
n
∂ (α, β)
2 X
!
=−
( i − (α + β i )) i = 0
∂β
i =1
Q
89 / 435
3.2. Quantitative multivariate Merkmale
Ermittle die Kleinste-Quadrate-Schätzer
Q
11. Dezember 2012
n
y
x
n
y
x x
(1)
(2)
(sog. Normalengleichungen).
Also
n
X
n
X
n i yi − α̂ − n β̂ i xi =
n
n
n
X
X
X
n yi xi − n α̂ xi − n β̂ xi =
1
1
=1
1
Jürgen Dippon (ISA)
(3)
0
(4)
=1
1
i =1
0
1
i =1
Biostatistik I
2
i =1
11. Dezember 2012
90 / 435
3. Deskriptive Statistik multivariater Daten
(3):
Aus
α̂ =
Eingesetzt in
3.2. Quantitative multivariate Merkmale
ȳ − β̂x̄
(4):
n
X
n
X
n
X
n
X
n i yi xi − n ȳ i xi + n β̂x̄ i xi − n β̂ i xi
1
1
=1
1
=1
1
=1
2
=0
=1
Dies ist äquivalent zu
n
1 X
n i yi xi − ȳ x̄ = n β̂
1
=1
Also
n
X
i =1
xi − nx̄
2
!
2
y x ȳ x̄ = n PniP(nxi − x̄ )(yi − ȳ ) = s̃xy
s̃x
x nx̄
n i (xi − x̄ )
Pn
i i−
β̂ = Pin=1 2
i =1 i −
1
2
Jürgen Dippon (ISA)
=1
1
Biostatistik I
3. Deskriptive Statistik multivariater Daten
2
2
=1
11. Dezember 2012
91 / 435
3.2. Quantitative multivariate Merkmale
Bestimmtheitsmaÿ und Residualanalyse
Zerlegung der
Gesamtstreuung (sum of squares total)
SQT =
=
=
n
X
i =1
n
X
i =1
n
X
i =1
=
y ȳ
( i − )2
y ŷ ŷ ȳ
( i − i + i − )2
y ŷ
( i − i )2 +
n
X
i =1
(ŷi − ȳ )
2
+2
n
X
|i =1
y ŷ )(ŷi − ȳ )
( i− i
{z
= 0 mit (1) und (2)
SQR + SQE
}
Residualstreuung (sum of squares residual) und
die erklärte Streuung (sum of squares explained).
in die
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
92 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Der dritte Term ist gleich Null, da
n
X
y ŷ )ȳ = ȳ
( i− i
n
X
y ŷ
( i − i) = 0
mit (1)
i =1
i =1
n
n
n
X
X
X
( i− i i=
( i − i )α̂ +
( i − i )β̂ i
i =1
i =1
i =1
n
n
X
X
( i − i) i
= α̂
( i − i ) +β̂
|i =1 {z
}
|i =1 {z
}
y ŷ )ŷ
y ŷ
y ŷ x
y ŷ x
y ŷ
= 0 mit (1)
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
Das
= 0 mit (2)
11. Dezember 2012
93 / 435
3.2. Quantitative multivariate Merkmale
Bestimmtheitsmaÿ
Pn
SQE
R = SQT = Pnii ((ŷyii −− ȳȳ ))
2
2
=1
2
=1
∈ [0, 1]
gibt den relativen Anteil der erklärten Streuung an der Gesamtstreuung an.
Beziehung zum Korrelationskoezienten:
R = rxy
2
Jürgen Dippon (ISA)
2
Biostatistik I
11. Dezember 2012
94 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Begründung: Es gilt
n
X
n
X
ŷ¯ = n ŷi = n
i
i
= (ȳ − β̂x̄ ) + β̂x̄
= ȳ
1
1
=1
x
(α̂ + β̂ i ) = α̂ +
=1
mit
β̂x̄
(3)
daraus
n
X
i =1
(ŷi − ȳ )
2
=
=
n
X
i =1
n
X
(ŷi − ŷ¯)
2
x
(α̂ + β̂ i − α̂ −
β̂x̄ )
2
i =1
n
X
2
= β̂
( i − )2
i =1
x x̄
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
95 / 435
3.2. Quantitative multivariate Merkmale
und schlieÿlich
R
Je näher
R
2
2
(ŷ ȳ
y ȳ
x x̄
y ȳ
Pn
Pn
2
2
2
−
)
β̂
i
i
=
1
i
=
1( i − )
= Pn
= Pn
2
2
(
−
)
i
i =1
i =1 ( i − )
2
2 2
xy
xy x
2
=
=
= xy
2
2
2
x y
x) y
s̃ s̃
(s̃ s̃
s̃
s̃ s̃
r
bei 1 liegt, umso besser ist die Modellanpassung.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
96 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
Graphische Methode zur Überprüfung der Modellanpassung
Residualplots {(xi , i ) :
Frage, ob
i ∈ { , . . . , n}}
1
eignen sich zur Untersuchung der
die Daten durch ein lineares Modell hinreichend gut erklärt werden
können
die Residuen von der erklärenden Variablen abhängen
eine Transformation einer Variablen sinnvoll sein könnte
Ausreiÿer vorliegen
Jürgen Dippon (ISA)
Biostatistik I
3. Deskriptive Statistik multivariater Daten
11. Dezember 2012
97 / 435
3.2. Quantitative multivariate Merkmale
attach ( trees )
## Lineare Regression
plot ( Volume ~ Girth , ylim = c (0 ,80))
mymodel <- lm ( Volume ~ Girth )
mymodel
abline ( mymodel )
## Bestimmtheitskoeffizient
summary ( mymodel ) $r . squared
## Residualanalyse
plot ( Girth , mymodel$residuals )
abline ( h =0)
## In im folgenden Fall ist das lineare Modell ungeeignet
plot ( Girth ~ Height )
mymodel <- lm ( Girth ~ Height )
mymodel
summary ( mymodel ) $r . squared
plot ( Girth , mymodel$residuals )
abline ( h =0)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
98 / 435
3. Deskriptive Statistik multivariater Daten
3.2. Quantitative multivariate Merkmale
R Beispiel
Jürgen Dippon (ISA)
Abbildung: Beispiel mit trees Datensatz
Biostatistik I
11. Dezember 2012
99 / 435
Teil II
Wahrscheinlichkeitstheorie
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
100 / 435
Wahrscheinlichkeitstheorie
4
Wahrscheinlichkeitsrechnung
5
Diskrete Zufallsvariablen
6
Stetige Zufallsvariablen
7
Grenzwertsätze
8
Mehrdimensionale Zufallsvariablen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
101 / 435
4. Wahrscheinlichkeitsrechnung
4
Wahrscheinlichkeitsrechnung
Denition und Begri der Wahrscheinlichkeit
Laplace-Experimente
Kombinatorik
Modell mit Zurücklegen
Modell ohne Zurücklegen
Permutation
Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge
Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge
Bedingte Wahrscheinlichkeiten
Unabhängigkeit von zwei Ereignissen
Totale Wahrscheinlichkeit
Der Satz von Bayes
Unendliche Grundgesamtheit
5
Diskrete Zufallsvariablen
6
Stetige Zufallsvariablen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
102 / 435
4. Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Problem der Generalisierung: Besteht eine oensichtliche Korrelation zweier
Merkmale (oder eine andere Eigenschaft) nur zufällig in der Stichprobe
oder aber auch mit hoher Sicherheit in der Gesamtpopulation?
Dieses Problem kann nur gelöst werden, wenn man in der Lage ist,
zufälligen Ereignissen eine Wahrscheinlichkeit zuzuweisen.
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
103 / 435
4.1. Denition und Begri der Wahrscheinlichkeit
Denition und Begri der Wahrscheinlichkeit
Ein
Zufallsvorgang führt zu einem von mehreren sich gegenseitig
ausschlieÿenden Ereignissen. Es ist vor der Durchführung ungewiss, welches
Ergebnis tatsächlich eintreten wird.
Der
Ergebnisraum oder Stichprobenraum Ω ist die Menge aller
Ergebnisse
ω
des Zufallsvorgangs.
Ereignisse. Die einelementigen
Teilmengen ω von Ω werden als Elementarereignisse bezeichnet.
Teilmengen von
Ω
Jürgen Dippon (ISA)
heiÿen (Zufalls-)
Biostatistik I
11. Dezember 2012
104 / 435
4. Wahrscheinlichkeitsrechnung
4.1. Denition und Begri der Wahrscheinlichkeit
Denition und Begri der Wahrscheinlichkeit
Sei
A⊂Ω
ein Ereignis. Das Ergebnis
A
ω ∈ Ā
A=∅
A=Ω
Ā = Ω \ A
A∪B
A∩B
Falls
ω∈
ω∈Ω
werde beobachtet.
, so sagt man, dass das Ereignis A eintritt.
Falls
, so sagt man A tritt nicht ein.
Falls
, ist A das unmögliche Ereignis
Falls
, ist A das sichere Ereignis
ist das Ereignis, dass A nicht eintritt.
ist das Ereignis, dass A oder B eintritt (im nichtexklusiven Sinne).
ist das Ereignis, dass A und B eintritt.
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
105 / 435
4.1. Denition und Begri der Wahrscheinlichkeit
Denition und Begri der Wahrscheinlichkeit
Beispiel:
Einmaliges Werfen eines Würfels.
Ω = {1, 2, 3, 4, 5, 6}
= {2, 4, 6}
= {1 , 2 }
∩ = {4, 6}
A
B
A B̄
Jürgen Dippon (ISA)
Grundraum, gleichzeitig das sichere Ereignis
Ereignis, dass eine gerade Zahl geworfen wird
Ereignis, dass eine Zahl
≤2
geworfen wird
Ereignis, dass eine gerade Zahl
Biostatistik I
≥3
geworfen wird
11. Dezember 2012
106 / 435
4. Wahrscheinlichkeitsrechnung
4.1. Denition und Begri der Wahrscheinlichkeit
Denition und Begri der Wahrscheinlichkeit
A⊂Ω
P : {A : A ⊂ Ω}
A
Um den unsicheren Ausgang eines Zufallsvorganges zu bewerten, ordnet
man jedem Ereignis
P (A)
heiÿt
eine reelle Zahl
∈ [0, 1]
zu:
→ [0, 1]
7→
P (A)
Wahrscheinlichkeit des Ereignisses A.
Wahrscheinlichkeitsmaÿ, muss die Axiome
Diese Abbildung P, das sog.
von Kolmogorov erfüllen (hier für Ω endlich)
(K1)
(K2)
(K3)
P (A) ≥
P (Ω) =
A∩B =∅
0
1
Falls
, dann gilt
P ( A ∪ B ) = P ( A) + P ( B )
Diese Axiome werden motiviert durch die Eigenschaften relativer
Häugkeiten, die zur Interpretation der Wahrscheinlichkeit herangezogen
werden.
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
107 / 435
4.1. Denition und Begri der Wahrscheinlichkeit
Beispiel
Beispiel:
n-malige unabhängige Wiederholung eines Würfelexperiments, das den
Ergebnissraum
Ω = {1, ..., 6}
fi
A={
≤
f (A)
f (A) = f + f + f
besitzt.
relative Häugkeit, dass die Zahl i oben liegt
eine Zahl
3 liegt oben}
= {1, 2, 3}
relative Häugkeit des Eintretens von Ereignis A
1
Jürgen Dippon (ISA)
2
3
Biostatistik I
11. Dezember 2012
108 / 435
4. Wahrscheinlichkeitsrechnung
4.1. Denition und Begri der Wahrscheinlichkeit
Beispiel
Oder für allgemeines
A⊂Ω
f ( A) =
f (Ω) =
:
X
i ∈A
f
i
|{z}
∈ [0, 1]
≥0
1
Für wachsendes n erwarten wir, dass sich f(A) bei einem gewissen Wert
P (A)
stabilisiert (empirisches Gesetz der groÿen Zahlen). Dieser Wert wird als
Wahrscheinlichkeit
des Eintretens von A angesehen (frequentistische
oder objektivistische Interpretation des Wahrscheinlichkeitsbegris).
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
109 / 435
4.1. Denition und Begri der Wahrscheinlichkeit
Rechenregeln für Wahrscheinlichkeiten
1
2
3
4
5
0
PA
≤ ( )≤1
für alle
A⊂Ω
P (∅) =
P (A) ≤ P (B ) A ⊂ B A, B ⊂ Ω
P (Ā) = − P (A) Ā = Ω \ A
P (A ∪ ... ∪ An) = P (A ) + ... + P (An)
Ai ⊂ Ω
P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B )
0
falls
1
1
und
mit
1
disjunkt und
6
falls
A , ..., An
A, B ⊂ Ω
paarweise
1
für beliebige
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
110 / 435
4. Wahrscheinlichkeitsrechnung
4.2. Laplace-Experimente
Laplace-Experimente
N
Bei manchen Zufallsexperimenten mit endlichem Grundraum (also
Ω = {1, ..., })
ist es sinnvoll davon auszugehen, dass alle
Elementarereignisse dieselbe Wahrscheinlichkeit, die sog.
Laplace-Wahrscheinlichkeit, besitzen:
P ({j }) = pj = N = |Ω|
1
1
für alle
j ∈ { , ..., N }
1
Unter Verwendung der 5. Rechenregel folgt für jedes Ereignis A in einem
Laplace-Experiment
P (A)
=
X
j ∈A
=
|A|
P ({j }) = |Ω|
Anzahl der für A günstigen Ergebnisse
Anzahl aller möglichen Ergebnisse
Achtung: Es gibt viele Zusallsexperimente, in denen die
Elementarereignisse nicht gleichwahrscheinlich sind.
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
111 / 435
4.2. Laplace-Experimente
Laplace-Experimente
Beispiel:
Wie groÿ ist die Wahrscheinlichkeit bei dreimaligem Münzwurf mindestens
einmal Wappen zu erzielen.
Ergebnisraum:
W , W , W ), (W , W , Z ), ..., (Z , Z , Z )}
P ({ω}) = |Ω| =
∀
} |A| =
|A|
P (A) = |Ω|
=
} |Ā| =
P (Ā) = − P (A) = − =
Ω = {(
|Ω| = 8
1
A={
1
8
ω∈Ω
mindestens einmal Wappen ,
7. Also
7
Ā = {
keinmal Wappen ,
8
1. Also
1
Jürgen Dippon (ISA)
1
Biostatistik I
7
1
8
8
11. Dezember 2012
112 / 435
4. Wahrscheinlichkeitsrechnung
4.3. Kombinatorik
Zufallsvariablen und Kombinatorik
Modell:
N
n
Kugeln mit Nummern 1,...,N benden sich in einer Urne. Ziehe in
zufälliger Weise
Kugeln, entweder mit oder ohne Zurücklegen.
Ergebnis: geordnetes n-Tupel
(
E , ..., En)
1
mit
Besitzt jede dieser Stichproben vom Umfang
Ei ∈ G = { , ..., N }
n
1
.
dieselbe Wahrscheinlichkeit,
so spricht man von einer einfachen Stichprobe.
Aufgabe: Bestimme diese Wahrscheinlichkeit
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
113 / 435
4.3. Kombinatorik
Modell mit Zurücklegen
N
n
Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang
ist die Anzahl der möglichen Stichproben vom Umfang
N| · N{z· ... · N} = N n
gegeben als:
n−mal
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
114 / 435
4. Wahrscheinlichkeitsrechnung
4.3. Kombinatorik
Modell ohne Zurücklegen
N
n
Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom
Umfang
ist die Anzahl der möglichen Stichproben vom Umfang
gegeben als:
N · (N −
|
1)
N −n+
· ... · (
{z
n−Faktoren
1)
=
}
=
Jürgen Dippon (ISA)
N · (N − ) · ... ·
(N − n) · ... ·
N!
(N − n)!
1
1
Biostatistik I
4. Wahrscheinlichkeitsrechnung
1
11. Dezember 2012
115 / 435
4.3. Kombinatorik
Permutation
Werden alle
N
Permutation der Nummern {1, ..., N }.
der Reihenfolge des Ziehens angeordnet, so ist
Bei
N
E , ..., EN )
Kugeln aus der Urne ohne Zurücklegen gezogen und gemäÿ
(
1
eine
unterscheidbaren Objekten gibt es
N · (N −
1)
· ··· · 1 =
N!
verschiedene Permutationen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
116 / 435
4. Wahrscheinlichkeitsrechnung
4.3. Kombinatorik
Modell ohne Zurücklegen und ohne Berücksichtigung der
Reihenfolge
N
n
Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom
Umfang
ist die Anzahl der möglichen Stichproben vom Umfang
Nichtbeachten der Reihenfolge:
N · (N −
1)
N −n+
· ... · (
!
n
1)
=
=
N
n
heiÿt
N
1
1
Binomialkoezient und es gilt:
0
N · (N − ) · ... ·
n!(N − n)!
N
n
bei
N
N
N
= 1,
= 1,
=
1
Jürgen Dippon (ISA)
N , Nn
Biostatistik I
4. Wahrscheinlichkeitsrechnung
= 1,
falls
N<n
11. Dezember 2012
117 / 435
4.3. Kombinatorik
Beispiel
Ziehung der Lottozahlen
Anzahl der Möglichkeiten 6 Zahlen aus 49 Zahlen zu ziehen, wobei die
Reihenfolge nicht beachtet wird,
49
6
Alle diese
49
6
=
49!
43!6!
= 13983816
Zahlen können als gleichwahrscheinliche Elementarereignisse
angesehen werden. Damit
P(
6 Richtige )
=
=
Jürgen Dippon (ISA)
Anzahl der günstigen Ergebnisse
Anzahl der möglichen Ergebnisse
1
13983816
Biostatistik I
= 0.000000072
11. Dezember 2012
118 / 435
4. Wahrscheinlichkeitsrechnung
4.3. Kombinatorik
Modell mit Zurücklegen und ohne Berücksichtigung der
Reihenfolge
N
n
Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang
ist die Anzahl der möglichen Stichprobem vom Umfang
Nichtbeachten der Reihenfolge gegeben durch:
Begründung: Durch
N−
N +n−
n
1
bei
N
Ei
1 Trennzeichen können
voneinander abgegrenzt werden. Auf diese
N
n
verschiedene Zellen
Zellen werden insgesamt
i
Kreuze verteilt, wobei Mehrfachbesetzungen erlaubt sind. Die Anzahl der
Kreuze gibt an, wieviele Kugeln vom Typ
in Zelle
liegen, z.B.
×|| × ×| × | . . . | × ×|
Die Anzahl solcher Aufteilungen der
Jürgen Dippon (ISA)
n
Kreuze ist
N +n−1.
n
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
119 / 435
4.3. Kombinatorik
Übersicht
ohne Zurücklegen
mit
Berücksichtigen
der Reihenfolge
ohne Berücksichtigen
der Reihenfolge
Jürgen Dippon (ISA)
N!
(N −n)!
N
n
Biostatistik I
mit Zurücklegen
Nn
N +n−1
n
11. Dezember 2012
120 / 435
4. Wahrscheinlichkeitsrechnung
4.4. Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten
Analog zum (empirischen) Begri der bedingten relativen Häugkeit
A
B
denieren wir den (theoretischen) Begri der bedingten Wahrscheinlichkeit
eines Ereignisses
gegeben ein Ereignis
Jürgen Dippon (ISA)
.
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
121 / 435
4.4. Bedingte Wahrscheinlichkeiten
Beispiel: einmaliges Werfen eines Würfels
A
B
Ereignis, dass Augenzahl gerade
Ereignis, dass Augenzahl
≤3
P ( A) =
3
6
Wie groÿ ist die Wahrscheinlichkeit von
Augenzahl
≤ 3?
P (A|B ) =
=
Jürgen Dippon (ISA)
Anzahl der für
A
Anzahl der für
1
=
A
und
B
1
2
, wenn bekannt ist, dass
B
günstigen Ergebnisse
möglichen Ergebnisse
3
Biostatistik I
11. Dezember 2012
122 / 435
4. Wahrscheinlichkeitsrechnung
4.4. Bedingte Wahrscheinlichkeiten
Allgemein denieren wir (unter Verwendung der Beziehung zwischen
relativen Häugkeiten und Wahrscheinlichkeiten):
A, B ⊂ Ω
A B
Seien
von
unter
und
P (B ) >
deniert als
Jürgen Dippon (ISA)
0. Dann ist die bedingte Wahrscheinlichkeit
P (A|B ) = P (PA(∩B )B )
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
123 / 435
4.4. Bedingte Wahrscheinlichkeiten
Rechenregeln für bedingte Wahrscheinlichkeiten
Seien
A, B ⊂ Ω
und
P (B ) >
P (·|B ) : {A : A ⊂ Ω} → [ , ]
A 7→ P (A|B )
P (B |B ) =
0. Dann gilt bei fest gehaltenem
B
0 1
ist wieder eine Wahrscheinlichkeit mit
Jürgen Dippon (ISA)
Biostatistik I
1
11. Dezember 2012
124 / 435
4. Wahrscheinlichkeitsrechnung
4.4. Bedingte Wahrscheinlichkeiten
Die Axiome von Kolmogorov gelten entsprechend für
Wahrscheinlichkeiten
Zu
bedingte
K ) A , A , B ⊂ Ω, A ∩ A = ∅, P (B ) >
P (A ∪ A |B ) = P ((A P∪(BA )) ∩ B )
P ((A ∩ B ) ∪ (A ∩ B ))
=
P (B )
P (A ∩ B ) + P (A ∩ B )
=
P (B )
= P (A |B ) + P (A |B )
(
3 :
1
2
1
1
0:
2
1
2
2
1
2
1
2
1
Jürgen Dippon (ISA)
2
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
125 / 435
4.4. Bedingte Wahrscheinlichkeiten
Aus der Denition der bedingten Wahrscheinlichkeit folgt sofort der
Produktsatz: Seien A, B ⊂ Ω und P (B ) > 0. Dann gilt
P (A ∩ B ) = P (A|B ) · P (B )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
126 / 435
4. Wahrscheinlichkeitsrechnung
4.5. Unabhängigkeit von zwei Ereignissen
Unabhängigkeit von zwei Ereignissen
B
Ist die Wahrscheinlichkeit des Ereignisses
Ereignis
eingetreten ist, d.h.
A
unabhängig davon, ob das
P (A|B ) = P (A)
A B
P (A ∩ B ) = P (A) ⇐⇒ P (A ∩ B ) = P (A) · P (B )
( ) ⇐⇒
P (B )
so werden die Ereignisse
Da
und
(1)
als stochastisch unabhängig angesehen.
1
denieren wir:
Zwei Ereignisse
falls
A⊂Ω
B⊂Ω
(stochastisch) unabhängig
P (A ∩ B ) = P (A) · P (B )
und
heiÿen
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
,
127 / 435
4.5. Unabhängigkeit von zwei Ereignissen
Beispiel: Zweimaliges Würfeln
Ω = {(1, 1), . . . , (1, 6), (2, 1), . . . , (6, 6)}
|Ω| = 36
1
∀ ({ω}) = 36
P
A = {( , ), . . . , ( , )}
B = {( , ), . . . , ( , )}
P (A) = P (B ) = =
A ∩ B = {( , )}
ω∈Ω
1 1
1 6
1 1
6 1
6
36
1 1
⇒
A
und
B
eine 1 im ersten Wurf
eine 1 im zweiten Wurf
1
6
eine 1 im ersten und im zweiten Wurf
P| (A{z∩ B}) = P| {z(A}) · P| {z(B})
1
36
1
6
1
6
sind stochastisch unabhängige Ereignisse
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
128 / 435
4. Wahrscheinlichkeitsrechnung
4.5. Unabhängigkeit von zwei Ereignissen
Beispiel: Urne mit den Zahlen 1, 2, 3, 4
Zweimaliges Ziehen mit Zurücklegen:
Ω = {(1, 1), (1, 2), . . . , (4, 4)}
mit
|Ω| = 16
Zweimaliges Ziehen ohne Zurücklegen:
Ω = {(1, 2), (1, 3), . . . , (4, 3)}
mit
|Ω| = 12
A={
B={
Die Eins wird beim ersten Mal gezogen}
Die Zwei wird beim zweiten Mal gezogen}
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
Also sind
und
4
16
4
16
=
=
1
16
1
16
129 / 435
4.5. Unabhängigkeit von zwei Ereignissen
Ziehen mit Zurücklegen
P (A)
P (B )
P (A) · P (B )
P (A ∩ B )
A B
11. Dezember 2012
Ziehen ohne Zurücklegen
1
4
1
4
3
12
3
12
=
=
1
16
1
12
1
4
1
4
beim Ziehen mit Zurücklegen stochastisch unabhängig,
nicht jedoch beim Ziehen ohne Zurücklegen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
130 / 435
4. Wahrscheinlichkeitsrechnung
4.6. Totale Wahrscheinlichkeit
Totale Wahrscheinlichkeit
A A
Ω = 1 ∪ 2 eine disjunkte Zerlegung des
( 1 ∩ 2 = ∅), so gilt für ein Ereignis ⊂ Ω
Ω
A A
B
B = (B ∩ A ) ∪ (B ∩ A )
(B ∩ A ) ∩ (B ∩ A ) = ∅
(K )
P (B ) = P (B ∩ A ) + P (B ∩ A )
= P (B |A ) · P (A ) + P (B |A ) · P (A )
Ist
1
und mit Axiom
wobei
2
2
2
1
Jürgen Dippon (ISA)
1
2
Biostatistik I
4. Wahrscheinlichkeitsrechnung
Etwas allgemeiner gilt der
2
11. Dezember 2012
131 / 435
4.6. Totale Wahrscheinlichkeit
Satz der totalen Wahrscheinlichkeit:
A , . . . , Ak
B⊂Ω
1
1
3
1
Sei
Ergebnisraumes
eine disjunkte Zerlegung von
Ω.
Dann gilt für
k
X
P (B ) = P (B |Ai ) · P (Ai )
i =1
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
132 / 435
4. Wahrscheinlichkeitsrechnung
4.6. Totale Wahrscheinlichkeit
Beispiel: Alarmanalyse
A={ } E ={
P (A|E ) = ,
P (A|Ē ) = ,
P (E ) = ,
Alarm ,
Einbruch},
Ē = {
kein Einbruch}
0 99
W für Alarm bei Einbruch
0 005
W für Fehlalarm
0 001
W für Einbruch
Wie groÿ ist die Wahrscheinlichkeit für einen Alarm?
P (A) = P (A|E ) · P (E ) + P (A|Ē ) · P (Ē )
= 0, 99 · 0, 001 + 0, 005 · (1 − 0, 001)
≈ 0, 006
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
133 / 435
4.7. Der Satz von Bayes
Der Satz von Bayes
Ist
A
1
A
∪ ··· ∪ k = Ω
Ω
P (Ai ) >
j ∈ { , . . . , k}
P (Aj |B ) = P (PA(j B∩)B )
P (B |Aj ) · P (Aj )
=
P (B )
P (B |Aj ) · P (Aj )
= Pk
i P (B |Ai ) · P (Ai )
eine Zerlegung von
Ereignis, so gilt für jedes
1
mit
0 und
B
ein
=1
wobei im letzten Schritt der Satz von der totalen Wahrscheinlichkeit
verwendet wurde.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
134 / 435
4. Wahrscheinlichkeitsrechnung
4.7. Der Satz von Bayes
Satz von Bayes
A , . . . , Ak
B⊂Ω
1
ein Ereignis mit
Dann gilt für alle
Ω
P (A ) >
0, . . . ,
P (B ) >
j ∈ { , . . . , k}
P (Aj |B ) = PkP (BP|(ABj )|A· P) (· APj()A )
disjunkte Zerlegung von
mit
0
1
P (Ak ) >
0
1
i
i =1
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
i
11. Dezember 2012
135 / 435
4.7. Der Satz von Bayes
Interpretation:
A , . . . , Ak
P (B |Ai )
Ai
Werden die Ereignisse
angesehen, so gibt
Vorliegen von Ereignis
1
als mögliche Ursachen für das Ereignis
B
B
die (bedingte) Wahrscheinlichkeit an, dass bei
die Wirkung
B
eintritt.
Aj
Die Formel von Bayes erlaubt jetzt einen wahrscheinlichkeitstheoretischen
Rückschluss von der Wirkung
Jürgen Dippon (ISA)
auf die mögliche Ursache
Biostatistik I
11. Dezember 2012
136 / 435
4. Wahrscheinlichkeitsrechnung
4.7. Der Satz von Bayes
Beispiel: Fortsetzung Alarmanalyse
Wie groÿ ist die Wahrscheinlichkeit, dass ein Einbruch im Gange ist, wenn
ein Alarm ertönt?
P (E |A) = P (A|E ) ·PP((AE|)E+) ·PP((AE|)Ē ) · P (Ē )
≈
0, 99
· 0, 001
0, 006
≈ 0.165
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
137 / 435
4.8. Unendliche Grundgesamtheit
Unendliche Grundgesamtheit
Beispiel: Anzahl der Würfe eines Würfels bis zur ersten 6
Ω = {1, 2, 3, ...},
also
P ({
= P(
= P(
|Ω| = ∞
2 Würfe bis zur ersten 6})
P
) · P(
1. Wurf keine 6)
1. Wurf keine 6
=
5
6
·
· (2.
Wurf eine 6|1. Wurf keine 6)
2. Wurf eine 6)
1
6
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
138 / 435
4. Wahrscheinlichkeitsrechnung
4.8. Unendliche Grundgesamtheit
Unendliche Grundgesamtheit
Ai = {
Bi = {
Ci = {
Allgemeiner:
i-ter Wurf keine 6}
i-ter Wurf eine 6}
Spiel endet nach i Würfen}
P (Ci ) = P (A ∩ ... ∩ Ai ∩ Bi )
= P (A ) · P (A ) · ... · P (Ai
1
−1
1
=
=
5
6
·
5
6
2
5
1
6
6
· ... ·
i −1
5
6
·
−1 )
PB
· ( i)
1
6
Da hier i beliebig groÿ werden kann, sollte das 3. Axiom von Kolmogorov
auch für abzählbar unendliche Vereinigungen von Ereignissen
verallgemeinert werden.
Jürgen Dippon (ISA)
Biostatistik I
4. Wahrscheinlichkeitsrechnung
11. Dezember 2012
139 / 435
4.8. Unendliche Grundgesamtheit
Axiome von Kolmogorov
K
K
K
P ( A) ≥
P (Ω) =
P (A ∪ A
A⊂Ω
A⊂Ω
P (Ai )
Axiome von Kolmogorov für unendliche Ergebnisräume:
( 1)
( 2)
( f3)
0 für alle Ereignisse
1
Für paarweise disjunkte Ereignisse
1
P∞
∪
...)
=
2
i =1
gilt:
Alle bislang hergeleiteten Rechenregeln gelten auch für unendliche
Ergebnisräume.
Später werden wir sehen, dass sich die Wahrscheinlichkeit eines
überabzählbaren Ereignisses nicht als Summe der Wahrscheinlichkeiten der
einzelnen Ergebnisse darstellen lässt.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
140 / 435
5. Diskrete Zufallsvariablen
4
Wahrscheinlichkeitsrechnung
5
Diskrete Zufallsvariablen
Zufallsvariablen
Verteilungen und Parameter von diskreten Zufallsvariablen
Spezielle diskrete Verteilungsmodelle
Die Binomialverteilung
Die hypergeometrische Verteilung
Die Poisson-Verteilung
6
Stetige Zufallsvariablen
7
Grenzwertsätze
8
Mehrdimensionale Zufallsvariablen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
141 / 435
5. Diskrete Zufallsvariablen
Diskrete Zufallsvariablen
In den Kapiteln 57 werden grundlegende Begrie und Eigenschaften von
univariaten (d.h. eindimensionalen) Zufallsvariablen eingeführt.
Insbesondere wird zwischen diskreten und stetigen Zufallsvariablen
unterschieden.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
142 / 435
5. Diskrete Zufallsvariablen
5.1. Zufallsvariablen
Zufallsvariablen
Beispiel: 2-maliges Würfeln
Ω = {(1, 1), . . . , (6, 6)}, |Ω| = 36
Summe der Augenzahlen werde beschrieben durch die Variable:
X : Ω → { ,..., }
ω 7→ X (ω) = i + j
|{z}
2
X
12
(i ,j )
ist Beispiel einer Zufallsvariablen, die jedem Ergebnis
ω∈Ω
eine reelle
Zahl zuordnet.
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
143 / 435
5.1. Zufallsvariablen
Zufallsvariablen
P (A)
Frage: Wie groÿ ist die Wahrscheinlichkeit, dass die Augensumme
Gesucht ist also
≤4
ist?
mit:
A = {X ≤ } = {( , ), ( , ), ( , ), . . . , ( , ), ( , ), ( ,
P (A) = |P ({X{z= })} + P| ({X{z= })} + P| ({X{z= })} =
4
1 1
1 2
2 1
2
1
36
Jürgen Dippon (ISA)
1 3
2 2
3
2
36
Biostatistik I
4
3
36
3 1)}
1
6
11. Dezember 2012
144 / 435
5. Diskrete Zufallsvariablen
5.1. Zufallsvariablen
Zufallsvariablen
Eine Variable oder ein Merkmal X, dessen Werte oder Ausprägungen die
Ergebnisse eines Zufallsvorgangs sind, heiÿt
Die Zahl
heiÿt
x ∈R
Zufallsvariable X.
, die X bei Durchführung des Zufallsvorgangs annimmt,
Realisierung oder Wert von X.
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
145 / 435
5.1. Zufallsvariablen
Zufallsvariablen
Von Interesse sind oft Ereignisse der Form:
X = x } = {ω ∈ Ω|X (ω) = x }
{X 6= x } = {ω ∈ Ω|X (ω) 6= x }
{X ≤ x } = {ω ∈ Ω|X (ω) ≤ x }
B⊂R
{X ∈ B } = {ω ∈ Ω|X (ω) ∈ B }
P (X ∈ B )
{
oder allgemein für einen Bereich
:
Die Menge aller Wahrscheinlichkeiten
Wahrscheinlichkeitsverteilung von X.
Jürgen Dippon (ISA)
Biostatistik I
für Bereiche B nennt man
11. Dezember 2012
146 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Verteilungen und Parameter von diskreten Zufallsvariablen
unendlich viele Werte
diskret, falls sie nur endlich oder abzählbar
x ,x ,...
Eine Zufallsvariable X heiÿt
1
2
annehmen kann. Die
Wahrscheinlichkeitsverteilung von X ist durch die Wahrscheinlichkeiten:
P (X = xi ) = pi = f (xi ), i =
(pi )
f
gegeben. Die Folge
bzw. die Funktion
Die Wertemenge von X wird auch als
1, 2, ..
heiÿt auch
Zähldichte von X .
Träger von X bezeichnet:
x x , . . .}
T = { 1,
2
Ist B eine Teilmenge des Trägers von X, so folgt mit Axiom
P (X ∈ B ) =
Jürgen Dippon (ISA)
X
i :xi ∈B
pi
Biostatistik I
5. Diskrete Zufallsvariablen
K
( f3):
11. Dezember 2012
147 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Verteilungen und Parameter von diskreten Zufallsvariablen
Wahrscheinlichkeitsverteilung
f , . . . , fk
x
x
p
{ 1 , . . . , k } ist die
(Zähldichte) 1 , . . . k das
Bei einem endlichen Wertebereich
p
wahrscheinlichkeitstheoretische Analogon zur relativen Häugkeitsverteilung
1
.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
148 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Bernoulli-Verteilung
Besitzt der Wertebereich von X nur zwei Werte
binäre oder dichothome Zufallsvariable.
Beispiel:
Sei
X=
x
1 und
x
2 , so ist X eine
1,
falls Kunde kreditwürdig
0,
falls Kunde nicht kreditwürdig
A={
P (A) = P (X =
Kunde kreditwürdig}. Dann
1)
=
p
P (Ā) = P (X =
X ∼ ( , p)
und
Bernoulli-Variable, kurz
Verteilung heiÿt Bernoulli-Verteilung.
X ist eine
Bin 1
0)
=1−
p
. Die dazugehörige
Grasche Darstellung durch ein Stab- oder Säulendiagramm oder ein
Wahrscheinlichkeitsdiagramm.
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
149 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Verteilungsfunktion
Verteilungsfunktion einer diskreten Zufallsvariable:
F (x ) = P (X ≤ x ) =
X
i :x i ≤ x
f (xi )
Diese Verteilungsfunktion besitzt viele Eigenschaften der empirischen
Verteilungsfunktion:
monoton wachsende Treppenfunktion
F (x ) →
F (x ) →
F (x )
F (x )
0 für
1 für
x → −∞
x →∞
macht Sprünge der Höhe
f (xi ) = pi xi
an
rechtsstetig an den Sprungstellen
(Die empirische Verteilungsfunktion macht Sprünge der Höhe
Vielfache davon.)
Jürgen Dippon (ISA)
Biostatistik I
1
n
oder
11. Dezember 2012
150 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Abbildung: Zähldichte und Verteilungsfunktion
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
151 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Gleichverteilung
x
x
X∼
Eine diskrete Zufallsvariable X heiÿt
T = { 1, . . . , k }
kurz
∀
Unif (T ), falls gilt:
i ∈{1,...,k }
Jürgen Dippon (ISA)
gleichverteilt auf dem Träger
P (X = xi ) = k
1
Biostatistik I
11. Dezember 2012
152 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Geometrische Verteilung
X∼
p)
geometrisch(p)-verteilt, kurz
Eine diskrete Zufallsvariable X heiÿt
Geo(
, falls gilt:
P (X = i ) = ( − p)i p
∀
p)
Eine Geo(
−1
1
i ∈N0
-verteilte Zufallvariable X zählt die Anzahl der Versuche in
p∈( ,
einer Folge von unabhängigen Zufallsexperimenten mit jeweiliger
Erfolgswahrscheinlichkeit
A = ( |,
0 1) bis zum ersten Erfolg:
0 0, . . . , 0
{z
}
, |{z}
1
)
i −1 Misserfolge 1. Erfolg
( ) = (1 − ) · (1 − ) · . . . · (1 − ) ·
PA
p
Jürgen Dippon (ISA)
p
p p = ( − p)i p
Biostatistik I
5. Diskrete Zufallsvariablen
1
−1
11. Dezember 2012
153 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Unabhängigkeit
y y , . . .}
y
TY = { 1 ,
∈ TY gilt:
und
2
heiÿen
unabhängig, wenn für
x x
x
TX = { 1 , 2 , . . .}
beliebige
∈ TX und
Zwei diskrete Zufallsvariablen X und Y mit den Trägern
P (X = x , Y = y ) = P (X = x ) · P (Y = y )
X , . . . , Xn unabhängig
x , . . . , xn
P (X = x , . . . , Xn = xn) = P (X = x ) · . . . · P (Xn = xn)
Allgemeiner heiÿen n diskrete Zufallsvariablen
wenn für beliebige Werte
1
Jürgen Dippon (ISA)
1
1
1
,
aus den jeweiligen Trägern gilt:
1
Biostatistik I
1
11. Dezember 2012
154 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Unabhängigkeit
X ∈ A} {Y ∈ B }
P ( X ∈ A, Y ∈ B ) = P ( X ∈ A) · P ( Y ∈ B )
f)
(K
Sind zwei diskrete Zufallsvariablen X und Y unabhängig, folgt die
Unabhängigkeit der Ereignisse
Nachweis mit Axiom
{
und
, d.h.
3 .
Beispiel: Unabhängigkeit beim Werfen zweier Würfel
X
Augenzahl im 1. Wurf, Y Augenzahl im 2. Wurf
P| (X ={zi , Y = j}) = |P (X{z= i}) · P| (Y{z= j})
1
36
1
6
Jürgen Dippon (ISA)
1
6
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
155 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Lageparamter einer diskreten Verteilung
Analog zum arithmetischen Mittel einer Stichprobe denieren wir:
Erwartungswert E (X ) einer diskreten Zufallsvariable mit den Werten
x ,x ,...
Der
1
2
f (x )
E (X ) = X xi pi
i
X
=
xi f (xi )
und der Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsfunktion
p ,p ,...
1
2
bzw. der
ist deniert durch:
∈N
i ∈N
Der Erwartungswert einer Zufallsvariable X ist damit das mit der
Wahrscheinlichkeit des Auftretens gewichtete Mittel der Werte.
fi
xi
Beim arithmetischen Mittel
relative Häugkeit
Jürgen Dippon (ISA)
von
x̄
einer Stichprobe wird statt
in der Stichprobe verwendet.
Biostatistik I
pi
bzw.
f (xi )
11. Dezember 2012
die
156 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Beispiel
Beispiel: Erwartungswert beim Würfel
Die Variable
X
gebe die Augenzahlen an
E (X ) = xi pi = i ·
6
X
X
i =1
Jürgen Dippon (ISA)
1
6
1
21
6
6
= (1 + . . . + 6 ) =
Biostatistik I
5. Diskrete Zufallsvariablen
= 3, 5
11. Dezember 2012
157 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Beispiel
Beispiel: Mittlere Anzahl der Versuche bis zum 1. Erfolg bei unabhängigen
Bernoulli-Versuchen mit jeweiliger Erfolgswahrscheinlichkeit
X∼
Geo(
p)
, d.h.
P (X = i ) = ( − p)i p, i ∈ { ,
1
E (X ) = i
∞
X
i =0
−1
0 1)
1 2, . . .}
p p p i ( − p)i
(1 − )i −1 =
p∈( ,
∞
X
1
−1
i =0
∞
X
d
d
i
= −p
(1 − p ) = −p
(1 − p )i
dp
dp i =0
i =0
d
1
d 1 =p· 1
= −p
= −p
dp 1 − (1 − p)
dp p
p2
=
Jürgen Dippon (ISA)
1
∞
X
p>
1
Biostatistik I
11. Dezember 2012
158 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Erwartungswert
Ist
g (x )
eine reelle Funktion, dann gilt für die Zufallsvariable
Y = g (X )
:
E (Y ) = E (g (X )) = g (xi )pi = g (xi )f (xi )
X
X
i ≥1
i ≥1
Beispiel: g (x ) = x 2
E (X ) = xi pi = x p + x p
X
2
Beispiel: g (x ) = ax + b
E (aX + b) =
X
i ≥1
2
i ≥1
2
1 1
2
2 2
+ ...
ax b p a xi pi +b pi = aE (x ) + b
( i+ ) i=
X
X
i ≥1
| {z }
E (X )
i ≥1
| {z }
1
Erwartungswertbildung ist also linear.
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
159 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Beispiel
Beispiel: Ist die Wahrscheinlichkeitsfunktion f (x ) symmetrisch um c, so
gilt:
E (X ) = EX(X − c ) + Ec
=
(xi − c )f (xi ) +c
i ≥1
|
=
Jürgen Dippon (ISA)
c
{z
0
Biostatistik I
}
11. Dezember 2012
160 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Weitere Eigenschaften
Die folgende Tatsache ist aufwändig zu zeigen:
Für zwei diskrete Zufallsvariablen X und Y gilt:
E (X + Y ) = E (X ) + E (Y )
a , . . . , an
E (a X + . . . + anXn) = a E (X ) + . . . + anE (Xn)
und allgemeiner für beliebige Konstanten
1
1
Jürgen Dippon (ISA)
1
:
1
1
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
161 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Produktregel
Für zwei unabhängige diskrete Zufallsvariablen gilt die Produktregel:
E (X · Y ) = E (X ) · E (Y )
Beispiel: Beim 2-maligen Würfeln gilt für die Augenzahlen X (erster Wurf )
und Y (zweiter Wurf ):
E (X · Y ) = E (X ) · E (Y ) =
Jürgen Dippon (ISA)
Biostatistik I
7
2
·
7
2
=
49
4
11. Dezember 2012
162 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Weitere Lageparameter
Der
Modus xmod
ist derjenige
macht.
x
-Wert, der
p ∈ ( , ) xp
P (X ≤ xp ) = F (xp ) ≥ p
xp
Für jeden Wert
0 1
Mit dieser Denition ist
ist
ein
f (x ) = P (X = x )
maximal
p-Quantil, falls
und
P (X ≥ xp ) ≥
1
−
p
u.U. nicht eindeutig deniert. Sind mehrere
Werte möglich, so kann man z.B. den mittleren Wert wählen.
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
163 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Streungsparameter für eine diskrete Zufallsvariable X
Die
Varianz einer diskreten Zufallsvariable ist:
σ2 =
wobei
Die
EX
Var (X ) = X(xi − µ) f (xi ) = E ((X − µ) )
2
2
i ≥1
µ = ( ).
Standardabweichung ist:
Var (X )
p
σ=+
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
164 / 435
5. Diskrete Zufallsvariablen
5.2. Verteilungen diskreter Zufallsvariablen
Streuungsparameter für eine diskrete Zufallsvariable X
Wie bei empirischen Varianzen gilt die
Verschiebungsregel:
Var (X ) = E (X ) − (E (X )) = E (X ) − µ
Y = aX + b
Var (Y ) = Var (aX + b) = a Var (X )
σY = |a|σX
2
2
2
2
und für
2
Jürgen Dippon (ISA)
und
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
165 / 435
5.2. Verteilungen diskreter Zufallsvariablen
Beispiel
Augenzahl X beim Würfeln
Var (X ) = E (X ) − (E (X ))
2
= 12 ·
=
1
6
1
6
2
+ 22 ·
1
6
+ . . . + 62 ·
· (12 + 22 + . . . + 62 ) −
|
{z
}
1
6
2
−
7
2
2
7
2
91
= ... =
Jürgen Dippon (ISA)
70
24
= 2, 92
Biostatistik I
11. Dezember 2012
166 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Die Binomialverteilung
Folge von
n
p
unabhängigen Bernoulli-Versuchen
Erfolgswahrscheinlichkeiten
Xi =
, wobei
X , . . . , Xn
1
p
0
mit Wahrscheinlichkeit 1
1
mit Wahrscheinlichkeit
Gesucht ist nun die Wahrscheinlichkeit für genau
k
−
mit jeweiligen
p
Erfolge:
0...01...1
| {z } | {z }
n −k
k
Wahrscheinlichkeit für genau dieses Ergebnis:
Anzahl verschiedener Permutationen:
p
p
(1 − )n−k · k
n
k
Alle Permutatonen sind gleich wahrscheinlich. Also:
P ({
n pk ( − p)n
k
k Erfolge bei n Versuchen})
Jürgen Dippon (ISA)
=
1
Biostatistik I
5. Diskrete Zufallsvariablen
−k
11. Dezember 2012
167 / 435
5.3. Spezielle diskrete Verteilungsmodelle
Die Binomialverteilung
X = X + . . . + Xn
E (X ) = E (X + . . . + Xn) = E (X ) + . . . + E (Xn) = n |E ({zX })
sei die Anzahl der Erfolge bei n Versuchen. Dann ist:
1
1
=
1
1
0·(1−
np
p)+1·p
X , . . . , Xn
Var (X ) = Var (X + . . . + Xn) = Var (X ) + . . . + Var (Xn) = nVar (X )
= n(E (X ) − (E (X )) )
= n( · ( − p ) + · p − p ) = np ( − p )
Wegen Unabhängigkeit der
folgt:
1
1
1
2
1
2
0
Jürgen Dippon (ISA)
1
1
1
2
1
2
2
Biostatistik I
1
11. Dezember 2012
168 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Die Binomialverteilung
Additionseigenschaft der Binomialverteilung
Sind
X∼
Bin(
n, p )
und
Y ∼ (m, p)
X + Y ∼ (n + m, p)
Bin
unabhängig, so gilt:
Bin
Symmetrieeigenschaft
Sei
X∼
n, p )
Bin(
und
Y =n−X
Y ∼ (n, − p)
, dann gilt
Bin
Jürgen Dippon (ISA)
1
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
169 / 435
5.3. Spezielle diskrete Verteilungsmodelle
Beispiel
Beispiel: Qualitätskontrolle
In einer Zucht von Austern entstehen mit Wahrscheinlichkeit
fehlerfreie Perlen.
Aus der Population werden
n=
20 Perlen entnommen. Sei
der fehlerfreien Perlen, also:
X∼
Bin(20, 0.9)
und
Y =n−X ∼
X
p=
0.9
die Anzahl
Bin(20, 0.1)
Wie groÿ ist die Wahrscheinlichkeit, dass höchstens 18 der 20 Perlen
fehlerfrei sind?
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
170 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Beispiel
P (X ≤
18)
PX
X
= 1 − ( = 19 oder = 20)
20
20
19
1
20
=1−
0.9
· 0.1 −
0.9
· 0.10
19
20
= 1 − 20 · 0.919 · 0.1 − 0.920
≈ 0.61
P (X = ) = · . · . ≈
E (X ) = n · p = · . =
Var (X ) = n · p( − p) = · .
20
18
0 9
18
20
18
2
0 1
0 9
1
0.285
18
20
0 9
· 0.1 = 1.8,
also
σ ≈ 1.34
Im Zusammenhang mit dem zentralen Grenzwertsatz werden wir sehen,
dass X ungefähr normalverteilt ist mit Erwartungswert 18 und Varianz 1.8
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
Es werden
n
N
171 / 435
5.3. Spezielle diskrete Verteilungsmodelle
Die hypergeometrische Verteilung
In einem Aquarium benden sich
11. Dezember 2012
Fische,
M
davon sind männlich.
. . . 0} 11
. . . 1}
|00 {z
| {z
M
N −M
|
{z
}
N
Fische
ohne Zurücklegen herausgezogen.
Wie groÿ ist die W., genau
Stichprobe
X =k
männliche Fische zu ziehen?
0...0 1...1
| {z } | {z }
k
n−k
|
{z
}
n
P (X = k ) =
Anzahl der günstigen Ergebnisse
Anzahl der möglichen Ergebnisse
M · N −M = k N n−k
n
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
172 / 435
5. Diskrete Zufallsvariablen
X
5.3. Spezielle diskrete Verteilungsmodelle
n,
(M ,
(
kann nicht gröÿer werden als
X
kann nicht kleiner werden als
X
falls
falls
n≤M
n>M
0,
n − (N − M ),
n N − M )) , . . . , min(n, M )}
Also gilt für den Träger von
T = {max (0, − (
:
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
n, M , N
5.3. Spezielle diskrete Verteilungsmodelle
hypergeometrisch verteilt mit Parametern
, wenn sie die Wahrscheinlichkeitsfunktion
 M N −M
 ( k )( n−k )
(Nn )
( )=

fk
Es gilt
0
, falls
N M
(N , N )
Bin
x ∈T
, sonst
M
M
M
E (X ) = n N , Var (X ) = n N − N NN −− n
n
n
X
N ≤ .
Y ∼ N , MN E (Y ) = n MN = E (X )
M
M
Var (Y ) = n N − N > Var (X )
1
Ist
173 / 435
X ∼ Hyp(n, M , N )
Eine Zufallsvariable heiÿt
, kurz
11. Dezember 2012
groÿ im Vergleich yu
(Faustregel
1
0 05), so kann
als nahezu
-verteilt angesehen werden.
Zum Vergleich: Sei
Bin
. Dann
1
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
174 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Abbildung: Zähldichte- und Verteilungsfunktion der
Jürgen Dippon (ISA)
Hyp(6, 6, 10)-Verteilung
Biostatistik I
5. Diskrete Zufallsvariablen
11. Dezember 2012
175 / 435
5.3. Spezielle diskrete Verteilungsmodelle
Die Poisson-Verteilung
n
n
Binomial- und hypergeometrisch verteilte Zufallsvariablen zählen, wie oft
bei
-maligem Ziehen ein bestimmtes Ereignis eintritt:
T = {0, 1, . . . , }
Die geometrische Verteilung zählt, wie lange man warten muss bis ein
bestimmtes Ereignis zum ersten Mal eintrit:
Eine
T =N
Poisson-verteilte Zufallsvariable zählt, wie oft ein bestimmtes
Ereignis innerhalb eines (Zeit-)Intervalles eingetreten ist:
T = N0
Die Poisson-Verteilung lässt sich herleiten
1
als Grenzfall der Binomial-Verteilung oder
2
aus den Poisson-Annahmen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
176 / 435
5. Diskrete Zufallsvariablen
zu
5.3. Spezielle diskrete Verteilungsmodelle
1): Die Wahrscheinlichkeit, dass das Erbgut eines Einzellers nach
p=
Röntgenbestrahlung eine Mutation aufweist, sei
In einer Kultur benden sich
k
n=
1
.
1000
500000 Einzeller.
Wie groÿ ist die Wahrscheinlichkeit, dass sich in der Kultur nach
Röntgenbestrahlung
X=
mutierte Individuen benden?
Anzahl der Mutationen
P (X = k ) = kn pk ( − p)n k
n · . . . · (n − k + ) p k
=
k!
|
{z
}
−
1
1
k
≈ nk !
Jürgen Dippon (ISA)
1
+ n1
n
→
1
(1−p ) p
Biostatistik I
5. Diskrete Zufallsvariablen
Da
p
e n→∞
für
np
≈1
11. Dezember 2012
177 / 435
5.3. Spezielle diskrete Verteilungsmodelle
folgt für kleines
λk
= )≈
!
p
(1 − )n (1 − )−k
| {z } | {z }
p
und groÿes
n
und
λ=
np
P (X k k e , k ∈ { , , . . . , n}
X
( k
k ∈N
f (k ) = P (X = k ) = k e
Eine Zufallsvariable
−λ
0 1
mit der Wahrscheinlichkeitsfunktion
−λ
λ
für
!
0
sonst
heiÿt Poisson-verteilt mit Parameter (oder Rate)
Es gilt
Jürgen Dippon (ISA)
λ > 0,
E (X ) = λ, Var (X ) = λ
Biostatistik I
0
kurz
X∼
11. Dezember 2012
Pois(λ)
178 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Finden im Zeitintervall [0, 1] zufällig Ereignisse statt, so ist die Anzahl
X
der in [0, 1] beobachteten Ereignisse Pois(λ)-verteilt, falls die folgenden
Poisson-Annahmen gelten:
Zwei Erreignisse können nicht gleichzeitig auftreten
P(
P(
N
Anzahl der Ereignisse in
Anzahl der Ereignisse in
N
tt t
[t , t + ∆t ])
I ,I ⊂ [ ,
[ , + ∆ ]) ≈ λ∆
Für zwei disjunkte Intervalle 1
1 und
Ii
t
für
∆
t
kein
nur abhängig von
0 1] gilt:
2
2 sind zwei unabhängige Zufallsvariablen, wobei
der Ereignisse in
Jürgen Dippon (ISA)
Biostatistik I
5. Diskrete Zufallsvariablen
X
Ni =
Anzahl
179 / 435
5.3. Spezielle diskrete Verteilungsmodelle
Poisson-verteilte Zufallsvariablen sind
X +Y ∼
t
11. Dezember 2012
X∼
Ähnlich wie bei der Binomial-Verteilung gilt eine
unabhängig, so gilt
∆
Additionseigenschaft für
Pois(λ) und
Pois(λ
Y∼
Pois(µ)
+ µ)
Damit lässt sich dann zeigen:
Z
Ist die Anzahl
von Ereignissen in [0, 1] Pois(λ)-verteilt, so ist die Anzahl
von Ereignissen in [0,
t]
Pois(λ
t)
-verteilt.
Beispiele für Poisson-verteilten Zufallsvariablen:
Anzahl radioaktiver Zerfälle in einem gegebenen Zeitintervall
Anzahl der durch Blitzschlag in einem Jahr getöteten Personen
Anzahl von Morden in einer Groÿstadt
Anzahl von HIV-Inzierten in einem Stadtteil
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
180 / 435
5. Diskrete Zufallsvariablen
5.3. Spezielle diskrete Verteilungsmodelle
Abbildung: Zähldichte- und Verteilungsfunktion der
Jürgen Dippon (ISA)
Biostatistik I
Pois (3)-Verteilung
11. Dezember 2012
181 / 435
6. Stetige Zufallsvariablen
4
Wahrscheinlichkeitsrechnung
5
Diskrete Zufallsvariablen
6
Stetige Zufallsvariablen
Spezielle stetige Verteilungsmodelle
Gleichverteilung
Exponentialverteilung
Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen
Erwartungswert
Modus, Quantil und Median
Varianz und Standardabweichung
Normalverteilung
7
Grenzwertsätze
8
Mehrdimensionale Zufallsvariablen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
182 / 435
6. Stetige Zufallsvariablen
Stetige Zufallsvariablen
Zur Erinnerung: Eine diskrete Zufallsvariable
X
x x ,...}
nimmt Werte in einer
T = { 1,
endlichen oder abzählbaren, also diskreten, Menge
Für deren Verteilungsfunktion
F
an.
gilt
F (x ) = P (X ≤ x ) =
Jürgen Dippon (ISA)
2
X
i : xi ≤x
f (xi )
Biostatistik I
(1)
11. Dezember 2012
183 / 435
6. Stetige Zufallsvariablen
Eine stetige Zufallsvariable
kontinuierlichen Menge
T,
X
z.B.
nimmt Werte in einer überabzählbaren
T = R, T = [0, 1]
Für deren Verteilungsfunktion kann die Gleichung
oder
(1)
T = (0, ∞)
an.
jetzt NICHT mehr
gelten.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
184 / 435
6. Stetige Zufallsvariablen
Stattdessen und genauer:
dass für jedes
X
x ∈R
Eine Zufallsvariable
heiÿt
stetig, wenn es eine Funktion f (t ) ≥ 0 gibt, so
F (x ) = P (X ≤ x ) =
f (x )
Z x
−∞
heiÿt (Wahrscheinlichkeits-)Dichte von
Jürgen Dippon (ISA)
X
Biostatistik I
f (t ) dt
.
11. Dezember 2012
185 / 435
6. Stetige Zufallsvariablen
Für stetige Zufallsvariablen gilt:
P (a ≤ X ≤ b) = P (a < X < b)
= P (a ≤ X < b)
Z b
= P (a < X ≤ b) =
f
(t ) dt = F (b) − F (a)
a
P (X = x ) =
x ∈R
P (−∞ < X < ∞) =
Z
f (t ) dt =
und
Da
0 für jedes
1 gilt auch
∞
1
−∞
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
186 / 435
6. Stetige Zufallsvariablen
Weitere Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable:
1
2
3
F (x )
limx F (x ) = limx F (x ) =
x
f (x )
F (x ) = dFdx(x ) = f (x )
ist stetig und monoton wachsend mit Werten in [0, 1]
0,
→−∞
Für Werte
1
→∞
, an denen
stetig ist, gilt
0
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
187 / 435
6. Stetige Zufallsvariablen
x ∈R
X
Y
y ∈R
P (X ≤ x , Y ≤ y ) = P (X ≤ x ) · P (Y ≤ y ) = FX (x ) · FY (y )
X , . . . , Xn
x , . . . , xn ∈ R
P (X ≤ x , . . . , Xn ≤ xn) = P (X ≤ x ) · . . . · P (Xn ≤ xn)
Zwei stetige Zufallsvariablen
und
und
sind unabhängig, wenn für alle
Allgemeiner: Die stetigen Zufallsvariablen
für alle
sind unabhängig, falls
1
1
1
Jürgen Dippon (ISA)
1
1
Biostatistik I
1
11. Dezember 2012
188 / 435
6. Stetige Zufallsvariablen
6.1. Spezielle stetige Verteilungsmodelle
Gleichverteilung
X ∼ Unif ([a, b])
f (x ) = b
Eine stetige Zufallsvariable heiÿt
kurz
gleichverteilt auf dem Intervall [a, b],
, wenn sie eine Dichte
1
−a
0
für
a≤x ≤b
sonst
besitzt.
Dazugehörige Verteilungsfunktion
Fx
x <a
a≤x ≤b
x >b
x =b F


0
x −a
( )=
 b −a
An den Knickstellen
Jürgen Dippon (ISA)
x =a
1
und
ist
Biostatistik I
6. Stetige Zufallsvariablen
nicht dierenzierbar.
11. Dezember 2012
189 / 435
6.1. Spezielle stetige Verteilungsmodelle
Abbildung: Dichte- und Verteilungsfunktion der Gleichverteilung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
190 / 435
6. Stetige Zufallsvariablen
6.1. Spezielle stetige Verteilungsmodelle
Exponentialverteilung
Die geometrische Verteilung dient zur Beschreibung der Wartezeit bis zu
einem bestimmten Ereignis. Ein stetiges Analogon hierzu ist die
Exponentialverteilung:
X
exponentialverteilt mit dem Parameter λ > 0, kurz X
Eine stetige Zufallsvariable
die Dichte
f (x ) =
Exp(λ)
mit nichtnegativen Werten heiÿt
λ
e
−λx
für
0
für
x≥
x<
∼
, wenn sie
0
0
besitzt.
Jürgen Dippon (ISA)
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
191 / 435
6.1. Spezielle stetige Verteilungsmodelle
Exponentialverteilung
Dazugehörige Verteilungsfunktion
F (x ) =
1
−
e
−λx
0
für
für
x≥
x<
0
0
t Pois (λt )
Man kann zeigen, dass die Anzahl von Ereignissen in einem Zeitintervall der
Länge
-verteilt ist, wenn die Zeitdauern zwischen aufeinander
folgenden Ereignissen unabhängig und exponentialverteilt mit Parameter
λ
sind.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
192 / 435
6. Stetige Zufallsvariablen
6.1. Spezielle stetige Verteilungsmodelle
Abbildung: Dichte- und Verteilungsfunktion der Exponentialverteilung
Jürgen Dippon (ISA)
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
193 / 435
6.2. Lageparameter, Quantile und Varianz
Lageparameter, Quantile und Varianz von stetigen
Zufallsvariablen
Approximation der Dichte
f
x
einer stetigen Zufallsvariablen
Histogramm mit Intervallbreite
∆
Biostatistik I
für
Xd
durch ein
zu einer diskreten Zufallsvariable
E (Xd ) = X xi pi = X
x
i f (xi )∆x
Z
→ xf (x ) dx
Jürgen Dippon (ISA)
X
:
x
∆ →0
11. Dezember 2012
194 / 435
6. Stetige Zufallsvariablen
6.2. Lageparameter, Quantile und Varianz
Erwartungswert
Jürgen Dippon (ISA)
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
195 / 435
6.2. Lageparameter, Quantile und Varianz
Erwartungswert
Der Erwartungswert
E (X )
einer stetigen Zufallsvariable
ist deshalb deniert als
E (X ) =
Jürgen Dippon (ISA)
Z
∞
−∞
X
mit Dichte
f (x )
xf (x ) dx
Biostatistik I
11. Dezember 2012
196 / 435
6. Stetige Zufallsvariablen
6.2. Lageparameter, Quantile und Varianz
Eigenschaften von Erwartungswerten
1
Ist
g (x )
eine reelle Funktion, dann gilt für
E (Y ) = E (g (X )) =
Y = aX + b
E (Y ) = E (aX + b) = aE (X ) + b
f
c f (c − x ) = f (c + x )
E (X ) = c
X Y
E (X + Y ) = E (X ) + E (Y )
a , . . . , an
E (a X + . . . + anXn) = a E (X ) + . . . + anE (Xn)
Z
∞
−∞
2
Für
3
Ist
4
Additivität: Für zwei Zufallsvariablen
5
Linearität: Für beliebige Konstanten
gilt
symmetrisch um
1
, d.h.
, so gilt
1
gilt
gilt
1
1
Biostatistik I
6. Stetige Zufallsvariablen
Beispiele
X
und
1
Jürgen Dippon (ISA)
1
Y = g (X )
g (x )f (x ) dx
gleichverteilt auf
ab
[ , ].
E (X ) =
11. Dezember 2012
197 / 435
6.2. Lageparameter, Quantile und Varianz
Dann
Z b
xf (x ) dx = a x b − a dx
b
a
(b − a)(b + a)
−
=
=
b−a
(b − a )
a+b
=
Z
∞
−∞
2
1
2
2
X ∼ Exp(λ)
2
2
2
2
E (X ) =
Z
∞
−∞
xf (x ) dx =
= ··· =
Jürgen Dippon (ISA)
1
Z
0
∞
xe x dx
−λ
1
λ
Biostatistik I
11. Dezember 2012
198 / 435
6. Stetige Zufallsvariablen
6.2. Lageparameter, Quantile und Varianz
Modus, Quantil und Median
Ist
X
dem
f (x )
<p<
eine stetige Zufallsvariable mit Dichte
ein (lokales) Maximum annimmt,
Für 0
p-Quantil
xp
F (xp ) = p
Median xmed
F (xmed ) = .
p
1 heiÿt der Wert
von
X
. Der
f (x )
Modus von X , kurz xmod .
, so heiÿt der Wert, an
mit
ist das 50%-Quantil, also
0 5
Ist
F
streng monoton, so sind das
Jürgen Dippon (ISA)
-Quantil und der Median eindeutig.
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
199 / 435
6.2. Lageparameter, Quantile und Varianz
Varianz und Standardabweichung
Die
Varianz einer stetigen Zufallsvariable ist deniert als die mittlere oder
EX
(x − µ) f (x ) dx
erwartete quadratische Abweichung vom Erwartungswert
2
σ =
Var (X ) = E ((X − µ) ) =
2
Z
∞
−∞
µ = ( ):
2
Die Standardabweichung ist
Var (X )
p
σ=+
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
200 / 435
6. Stetige Zufallsvariablen
6.2. Lageparameter, Quantile und Varianz
Wie im diskreten Fall gelten
1
2
3
Var (X ) = E (X ) − (E (X )) = E ((X − c ) ) − (µ − c )
Var (aX + b) = a Var (X )
X Y
Var (X + Y ) = Var (X ) + Var (Y )
2
2
2
2
2
für unabhängige Zufallsvariablen
Beispiel: Sei X
auf
ab
[ , ]
und
gleichverteilt
Var (X ) = |E ({zX })
EX
2
b a
( − )2
2
− ( ( )) = · · · =
| {z }
Rb
2
1
( a+2 b )
a x 2 b−a dx
Jürgen Dippon (ISA)
12
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
201 / 435
6.3. Normalverteilung
Normalverteilung
Eine Zufallsvariable
X
mit Dichte
f (x ) = √ πσ
1
2
exp
x
( − µ)2
−
2σ 2
,
x ∈ R,
normalverteilt mit den Parametern µ ∈ R und σ2 > 0, kurz
X ∼ N (µ, σ )
heiÿt
2
.
Es gilt
E (X ) = √ πσ
1
Z
2
∞
−∞
xe
x
( −µ)2
2σ2
Var (X ) = E (X ) − (E (X ))
2
Jürgen Dippon (ISA)
2
Biostatistik I
dx = · · · = µ
= · · · = σ2
11. Dezember 2012
202 / 435
6. Stetige Zufallsvariablen
Die Verteilungsfunktion von
6.3. Normalverteilung
X ∼ N (µ, σ )
2
Z x
ist gegeben durch
t
F (x ) = P (X ≤ x ) = √ πσ e dt
Z x
t
X
−µ
x
−µ
=P
dt
≤
=√
e
σ
σ
πσ
Z z
t
x
−µ
=Φ
dt
e
,
Φ(z ) = √
σ
π
1
2
( −µ)2
2σ2
−∞
−µ
σ
1
2
2
−2
2
−∞
X ∼ N (µ, σ ) ⇐⇒ X σ− µ ∼ N ( ,
2
Jürgen Dippon (ISA)
−∞
1
wobei
Also gilt
2
−2
0 1)
Biostatistik I
6. Stetige Zufallsvariablen
11. Dezember 2012
203 / 435
6.3. Normalverteilung
Abbildung: Dichte- und Verteilungsfunktion der Normalverteilung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
204 / 435
7. Grenzwertsätze
4
Wahrscheinlichkeitsrechnung
5
Diskrete Zufallsvariablen
6
Stetige Zufallsvariablen
7
Grenzwertsätze
Gesetz der groÿen Zahlen
Der zentrale Grenzwertsatz
8
Mehrdimensionale Zufallsvariablen
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
205 / 435
7. Grenzwertsätze
Grenzwertsätze
Fragen:
1
Unter welchen Voraussetzungen liegt die relative Häugkeit für das
Eintreten eines Ereignisses nahe bei der Wahrscheinlichkeit für das
Ereignis?
2
Unter welchen Voraussetzungen kann die Verteilung einer Summe von
Zufallsvariablen durch eine einfachere Verteilung approximiert werden?
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
206 / 435
7. Grenzwertsätze
7.1. Gesetz der groÿen Zahlen
Gesetz der groÿen Zahlen
Sei
X
Also
A
A
X=
A
X ∼ Bin( , p) p = P (A) = P (X =
eine binäre Zufallsvariable und
1
ein Ereignis mit
1
falls
eintritt
0
falls
nicht eintritt
mit
Wir nehmen an, dass das Zufallsexperiment
wiederholt werden kann:
Xi = ,,
Xi ∼ Bin( , p)
Klar:
1
falls
0
falls
1
für alle
A i
A i
1).
n
-mal und in identischer Weise
im
-ten Versuch eintritt
im
-ten Versuch nicht eintritt
i ∈ { , . . . , n}
1
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
207 / 435
7.1. Gesetz der groÿen Zahlen
Empirisches Gesetz der groÿen Zahlen
Für groÿes
n
liegt die relative Häugkeit
nahe bei der Wahrscheinlichkeit von A:
fn(A) → P (A)
Da
fn(A)
für
für das Eintreten von
n→∞
fn(A) = n Pni Xi = X̄n P (A) = E (X )
X̄n → E (X ) n → ∞
1
=1
und
kann
A
(1)
(1)
auch in die Form
für
(2)
gebracht werden.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
208 / 435
7. Grenzwertsätze
7.1. Gesetz der groÿen Zahlen
Fragen:
1
Wie ist die Konvergenz in
2
Gilt
(2)
(1)
und
(2)
zu verstehen?
auch für nicht-binäre Zufallsvariablen?
Auf beide Fragen gibt das Gesetz der groÿen Zahlen eine Antwort.
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
Sei
X
σ2 =
Seien
Var (X )
X , . . . , Xn
11. Dezember 2012
7.1. Gesetz der groÿen Zahlen
eine Zufallsvariable mit Erwartungswert
.
1
unabhängige wie
Dann gilt
n
1 X
X
µ=
EX
und Varianz
verteilte Zufallsvariablen.
n
X
n
X
E X̄n = E n Xi = n EXi = n µ = µ
i
i
i
!
n
n
n
X
X
X
Var (X̄n) = Var n Xi = n Var (Xi ) = n σ
=1
1
Für groÿe
n X̄n
ist
Jürgen Dippon (ISA)
!
1
1
=1
=1
1
i =1
209 / 435
2
1
i =1
damit immer mehr um
Biostatistik I
µ
2
2
=
i =1
σ2
n
herum konzentriert.
11. Dezember 2012
210 / 435
7. Grenzwertsätze
7.1. Gesetz der groÿen Zahlen
Gesetz der groÿen Zahlen
Für beliebig kleines
In Worten:
X̄n
c>
P (|X̄n − µ| < c ) →
0 gilt
1
für
n→∞
konvergiert nach Wahrscheinlichkeit gegen
µ.
Zum Beweis verwenden wir die Ungleichung von Tschebyschev
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
211 / 435
7.1. Gesetz der groÿen Zahlen
Ungleichung von Tschebyschev
Für jede Zufallsvariable
X
∀
c >0
mit endlicher Varianz gilt
P (|X − E (X )| ≥ c ) ≤ Varc(X )
2
Beweis: Setze
Y=
0,
falls
1,
falls
(3)
X − E (X )| < c
X − E (X )| ≥ c
|
|
Damit
P (|X − E (X )| ≥ c ) = E (Y ) = E (Y ) |X − E (X )|
≤E
= Var (X )
c
c
2
2
2
Jürgen Dippon (ISA)
Biostatistik I
1
2
11. Dezember 2012
212 / 435
7. Grenzwertsätze
7.1. Gesetz der groÿen Zahlen
Beweis des Gesetzes der groÿen Zahlen
P (|X̄n − µ| < c ) =
1
−
P (|X̄n −{zµ| ≥ c})
|
(3)
2
≤ 12 Var (X̄n )= 12 σn →0
c
c
n
→ 1 ( → ∞)
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
213 / 435
7.1. Gesetz der groÿen Zahlen
Satz von Bernoulli
Spezialfall des starken Gesetzes der groÿen Zahlen:
Die relative Häugkeit, mit der ein Ereignis
P (A)
A n
bei
unabhängigen
Wiederholungen eines Zufallsvorgangs eintritt, konvergiert nach
Wahrscheinlichkeit gegen
Jürgen Dippon (ISA)
.
Biostatistik I
11. Dezember 2012
214 / 435
7. Grenzwertsätze
7.2. Der zentrale Grenzwertsatz
Der zentrale Grenzwertsatz
Die Zufallsvariable
X Bin( , p)
X , . . . , Xn
X
Sn = X + · · · + Xn ∼ Bin(n, p)
E (Sn) = np
Var (Sn) = np( − p)
sei
Die Zufallsvariablen
1
-verteilt.
seien unabhängig wie
1
verteilt. Dann
1
1
Bin(n, p)
N (np, np( − p))
Man stellt experimentell leicht fest, dass die Dichte einer
-verteilten Zufallsvariablen durch die Dichte einer
1
-verteilten Zufallsvariablen approximiert werden kann. Der
formale Beweis ist jedoch schwierig.
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
215 / 435
7.2. Der zentrale Grenzwertsatz
Approximation von Summen von Zufallsvariablen
Standardisierung von
Sn
:
− E (Sn )
Zn = Spn Var
(Sn )
Dann gilt:
E (Zn) =
0,
Var (Zn) = Var (Sn) Var (Sn) =
1
1
Damit kann obige Beobachtung reformuliert werden:
Die Dichte von
N( ,
Zn
kann für groÿe
0 1)-Verteilung, also
Jürgen Dippon (ISA)
f (x ) =
√1
n
2π
gut durch die Dichte der
e
2
− x2
, approximiert werden.
Biostatistik I
11. Dezember 2012
216 / 435
7. Grenzwertsätze
7.2. Der zentrale Grenzwertsatz
Daraus folgt:
Die Verteilungsfunktion
Fn(z ) = P (ZnR≤ z ) Znx
z
Φ(z ) =
e dx
von
durch die Verteilungsfunktion
N( ,
−∞
√1
2π
2
− 2
kann für groÿe
n
gut
einer
0 1)-verteilten Zufallsvariablen approximiert werden.
Bin( , p)
Diese Tatsache gilt nicht nur für Summen von unabhängigen
1
-verteilten Zufallsvariablen, sondern unter viel allgemeineren
Voraussetzungen.
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
217 / 435
7.2. Der zentrale Grenzwertsatz
Zentraler Grenzwertsatz
X , . . . , Xn
1
seien unabhängig identisch verteilte Zufallsvariablen mit
E (Xi ) = µ
und
Var (Xi ) = σ
Fn(z ) = P (Zn ≤ z )
2
Dann konvergiert die Verteilungsfunktion
standardisierten Summe
Zn = X
1
für
n→∞
X n
der
X
n
+ ··· + n − µ
1 X i −µ
√
=√
σ
σ
i =1
n
an jeder Stelle
Standardnormalverteilung
z ∈R
n
gegen die Verteilungsfunktion
z
Φ( )
der
Fn(z ) → Φ(z ) (n → ∞)
Unter den Voraussetzungen dieses Satzes gilt deshalb:
Sn = X
1
Jürgen Dippon (ISA)
X
+ ··· + n
ist approximativ
Biostatistik I
N (nµ, nσ )
2
-verteilt
11. Dezember 2012
218 / 435
7. Grenzwertsätze
7.2. Der zentrale Grenzwertsatz
Grenzwertsatz von Moivre-Laplace
Bin( , p)
X , . . . , Xn
Als Spezialfall des zentralen Grenzwertsatzes gilt damit für die Summe von
unabhängigen
1
-verteilten Zufallsvariablen
1
der
Grenzwertsatz von Moivre-Laplace
P
∀
z ∈R
S np z
np p
−
p n
≤
(1 − )
z
!
→ Φ( )
für
n→∞
oder
Sn =
n
N (np, np( − p))
Anzahl der Erfolge in
ist approximativ
Jürgen Dippon (ISA)
unabhänigen Bernoulli-Versuchen
1
-verteilt
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
219 / 435
7.2. Der zentrale Grenzwertsatz
Approximation der Binomialverteilung mit
Stetigkeitskorrektor
Für moderate
n
wird die Approximation besser, wenn die Treppenfunktion
N( , )
Sn ∼ Bin(n, p)
des Wahrscheinlichkeitshistogramms von der Dichtekurve der
0 1 -Verteilung etwa in der Mitte getroen wird.
n( − p )
!
P (Sn ≤ x ) = Bin(x |n, p) ≈ Φ px +np.( −−npp)
!
!
P (Sn = x ) ≈ Φ px +np.( −−npp) − Φ px −np.( −−npp)
Sei
-verteilt. Falls
np
und
1
groÿ genug sind, gilt
0 5
1
0 5
1
n( − p ) ≥
0 5
1
Faustregel: Die Approximation ist für praktische Zwecke gut, falls
und
1
5
Jürgen Dippon (ISA)
Biostatistik I
np ≥
11. Dezember 2012
5
220 / 435
7. Grenzwertsätze
7.2. Der zentrale Grenzwertsatz
Beispiel
Eine Tierart trägt mit Wahrscheinlichkeit 0.1 einen Gendefekt. Es werde
eine Stichprobe vom Umfang
Sn
n=
100 der Population untersucht.
sei die Anzahl der gesunden Tiere.
Also
Sn ∼ Bin(n, p) = Bin( ,
np =
n( − p )
100 0.9).
Wegen
90 und
1
=10 ist die Faustregel erfüllt.
Jürgen Dippon (ISA)
Biostatistik I
7. Grenzwertsätze
11. Dezember 2012
7.2. Der zentrale Grenzwertsatz
Beispiel
Wie groÿ ist die Wahrscheinlichkeit, dass höchstens
sind?
P (Sn ≤
88)
≈Φ
− 90
√
100 · 0.9 · 0.1
88+0.5
221 / 435
=Φ
−1.5
x=
88 Tiere gesund
3
= Φ(−0.5) = 0.309
Die Addition von 0.5 verbessert die Approximation (Stetigkeitskorrektur).
Wie groÿ ist die Wahrscheinlichkeit, dass genau
gesund sind?
P (Sn =
90)
PS
x=
90
ES
= ( n)
Tiere
PS
= ( n ≤ 90) − ( n ≤ 89)
0.5
−0.5
0.5
≈Φ
−Φ
=2·Φ
− 1 = 0.134
3
3
3
| {z }
1−Φ( 03.5 )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
222 / 435
8. Mehrdimensionale Zufallsvariablen
4
Wahrscheinlichkeitsrechnung
5
Diskrete Zufallsvariablen
6
Stetige Zufallsvariablen
7
Grenzwertsätze
8
Mehrdimensionale Zufallsvariablen
Begri mehrdimensionale Zufallsvariablen
Zweidimensionale diskrete Zufallsvariablen
Zweidimensionale stetige Zufallsvariablen
Unabhängigkeit von Zufallsvariablen
Kovarianz und Korrelation
Die zweidimensionale Normalverteilung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
223 / 435
8. Mehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen
In vielen Anwendungen interessiert nicht nur ein Merkmal, sondern mehrere
Merkmale, welche überdies oft nicht unabhängig sind. Das Studium der
Abhängigkeit ist häug von zentralem Interesse.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
224 / 435
8. Mehrdimensionale Zufallsvariablen
8.1. Begri mehrdimensionale Zufallsvariablen
Begri mehrdimensionale Zufallsvariablen
X (ω)
Bei einer reellen, also 1-dimensionalen Zufallsvariablen, wird jedem
ω
Ergebnis
n
Bei einer
eines Zufallsvorganges genau eine reelle Zahl
X
n
X (ω), . . . , Xn(ω)
X = (X , . . . , Xn) : Ω −→ Rn
ω 7−→ (X (ω), . . . , Xn (ω))
-dimensionalen Zufallsvariablen
eines Zufallsvorganges genau
zugeordnet.
werden jedem Ergebnis
reelle Zahlen
1
ω
zugeordnet:
1
1
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
11. Dezember 2012
225 / 435
8.2. Zweidimensionale diskrete Zufallsvariablen
Zweidimensionale diskrete Zufallsvariablen
X
y ,y ,...
Seien
1
Die
und
Y
zwei diskrete Zufallsvariablen mit Werten
x ,x ,...
1
2
bzw.
2
gemeinsame Wahrscheinlichkeitsfunktion oder gemeinsame diskrete
XY
x ∈ {x , x , . . . },
y ∈ {y , y , . . . }
Dichte der bivariaten diskreten Zufallsvariable


f (x , y ) = 
Jürgen Dippon (ISA)
P (X = x , Y = y )
( , )
für
1
1
0
ist bestimmt durch
2
2
sonst
Biostatistik I
11. Dezember 2012
226 / 435
8. Mehrdimensionale Zufallsvariablen
Die
8.2. Zweidimensionale diskrete Zufallsvariablen
gemeinsame Verteilungsfunktion zu X
F (x , y ) = P (X ≤ x , Y ≤ y ) =
Jürgen Dippon (ISA)
und
Y
XX
xi ≤x yj ≤y
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
ist gegeben durch
f (xi , yj )
11. Dezember 2012
227 / 435
8.3. Zweidimensionale stetige Zufallsvariablen
Zweidimensionale stetige Zufallsvariablen
eine auf
R
2
X
Y
gemeinsam stetig verteilt, wenn es
f (x , y )
Z bZ d
P (a ≤ X ≤ b, c ≤ Y ≤ d ) = a c f (x , y )dxdy
Die Zufallsvariablen
und
sind
denierte Dichtefunktion
ab cd
gibt, so dass
z = f (x , y )
gemeinsame Verteilungsfunktion X
Y
Z x Z y
F (x , y ) =
f (s , t )dsdt
ist gegeben durch
Jürgen Dippon (ISA)
11. Dezember 2012
Diese Wahrscheinlichkeit entspricht dem Volumen des Körpers über dem
Rechteck
Die
[ , ]×[ , ]
bis zur durch
gegebenen Fläche.
zu
−∞
und
−∞
Biostatistik I
228 / 435
8. Mehrdimensionale Zufallsvariablen
8.4. Unabhängigkeit von Zufallsvariablen
Unabhängigkeit von Zufallsvariablen
Die Zufallsvariable
Y
kann als unabhängig von der Zufallsvariablen
angesehen werden, falls
X
fY X (y |x ) = ff(Xx(,xy)) = fY (y )
|
(vorausgesetzt
fX (x ) >
f (x , y ) = fX (x ) · fY (y )
0).
In diesem Fall gilt
Deshalb deniert man:
Y
unabhängig
∀ ∀ f (x , y ) = fX (x ) · fY (y )
xy
X Y
abhängig
Die Zufallsvariablen
Ansonsten heiÿen
X
und
und
heiÿen (stochastisch)
(stochastisch)
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
, falls
.
11. Dezember 2012
229 / 435
8.5. Kovarianz und Korrelation
Kovarianz und Korrelation
X
Y
Die Wahrscheinlichkeitsfunktion
beiden Zufallsvariablen
X
und
Y
f (x , y )
liefert alle Informationen über die
, auch über deren mögliche Abhängigkeit.
Kovarianz und Korrelation sind zwei Begrie zur Beschreibung der
Abhängigkeit von
Sind
X
und
Y
und
linearen
unter Verwendung einer einzigen Maÿzahl.
unabhängig, so gilt
E (X · Y ) = E (X ) · E (Y )
(ohne Beweis)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
230 / 435
8. Mehrdimensionale Zufallsvariablen
Sind die Zufallsvariablen
X
und
Y
8.5. Kovarianz und Korrelation
abhängig, so liefert die Dierenz
E (XY ) − E (X ) · E (Y ) = E [(X − E (X )) · (Y − E (Y ))]
eine Maÿzahl für die Stärke der Abhängigkeit.
Wir denieren deshalb:
X Y
Cov (X , Y ) = E ((X − E (X )) · (Y − E (Y )))
Die Kovarianz der Zufallsvariablen
Jürgen Dippon (ISA)
und
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
Die Kovarianz liefert ein Maÿ für die
ist gegeben durch
11. Dezember 2012
231 / 435
8.5. Kovarianz und Korrelation
lineare Abhängigkeit und lässt sich
berechnen durch
Cov (X , Y ) =
falls
X
Y
Z
Cov (X , Y ) =
X Y
und
XX
i
diskret sind, bzw.
∞
−∞
falls
und
j
f (xi , yj )(xi − E (X ))(yj − E (Y ))
Z
∞
−∞
f (x , y )(x − E (X ))(y − E (Y ))dxdy
stetig sind.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
232 / 435
8. Mehrdimensionale Zufallsvariablen
Ye = cY + d
Werden die Zufallsvariablen
und
, so gilt
X
und
8.5. Kovarianz und Korrelation
Y
linear transformiert zu
Xe = aX + b
Cov (Xe , Ye ) = a · c · Cov (X , Y )
Da die Kovarianz oensichtlich maÿstabsabhängig ist, wird in der Praxis
der durch
XY
% = %( , ) = p
denierte
Cov (Xp, Y )
Var (X ) · Var (Y )
Korrelationskoezient bevorzugt.
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
11. Dezember 2012
233 / 435
8.5. Kovarianz und Korrelation
Eigenschaften des Korrelationskoezienten:
XY
−1 ≤ %( , ) ≤ 1
XY
Y aX b
ab
X aX b Y cY d a c
e, Y
e )| = |%(X , Y )|
|%(X
X Y
unkorreliert
%(X , Y ) =
%(X , Y ) 6=
korreliert
|%( , )| = 1 ⇔ =
+ für Konstanten ,
e=
+ , e =
+ mit , =
6 0:
Zwei Zufallsvariablen
und
heiÿen
, falls
0
Ist
0, so heiÿen sie
.
Man kann zeigen, dass zwei unabhängige Zufallsvariablen auch immer
unkorreliert sind.
Die Umkehrung gilt im Allgemeinen nicht.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
234 / 435
8. Mehrdimensionale Zufallsvariablen
8.5. Kovarianz und Korrelation
Varianz der Summe zweier u.U. abhängigen Zufallsvariablen:
Var (X + X ) = E (X + X − E (X ) − E (X ))
= E (X − E (X ))
+ E ((X − E (X )) (X − E (X )))
+ E (X − E (X ))
= Var (X ) + Var (X ) + Cov (X , X )
1
2
1
2
1
1
1
2
1
2
Jürgen Dippon (ISA)
2
2
2
2
2
2
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
2
1
1
2
2
1
2
11. Dezember 2012
235 / 435
8.5. Kovarianz und Korrelation
Linearkombination von Zufallsvariablen
Sei
X
Bioreaktor mit
ai
n
z.B. die zufallsabhängige Tagesproduktion von Hefe in einem
zufälligen Faktor
betragen:
Xi
verschiedenen Hefekulturen, die sich pro Tag um den
vermehren und deren relativen Anteile zu Tagesbeginn
X =a X
1
Jürgen Dippon (ISA)
1
aX
+ ··· + n n
Biostatistik I
11. Dezember 2012
236 / 435
8. Mehrdimensionale Zufallsvariablen
8.5. Kovarianz und Korrelation
Dann gilt:
E (X ) = a E (X ) + · · · + anE (Xn)
Var (X ) = E ((X − E (X )) )
! 
n
X
ai (Xi − E (Xi )) 
=E
1
1
2
2
i =1


n
X
X
2
2

=
i j ( i − ( i ))( j − ( j ))
i ( i − ( i )) +
i =1
i 6=j
n
X
X
2
( i) + 2
( i, j)
=
i j
i
i =1
i <j
E
a X EX
a Var X
aa X E X X E X
a a Cov X X
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
11. Dezember 2012
237 / 435
8.5. Kovarianz und Korrelation
Beispiel: Optimierung eines Bioreaktors
X ,X
Zwei Hefekulturen werden in den Anteilen
einen Bioreaktor eingebracht.
a
1 und
a
2 mit
a +a
1
2
=1
in
2 seien die zufallsabhängigen
1
Vermehrungsraten (pro Tag) der beiden Hefearten. Der gesamte
X =a X +a X
Tagesertrag ist somit
1
1
2
2
Und der zu erwartende Tagesertrag ist
E (X ) = a E (X ) + a E (X )
1
1
2
2
Die Varianz der Tagesertrages kann als ein Risikomaÿ für den Tagesertrag
interpretiert werden:
Var (X ) = a Var (X ) + a Var (X ) + a a Cov (X , X )
2
1
Jürgen Dippon (ISA)
1
2
2
Biostatistik I
2
2 1 2
1
2
11. Dezember 2012
238 / 435
8. Mehrdimensionale Zufallsvariablen
Mit
σi2 =
8.5. Kovarianz und Korrelation
Var (Xi ), ρ = Cor (X , X )
Var (X ) = a σ + a σ
1
2
1
2
ist:
2
1
2
2
2
2
+2
aaσσρ
1 2
1
2
Je nachdem, ob die Wachstumsfaktoren der beiden Hefekulturen positiv
oder negativ korreliert sind, ist das Risikomaÿ für den Tagesertrag gröÿer
oder kleiner als die Summe der Einzelrisiken.
Spezialfall:
σ = σ1 = σ2 , ρ = 1
Var (X ) = a σ + a σ
2
1
Spezialfall:
Falls
2
2
2
+2
aaσ
1 2
σ = σ1 = σ2 , ρ = −1
a =a
1
2
Var (X ) = a σ + a σ
2
1
2
= 0.5,
2
2
2
2
2
aaσ
−2
1 2
a +a ) σ
=(
2
1
2
2
2
= σ2
a −a ) σ
=(
1
2
2
2
ist das Gesamtrisiko gleich Null.
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
11. Dezember 2012
239 / 435
8.6. Die zweidimensionale Normalverteilung
Die zweidimensionale Normalverteilung
Dichte einer 1-dimensional normalverteilten Zufallsvariablen
f (x ) = √ πσ exp
1
2
wobei
EX
µ = ( ), σ 2 =
Jürgen Dippon (ISA)
Var (X )
(
−
1
x −µ
2
σ
2 )
,
X
:
x ∈ R,
.
Biostatistik I
11. Dezember 2012
240 / 435
8. Mehrdimensionale Zufallsvariablen
8.6. Die zweidimensionale Normalverteilung
Erweiterung der Normalverteilung auf 2-dimensionale Zufallsvariablen:
Die Zufallsvariablen
X
und
Y
heiÿen
gemeinsam normalverteilt, wenn
ihre gemeinsame Dichte bestimmt ist durch
f (x , y ) =
wobei
1
1/2
2π det(Σ)
exp
(
−
1
2
x −µ
y −µ
1
t
Σ−1
2
x , y ∈ R, µ = E (X ), µ = E (Y )
Var
(X )
Cov
(X , Y )
σ
Σ=
=
Cov (X , Y ) Var (Y )
σ σ ρ
1
x −µ
y −µ
1
)
2
und
2
2
1
1
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
2
σ1 σ2 ρ
σ22
11. Dezember 2012
241 / 435
8.6. Die zweidimensionale Normalverteilung
Beispiel: Seien X1 das Körpergewicht und X2 die Körpergröÿe.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
Abbildung: 2-dimensionale Normalverteilung
242 / 435
8. Mehrdimensionale Zufallsvariablen
8.6. Die zweidimensionale Normalverteilung
Abbildung: 2-dimensionale Normalverteilung
Jürgen Dippon (ISA)
Biostatistik I
8. Mehrdimensionale Zufallsvariablen
11. Dezember 2012
8.6. Die zweidimensionale Normalverteilung
Abbildung: 2-dimensionale Normalverteilung
Jürgen Dippon (ISA)
243 / 435
Biostatistik I
11. Dezember 2012
244 / 435
8. Mehrdimensionale Zufallsvariablen
8.6. Die zweidimensionale Normalverteilung
Der unkorrelierte Fall
X
Y
Sind die Zufallsvariablen X und Y mit gemeinsamer Normalverteilung
ρ = 0,
unkorreliert, d.h.
so ist
Fall:
σ12
Σ=
f (x , y ) =
0
σ
0
exp
πσ σ
1
2
1
2
1
,
(
−
2
1
x −µ
1
2
1
Jürgen Dippon (ISA)
1
2
1
σ1
2
x −µ
exp
−
σ
πσ
= fX (x ) · fY (y )
=√
(
sogar unabhängig, da in diesem
det (Σ) = σ σ ,
2
2
und
1
2
2
2
−
Σ−1 =
1
x −µ
0
2
σ2
·√
exp
πσ
1
2
Biostatistik I
2
0
σ2−2
2 )
2
2 )
1
σ1−2
(
−
1
2
y −µ
2
2 )
σ2
11. Dezember 2012
245 / 435
11. Dezember 2012
246 / 435
Teil III
Induktive Statistik
Jürgen Dippon (ISA)
Biostatistik I
Induktive Statistik
9
Parameterschätzung
10
Testen von Hypothesen
11
Einfache lineare Regression
12
Varianzanalyse
13
Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
247 / 435
Schlieÿende Statistik
Wie kann man basierend auf einer Stichprobe Informationen über die
Verteilung eines interessierenden Merkmals erhalten?
Schätzverfahren dienen zur näherungsweisen Ermittlung unbekannter
Parameter der Verteilung
Testverfahren dienen zur Überprüfung von Hypothesen über die
unbekannte Verteilung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
248 / 435
9. Parameterschätzung
9
Parameterschätzung
Parameterschätzung
Eigenschaften von Schätzstatistiken
Erwartungstreue
Erwartete mittlere quadratische Abweichung und Konsistenz
Konstruktion von Schätzfunktionen
Maximum-Likelihood-Schätzung
Kleinste-Quadrate-Schätzung
Intervallschätzung
Kondenzintervalle für Erwartungswert und Varianz
10
Testen von Hypothesen
11
Einfache lineare Regression
12
Varianzanalyse
13
Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
249 / 435
9. Parameterschätzung
Beispiel: Wie hoch ist der relative Anteil von Frauen unter den
Hochschullehrern in Deutschland?
Da eine Totalerhebung viel zu aufwändig wäre, bestimmt man den relativen
Anteil der Frauen in einer Zufallsstichprobe. Dieser relative Anteil in der
Stichprobe ist ein
Schätzer für den wahren Anteil in der Grundgesamtheit.
Da eine zweite Stichprobe einen anderen Schätzwert liefern würde, stellt
sich u.a. die Frage nach der Qualität des Schätzers.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
250 / 435
9. Parameterschätzung
9.1. Parameterschätzung
Parameterschätzung
Einer
Schätzfunktion oder Schätzstatistik für den Parameter θ der
Verteilung der Grundgesamtheit ist eine Funktion
T = g (X , . . . , Xn)
X , . . . , Xn
x , . . . , xn
g (x , . . . , xn)
1
der Stichprobenvariablen
Der aus den Realisationen
.
1
resultierende numerische Wert
1
1
ist der zugehörige Schätzwert.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
251 / 435
9.1. Parameterschätzung
Beispiele:
X̄ = g (X , . . . , Xn) = n Pni Xi
µ = E (X )
x̄
S = g (X , . . . , Xn) = n Pni (Xi − X̄ )
σ = Var (X )
1
1
=1
Schätzfunktion für den Erwartungswert
zugehörige Realisation der Stichprobe
2
1
1
=1
−1
Schätzfunktion für die Varianz
Jürgen Dippon (ISA)
2
2
Biostatistik I
11. Dezember 2012
252 / 435
9. Parameterschätzung
9.2. Eigenschaften von Schätzstatistiken
Eigenschaften von Schätzstatistiken
Erwartungstreue
Eine Schätzstatistik
T = g (X , . . . , Xn)
1
unverzerrt für den Parameter θ, falls
heiÿt
erwartungstreu oder
E (T ) = θ
θ
Sie heiÿt
asymptotisch erwartungstreu für θ, falls
lim
n→∞
Die
E (T ) = θ
θ
Verzerrung oder der Bias ist deniert durch
Bias (T ) = E (T ) − θ
θ
Das tief gestellte
θ
E
in
θ
θ soll andeuten, dass der Erwartungswert von
bezüglich der Verteilung berechnet werden soll, die
θ
T
als wahren Parameter
besitzt.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
253 / 435
9.2. Eigenschaften von Schätzstatistiken
Beispiele:
E (X̄ ) = E ( n Pni Xi ) = n Pni E| {z(Xi}) = µ
X̄
E (S ) = E ( n Pni (Xi − X̄ ) ) = · · · = σ
S
E (S̃ ) = E ( n Pni (Xi − X̄ ) ) = · · · = n n σ
S̃
Bias (S̃ ) = E (S̃ ) − σ = − n σ
S̃
σ
µ
1
µ
1
=1
µ
=1
µ
Also ist
σ2
2
Also ist
σ2
ein erwartungstreuer Schätzer für den Erwartungswert
2
2
Also ist
σ2
Also ist
1
σ2
1
−1 2
2
=1
kein erwartungstreuer Schätzer für die Varianz
2
2
2
ein erwartungstreuer Schätzer für die Varianz
σ2
2
2
=1
−1
µ
σ2
2
2
1
2
asymptotisch erwartungstreu für
Jürgen Dippon (ISA)
σ2
Biostatistik I
2
11. Dezember 2012
254 / 435
9. Parameterschätzung
Frage: Wie genau schätzt X̄
9.2. Eigenschaften von Schätzstatistiken
den Erwartungswert?
n
1 X
Var (X̄ ) = Var n Xi
i
!
=
=1
Der
1
n
2
n
X
i =1
Var (Xi ) = n
σ2
Standardfehler einer Schätzstatistik ist bestimmt durch die
Standardabweichung der Schätzstatistik
Var (g (X , . . . , Xn))
p
σg =
1
Achtung: Der Begri des Standardfehlers ist nur sinnvoll für
erwartungstreue Schätzstatistiken!
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
Der Standardfehler von
X̄
11. Dezember 2012
255 / 435
9.2. Eigenschaften von Schätzstatistiken
ist damit
σ
σX̄ = √
n
Da
σ2
X̄
meist unbekannt sein dürfte, muss es geschätzt werden. Ein
σX̄ von ist
s
Pn
1
i =1 ( i −
= n−1
Schätzer für den Standardfehler
r
σ̂X̄ =
Jürgen Dippon (ISA)
S
n
2
n
Biostatistik I
X X̄ )
2
11. Dezember 2012
256 / 435
9. Parameterschätzung
9.2. Eigenschaften von Schätzstatistiken
Erwartete mittlere quadratische Abweichung und Konsistenz
Die
erwartete mittlere quadratische Abweichung (mean squared error)
ist bestimmt durch
MSE =E (T − θ) =E (T − E (T ) + E (T ) − θ)
=E ((T − E (T )) + E ((T − E (T )) ((E (T ) − θ))
{z
}
|
+ E ((E (T ) − θ) ))
=Var (T ) + (Bias (T ))
2
2
2
2
=0
2
2
Diese Zerlegung des MSE zeigt, dass der Standardfehler nur dann ein
Bias (T ) =
brauchbares Vergleichsmaÿ für die Güte eines Schätzers ist, wenn der
Schätzer erwartungstreu ist, d.h.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
Eine Schätzstatistik heiÿt
11. Dezember 2012
konsistent im quadratischen Mittel, falls
2
0
für
0
für
schwach konsistent, falls
∀
ε>0
257 / 435
9.2. Eigenschaften von Schätzstatistiken
MSE = E ((T − θ) ) →
und
0.
P (|T − θ| ≥ ε) →
n→∞
n→∞
Konsistenz im quadratischen Mittel impliziert schwache Konsistenz.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
258 / 435
9. Parameterschätzung
9.2. Eigenschaften von Schätzstatistiken
Beispiel: Arithmetisches Mittel
X , . . . , Xn ∼ N (µ, σ )
2
1
unabhängige Zufallsvariablen
Schätzen des Erwartungswertes
µ
mittels
n
X
X̄ = n Xi
1
Da
Da
E X̄ = · · · = µ X̄
Var (X̄ ) = · · · = n →
, ist
σ2
Mittel.
Ferner gilt
i =1
erwartungstreu.
0
n
( → ∞)
X̄ ∼ N
Jürgen Dippon (ISA)
X̄
ist
konsistent im quadratischen
σ2
µ,
n
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
259 / 435
9.2. Eigenschaften von Schätzstatistiken
Also
P (|X̄ − µ| ≤ ε) = P X̄
!
− µ
ε
≤
√σ
√σ
n n
ε
=Φ
!
−Φ −
√σ
n
=2 Φ
ε
√σ
ε
!
√σ
n
!
n
{z }
→1 für n → ∞
−1
|
→1
Damit ist
X̄
für
n→∞
auch schwach konsistent.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
260 / 435
9. Parameterschätzung
9.3. Konstruktion von Schätzfunktionen
Konstruktion von Schätzfunktionen
Wir diskutieren drei Ideen zur Konstruktion von Schätzfunktionen:
Maximum-Likelihood-Schätzung
Kleinste-Quadrate-Schätzung
Intervallschätzung
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
261 / 435
9.3. Konstruktion von Schätzfunktionen
Maximum-Likelihood-Schätzung
Beispiel: Gesucht ist die Wahrscheinlichkeit p für das Auftreten eines
Ereignisses
A
im Rahmen eines Experiments
X=
Die Ausgänge von
n
0
falls
1
falls
Klar:
Pn
i =1
nicht eintritt
eintritt
X
unabhängigen Wiederholungen des Experimentes
X , . . . , Xn
Xi ∼ Bin(n, p)
werden dann beschrieben durch die
Zufallsvariablen
n
A
A
unabhängigen wie
verteilten
1
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
262 / 435
9. Parameterschätzung
Hierbei ist
n
9.3. Konstruktion von Schätzfunktionen
natürlich bekannt, nicht jedoch die Erfolgswahrscheinlichkeit
L(p) = P
n
X
i =1
Xi = k
p
!
n p k ( − p )n
k
p̂
L(p)
=
1
−k
Das Maximum-Likelihood-Prinzip wählt als Schätzwert
für die
unbekannte Wahrscheinlichkeit
maximiert.
Jürgen Dippon (ISA)
den Wert, welcher
Biostatistik I
9. Parameterschätzung
Allgemein: Sei
θ
p
11. Dezember 2012
263 / 435
9.3. Konstruktion von Schätzfunktionen
f (x |θ)
n
der gesuchte ein- oder mehrdimensionale Parameter einer
(diskreten oder stetigen) Dichte
.
Dann ist die gemeinsame Dichte von
Wiederholungen gegeben durch
unabhängigen identischen
f (x , . . . , xn|θ) = f (x |θ) · . . . · f (xn|θ)
1
Jürgen Dippon (ISA)
1
Biostatistik I
11. Dezember 2012
264 / 435
9. Parameterschätzung
9.3. Konstruktion von Schätzfunktionen
Anstatt diese Dichte als eine Funktion zu beliebigen Werten
einem festen Parameter
Likelihoodfunktion
θ
x , . . . , xn
1
zu interpretieren, interpretieren wir die sog.
L(θ) = f (x , . . . , xn|θ)
1
als eine Funktion von
θ
und
zu den gegebenen festen Realisationen
und wählen als Parameterschätzung denjenigen Parameter
θ,
x , . . . , xn
1
für welchen
die Likelihood maximal ist, d.h.
L(θ̂) = L(θ)
T = θ̂(x , . . . , xn)
max
θ
Eine so konstruierte Schätzfunktion
1
Maximum-Likelihood-Schätzer.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
heiÿt
11. Dezember 2012
265 / 435
9.3. Konstruktion von Schätzfunktionen
Das Maximum bestimmt man meist durch Ableiten und Nullsetzen der
Ableitung. Häug ist es jedoch geschickter, die sog.
ln
in
θ
L(θ) =
n
X
ln
i =1
Log-Likelihood
f (xi |θ)
zu maximieren, welche an denselben Stellen maximal wird, da die
Logarithmusfunktion ln eine streng monoton wachsende Funktion ist.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
266 / 435
9. Parameterschätzung
9.3. Konstruktion von Schätzfunktionen
Beispiel: Poisson-Verteilung
Gesucht: Parameter
λ
Pois (λ)
x , . . . , xn
X , . . . , Xn
einer
Gegeben: Realisationen
X
von unabhängigen identisch wie
1
verteilten Zufallsvariablen
Likelihoodfunktion
-verteilten Zufallsgröÿe
X
1
x1
xn
L(λ) = e x ! · . . . · e xn!
−λ λ
−λ λ
1
Log-Likelihoodfunktion
ln
n
X
n
X
xi
L(λ) = e xi ! =
i
i
n
L(λ) = X(− + xi ) =
−λ λ
ln
=1
∂ ln
∂λ
1
x
x
(−λ + i ln λ − ln ( i !))
=1
0
λ̂
iP
=1
n
i
=⇒ λ̂ = i =1 =
x x̄
n
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
267 / 435
9.3. Konstruktion von Schätzfunktionen
Beispiel: Normalverteilung
X , . . . , Xn
Gesucht: Parameter
1
µ, σ
einer
N (µ, σ )
2
X
-verteilten Zufallsgröÿe
unabhängige Wiederholungen einer wie
Zufallsgröÿe.
-verteilten
X
Likelihoodfunktion zu den Realisierungen
(x −µ)
− 1 2
2σ
2
1
2
ln
xn −µ)2
2
L(µ, σ) = √ πσ e
· ... · √
e
πσ
n X
(xi − µ)
√
L(µ, σ) =
−
σ
πσ
i
n X
√
(xi − µ)
=
−
π− σ−
1
−
(
2σ
2
2
1
ln
2 2
2
=1
2
ln
2
i =1
Jürgen Dippon (ISA)
Biostatistik I
ln
2σ 2
11. Dezember 2012
268 / 435
9. Parameterschätzung
Partielles Dierenzieren nach
µ
und
L
σ
9.3. Konstruktion von Schätzfunktionen
und Nullsetzen
x
n
∂ ln (µ, σ) X i − µ̂
=
=0
∂µ
σ̂ 2
i =1
n 2
∂ ln (µ, σ) X
1
2( i − µ̂)
=
− +
=0
∂σ
σ̂
2σ̂ 3
i =1
L
x
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
Aus (1):
n
X
i =1
µ̂ =
i =1
0,
2
2σ̂ 3
=0
v
v
u n
u n
u1 X
u1 X
σ̂ = t
( i − µ̂)2 = t
( i − )2
i =1
i =1
n
x
n
x x̄
Oensichtlich erhält man die bereits bekannten Schätzstatistiken
Jürgen Dippon (ISA)
269 / 435
x̄
2
also
11. Dezember 2012
n
X
n
(xi − µ̂)
− +
σ̂
(2)
9.3. Konstruktion von Schätzfunktionen
xi − nµ̂ =
also
Aus (2):
(1)
Biostatistik I
X̄
11. Dezember 2012
und
S̃
.
270 / 435
9. Parameterschätzung
9.3. Konstruktion von Schätzfunktionen
Kleinste-Quadrate-Schätzung
Prinzip der kleinsten Quadrate:
Wähle den Parameter so, dass die Summe der quadrierten Abweichungen
zwischen Beobachtungswert und geschätztem Wert minimal wird.
Wichtig im Rahmen der Regressionsanalyse.
Beispiel: Schätze den Lageparameter µ so, dass
n
X
Q (µ) := (Xi − µ)
i
dQ = Xn (Xi − µ) =
dµ i
n
X
=⇒ µ̂ =
n Xi = X̄
2
minimal
=1
2
0
=1
1
i =1
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
271 / 435
9.4. Intervallschätzung
Intervallschätzung
Wie der Name schon sagt, liefert die Punktschätzung einen (zufälligen)
Wert
θ̂
für den gesuchten Parameter
θ,
der aber in den meisten Fällen mit
dem gesuchten Wert nicht übereinstimmt.
Ist der Schätzer erwartungstreu, liefert der Standardfehler ein sinnvolles
Maÿ für die Präzision des Schätzverfahrens.
Ein alternatives Vorgehen steht in Form der
Intervallschätzung zur
Verfügung, welches ein (zufallsabhängiges) Intervall angibt, in dem der
gesuchte Parameter mit einer vorgegebenen (Mindest-)Wahrscheinlichkeit
liegt:
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
272 / 435
9. Parameterschätzung
9.4. Intervallschätzung
Irrtumswahrscheinlichkeit α werden aus den
X , . . . , Xn
Gu = gu (X , . . . , Xn) ≤ Go = go (X , . . . , Xn)
Zu vorgegebener
Stichprobenvariablen
Schätzstatistiken
1
1
P (θ ∈ [Gu , Go ]) ≥
so konstruiert, dass
d.h.
1
1
−α
P (Gu ≤ θ ≤ Go ) ≥ − α
[Gu , Go ] (1 − α)-Kondenzintervall
1
.
Dann heiÿt
(1 − α)-Vertrauensintervall)
Typische Werte für
für den unbekannten Parameter
Biostatistik I
9. Parameterschätzung
Setzt man prinzipiell
1
θ.
α: 0.1, 0.05, 0.01.
Jürgen Dippon (ISA)
X , . . . , Xn
(oder
Gu = −∞
) erhält man ein
oder
11. Dezember 2012
273 / 435
9.4. Intervallschätzung
Go = ∞
(für alle Werte von
einseitiges (1 − α)-Kondenzintervall
P (θ ≤ Go ) ≥
Go
P (Gu ≤ θ) ≥
Gu .
mit der oberen Kondenzschranke
1
−α
, bzw.
1
−α
mit der unteren Kondenzschranke
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
274 / 435
9. Parameterschätzung
x , . . . , xn
Ist
1
9.4. Intervallschätzung
X , . . . , Xn
[gu (x , . . . , xn ), go (x , . . . , xn )]
eine Realisation von
, so ergibt sich durch
1
1
ein
1
realisiertes Kondenzintervall, das den unbekannten Parameter θ
entweder enthält oder nicht enthält.
G G
(1 − α)-Kondenzintervall [ u , o ] für θ muss so interpretiert werden,
dass [ u , o ] in (1 − α) · 100% der Fälle, in denen Kondenzintervalle
geschätzt werden, die resultierenden Kondenzintervalle den wahren Wert θ
Das
G G
enthalten.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
275 / 435
9.4. Intervallschätzung
Kondenzintervalle für Erwartungswert und Varianz
X , . . . , Xn
1
unabhängige Wiederholungen von
X ∼ N (µ, σ )
2
.
Gesucht: Kondenzintervalle für den unbekannten Erwartungswert
µ.
1. Fall: σ2 bekannt
X̄
ist ein Schätzer für
µ
X̄ ∼ N n
X̄ − µ ∼ N ( , )
σ2
µ,
√σ
n
Jürgen Dippon (ISA)
0 1
Biostatistik I
11. Dezember 2012
276 / 435
9. Parameterschätzung
Sei
z
das
1− α
2
(1 − α2 )-Quantil
der
Dann gilt
1
−α=
P −z
1− α
2
9.4. Intervallschätzung
N( ,
0 1)-Verteilung.
≤
X̄ − µ ≤ z
!
1− α
2
√σ
n
P z n X̄
z n
σ
σ
√ ≤ µ ≤ X̄ + z
√
= P X̄ − z
n
n
=
σ
− 1− α2 √ ≤
1− α
2
Damit ist
G G
[ u, o] =
ein
X̄ z
(1 − α)-Kondenzintervall
Jürgen Dippon (ISA)
Biostatistik I
Breite von
n
11. Dezember 2012
9.4. Intervallschätzung
[ u, o] → 0
In ähnlicher Weise ndet man die einseitigen Kondenzintervalle für
− ∞,
Jürgen Dippon (ISA)
277 / 435
G G
[Gu , Go ] → ∞
: Breite von
α → 0:
n X̄ z
σ
+ 1− α2 √
µ.
9. Parameterschätzung
n→∞
1− α
2
σ
− 1− α2 √ ,
für
σ
− µ ≤ 1− α2 √
X̄ z
σ i
+ 1− α2 √
n
bzw.
Biostatistik I
X̄ z
h
µ:
σ
− 1− α2 √ , ∞
n
11. Dezember 2012
278 / 435
9. Parameterschätzung
9.4. Intervallschätzung
Beispiel: Proteingehalt eines Biolms in mg/g Trockenmasse
Modellannahme: Proteingehalt ist
Stichprobe (n=80)
N (µ, σ )
2
-verteilt
x <- c (321 ,334 ,356 ,398 ,376 ,343 ,312 ,334 ,365 ,376 ,334 ,355 ,388 ,
322 ,311 ,388 ,339 ,350 ,354 ,334 ,324 ,323 ,345 ,376 ,352 ,383 ,
326 ,327 ,334 ,385 ,332 ,312 ,385 ,360 ,398 ,399 ,360 ,310 ,334 ,
323 ,335 ,372 ,383 ,372 ,382 ,389 ,389 ,311 ,325 ,327 ,373 ,382 ,
314 ,315 ,317 ,318 ,311 ,390 ,380 ,370 ,385 ,392 ,399 ,373 ,335 ,
336 ,335 ,335 ,335 ,335 ,334 ,335 ,334 ,336 ,334 ,331 ,339 ,335 ,
331 ,338)
Punktschätzung für die unbekannte Varianz
(Stichprobenvarianz)
x̄
Schätzer für den Standardfehler von
Jürgen Dippon (ISA)
:
σ̂x̄ =
Biostatistik I
9. Parameterschätzung
σ
2
:
q
x̄
µ: µ̂ = = 349.25
σ̂ = 2 = 27.12
s
Punktschätzung für den unbekannten Erwartungswert
2
s 2 = 3.03
n
11. Dezember 2012
279 / 435
9.4. Intervallschätzung
95%-Kondenzintervall für den Erwartungswert bei bekannter
Standardabweichung (die hier nicht bekannt ist, deshalb nehmen wir mal
σ = 27
an):
x̄ z
n x̄ z
σ
σ
− 1− α2 √ , + 1− α2 √
27
27
= 349.25 − 1.96 · √ , 349.25 + 1.96 · √
n
80
80
= [343.31, 355.19]
Berechnung des konkreten 95%-Kondenzintervalles in
R:
> mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x ))
[1] 343.3061
> mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x ))
[1] 355.1939
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
280 / 435
9. Parameterschätzung
9.4. Intervallschätzung
In einer kleinen Simulationsstudie überprüfen wir, ob das oben angegebene
(theoretische) Kondenzintervall das vorgeschriebene Niveau einhält:
in . conf . int <- rep ( FALSE ,1000)
for (i in 1:1000){
x <- rnorm (80 , mean =350 , sd =27)
lower <- mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x ))
upper <- mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x ))
cat (" i =" ,i ,":" , c ( lower , upper ), "\ n ")
if ( lower <= 350 & 350 <= upper ){
in . conf . int [ i ] <- TRUE
}
}
table ( in . conf . int )/1000
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
281 / 435
9.4. Intervallschätzung
2. Fall: σ2 unbekannt
Da
σ2
wird
unbekannt ist, ist auch die Verteilung von
σ
durch
S
v
u
u
=t
geschätzt. Die Zufallsvariable
n
X
1
n−
1
i =1
X̄ −µ
σ
√
n
unbekannt. Deshalb
X X̄ )
( i−
2
X̄ − µ
√S
n
n
ist jetzt allerdings nicht mehr normalverteilt, sondern
( − 1)
Freiheitsgraden.
Jürgen Dippon (ISA)
Biostatistik I
tn
−1 - verteilt mit
11. Dezember 2012
282 / 435
9. Parameterschätzung
Sind
Z , Z , . . . , Zn
1
9.4. Intervallschätzung
N( ,
0 1)-verteilte Zufallsvariablen, dann
unabhängige
T = qZ Z
heiÿt die Verteilung von
t - oder Student-verteilt
mit
n
2
2
1 +···+Zn
n
Freiheitsgraden.
Die Tails (Flanken) der Dichten fallen nur
wie bei der Normalverteilung.
Jürgen Dippon (ISA)
sei das (1
−1,1− α
2
Konstruktion eines
1
−α=
− α2 )-Quantil
der
P −tn
−1,1− α
2
P X̄ − tn
≤
tn
[ u, o] =
ein
X̄ − tn
X̄ − µ ≤ tn
√S
11. Dezember 2012
283 / 435
für den Erwartungswert
−1,1− α
2
µ:
!
−1,1− α
2
S
√ ≤ µ ≤ X̄ + tn
n
(1 − α)-Kondenzintervall
2
−1 -Verteilung.
n
−1,1− α
2
∼ exp(− x2 )
9.4. Intervallschätzung
Damit ist
G G
−n und nicht
(1 − α)-Kondenzintervalles
=
x
Biostatistik I
9. Parameterschätzung
tn
∼
S
√ , X̄ + tn
n
−1,1− α
2
−1,1− α
2
für den Erwartungswert
µ,
S√ n
S√ n
falls
σ2
unbekannt ist.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
284 / 435
9. Parameterschätzung
n
N (µ, n )
[Gu , Go ] = X̄ − z
Da für groÿe Stichprobenumfänge
approximativ
σ2
9.4. Intervallschätzung
das arithmetische Mittel
-verteilt ist, kann man zeigen, dass für
1− α
2
ein approximatives
falls
σ
2
S
√ , X̄ + z
n
1− α
2
(1 − α)-Kondenzintervall
S√ n
X̄
n≥
30
für den Erwartungswert
µ
ist,
unbekannt ist.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
Konstruktion eines
11. Dezember 2012
285 / 435
9.4. Intervallschätzung
(1 − α)-Kondenzintervalles
für die Varianz bei
normalverteilter Grundgesamtheit:
σ2
kann mittels
Sind
Z , . . . , Zn
1
S
2
geschätzt werden.
N( , )
Z + · · · + Zn
χ -Verteilung
n
unabhängige
0 1 -verteilte Zufallsvariablen, so besitzt
2
1
eine so genannte
2
Man kann zeigen, dass
2
mit
n− S
σ
1
2
Jürgen Dippon (ISA)
Freiheitsgraden.
2
∼ χ2n−1
Biostatistik I
11. Dezember 2012
286 / 435
9. Parameterschätzung
Seien
mit
χ2n−1, α
n
( − 1)
und
2
χ2n−1, 1−α
α
die
2
2
- bzw.
(1 − α2 )-Quantile
der
χ2 -Verteilung
Freiheitsgraden.
Dann gilt:
1
−α=
=
Also ist
ein
9.4. Intervallschätzung
P
χ2n−1, α ≤
2
P n
S
( − 1) 2
χ2n−1,1− α
"
2
n− S
σ
1
n
S
2
S
2
( − 1)
( − 1)
,
χ2n−1,1− α χ2n−1, α
2
2
(1 − α)-Kondenzintervall
2
≤ χn−1,1− α
2
!
( − 1) 2
2
≤σ ≤
χ2n−1, α
2
S n
n
2
2
#
für die Varianz bei einer normalverteilten
Grundgesamtheit.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
Bei einem dichotomen Merkmal
Bin( , p)
bei Vorliegen der Stichprobe
1
X
11. Dezember 2012
287 / 435
9.4. Intervallschätzung
wird die Auftretenswahrscheinlichkeit
p = P (X =
X , . . . , Xn
1)
von unabhängigen
1
-verteilten Zufallsvariablen mittels
n
X
p̂ = n Xi
1
i =1
geschätzt. Da
X Bin(n, p)
X̄p− E (X̄ ) = qp̂ − p
Var (X̄ ) p n p
Pn
i =1 i ∼
, ist nach dem zentralen Grenzwertsatz
(1− )
approximativ
N( ,
0 1)-verteilt.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
288 / 435
9. Parameterschätzung
Da
p
p
p̂

p̂ − p ≤ z
− α ∼ P −z
≤q
p̂ −p̂
unbekannt ist, wird
1
9.4. Intervallschätzung
durch
1− α
2
=
P p̂ − z
geschätzt. Dann gilt
(1
)
n
r
α
1− 2

1− α
2

p̂( − p̂) ≤ p ≤ p̂ + z
n
r
1
α
1− 2
p̂( − p̂)
n
1
!
Also ist
G G
"
[ u, o] =
ein approximatives
p̂ − z
r
α
1− 2
p̂( − p̂) , p̂ + z
n
r
1
(1 − α)-Kondenzintervall
α
1− 2
p̂( − p̂)
n
1
#
für die Wahrscheinlichkeit
in einer Bernoulli-verteilten Grundgesamtheit.
Jürgen Dippon (ISA)
Biostatistik I
9. Parameterschätzung
11. Dezember 2012
p
289 / 435
9.4. Intervallschätzung
Beispiel: Sonntagsfrage
Von
n=
p̂ =
496 befragte Frauen zeigten
Unionsparteien. Also ist
p = P (X =
200
.
496
X
Pn
i =1 i = 200
Bei einer Sicherheitswahrscheinlichkeit von 1
eine Präferenz für die
− α = 0.95
erhält man für
1) ein approximatives 95%-Kondenzintervall
"
p̂ − z
r
α
1− 2
p̂( − p̂) , p̂ + z
n
1
"
=
− 1.96
α
1− 2
r
0.403
r
0.403
· 0.597
496
p̂( − p̂)
n #
1
#
,··· + ...
= [0.360, 0.446]
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
290 / 435
10. Testen von Hypothesen
9
10
Parameterschätzung
Testen von Hypothesen
Binomial- und Gauÿ-Test
Approximativer Binomialtest
Gauÿ-Test
Prinzipien des Testens
Fehlentscheidungen
Zusammenhang zwischen statistischen Tests und Kondenzintervallen
Überschreitungswahrscheinlichkeit
Gütefunktion
Durchführung eines Tests mit R
11
Einfache lineare Regression
12
Varianzanalyse
13
Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
291 / 435
10. Testen von Hypothesen
Testen von Hypothesen
Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft
von Interesse, Vermutungen über einen Parameter oder eine Verteilung in
der Grundgesamtheit zu überprüfen.
Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren
Überprüfung jedoch unter Verwendung einer Stichprobe durchgeführt.
Inwieweit der Schluss von der Stichprobe auf die Grundgesamtheit zulässig
ist, ist Teil des statistischen Tests.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
292 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Binomial- und Gauÿ-Test
Beispiel:
Eine Klausur besteht aus
n=
30 Aufgaben, bei der jeweils eine
von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen
korrekt und 11 Fragen falsch.
Frage: Hat der Student geraten oder tatsächlich etwas gewusst?
Xi =
i
1,
falls
0,
sonst
-te Antwort des Studenten richtig
X , ..., X P
Bin( , p)
S = i Xi Bin( , p)
p=
30 seien unabhängige
30
Also ist
30
=1
1
1
-verteilte Zufallsvariablen.
-verteilt.
Wenn der Student nichts weiÿ, ist
1
.
2
Besitzt der Student gewisse Kenntnisse, so ist
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
Auf Grundlage der Daten
Nullhypothese
und der
S
( = 19)
p>
1
2
11. Dezember 2012
293 / 435
10.1. Binomial- und Gauÿ-Test
wollen wir uns zwischen der
Ho : p =
1
H :p>
1
Alternativhypothese
1
2
2
entscheiden.
Ist die
Prüfgröÿe oder Teststatistik
S = Xi
30
X
i =1
gröÿer als ein
kritischer Wert c , entscheiden wir uns für H1 .
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
294 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Wie ist der kritische Wert c nun zu wählen?
c = ,c = ,c =
H
16
c wird so gewählt, dass
17
18, . . .?
0 höchstens mit Wahrscheinlichkeit
fälschlicherweise abgelehnt wird:
P
S| {z> c} |H )
H
− P (S ≤ c |H )
α = 0.05 > (
α = 0.05
0
0 wird abgelehnt
=1
=1−
0
c i X
30
1
i =0
i
2
1
−
1
30−i
2
Es ist also die kleinste natürliche Zahl c gesucht, so dass
c 30
X
30
1
i =0
Jürgen Dippon (ISA)
i
2
> 0.95
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
295 / 435
10.1. Binomial- und Gauÿ-Test
Bestimmung des kritischen Wertes c mittels R:
> qbinom (0.95 , size =30 , prob =0.5)
> 19
Damit wählen wir
Da
S=
H
dass
c=
19 als kritischen Wert.
19, können wir
H
0 nicht ablehnen, wenn wir sicherstellen wollen,
0 höchstens mit Wahrscheinlichkeit
Niveau, fälschlicherweise abgelehnt wird.
Jürgen Dippon (ISA)
Biostatistik I
α = 0.05,
dem sogenannten
11. Dezember 2012
296 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Abbildung: Binomialverteilung
Erstellung der Graken mittels:
plot ( dbinom (0:30 , size =30 , prob =0.5) , type =" h ");
plot ( pbinom (0:30 , size =30 , prob =0.5) , type =" s ");
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
297 / 435
10.1. Binomial- und Gauÿ-Test
In unserem Beispiel wird
{0, 1, . . . , 19}
{20, 21, . . . , 30}
als Annahmebereich
als Ablehnungsbereich
bezeichnet.
Der so konstruierte statistische Hypothesentest heiÿt
Binomialtest.
exakter
Da der kritische Wert c für groÿe Stichprobenumfänge n aufwändig zu
berechnen ist, verwendet man stattdessen den approximativen Binomialtest.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
298 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Approximativer Binomialtest
Beispiel: statistische Qualitätskontrolle
n=
Bei der Produktion von Speicherchips entstehen 10% unbrauchbare Chips.
Anhand einer Stichprobe mit Umfang
1000 soll überprüft werden, ob
der Produktionsprozess sich verschlechtert hat, also mehr als 10%
Ausschuss entsteht.
Wie oben seien
und
Xi =
X , ..., Xn
1
i
1,
falls
0,
sonst
-tes Stichprobenelement Ausschuss ist
unabhängige
Bin( , p)
1
Jürgen Dippon (ISA)
-verteilte Zufallsvariablen.
Biostatistik I
10. Testen von Hypothesen
Dann ist
11. Dezember 2012
299 / 435
10.1. Binomial- und Gauÿ-Test
n
X
S = Xi ∼ Bin(n, p)
i =1
und nach dem zentralen Grenzwertsatz von Moivre-Laplace
Z = pnpS −( np− p)
1
ungefähr
N( ,
0 1)-verteilt
Das Testproblem ist:
H :p=p
0
0
= 0.1
gegen
H :p>p
1
0
= 0.1
Der eigentlich interessierende Sachverhalt wird durch die
Alternativhypothese ausgedrückt.
Wir lehnen
H
S E (S ) = np
0 ab, falls S bzw. Z zu groÿ ist. Dabei soll sichergestellt
werden, dass die Abweichung von
zu
0 bei Vorliegen der
Nullhypothese nicht alleine durch den Zufall erklärt werden kann.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
300 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln:
0.05
Also ist
c =z
P Z c H)
c Z ∼ N( , )
− α)
N( , )
= α > ( | {z
>} |
H0 ablehnen
≈ 1 − Φ( ), da
1−α , das
(1
0
0 1
-Quantil der
unter
H
0
0 1 -Verteilung, als kritischer
Wert zu wählen. Daraus ergibt sich der Ablehnungsbereich
(
H
0 wird also zum Niveau
α
z
1−α
, ∞)
abgelehnt, falls
Z = pnpS −( np− p ) > z
0
0 1
Jürgen Dippon (ISA)
1−α
0
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
301 / 435
10.1. Binomial- und Gauÿ-Test
Abbildung: Ablehnungsbereich
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
302 / 435
10. Testen von Hypothesen
Für
n=
1000,
p=
0.1, α
= 0.05
10.1. Binomial- und Gauÿ-Test
wird
Z = S √−
H
0 abgelehnt, falls
100
90
S>
d.h.
Jürgen Dippon (ISA)
> 1.64
115.56
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
303 / 435
10.1. Binomial- und Gauÿ-Test
Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der
Ergebnisqualität verbessert hat, ist das Testproblem:
H :p=p
0
H :p<p
gegen
0
1
0
zu betrachten. Der dazugehörige Ablehnungsbereich lautet
z
(−∞, −
1−α
) = (−∞,
z)
α
Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der
Ergebnisqualität verändert hat, ist das Testproblem:
H :p=p
0
H : p 6= p
gegen
0
1
0
zu betrachten. Der dazugehörige Ablehnungsbereich lautet
c = (−∞, z
α/2 )
Jürgen Dippon (ISA)
z
∪(
Biostatistik I
1−α/2
, ∞)
11. Dezember 2012
304 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Abbildung: Beidseitiger Ablehnungsbereich
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
305 / 435
10.1. Binomial- und Gauÿ-Test
Zusammenfassung: Approximativer Binomialtest
Bin(n, p)
Gegeben seien folgende Testprobleme über den Parameter
-Verteilung:
a
b
c
( )
( )
( )
H :p=p
H :p=p
H :p=p
0
0
gegen
0
0
gegen
0
0
gegen
H : p 6= p
H :p<p
H :p>p
1
0
1
0
1
0
p
in einer
Basierend auf der Prüfgröÿe
Z = pnpS −( np− p )
N( , )
H
(a),
|z | > z
(b),
z < −z
(c ),
z >z
0
welche unter
Niveau
α
H
0 1
0 näherungsweise
0 1 -verteilt ist, und dem vorgegebenen
entscheidet man sich für
1 im Testproblem
falls
1−α/2
falls
1−α
falls
Jürgen Dippon (ISA)
0
Biostatistik I
1−α
11. Dezember 2012
306 / 435
10. Testen von Hypothesen
10.1. Binomial- und Gauÿ-Test
Gauÿ-Test
Beispiel: Kontrollkarten
X
[cm]
N (µ, σ )
Es sei bekannt, dass ein Produktionsprozess Bleistifte produziert, deren
Längen
µ = 17
approximativ
2
cm ]
-verteilt sind mit Erwartungswert
und bekannter Varianz
σ 2 = 2.25[
2
EX = µ
Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit
erlaubter zufälliger Abweichung) entsprechen, d.h.
betrachtet man das Testproblem
H
0
: µ = µ0 = 17
X , ..., Xn ∼ N (µ, σ )
H
gegen
1
0
= 17,
: µ 6= 17
X̄
Dazu entnimmt man der laufenden Produktion Bleistifte mit Längen
2
1
und untersucht die Prüfgröÿe
standardisierte Prüfgröÿe
oder die
Z = X̄ −σ µ √n
0
welche unter
H N( ,
0
0 1)-verteilt ist.
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
H
0 wird dann zum Niveau
α
abgelehnt, falls
Z z
1−α/2
n = , x̄ = . , α = .
z = x̄ −σ µ √n = . .−
z =.
H
α= .
5
18 1
0 01
0
18 1
17 √
1 5
Da
z z
| |≤
1−α/2
1−α/2 kann
307 / 435
10.1. Binomial- und Gauÿ-Test
| |>
Zahlenbeispiel:
11. Dezember 2012
5
= 1.64
2 5758
0 zum Niveau
0 01 nicht abgelehnt werden.
Ein Eingri in den Produktionsprozess ist also nicht nötig.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
308 / 435
10. Testen von Hypothesen
x̄
10.1. Binomial- und Gauÿ-Test
In der statistischen Qualitätskontrolle werden für jede Stichprobe die
Mittelwerte
über der Stichprobennummer in einer Grak eingetragen und
mit den Kontrollgrenzen
µ0 −
z
σ
·√
n
1−α/2
verglichen. Bendet sich
x̄
und
µ0 +
z
1−α/2
σ
·√
n
auÿerhalb dieses dadurch denierten
horizontalen Streifens, gilt der Prozess als statistisch auÿer Kontrolle.
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
10.1. Binomial- und Gauÿ-Test
Zusammenfassung: Gauÿ-Test
X , ...Xn
N (µ, σ )
σ
n
n≥
E (Xi ) = µ, Var (Xi ) = σ
Unabhängige Zufallsvariablen
bekannter Varianz
2
oder, falls
a
b
c
( )
( )
( )
2
H
H
H
0 (d.h.
0
σ
: µ = µ0
0 : µ = µ0
0 : µ = µ0
0
H
µ=µ
X̄
−µ √
Z=
n N( ,
Unter
30) mit beliebiger
. Betrachte folgende
gegen
gegen
gegen
H
H
H
: µ 6= µ0
1 : µ < µ0
1 : µ > µ0
1
0 ) ist
N( ,
H
0 1)-verteilt bzw. näherungsweise
Basierend auf der Prüfgröÿe
a
b
c
Z
( ),
( ),
( ),
Jürgen Dippon (ISA)
-verteilt mit
groÿ (Faustregel:
stetiger Verteilung,
Testprobleme:
2
jeweils
1
309 / 435
fällt die Entscheidung für
falls
falls
falls
z z
z z
z z
0 1)-verteilt
1 im Testproblem
| | > 1−α/2
< − 1−α
> 1−α
Biostatistik I
11. Dezember 2012
310 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Prinzipien des Testens
1. Schritt: Quantizierung der Fragestellung
2. Schritt: Formulierung der Modellannahmen
3. Schritt: Festlegung der Null- und Alternativhypothese
4. Schritt: Wahl des Signikanzniveaus
H
H
5. Schritt: Wahl einer Prüfgröÿe (Teststatistik), die in der Lage ist,
zwischen
0 und
1 zu dierenzieren. Bestimmung der
Verteilung der Prüfgröÿe unter der Nullhypothese.
Konstruktion des Ablehnungsbereiches.
6. Schritt: Berechnung des Wertes der Prüfgröÿe für die konkrete
Stichprobe
7. Schritt: Testentscheidung
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
311 / 435
10.2. Prinzipien des Testens
Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im
zweiseitig, falls nur Abweichungen in
Gauÿ-Test, heiÿt das Testproblem
eine Richtung interessieren, wie im Fall (b) und (c) im Gauÿ-Test, heiÿt das
Testproblem
H
einseitig.
Besteht die Hypothese
bzw.
1
H
0 oder
H
1 nur aus einem Punkt, nennt man
einfach, sonst zusammengesetzt
X
Xn
H
0
Tests, die keine genaueren Annahmen über die Verteilung der
Zufallsvariablen
1 , ...
machen, heiÿen
nichtparametrisch. Werden
Annahmen über den Verteilungstyp gemacht, so heiÿen die Tests
parametrisch.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
312 / 435
10. Testen von Hypothesen
Fehlentscheidungen
Bei einem statistischen Testproblem
10.2. Prinzipien des Testens
H
0 gegen
statistischen Test spricht man von einem
H
1 und einem geeigneten
Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist
Fehler 2. Art, wenn H0 beibehalten wird, obwohl H1 wahr ist
Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar:
H
H
Entscheidung für
0
H
0 wahr
1
falsch
richtig
Fehler 1. Art
(α-Fehler)
H
falsch
1 wahr
Fehler 2. Art
richtig
(β -Fehler)
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
313 / 435
10.2. Prinzipien des Testens
Test zum Signikanzniveau α (wobei
0 < α < 1) oder Signikanztest, falls:
Ein statistischer Test heiÿt
P (H
1 annehmen
P(
d.h.
H
|
0 wahr
Fehler 1. Art)
Typische Werte für das Signikanzniveau
α
)≤α
≤α
sind 0.1, 0.05, 0.01.
Interpretation: Es werden 100 Stichproben vom Umfang
gelte die Nullhypothese. Bei 100 Tests zum Niveau
α
n
gezogen und es
wird die
Nullhypothese dann im Mittel höchstens in 5% der Fälle (fälschlicherweise)
abgelehnt werden.
Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis
statistisch signikant zum Niveau α sei. Die Wahrscheinlichkeit für einen
Fehler 2. Art kann man meist nicht kontrollieren. Diese
Ungleichbehandlung der Fehler 1. und 2. Art ist der Grund dafür, dass die
zu sichernde Behauptung als Alternativhypothese formuliert wird.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
314 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Zusammenhang zwischen statistischen Tests und
Kondenzintervallen
Beispiel Gauÿ-Test
Verwerfe
Behalte
H
H
0 , falls
0 , falls
z
n z
n z
z
x̄ z
√ 0
| | = x̄ −µ
σ
> 1−α/2
− µ0 √ ≤ 1−α/2
| | = σ
|
{z
}
σ
⇔ − µ0 | ≤ 1−α/2 · √n
h
i
σ
σ
⇔ µ0 ∈
− 1−α/2 · √n , + 1−α/2 · √n
z
x̄
|x̄
Damit ist
x̄ z
H
0 genau dann beizubehalten, wenn
(1 − α)-Kondenzintervall
für
µ
µ0
im
liegt.
Allgemein: Ein 2-seitiges (1 − α)-Kondenzintervall entspricht dem
Annahmebereich des zugehörigen 2-seitigen Signikanztests zum Niveau
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
α.
315 / 435
10.2. Prinzipien des Testens
Überschreitungswahrscheinlichkeit
p-Wert oder die Überschreitungswahrscheinlichkeit ist deniert als
Der
die Wahrscheinlichkeit den beobachteten Prüfgröÿenwert oder einen in
Richtung der Alternative extremeren Wert zu beobachten:
H
Ist der p-Wert kleiner oder gleich dem vorgegebenen Signikanzniveau,
wird
0 verworfen, andernfalls beibehalten.
Fortsetzung des Beispiels zum Gauÿ-Test:
z=
Dort wurde die Teststatistik
Wert
z
| |
betrachtet, welche für die Stichprobe den
1.64 lieferte. Der p-Wert ist jetzt gegeben durch
p = P (|Z | ≥
Jürgen Dippon (ISA)
H )=
1, 64|
0
2(1
Biostatistik I
− Φ(1.64)) ≈ 0.1
11. Dezember 2012
316 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Abbildung: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p . Inhalt der
dunkleren Fläche ist p )
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
317 / 435
10.2. Prinzipien des Testens
Gütefunktion
Für vorgegebenes Signikanzniveau
die
α
und festen Stichprobenumfang
n
gibt
Gütefunktion g die Wahrscheinlichkeit für einen statistischen Test an,
die Nullhypothese zu verwerfen:
g (µ) = P (H
0 verwerfen
Ist
Ist
µ∈
µ∈
H
H
0 , so ist
g (µ) ≤ α
− g (µ)
1 , so ist 1
Jürgen Dippon (ISA)
|
µ
|{z}
)
wahrer Parameter
die Wahrscheinlichkeit für den Fehler 2. Art
Biostatistik I
11. Dezember 2012
318 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Abbildung: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist.
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
319 / 435
10.2. Prinzipien des Testens
Abbildung: Verlauf der Gütefunktion beim einseitigen Gauÿ-Test.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
320 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Berechnung der Gütefunktion für den einseitigen Gauÿ-Test:
g (µ)
=
=
=
=
P (H
| µ)
X̄
−µ √
P σ n > z µ
X̄
−µ+µ−µ √
µ
P
n
>z
σ
X̄
− µ√
µ − µ √ P σ n>z − σ nµ
0 verworfen
0
1−α
0
1−α
0
1−α
|
{z }
∼N (0,1)
µ − µ0 √
= 1 − Φ 1−α −
σ
n
z
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
11. Dezember 2012
321 / 435
10.2. Prinzipien des Testens
Abbildung: Verlauf der Gütefunktion beim zweiseitigen Gauÿ-Test.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
322 / 435
10. Testen von Hypothesen
10.2. Prinzipien des Testens
Eigenschaften der Gütefunktionen eines statistischen Tests
Für Werte aus
Für Werte aus
H
H
n
1 heiÿt die Gütefunktion Trennschärfe oder Macht
0 ist die Gütefunktion kleiner oder gleich
Für wachsendes
α
wird die Macht eines Tests gröÿer, d.h. die
Gütefunktion wird steiler
Für wachsendes
α
wird die Macht eines Tests gröÿer
Für einen wachsenden Abstand zwischen Werten aus
die Macht eines Tests gröÿer.
Jürgen Dippon (ISA)
Biostatistik I
10. Testen von Hypothesen
H
1 und
H
11. Dezember 2012
0 wird
323 / 435
10.3. Durchführung eines Tests mit R
Durchführung eines Tests mit R
Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine
von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen
korrekt und 11 Fragen falsch.
> binom . test ( x =19 , n =30 , p =0.5 , alternative =" greater ")
Exact binomial test
data : 19 and 30
number of successes = 19 , number of trials = 30 , p - value = 0.1002
alternative hypothesis : true probability of success is greater than
95 percent confidence interval :
0.4669137 1.0000000
sample estimates :
probability of success
0.6333333
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
324 / 435
11. Einfache lineare Regression
9
Parameterschätzung
10
Testen von Hypothesen
11
Einfache lineare Regression
Einfache lineare Regression
Methode der kleinsten Quadrate
Gütemaÿ für die Anpassung der Geraden
Stochastisches Modell
12
Varianzanalyse
13
Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
325 / 435
11.1. Einfache lineare Regression
Einfache lineare Regression
Beispiel: Rohöl und Benzinpreise
yi
Die folgenden Daten geben die mittleren Rohöl-Preise
und Benzinpreise
Jürgen Dippon (ISA)
(in Cent/Gallone) wieder:
yi
(in Dollar/Barrel)
xi
i
Jahr i
1
1980
125
28.07
2
1981
138
35.24
3
1982
129
31.87
.
.
.
.
.
.
.
.
.
.
.
.
21
2000
151
28.26
22
2001
146
22.96
Biostatistik I
xi
11. Dezember 2012
326 / 435
11. Einfache lineare Regression
11.1. Einfache lineare Regression
Zu diesen Daten stellen sich einige Fragen:
Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis
feststellbar?
Welchen Benzinpreis würde man im Mittel anhand der Daten
prognostizieren, wenn der Rohölpreis auf 50$ pro Barerel steigt?
In welchem Bereich würde der Benzinpreis nicht nur sein
Erwartungswert mit groÿer Wahrscheinlichkeit liegen?
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
327 / 435
11.1. Einfache lineare Regression
Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms
Abbildung: Darstellung der Daten als Streudiagramm
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
328 / 435
11. Einfache lineare Regression
11.1. Einfache lineare Regression
Schritt 2: Vermutung über Zusammenhang anstellen.
Nicht unerwartet korrespondieren gröÿere Ölpreise mit höheren
xy
xi
yi
Benzinpreisen. Man könnte näherungsweise einen linearen Zusammenhang
mutmaÿen. Seien
( i, i)
die Datenpaare, wobei
den Benzinpreisen entspricht, dann gilt:
wobei die
ei
yi = a + bxi + ei
die Abweichungen von der Gerade
den Rohölpreisen und
a + bx
beschreiben.
Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den
Daten möglichst gut beschreibt. Dazu wird die Methode der kleinsten
Quadrate verwendet.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
329 / 435
11.2. Methode der kleinsten Quadrate
Methode der kleinsten Quadrate
Ausgehend von der Beziehung:
yi = a + bxi + ei , ei = yi − (a + bxi )
Fehler (Residuum)
sucht man nach einer Gerade, für die alle Fehlerterme (error)
klein werden. Das erreicht man z.B. in dem man
n
X
Q (a, b) := ei =
i =1
2
n
X
i =1
Jürgen Dippon (ISA)
Biostatistik I
möglichst
y a bxi )]
2
[ i −( +
minimiert. Wir gehen im Folgenden davon aus, dass die
identisch sind.
ei
xi
nicht alle
11. Dezember 2012
330 / 435
11. Einfache lineare Regression
11.2. Methode der kleinsten Quadrate
Abbildung: Darstellung der Fehlerquadrate
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
331 / 435
11.2. Methode der kleinsten Quadrate
Das Minimierungsproblem ist:
Q (a, b) =
n
X
i =1
y a bxi )]
[ i −( +
2
→ Min
Die kritischen Stellen werden ermittelt:
Qab
a
Qab
b
n
X
∂
( , ) =
2·[ i −( +
∂
i =1
n
X
∂
( , ) =
2·[ i −( +
∂
i =1
Jürgen Dippon (ISA)
y a bxi )] · (− )
1
y a bxi )] · (−xi )
Biostatistik I
11. Dezember 2012
332 / 435
11. Einfache lineare Regression
11.2. Methode der kleinsten Quadrate
Die Lösung des linearen Gleichungssystems
Qab
∂Q
(a, b) =
a
∂b
â b̂
Pn
b̂ = Pi n xxi yi −−nnx̄x̄ ȳ , â = ȳ − b̂x̄
i
i
∂
( , )=0
∂
führt auf genau eine Lösung
,
=1
=1
Jürgen Dippon (ISA)
0
, die Q minimiert:
2
2
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
333 / 435
11.2. Methode der kleinsten Quadrate
Einfache lineare Regression und Kleinste-Quadrate-Methode
x y ), ..., (xn, yn)
yi = a + bxi + ei , i = , ..., n
Gegeben seien die reellwertigen Beobachtungswerte
Dann heiÿt
( 1,
.
1
1
einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b
sX >
Annahme
2
0 sind die
gegeben durch:
â = ȳ − b̂x̄ , b̂
die Residuen (Fehler) bezeichnen. Unter der
x y nx̄ ȳ
x nx̄
Pn
1 i i −
= Pi =
n
2
i =1 i −
2
x x̄ y ȳ
x x̄
Pn
i
=1 ( i − )( i − )
n
−1
=
Pn
1
2
n−1 i =1 ( i − )
1
Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch
ŷ (x ) = â + b̂x
Die
ei
Kleinste-Quadrate-Koezienten für a und b
den Steigungsparameter und
. Die Werte
yˆi = â + b̂xi
und
KQ-gettete Werte bzw. KQ-Residuen.
Jürgen Dippon (ISA)
Biostatistik I
eˆi = yi − yˆi
bezeichnen wir als
11. Dezember 2012
334 / 435
11. Einfache lineare Regression
Eigenschaften
11.2. Methode der kleinsten Quadrate
(x̄ , ȳ )
â = ȳ − b̂x̄ ⇒ ȳ = â + b̂x̄ = ŷ /(x̄ ).
Die KQ-Gerade geht durch den Mittelpunkt
.
Die Summe der KQ-Residuen ist gleich 0:
n
X
i =1
ŷ¯ = ȳ
Wenn alle Punkte
x
êi =
0
xy
a + bx
â = a, b̂ = b, yˆi = yi , eˆi =
( i, i)
auf der Geraden
liegen, dann sind:
0
Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen
Wert
prognostiziert man den y-Wert:
ŷ (x ) = â + b̂x
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
335 / 435
11.3. Gütemaÿ für die Anpassung der Geraden
Gütemaÿ für die Anpassung der Geraden
Wie gut lassen sich die Daten mit einer Geraden beschreiben?
Streuungszerlegung der Regression
n
n
n
X
X
X
( i − )2 =
( ˆi − )2 +
( i − ˆi )2
i =1
i =1
i =1
y ȳ
y ȳ
y y
Ansatz:
Die Residualstreuung ist die Summe der verbliebenen quadrierten
Fehler nach Anpassung der Geraden.
Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der
Gesamtstreuung groÿ ist:
R
Jürgen Dippon (ISA)
2
y ȳ
y ȳ
Pn
2
i
=
1 ( ˆi − )
= Pn
=
2
(
−
)
i =1 i
Biostatistik I
Erklärte Streuung
Gesamtstreuung
11. Dezember 2012
336 / 435
11. Einfache lineare Regression
11.3. Gütemaÿ für die Anpassung der Geraden
Bestimmtheitsmaÿ
Gegeben seien die reellwertigen Beobachtungswerte
sX >
2
Dann ist das
0
sY >
2
und
x y ), ..., (xn, yn)
( 1,
1
mit
0
Bestimmtheitsmaÿ der KQ-Regression gegeben durch:
R
2
y ȳ
y ȳ
y y
y ȳ
Pn
Pn
2
2
ˆ
(
−
)
i
=1 i
i
=1 ( i − ˆi )
P
P
= n
=1− n
2
2
(
−
)
i
i =1
i =1 ( i − )
Eigenschaften
0
R
≤ 2≤1
2
2
= XY
2
= 1 genau dann, wenn alle Punkte ( i , i )
2
= 0 genau dann, wenn XY = 0 ist.
R r
R
R
xy
s
R
auf einer Geraden liegen.
R
Eine gute Beschreibung der Daten durch eine Gerade liegt bei groÿen
Werten von
(nahe 0).
2
(nahe 1) vor, eine schlechte bei kleinen Werten von
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
2
337 / 435
11.3. Gütemaÿ für die Anpassung der Geraden
Beispiel (fortgesetzt): Ölpreise
Direkte Berechnung der Regressionsgeraden:
x̄ =
X
i
sX
sY
2
=
2
=
sXY
=
ȳ =
21.572,
yi
2
2
2
Daher:
b̂ = ssXY =
2
X
69.342
40.026
Jürgen Dippon (ISA)
117.635,
i
= 309218,
x nx̄ =
n
y nȳ =
n
x y nx̄ ȳ =
n
P 2
i i −
−1
P 2
i i −
P −1
i i i−
−1
= 1.732,
X
X
i
11078.277
xi
xi yi =
2
= 11078.277
57284.35
− 22 · 21.5722
= 40.026
21
57284.35
− 22 · 117.6362
21
57284.35
= 227.475
− 22 · 21.572 · 117.636
21
â = ȳ −b̂x̄ =
Biostatistik I
= 69.342
117.636−1.732·21.572
= 80.273
11. Dezember 2012
338 / 435
11. Einfache lineare Regression
11.3. Gütemaÿ für die Anpassung der Geraden
Und für das Bestimmtheitsmaÿ ergibt sich:
rXY = qsXY = √
sX sY
x=
2
2
Prognose für
x=
50 ergibt
69.342
40.026
· 227.475
2
2
0.529
ŷ (
50)
ŷ (x ) = â + b̂x ,
≈ 166.9.
Biostatistik I
11. Einfache lineare Regression
R
R = rXY =
50 durch Einsetzen in KQ-Gleichung
Jürgen Dippon (ISA)
In
= 0.727,
11. Dezember 2012
339 / 435
11.3. Gütemaÿ für die Anpassung der Geraden
lässt sich die Regressionsgerade mit eine paar einfachen Kommandos
berechnen und in das Streudiagramm einzeichnen:
plot ( oelpreis , benzinpreis )
## Scatterplot
myregression <- lm ( benzinpreis ~ oelpreis )
myregression
## zeigt Ergebnis der Regressionsrechnung an
abline ( myregression )
## zeichnet Regressionsgerade
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
340 / 435
11. Einfache lineare Regression
11.3. Gütemaÿ für die Anpassung der Geraden
Abbildung: Streudiagramm mit Regressionsgeraden
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
11.3. Gütemaÿ für die Anpassung der Geraden
Vorhersage des Blutdrucks
y
Für 15 zufällig ausgewählte Frauen wurde das Alter
Blutdruck
( i)
341 / 435
gemessen.
x
( i)
festgestellt und der
Wie kann zu gegebenem Alter der zu erwartende Blutdruck vorhergesagt
werden?
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Jürgen Dippon (ISA)
xi )
Alter (
47
52
30
35
59
44
63
38
49
41
32
55
46
51
63
Blutdruck
129
139
112
119
145
133
152
117
145
136
115
137
134
141
157
Biostatistik I
(yi )
11. Dezember 2012
342 / 435
11. Einfache lineare Regression
11.3. Gütemaÿ für die Anpassung der Geraden
Die Berechnung der KQ-Daten und des Bestimmtheitsmaÿes wird R
überlassen.
Abbildung: Regression zu Blutdruckdaten
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
Der Fit der Geraden ist hier besser:
Im
Mittel
ŷ (
45)
11. Dezember 2012
343 / 435
11.3. Gütemaÿ für die Anpassung der Geraden
R
2
ist gröÿer als im vorigen Beispiel.
= 77.363 + 1.2065 · 45 = 131.6 ≈ 132
würde man bei einer 45-jährigen Frau einen Blutdruck von 132
erwarten. Wie genau ist der Wert und wie groÿ ist der normale
Schwankungsbereich dieses Wertes für einzelne Frauen?
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
344 / 435
11. Einfache lineare Regression
Stochastisches Modell
n
( i , i ), = 1, ..., , für die man lineare
zwischen den i und i -Werten vermutet,
Um für Datenpaare
Zusammenhänge
xy i
11.4. Stochastisches Modell
x
y
Wahrscheinlichkeitsaussagen ableiten zu können, muss man sie mit einem
geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt
sollen die Daten durch eine Geradenbeziehung
yi = α + βxi + ei
beschrieben werden.
Wenn die
yi
xi
ei
ei
funktional beschrieben werden durch die
xi
bezeichnet man
abhängige oder endogene Variablen
als unabhängige oder exogene Variablen oder Regressoren und
als
die
Die
yi
als
latente Variablen oder Störvariablen.
können nicht beobachtet werden und die Parameter
α
und
β
sind
unbekannt.
Wo gibt es im Modell zufällige Komponenten?
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
345 / 435
11.4. Stochastisches Modell
Beispiel: College-Absolventen
xi
Die folgenden Daten geben die Anzahl der Absolventen eines kleinen
yi
Colleges an, die im Jahr (
Die Anzahl (
) ihres Abschlusses einen Job gefunden haben.
) der Absolventen soll über die Jahre etwa gleich groÿ
gewesen sein.
Jahr
Berufseinsteiger
Die Jahre
xi
yi
1
2
3
4
5
6
121
138
115
162
160
174
sind nichtzufällig, während die konkreten
Berufseinsteigerzahlen
nicht vorhersehbar waren und als zufällig
interpretiert werden können.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
346 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Streudiagramm
Abbildung: Berufseinsteiger
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
347 / 435
11.4. Stochastisches Modell
Modell mit deterministischen Regressoren
xi
Yi
sind deterministisch und
yi
ei = yi − α − βxi
εi = Yi − α − β xi
sind als Realisierungen von Zufallsvariablen
aufzufassen. Dann sind aber auch die
Realisierungen von Zufallsvariablen
Modellansatz:
Jürgen Dippon (ISA)
als
aufzufassen.
Yi = α + βxi + εi
Biostatistik I
11. Dezember 2012
348 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Beispiel (fortgesetzt): Blutdruckdaten
x
y
Im Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld
der Erhebung ist i.A. sowohl das Alter
( i)
nicht bekannt und muss als Realisierung von Zufallsvariablen
aufgefasst werden.
Modell mit stochastischen Regressoren:
Xi , Yi
Das zufällige Verhalten der Beobachtung
beschrieben mit Zufallsvariablen
und
Xi
als auch der Blutdruck
xi
und
εi ,
yi
sowie
ei
( i)
bzw.
Yi
werden
die in folgender Beziehung
Yi = α + βXi + εi
stehen:
Dabei wird die Zusatzannahme getroen, dass
Xi
und
εi
unabhängig
sind.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
349 / 435
11.4. Stochastisches Modell
Beide Regressionsmodelle haben groÿe Gemeinsamkeiten:
Die Schätzer für die Parameter
Formeln berechnet, s.u.
Die bedingte Verteilung von
Yi
α
und
β
gegeben
werden mit den gleichen
Xi = xi
ist gleich der
Verteilung, die sich aus dem deterministischen Ansatz ergibt.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
350 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Wir beschränken uns im Folgenden auf die nähere Untersuchung des
Modells mit deterministischen Regressoren.
Standardmodell der linearen Einfachregression
x , . . . , xn
Y , . . . , Yn
(x , Y ), . . . , (xn , Yn )
Standardmodell der linearen
Einfachregression
α, β
σ >
Yi = α + βxi + εi , i = , . . . , n
εi
E (εi ) =
Var (εi ) = σ
seien reelle Zahlen und
1
Die Vektoren
1
seien reelle Zufallsvariablen.
1
erfüllen das
1
mit den Parametern
2
und
0, wenn
1
gilt, wobei
u.i.v. Zufallsvariablen sind, für die
2
0 und
gilt.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
351 / 435
11.4. Stochastisches Modell
Anmerkungen:
Die Zufallsvariablen
εi
x
beschreiben die Abweichungen der
Regressionsgeraden
Die
xi
Yi
können nicht beobachtet werden. Sie
α+β
.
-Werte von der
zufällige, Regressoren oder als Realisierungen von Zufallsvariablen
aufzufassen.
xi
Xi
-Werte sind entweder als einstellbare deterministische, d.h. nicht
y
β beschreibt die lineare Abhängigkeit der i β = 0, gibt es keine (lineare) Abhängigkeit.
Der Parameter
-Werten. Ist
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
von den
352 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Die Schätzer im Standardmodell berechnen wir wie oben durch
Minimierung von
n
X
Q (α, β) :=
sX >
Y
x
[ i − (α + β · i )]2 → Minα,β
i =1
Als Ergebnis erhalten wir in Analogie zu oben:
2
Wenn
0 ergeben sich als Schätzer
Ȳ
x Y nx̄ Ȳ
x nx̄
und
β̂
und
β̂
im Standardmodell
x̄
x x̄ Y Ȳ
x x̄
α̂ = n − β̂ · ,
Pn
1
n
i
−1 ( i − )( i − n )
XY
n
−1
= 2 .
=
Pn
1
2
2
X
n −1 i =1 ( i − )
Pn
i =1 i i −
β̂ = P
n
2
i =1 i −
α̂
α̂
sind erwartungstreue Schätzer von
E (α̂) = α
und
Schätzer
α
bzw.
β,
s
s
d.h.
E (β̂) = β .
Schätzwerte
Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen
α̂
und
β̂
i.F. sowohl die
als auch die
für
α
und
β.
Die
jeweilige Bedeutung erschlieÿt sich aus dem Kontext.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
11.4. Stochastisches Modell
Beispiel (fortgesetzt): College-Absolventen.
x̄ =
3.5,
ȳ =
X
145,
i
xi
2
= 91,
x n x̄
n
y n ȳ
n
x y n x̄ ȳ
n
s
s
353 / 435
X
i
yi
2
= 129030,
X
i
xi yi =
3234
P 2
2
− · 2
91 − 6 · 3.5
2
i
i
=
= 3.5
X =
−1
5
P 2
2
− · 2
29030 − 6 · 145
2
i
i
=
= 576
Y =
−
1
5
P
i i i − · · = 3234 − 6 · 3.5 · 145 = 37.8
XY =
−1
5
s
sXY = . = .
sX .
α̂ = ȳ − β̂ · x̄ =
−
rXY = q sXY = √ . .·
sX · sY
Daher
β̂ =
37 5
2
3 5
10 8
10.8
145
· 3.5 = 107.2
37 5
2
2
Jürgen Dippon (ISA)
3 5
576
= 0.8419
Biostatistik I
R = rXY =
2
2
0.8419
2
11. Dezember 2012
= 0.788
354 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Abbildung: Streudiagramm mit Regressionsgeraden
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
355 / 435
11.4. Stochastisches Modell
Zur näheren Beschreibung der Verteilung von
α̂
und
β̂
kann man die
Varianzen berechnen. Dazu macht man sich zunutze, dass
β̂ = β +
n
X
i =1
ci εi
und
α̂ = α +
n X
1
i =1
n − ci x̄
εi
ci = Pni xi(x−i −x̄ x̄ )
mit
=1
2
gilt.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
356 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Die Varianzen berechnen sich als
Var
Var
σ2
(β̂) = σβ̂ = Pn
2
i =1 (Pi − )
σ 2 ni=1 i2
2
P
(α̂) = σα̂ =
· ni=1 ( i − )2
x x̄
x
x x̄
2
n
Diese Varianzen kann man nicht direkt berechnen, da sie noch vom
unbekannten Parameter
Aber:
α̂
bzw.
β̂
σ2
abhängen.
α
sind MSE- und schwach konsistent für
Konsistenzbedingung
n
X
( i − )2 → ∞
i =1
x x̄
für
bzw.
β,
wenn die
n→∞
gilt.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
357 / 435
11.4. Stochastisches Modell
Ausgehend von der Denition des Bestimmtheitsmaÿ kann man die
Konstruktion eines erwartungstreuen Schätzers
Gröÿen zurückführen:
σ̂ 2
σ2
von
y ŷ
y ȳ
y ȳ
R
P2
2
2
i
=
1( i − i )
= 1 − Pn
2
i =1 ( i − )
n
n
X
X
2
2
⇒
( i − i ) = (1 − )
( i − )2 = (1 −
i =1
i =1
y ŷ
R
Damit denieren wir
σ̂ 2 :=
n
n
X
( i − i )2 =
−2
i =1
y ŷ
1
Die letzte Identität folgt wegen
auf bekannte
R )(n − )sY
2
1
2
n − ( − R )sY = n − sY − sXY n−
n−
sX
R = rXY = sXY /(sX sY )
1
2
2
2
1
1
2
2
2
2
2
2
2
.
Beispiel (fortgesetzt): Für die College-Daten gilt dann
σ̂ 2 =
n − sY ( − R ) =
n−
Jürgen Dippon (ISA)
1 2
2
1
2
5
4
576
· (1 − 0.7088) = 209.664
Biostatistik I
11. Dezember 2012
358 / 435
11. Einfache lineare Regression
Mit dem Schätzer für
α̂
und
β̂
σ2
11.4. Stochastisches Modell
kann man die Varianzen bzw. Standardfehler von
schätzen
x
Pn
2
2
σ̂
2
i
=
1 i
P
σ̂α̂ =
· ni=1 ( i − )2
σ̂ 2
2
σ̂β̂ = Pn
2
i =1 ( i − )
n
q
σ̂α̂ = σ̂α̂2
x x̄
x x̄
q
σ̂β̂ = σ̂ 2
β̂
Unter präziseren Verteilungsannahmen kann auch die Verteilung der
Schätzer genauer beschrieben werden und es können Tests konstruiert
werden.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
359 / 435
11.4. Stochastisches Modell
Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi
u.i.v. und
εi ∼
N ( , σ ).
2
0
Unter der Normalverteilungsannahme gilt
α̂
n
und
β̂
sind gemeinsam normalverteilt.
( − 2) · σ̂ 2 /σ 2
α̂
und
σ̂ 2
bzw.
Jürgen Dippon (ISA)
ist
β̂
χ2 -verteilt
und
σ̂ 2
mit
n−
2 Freiheitsgraden.
sind unabhängig.
Biostatistik I
11. Dezember 2012
360 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Aus der Normalverteilungsannahme und der Denition der
folgt
t
-Verteilung
σ̂α̂
α̂ − α σ̂
=
σα̂
σα̂
σ
s
s
2
α̂ − α
( − 2)σ̂ 2
=
=
∼ n−2
σα̂
σ 2 ( − 2)
( − 2)
α̂ − α
α̂ − α
=
σ̂α̂
σα̂
mit
Z
α̂
=
σα̂
n
n
∼ N ( , ), W
0 1
Eine analoge Aussage gilt für
2
W
n
Z
n
t
( − 2)σ̂ 2
=
∼ χ2n−1 .
2
σ
β̂
Unter der Normalverteilungsannahme gilt
t
α̂ − α
∼ n −2
σ̂α̂
und
t
β̂ − β
∼ n−2
σ̂β̂
Mit Hilfe dieser Aussagen lassen sich Tests für
Jürgen Dippon (ISA)
α
und
Biostatistik I
11. Einfache lineare Regression
β
konstruieren:
11. Dezember 2012
361 / 435
11.4. Stochastisches Modell
Tests für die Regressionskoezienten
sX >
β
H β=β
H β≥β
H β≤β
Gegeben sei das Standardmodell der linearen Einfachregression mit
Normalverteilungsvorraussetzung sowie
H
H
H
H
H
H
Testprobleme über die Parameter
a)
b)
c)
α = α0
0 :α ≥ α 0
0 :α ≤ α 0
0:
gegen
gegen
gegen
α 6= α0
1 :α < α 0
1 :α > α 0
1:
α
α0
und
:
d)
0:
0 gegen
,
e)
0:
0 gegen
,
f)
0:
0 gegen
α̂ − α0
= q
σ̂α̂2
bzw.
T
β0
α∗
im Testproblem
a) , falls
b) , falls
c ) , falls
|
α0
−2,1−α∗ /2 ,
d) , falls
α0
−2,1−α∗ ,
e) , falls
,
f ) , falls
α0
Jürgen Dippon (ISA)
−2,1−α∗
H
H
H
β=
6 β0 ,
1 :β < β 0 ,
1 :β > β 0 .
1:
β̂ − β0
= q
σ̂ 2
β̂
und dem vorgegebenen Signikanzniveau
T | > tn
T < −tn
T > tn
0. Wir betrachten folgende
,
Basierend auf der Teststatistik
T
2
Biostatistik I
fällt die Entscheidung für
T | > tn
T < −tn
T > tn
|
β0
−2,1−α∗ /2
β0
−2,1−α∗
β0
H
1
−2,1−α∗
11. Dezember 2012
362 / 435
11. Einfache lineare Regression
Insbesondere der Test
H :β=
0
11.4. Stochastisches Modell
yi
xi
0 ist wichtig, da hiermit überprüft wird, ob
es einen linearen Zusammenhang zwischen den
- und
-Werten gibt.
Beispiel (fortgesetzt) College-Daten.
β=0
Wir wollen überprüfen, ob
Dazu berechnen wir den Schätzer für den Standardfehler von
σ̂ 2
σ̂ 2
=
σ̂β̂ = Pn
=
2
2
(
−
)
(
−
1
)
i
i =1
X
x x̄
2
n
Damit ist
s
t = β̂q−σ̂β
0
=
2
Der kritische Wert ist
ist die Nullhypothese
tn
β̂
=
−2,1−α∗ /2
β=0
α∗ = 0.05.
β̂ .
ist. Das Signikanzniveau sei
209.664
5
· 3.5
10.8
−0
3.4613
t
4,0.975
= 11.9808 ⇒ σ̂β̂ = 3.4613.
= 3.12.
= 2.7764.
Wegen 3.12
> 2.7
abzulehnen. Es gibt also einen signikanten
linearen Trend bei den Berufseinsteigerzahlen.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
363 / 435
11.4. Stochastisches Modell
Statistische Tests für die Regressionsparameter mit R
> x <- 1:6
> y <- c (121 ,138 ,115 ,162 ,160 ,174)
> mymodel <- lm (y ~ x )
> summary ( mymodel )
Call :
lm ( formula = y ~ x )
Residuals :
1
2
3
3.0
9.2 -24.6
4
11.6
5
-1.2
6
2.0
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 107.200
13.481
7.952 0.00135 **
x
10.800
3.462
3.120 0.03553 *
Residual standard error : 14.48 on 4 degrees of freedom
Multiple R - squared : 0.7087 , Adjusted R - squared : 0.6359
F - statistic : 9.734 on 1 and 4 DF , p - value : 0.03553
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
364 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Kondenzintervalle für die Regressionsparameter
Parameter α
Ausgehend von der Verteilungsaussage zu
Kondenzintervalle für die
α̂
und
β̂
und
β
kann man
herleiten:
Gegeben sei das Standardmodell der linearen Einfachregression mit
Normalverteilungsvorraussetzung. Dann sind
t
h
β̂ − tn
bzw.
t
σ̂ , β̂ + tn
α̂ − n−2,1−α∗ /2 σ̂α̂ , α̂ + n−2,1−α∗ /2 σ̂α̂
−2,1−α∗ /2 β̂
(1 − α∗ )-Kondenzintervalle
−2,1−α∗ /2 σ̂β̂
für die Parameter
α
i
β.
bzw.
Anmerkung: Diese Struktur von Kondenzintervallen ist sehr typisch.
θ̂
sei ein Parameterschätzer für einen Parameter
θ
und
σθ̂
sein
Standardfehler.
θ̂ − θ
∼
σθ̂
h
⇒ θ̂ −
N( ,
z
0 1) für alle zulässigen
1−α/2
σθ̂ , θ̂ +
z
1−α/2
Jürgen Dippon (ISA)
σθ̂
i
θ
ist
(1 − α)-Kondenzintervall
Biostatistik I
11. Einfache lineare Regression
für
11. Dezember 2012
θ
365 / 435
11.4. Stochastisches Modell
Beispiel: Kondenzintervall für µ bei bekanntem σ2 .
X , . . . , Xn ∼ N (µ, σ )
2
Var (X̄n) = σ /n
q
q
X̄n − z
σ /n, X̄n + z
σ /n
= X̄n − z
σX̄n , X̄n + z
σX̄n
1
.
Dann gilt für den Schätzer
X̄n
1−α/2
für
2
µ:
2
θ̂
2
1−α/2
1−α/2
:
1−α/2
sei ein Parameterschätzer für einen Parameter
θ
und
σ̂θ̂
ein Schätzer für
seinen Standardfehler.
t
t
θ̂ − θ
∼ m für alle zullässigen θ
σ̂θ̂
h
i
⇒ θ̂ − m,1−α/2 σ̂θ̂ , θ̂ + m,1−α/2 σ̂θ̂
Jürgen Dippon (ISA)
t
ist
Biostatistik I
(1 − α)-Kondenzintervall
11. Dezember 2012
für
θ
366 / 435
11. Einfache lineare Regression
Anmerkung: i.A.
m=n
11.4. Stochastisches Modell
Anzahl der geschätzten Parameter.
Beispiel: Kondenzintervall für µ bei unbekanntem σ2 .
X , . . . , Xn ∼ N (µ, σ )
µ : Var (X̄n ) = σ /n
2
1
2
S n
. Dann gilt für den Schätzer
und
2
2
σ̂X̄ = n /
n
X̄n − tn
= X̄n − t
Sn /n, X̄n + tn
σ̂X̄n , X̄n + tn
q
−1,1−α/2
,
2
Sn /n
2
−1,1−α/2 σ̂X̄n
Biostatistik I
11. Einfache lineare Regression
für
q
−1,1−α/2
−1,1−α/2
Jürgen Dippon (ISA)
X̄n
11. Dezember 2012
367 / 435
11.4. Stochastisches Modell
Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen
t
Modellen Schätzwerte für die Parameter und Standardfehler. Wenn die
zugehörigen standardisierten Schätzer
-verteilt oder asymptotisch normal
verteilt sind, kann man obige Kondenzintervallkonstruktion direkt
verwenden.
Beispiel: College-Absolventen.
β . σ̂β̂ = 3.4613 und β̂ = 10.8
bereits früher berechnet. Mit n−2,1−α∗ = 4,0.975 = 2.7764 gilt
h
i
β̂ − n−2,1−α∗ /2 σ̂β̂ , β̂ + n−2,1−α∗ /2 σ̂β̂
t
Wir berechnen ein 0.95-Kondenzintervall für
wurde
t
t
t
= [10.8 − 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613]
= [1.19, 20.41]
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
368 / 435
11. Einfache lineare Regression
Falls die Normalverteilungsannahme
11.4. Stochastisches Modell
εi ∼
Konsistenzbedingung
N( , σ )
n
X
( i − )2 → ∞
i =1
x x̄
0
für
2
verletzt, aber die
n→∞
erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer
auch approximativ. Dann gelten auch die angegebenen Tests und
Kondenzintervalle approximativ.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
369 / 435
11.4. Stochastisches Modell
Beispiel (Fortsetzung): College-Daten.
Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen
Regression,
n
n
n
X
X
X
2
2
( i− ) =
( i − i )2
i− ) +
|i =1 {z
}
|i =1 {z
} |i =1 {z
}
y ȳ
Gesamtstreuung
(SQT)
Jürgen Dippon (ISA)
(ŷ ȳ
Erklärte Streuung
(SQE)
Biostatistik I
y ŷ
Reststreuung
(SQR)
11. Dezember 2012
370 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Kondenzintervalle für die Regressionsparameter mit R
> x <- 1:6
> y <- c (121 ,138 ,115 ,162 ,160 ,174)
> mymodel <- lm (y ~ x )
> confint ( mymodel )
2.5 %
97.5 %
( Intercept ) 69.770472 144.62953
x
1.188984 20.41102
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
371 / 435
11.4. Stochastisches Modell
Prognose
Ausgehend vom Regressionsmodell
Yi = α + βxi + εi
interessiert man sich für die Regressionsgerade
y (x ) = α + β x
x
y (x ) : Ŷ (x ) = α̂ + β̂ · x
E (Ŷ (x )) = E (α̂ + β̂ · x ) = E (α̂) + E (β̂) · x = α + β· x = y (x )
(x − x̄ )
σŶ x = Var (Ŷ (x )) = Var (α̂ + β̂ · x ) = . . . = σ
n + Pi (xi − x̄ ) .
Ŷ (x )
(x − x̄ )
σ̂Ŷ x = σ̂
n + Pi (xi − x̄ ) .
für einen Vorgabewert
.
Schätzung von
Dann gilt
2
2
1
2
2
( )
ist also erwartungstreu und MSE- bzw. schwach konsistent.
Die Varianz können wir schätzen mit
2
2
1
2
( )
Jürgen Dippon (ISA)
2
Biostatistik I
11. Dezember 2012
372 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Prognose für y(x):
Ŷ (x ) = α̂ + β̂ · x
ist der Schätzer für
Normalverteilungsannahme ist
h
ein
Ŷ (x ) − tn
−2,1−α∗ /2 σ̂Ŷ (x ) ,
(1 − α)-Kondenzintervall
y (x )
Y
0
. Unter der
Ŷ (x ) + tn
y (x )
−2,1−α∗ /2 σ̂Ŷ (x )
i
.
beschreibt nur die Mittellage einer Zufallsvariable
Regressor
wir
x
y (x )
für
y (x )
Y
0 , die zu einem
0 erhoben wird. Interessant ist häug der Wertebereich, in dem
0 mir groÿer Wahrscheinlichkeit nden. Dazu muss nicht nur die
Mittellage
0 , sondern auch der Schwankung um diese Mittellage mit
einem Störterm
ε0
Rechnung getragen werden.
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
373 / 435
11.4. Stochastisches Modell
Ansatz:
Ỹ
wobei
0
= α̂ + β̂ ·
ε0
x
0
+ ε0 =
unabhängig von
Ŷ (x ) + ε , E (ε ) =
0
0
0
0,
0
2
ε1 , . . . , ε n .
Damit ist
Var (Ỹ ) = Var (Ŷ (x )) + Var (ε ) = σ
0
Var (ε ) = σ ,
0
0
2
1
+
1
n
x x̄
x x̄
( 0 − )2
P
+
2
i( i − )
und
σ̂Ỹ2 = σ̂ 2
0
Jürgen Dippon (ISA)
1
+
1
n
x x̄
x x̄
( 0 − )2
+P
2
i( i − )
Biostatistik I
.
11. Dezember 2012
374 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Prognose der Werte der Zufallsvariablen Y0 zu gegebenen x0 :
Unter der Normalverteilungsannahme ist
h
Ŷ (x ) − tn
0
ein
(1 − α)-Kondenz-
−2,1−α∗ /2 σ̂Ŷ0 ,
Ŷ (x ) + tn
0
oder Prognoseintervall für
Beispiel: College-Absolventen.
3.5,
sx =
2
3.5,
σ̂ = 14.461
Y
y (x )
, t
Wir berechnen ein 0.95-Kondenzintervall für
x̄ =
−2,1−α∗ /2 σ̂Ŷ0
0
i
0.
und
4,0.975
Y
0 zu
x
0
= 7.
Aus
= 2.7764
ergibt sich
σ̂Ŷ2 (7) = σ̂ 2
1
n
x x̄
x x̄
( 0 − )2
+P
2
i( i − )
σ̂Ỹ2 = σ̂ 2 + σ̂Ŷ2 (7) = 391.44,
0
Jürgen Dippon (ISA)
= 209.7 ·
und
h
Biostatistik I
Ŷ ( ) = α̂ + β̂ ·
7
Ŷ ( ) − t
7
6−2,0.975
6
(7 − 3.5)2
+
5 · 3.5
σ̂Ŷ (7) = 13.4811,
11. Einfache lineare Regression
Damit sind
1
7
Ŷ
= 181.74
σ̂Ỹ0 = 19.7848
11. Dezember 2012
375 / 435
11.4. Stochastisches Modell
= 107.2 + 10.8 · 7 = 182.8,
σ̂Ŷ (7) , (7) +
t
6−2,0.975
t
4,0.975
= 2.7764,
i
σ̂Ŷ (7) = [145.37, 220.23]
das gesuchte 95%-Kondenzintervall für den unbekannten Erwartungswert
y( )
7
und
Ŷ ( ) − t
h
7
6−2,0.975
Ŷ
σ̂Ỹ0 , (7) +
t
6−2,0.975
i
σ̂Ỹ0 = [127.87, 237.73]
das 95%-Prognoseintervall für die zufälligen Werte von
x=
7.
Jürgen Dippon (ISA)
Biostatistik I
Ỹ
0 an der Stelle
11. Dezember 2012
376 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Abbildung: Prognose und Kondenzintervalle
Jürgen Dippon (ISA)
Biostatistik I
11. Einfache lineare Regression
11. Dezember 2012
377 / 435
11.4. Stochastisches Modell
Ŷ (x )
In das Streudiagramm der College-Absolventen wurde in der
jedem x
Ŷ (x )
Ỹ
x=
x
obenstehenden Abbildung die geschätzte Regressionsgerade
0 die Kondenzintervalle zu
0
und
Punkt kennzeichnet den Prognosenpunkt zu
0
Die Kondenzintervalle werden gröÿer, je weiter
Jürgen Dippon (ISA)
Biostatistik I
und zu
0 eingezeichnet. Der rote
7.
0 von
x̄ =
3.5 entfernt ist.
11. Dezember 2012
378 / 435
11. Einfache lineare Regression
11.4. Stochastisches Modell
Kondenz- und Prognosestreifen mit R
x <- 1:6; y <- c (121 ,138 ,115 ,162 ,160 ,174)
plot (x ,y , xlim = c (0 ,8.5) , ylim = c (50 ,260) ,
xlab =" Jahr " , ylab =" Berufseinsteiger " , col =" blue ")
mymodel <- lm ( y ~ x )
y0 <- sum ( mymodel$coefficients * c (1 ,0))
y8 <- sum ( mymodel$coefficients * c (1 ,8))
lines ( matrix ( c (0 , y0 ,8 , y8 ) , byrow = TRUE , ncol =2))
newx <- data . frame (x = seq (0 ,8 , by =0.1))
predEY <- predict ( mymodel , newx , interval =" confidence ")
lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,2]) , col =" red ")
lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,3]) , col =" red ")
predY <- predict ( mymodel , newx , interval =" prediction ")
lines ( data . matrix ( newx ) , data . matrix ( predY [ ,2]) , col =" green ")
lines ( data . matrix ( newx ) , data . matrix ( predY [ ,3]) , col =" green ")
points (7 , predict ( mymodel , data . frame ( x =7)) , col =" red " , pch =15)
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
379 / 435
11. Dezember 2012
380 / 435
12. Varianzanalyse
9
Parameterschätzung
10
Testen von Hypothesen
11
Einfache lineare Regression
12
Varianzanalyse
Einfache Klassikation
Einfache Varianzanalyse mit R
13
Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
Varianzanalyse
Modelle der Varianzanalyse (ANOVA Analysis of Variance) dienen zur
Untersuchung der Frage, ob eine oder mehrere kategoriale Gröÿen
(Faktoren) einen Einuss auf die metrische Kriteriumsvariable besitzen.
Je nach Anzahl der Faktoren spricht man von einer Varianzanalyse mit
Einfach-, Zweifach-, . . . Klassikation.
Ausprägungen eines Faktors werden als Stufen des Faktors bezeichnet.
Ist jede Stufe eines Faktors mit jeder Stufe eines anderen kombiniert, so
spricht man von (einem Versuchsplan mit) Kreuzklassikation, andernfalls
von hierarchischer Klassikation.
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
381 / 435
12.1. Einfache Klassikation
Einfache Klassikation
Y
Welchen (Mittelwert-) Einuss haben die k Stufen eines Faktors auf die
Kriteriumsvariable
Gruppe
?
EW
Umfang
Stichprobe
Mittelwert
(=Faktorstufe)
1
µ1
.
.
.
.
.
.
i
µi
.
.
.
k
Jürgen Dippon (ISA)
.
.
.
µk
n
ni
nk
1
.
.
.
.
.
.
Y
Yi
Yk
11
...
.
.
.
1
.
.
.
1
...
.
.
.
Biostatistik I
Yn
Yini
Yknk
.
.
.
1
...
1
Ȳ
Ȳi
Ȳk
1
.
.
.
.
.
.
11. Dezember 2012
382 / 435
12. Varianzanalyse
Ȳi = ni
1
n=n
1
Ȳ
=
=
1
ni
X
j =1
n
+ ··· + k
ni
k X
X
ni
Yij
=1 j =1
12.1. Einfache Klassikation
Mittelwert der Gruppe
i
Umfang der gesamten Stichprobe
Yi j
,
Mittelwert der gesamten Stichprobe
k
1 X
n i ni Ȳi
=1
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
383 / 435
12.1. Einfache Klassikation
Modell 1
Yij = µi + eij
i = , . . . , k, j =
e , . . . , ek nk
1
mit unabhängigen Zufallsvariablen
Gruppen-Erwartungswerten
Annahmen:
Jürgen Dippon (ISA)
11
,
1, . . . ,
ni
(Fehlervariablen) und
µ1 , . . . , µ k .
E(eij ) = 0
Var(eij ) = σ2
(Varianzhomogenität)
Biostatistik I
11. Dezember 2012
384 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Matrixschreibweise der Modellgleichungen:
Y = Xβ + e

Y
Y =  
Yknk
mit

11
.
.
.


β=

µ1
.
.
.
k


µk
n-dim. Beobachtungsvektor
-dim. Vektor der unbekannten Parameter
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse

X
X
ist eine
n×k
1
0
 ..
.

1

0

 ..
.
=
0

 ..
.

0

 ..
.
.
.
.
0
1
···
.
.
.
1
···
.
.
.
0
···
.
.
.
0
0
-Matrix mit
···
0

)

0

)
0

.
.
.

0



 )
1

.
.
.
n
1 Zeilen
n
2 Zeilen
.
.
.
nk
Zeilen
1
Rang(X ) = k , die sog. Designmatrix.

e
e =  
ek nk

385 / 435
12.1. Einfache Klassikation
.
.
.
···
···
11. Dezember 2012
11
.
.
.
n-dim. Fehlervektor
,
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
386 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Andere Parametrisierung
µi
=
µ0
|{z}
P
:= n1 ki=1 i µi
αi
|{z}
+
n
:= µi − µ0
mittlerer EW
Jürgen Dippon (ISA)
Eekt der Gruppe
Biostatistik I
12. Varianzanalyse
i
11. Dezember 2012
387 / 435
12.1. Einfache Klassikation
Modell 2 (Eektdarstellung)
Yij = µ + αi + eij
Pk
i ni αi =
i=
0
Hier gilt
=1
1, . . . ,
k, j =
1, . . . ,
ni
0 (Reparametrisierungsbedingung).
Aufgabe: Schreibe das Modell in Matrixschreibweise
mit geeigneter Designmatrix
X
Schätzen des Parametervektors
Y = Xβ + e
und Parametervektor
β
β.
in Modell 1 mittels Methode der
kleinsten Quadrate:
Minimiere
liefert die Schätzwerte
Jürgen Dippon (ISA)
Ȳ
µ̂i = i
ni
k X
X
i =1 j =1
Biostatistik I
Y
( ij − µi )2
11. Dezember 2012
388 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Für Modell 2 erhält man:
Ȳ
µ̂0 = i
und
Ȳ Ȳ
α̂i = i −
Schätzung der Varianz in beiden Modellen durch:
σ̂ 2 =
SSE
n−k
(mittlere Fehlerquadratsumme)
wobei
SSE :=
ni
k X
X
i =1 j =1
Y Ȳ
( ij − i )2
(Sum of Squares due to Errors Summe der quadrierten Residuen).
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
389 / 435
12.1. Einfache Klassikation
Es gilt die folgende Streuungszerlegung:
ni
k X
X
i =1 j =1
Y Ȳ )
( ij −
2
=
k
X
i =1
ni (Ȳi − Ȳ )
2
+
ni
k X
X
i =1 j =1
Y Ȳ
( ij − i )2
Kurz:
SST
=
SSA
+
SSE
Sum of Squares
Sum of Squares
Sum of Squares
Total
due to factor A
due to Errors
zwischen
innerhalb
Die Variation der gesamten Stichprobe (SST) ist also die Summe der
Variation
Jürgen Dippon (ISA)
den Gruppen und der Variation
Biostatistik I
der Gruppen.
11. Dezember 2012
390 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Begründung:
SST
=
=
=
ni
k X
X
i =1 j =1
ni
k X
X
i =1 j =1
ni
k X
X
i =1 j =1
Y Ȳ )
( ij −
2
Y Ȳ Ȳ Ȳ )
Y Ȳ
Y Ȳ Ȳ Ȳ ) + (Ȳi − Ȳ ) ( ij − i )2 + 2( ij − i )( i −
k
X
= SSA + 2
( i−
i =1
Ȳ Ȳ )
=
2
( ij − i + i −
ni
X
Y Ȳ
( ij − i ) +SSE
j =1
|
{z
=0
SSA + SSE
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
2
}
11. Dezember 2012
391 / 435
12.1. Einfache Klassikation
Man sagt auch, dass die Gesamtvariation SST der Daten sich aus der
erklärten Variation SSA und der unerklärten Restvariation SSE
zusammensetzt.
Zur Überprüfung der globalen Nullhypothese
H
0
: µ 1 = · · · = µk
(oder
äquivalent
α1 = · · · = αk = 0 )
vergleicht man SSA und SSE, genauer
MSA := kSSA
−
1
und
MSE := nSSE
−k
SSA/(k − 1) klein im Vergleich zu SSE/(n − k ).
Haben die Faktorstufen von A keinen unterschiedlichen Einuss auf die
Zielgröÿe, dann ist
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
392 / 435
12. Varianzanalyse
Sind die Fehlervariablen
12.1. Einfache Klassikation
ei
N( , σ )
/(k − )
MSA
F := SSA
=
SSE/(n − k ) MSE
normalverteilt (also
0
2
-verteilt), so ist
1
unter der Nullhypothese F-verteilt mit den Freiheitsgraden
Denition: Seien Z1 , . . . , Zm , Z̃1 , . . . , Z̃n
unabhängige
k−
1 und
n−k
N(0, 1)-verteilte
Zufallsvariablen. Dann heiÿt die Verteilung von
F
Z + · · · + Zm)/m
Z̃ + · · · + Z̃n )/n
m n
(
:=
(
2
1
2
1
F-verteilt mit den Freiheitsgraden
Jürgen Dippon (ISA)
2
2
und
.
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
393 / 435
12.1. Einfache Klassikation
F-Test
Damit ergibt sich der
F-Test der einfaktoriellen (oder einfachen)
Varianzanalyse:
F
Lehne
>
H
F| k
0 zum Niveal
α
ab, falls
−1,n−k ;1−α
{z
}
(1 − α)-Quantil der F-Verteilung
( − ) Freiheitsgraden.
n k
Jürgen Dippon (ISA)
Biostatistik I
mit
k
( − 1)
und
11. Dezember 2012
394 / 435
12. Varianzanalyse
Zur Beurteilung der Teststatistik von
12.1. Einfache Klassikation
F
verwendet man idealerweise die
folgende Tafel der einfachen Varianzanalyse:
Quadrat-
mittlere
Variationsursache
summen
Freiheitsgrade
Quadratsummen
zwischen den Stufen
des Faktors A
SSA
(k − 1)
MSA
innerhalb der Stufen
des Faktors A
SSE
(n − k )
MSE
Gesamt
SST
(n − 1)
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
F
=
MSA
MSE
11. Dezember 2012
395 / 435
12.1. Einfache Klassikation
Überprüfung der Vorraussetzung zur Varianzhomogenität
Grasch mit parallelen Boxplots
Inferenzstatistisch mit
I
I
Levene-Test oder
Bartlett-Test
zur Überprüfung der Nullhypothese:
H
0
Jürgen Dippon (ISA)
: σ12 = · · · = σk2
wobei
Biostatistik I
Y
σi2 = Var( ij )
11. Dezember 2012
396 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Multiple Mittelwertvergleiche
Führt der F-Test zur Ablehnung der globalen Nullhypothese, so sind
zumindest nicht alle Gruppen-Erwartungswerte identisch.
Welche (Kombination von) Gruppen sind für die Ablehnung verantwortlich?
Zur Beantwortung dieser Frage gibt es mehrere Methoden:
Scheé-Test: Lehne H0 : µi
= µj
zum Niveau
k
α
ab, falls:
F
q
|µ̂i − µ̂j |
> ( − 1) k −1,n−k ,1−α
(µ̂i − µ̂j )
se
wobei
se (µ̂i − µ̂j ) = nSSE
·
−k
ni + nj
s
r
Jürgen Dippon (ISA)
1
1
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
12.1. Einfache Klassikation
Den Scheé-Test gibt es auch in einer allgemeineren Version für
Kontraste zur Überprüfung von Hypothesen der Form
H
0
:
k
X
i =1
Wichtiges Beispiel (s.o.):
ci µi =
0
wobei
ci = , cj = −
1
397 / 435
k
X
i =1
ci =
lineare
0.
1, alle übrigen
cs=
0
0.
Anderer populärer Test zum simultanen Vergleich von Mittelwerten:
Tukey-Test.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
398 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Kumulierung der Fehlerwahrscheinlichkeit beim multiplen
Testen
Werden alle Nullhypothesen:
H ij : µi = µj
0
z.B. mittels 2-Stichproben-t-Test durchgeführt, so sind insgesamt
l= k
=
2
k · (k −
1)
2
multiplen α-Fehlers
Einzeltests erforderlich. Wird jeder Einzeltest zum Niveau
so führt dies zu einer Ination des
α
durchgeführt,
(auch
experimentwise oder familywise error rate), deniert durch
p = P(
mindestens eine Nullhypothese
Jürgen Dippon (ISA)
Sei
)
0 fälschlicherweise ablehnen
Biostatistik I
12. Varianzanalyse
Aij
H ij
H ij
p =
das Ereignis,
11. Dezember 2012
399 / 435
12.1. Einfache Klassikation
0 fälschlicherweise abzulehnen:
P(A12 ∪ A13 ∪ · · · ∪ A(i −1)j )


A
[
ij 

= P
i 6=j


\
ij 

= 1−P
i 6=j
|
{z
}
Y
≥
P( ij )
| {z }
i 6=j =1−α
≤ 1 − (1 − α)l
A
A
wobei
l
A
die Gesamtzahl der Einzeltests zum Niveau
Bei Unabhängigkeit der Ereignisse
Beispiel:
α = 0.05,
Jürgen Dippon (ISA)
k=
5, also
l=
ij
10
α.
gilt Gleichheit.
⇒
p≤
Biostatistik I
1
− (1 − 0.05)10 ≈ 0.4
11. Dezember 2012
400 / 435
12. Varianzanalyse
12.1. Einfache Klassikation
Paarvergleiche nach dem Bonferroni-Verfahren
Nach der Bonferroni-Ungleichung gilt:
P
A
A
X
ij
∩
≥1−
P( ij )
| {z }
l ·α
p
α ≤ p ≤ lα
Also gilt für die multiple Fehlerrate
:
Werden die Einzelvergleiche statt zum Niveau
α
durchgeführt, so ist die multiple Fehlerrate höchstens gleich
l
α/
α!
zum Niveau
Die Bonferroni-Korrektur ist jedoch sehr konservativ, der resultierende
multiple Test besitzt eine geringe Power!
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
12.1. Einfache Klassikation
H
Äquivalente Formulierung des Bonferroni-Verfahrens: Seien
zu den Tests mit den Hypothesen
401 / 435
ij
0 : µ i = µj
pij
die p-Werte
Dann ist der Bonferroni-korrigierte multiple p-Wert gegeben durch:
pBonf = l · i j pij
max
6=
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
402 / 435
12. Varianzanalyse
12.2. Einfache Varianzanalyse mit R
Einfache Varianzanalyse mit R
Im Datensatz
survey
aus dem Paket
(Pulsrate pro Minute),
Smoke
MASS
nden sich die Variablen
Pulse
(Rauchverhalten) und weitere.
Frage: Besteht ein Zusammenhang zwischen Pulsrate und Rauchverhalten?
> library ( MASS )
> attach ( survey )
> summary ( Pulse )
Min . 1 st Qu .
35.00
66.00
Median
72.50
Mean 3 rd Qu .
74.15
80.00
Max .
104.00
NA ' s
45.00
> summary ( Smoke )
Heavy Never Occas Regul
11
189
19
17
Jürgen Dippon (ISA)
NA ' s
1
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
403 / 435
12.2. Einfache Varianzanalyse mit R
> boxplot ( Pulse ~ Smoke )
> aov ( Pulse ~ Smoke )
Call :
aov ( formula = Pulse ~ Smoke )
Terms :
Sum of Squares
Deg . of Freedom
Smoke Residuals
127.433 25926.797
3
187
Residual standard error : 11.77480
Estimated effects may be unbalanced
46 observations deleted due to missingness
> summary ( aov ( Pulse ~ Smoke ))
Df Sum Sq Mean Sq F value Pr ( > F )
Smoke
3
127.4 42.478 0.3064 0.8208
Residuals
187 25926.8 138.646
46 observations deleted due to missingness
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
404 / 435
12. Varianzanalyse
12.2. Einfache Varianzanalyse mit R
Abbildung: Puls in Abhängigkeit vom Rauchverhalten
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
405 / 435
12.2. Einfache Varianzanalyse mit R
Besteht ein Zusammenhang zwischen Pulsrate und Geschlecht?
Überprüfen Sie, dass die Varianzanalyse bei einem Merkmal mit zwei
Gruppen der Vergleich der Gruppenmittel identisch ist zum
2-Stichproben-t-Test:
> summary ( aov ( Pulse ~ Sex ))
Df Sum Sq Mean Sq F value Pr ( > F )
Sex
1
177.6 177.56 1.2953 0.2565
Residuals
189 25909.7 137.09
46 observations deleted due to missingness
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
406 / 435
12. Varianzanalyse
12.2. Einfache Varianzanalyse mit R
> t . test ( Pulse ~ Sex , var . equal = TRUE )
Two Sample t - test
data : Pulse by Sex
t = 1.1381 , df = 189 , p - value = 0.2565
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
-1.413995 5.270794
sample estimates :
mean in group Female
mean in group Male
75.12632
73.19792
Wird im linearen Modell für die Gruppenmittel angenommen, dass
µ i = µ + αi ,
mit unbekannten
µ
und
αi ,
i=
1, . . . ,
I
so sind diese Parameter nicht eindeutig
bestimmt.
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
407 / 435
12.2. Einfache Varianzanalyse mit R
In R wird standardmäÿig angenommen, dass
α1 = 0 (Berechne
α2 , . . . αI
die Behandlungskontraste)
I
sind dann die Abweichungen vom ersten Gruppenmittel in den
Gruppen 2, . . . , .
> lm ( Pulse ~ Smoke )
Call :
lm ( formula = Pulse ~ Smoke )
Coefficients :
( Intercept )
SmokeNever
78.286
-4.292
SmokeOccas
-4.348
SmokeRegul
-4.598
> mean ( Pulse [ Smoke == " Heavy "] , na . rm = TRUE )
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
408 / 435
12. Varianzanalyse
12.2. Einfache Varianzanalyse mit R
Eine andere Wahl der Parametrisierung liefert die Nebenbedingung:
I
X
i =1
αi = 0
Jürgen Dippon (ISA)
Berechne die Kontraste so, dass deren Summe
Biostatistik I
12. Varianzanalyse
=0
11. Dezember 2012
409 / 435
12.2. Einfache Varianzanalyse mit R
In R:
> model1 <- lm ( Pulse ~ Smoke ,
+
contrasts = list ( Smoke =" contr . treatment "));
> dummy . coef ( model1 )
Full coefficients are
( Intercept ):
Smoke :
78.28571
Heavy
Never
Occas
Regul
0.000000 -4.292293 -4.348214 -4.598214
> model2 <- lm ( Pulse ~ Smoke ,
+
contrasts = list ( Smoke =" contr . sum "))
> dummy . coef ( model2 )
Full coefficients are
( Intercept ): 74.97603
Smoke :
Heavy
Never
Occas
Regul
3.3096805 -0.9826128 -1.0385338 -1.2885338
> sum ( dummy . coef ( model2 ) $Smoke )
[1] 1.110223 e -16
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
410 / 435
12. Varianzanalyse
Die Faktorstufen werden in
R
12.2. Einfache Varianzanalyse mit R
standardmäÿig in alphabetischer Reihenfolge
dargestellt. Referenzkategorie (Baseline) ist damit die Faktorstufe, welche
alphabetisch gesehen als erste auftaucht. In obigem Beispiel ist dies die
Faktorstufe
Heavy.
Vermutlich ist es jedoch sinnvoller,
Never
als
Referenzkategorie zu wählen:
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
411 / 435
12.2. Einfache Varianzanalyse mit R
> levels ( Smoke )
[1] `` Heavy ' ' `` Never ' ' `` Occas ' ' `` Regul ''
> levels ( Smoke ) <- c ( ` ` Never ' ' , ' ' Occas ' ' , ' ' Regul ' ' , ' ' Heavy ' ')
> levels ( Smoke )
[1] `` Never ' ' `` Occas ' ' `` Regul ' ' `` Heavy ''
> model1 <- lm ( Pulse ~ Smoke , contrasts = list ( Smoke = ' ' contr . treatment '
> dummy . coef ( model1 )
Full coefficients are
( Intercept ):
Smoke :
78.28571
Never
Occas
Regul
Heavy
0.000000 -4.292293 -4.348214 -4.598214
> model2 <- lm ( Pulse ~ Smoke , contrasts = list ( Smoke = ' ' contr . sum ' '))
> dummy . coef ( model2 )
Full coefficients are
( Intercept ):
Smoke :
Jürgen Dippon (ISA)
74.97603
Never
Occas
Regul
Heavy
3.3096805 -0.9826128 -1.0385338 -1.2885338
Biostatistik I
11. Dezember 2012
412 / 435
12. Varianzanalyse
12.2. Einfache Varianzanalyse mit R
Überprüfung auf gleiche Varianzen:
> bartlett . test ( Pulse ~ Smoke )
Bartlett test of homogeneity of variances
data : Pulse by Smoke
Bartlett ' s K - squared = 2.8627 , df = 3 , p - value = 0.4133
> library ( car )
> leveneTest ( Pulse ~ Smoke , data = survey )
Levene 's Test for Homogeneity of Variance ( center = median )
Df F value Pr ( > F )
group
3 0.6535 0.5817
187
Jürgen Dippon (ISA)
Biostatistik I
12. Varianzanalyse
11. Dezember 2012
413 / 435
12.2. Einfache Varianzanalyse mit R
Multipler paarweiser Vergleich von Hypothesen:
> pairwise . t . test ( Pulse , Smoke , pool . sd = FALSE )
Pairwise comparisons using t tests with non - pooled SD
data :
Pulse and Smoke
Heavy
Never 1
Occas 1
Regul 1
Never
1
1
Occas
1
P value adjustment method : holm
Hier könnte die Varianz auch aus der gesamten Stichprobe ermittelt
werden:
pool.sd=TRUE.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
414 / 435
13. Versuchsplanung
9
Parameterschätzung
10
Testen von Hypothesen
11
Einfache lineare Regression
12
Varianzanalyse
13
Versuchsplanung
Wahl geeigneter Merkmale
Bedeutung der Versuchsplanung in der biowissenschaftlichen
Forschung
Grundlegende Aspekte der Versuchsplanung
Varianzquellen in biowissenschaftlichen Untersuchungen
Allgemeine Prinzipien der Versuchsplanung
Typen von Stichproben
Einige wichtige Versuchspläne
Bestimmung optimaler Stichprobenumfänge
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
415 / 435
13. Versuchsplanung
Versuchsplanung
Die folgende Darstellung orientiert sich an Köhler et alt., Biostatistik, 2007,
und Rudolf et alt., Biostatistik, 2008.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
416 / 435
13. Versuchsplanung
13.1. Wahl geeigneter Merkmale
Wahl geeigneter Merkmale
Objektivität, Reliabilität, Validität
Liegt dem Fachwissenschaftler eine Fragestellung vor, so muss er sich
entscheiden, welche Merkmale er zur Beantwortung seiner Frage
sinnvollerweise untersucht. Dazu sollte er zunächst die folgenden drei
Kriterien bei der Auswahl seiner Merkmale beachten:
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
417 / 435
13.1. Wahl geeigneter Merkmale
Objektivität
Die Ausprägung des zu ermittelnden Merkmals ist unabhängig von der
Person des Auswerters eindeutig festzustellen.
Beispiel: die Bewertung von Deutsch-Aufsätzen ist oft stark vom
beurteilenden Lehrer abhängig und somit wenig objektiv.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
418 / 435
13. Versuchsplanung
13.1. Wahl geeigneter Merkmale
Reliabilität
Das Merkmal gestattet reproduzierbare Mess- (bzw. Beobachtungs-)
Ergebnisse, bei Wiederholung liegen also gleiche Resultate vor. Statt
Reliabilität wird auch von Zuverlässigkeit gesprochen.
Beispiel: Beim Test einer neuen Methode zur Messung der Enzymaktivität
wurde das untersuchte Homogenat in mehrere gleiche Proben aufgeteilt
und jeweils gemessen. Die erhaltenen Ergebnisse unterschieden sich
teilweise um eine Gröÿenordnung (Faktor 10). Die Methode musste als
unzuverlässig verworfen werden.
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
419 / 435
13.1. Wahl geeigneter Merkmale
Validität
Das Merkmal in seinen Ausprägungen spiegelt die für die Fragestellung
wesentlichen Eigenschaften wider. Statt Valitität wird auch von Gültigkeit
oder Aussagekraft gesprochen.
Beispiel: Bei der Zulassung zum Medizin-Studium spielt die
Durchschnittsnote im Abitur eine wichtige Rolle. Hat dieses Merkmal
tatsächlich eine zentrale Bedeutung für die Beurteilung, ob die Fähigkeit
zum Arztberuf vorliegt?
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
420 / 435
13. Versuchsplanung
13.1. Wahl geeigneter Merkmale
Grundlegende Elemente der fachwissenschaftlichen Planung
Ableitung einer durch einen Versuch zu bearbeitenden Fragestellung.
Überführung dieser Fragestellung in ein biowissenschaftliches Modell
mit entsprechenden Forschungshypothesen.
Erarbeitung einer Untersuchungsmethode zur Überprüfung der
Hypothese.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
421 / 435
13.2. Bedeutung der Versuchsplanung in der
13. Versuchsplanung biowissenschaftlichen Forschung
Grundlegende Elemente der biostatistischen Versuchsplanung
Formalisierung des biowissenschaftlichen Modells durch ein
entpsrechendes mathematisch-statistisches Modell mit den
entsprechenden statistischen Hypothesen.
Festlegung der Stichprobengewinnung.
Detaillierte Festlegung des Versuchsplanes (zum Beispiel Anzahl der
Faktorstufen, Anzahl der Wiederholungen, Umgang mit Störvariablen,
Verteilung der Untersuchungseinheiten auf die unterschiedlichen
Versuchsbedingungen).
Festlegung der Verfahren zur Datenanalyse einschlieÿlich der
Untersuchung der notwendigen Voraussetzungen.
Bestimmung des optimalen Stichprobenumfangs.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
422 / 435
13.2. Bedeutung der Versuchsplanung in der
13. Versuchsplanung biowissenschaftlichen Forschung
Zusammenhang von fachwissenschaftlicher und
biostatistischer Versuchsplanung
Eine abgestimmte fachwissenschaftliche und biostatistische
Versuchsplanung schat die Voraussetzungen für
die Genauigkeit der Versuchsergebnisse und ihre Kontrolle bei der
Auswertung
die Kontrolle oder die Elimination vor Störgröÿen
die sachgerechte Beschreibung der Versuchsergebnisse durch grasche
Darstellungen und statistische Maÿzahlen
die Quantizierung und kritischen Wertung charakteristischer
Beziehungen (Zusammenhänge, Unterschiede) und
die ökonomische Durchführung des Versuchs.
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
423 / 435
13.3. Grundlegende Aspekte der Versuchsplanung
Grundlegende Aspekte der Versuchsplanung
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
424 / 435
13. Versuchsplanung
13.3. Grundlegende Aspekte der Versuchsplanung
Varianzquellen in biowissenschaftlichen Untersuchungen
Denition: Als
Primärvarianz wird der Varianzanteil der Zielvariablen
bezeichnet, der auschlieÿlich auf die Variation der experimentellen
Bedingungen zurückgeführt werden kann.
Die biostatistische Versuchsplanung soll die Voraussetzungen dafür
schaen, dass dieser Varianzanteil möglichst groÿ sein kann, damit die
interessierenden Eekte nachgewiesen werden können.
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
Denition: Als
11. Dezember 2012
425 / 435
13.3. Grundlegende Aspekte der Versuchsplanung
Sekundärvarianz wird der Varianzanteil bezeichnet, der
durch die Wirkung von Störvariablen hervorgerufen wird.
Die biostatistische Versuchsplanung soll eine Kontrolle potentieller
Störvariablen sicherstellen.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
426 / 435
13. Versuchsplanung
Denition: Als
13.3. Grundlegende Aspekte der Versuchsplanung
Fehlervarianz wird der aus zufälligen Unterschieden
zwischen den Untersuchungseinheiten oder aus unsystematischen, zufälligen
Einüssen der Untersuchung resultierende Varianzanteil bezeichnet.
Die biostatistische Versuchsplanung hat die Aufgabe, diesen Varianzanteil
so gering wie möglich zu halten.
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
427 / 435
13.3. Grundlegende Aspekte der Versuchsplanung
Merksatz: ein wichtiges Ziel der biostatistischen Versuchsplanung besteht
darin, die Primärvarianz zu maximieren, die Sekundärvarianz zu
kontrollieren und die Fehlervarianz zu minimieren.
Das Verhältnis der Anteil von Primär-, Sekundär- und Fehlervarianz ist eng
mit dem Begri der internen Validität einer Untersuchung verbunden.
Denition: eine Untersuchung ist
intern valide (nach innen gültig), wenn
die Unterschiede in der abhängigen Variablen (dem interessierenden
Merkmal) zwischen den verschiedenen Versuchbedingungen eindeutig auf
die Veränderungen der unabhängigen Variablen, d.h. auf die
unterschiedlichen Versuchsbedingungen zurückgeführt werden können.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
428 / 435
13. Versuchsplanung
Denition: Eine Untersuchung ist
13.3. Grundlegende Aspekte der Versuchsplanung
extern valide (nach auÿen gültig), wenn
die Ergebnisse der Untersuchung auf die Population und auf andere
Situationen übertragen werden können.
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
429 / 435
13.3. Grundlegende Aspekte der Versuchsplanung
Allgemeine Prinzipien der Versuchsplanung
Maximieren der Primärvarianz
Konstanthalten von Störgröÿen
Randomisierung von Versuchsbedingungen
Matching
Blockbildung
Verblindung (einfach oder mehrfach)
Wiederholungen
mehrfaktorielle Strukturen
statistische Kontrolle von Störfaktoren mittels Regressionsmethoden
Einbeziehung einer Kontrollgruppe
Symmetrie
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
430 / 435
13. Versuchsplanung
13.3. Grundlegende Aspekte der Versuchsplanung
Typen von Stichproben
Einfache Zufallsstichproben
Geschichtete Stichproben (zB hinsichtlich Alter und/oder Geschlecht)
Klumpenstichproben (zB Herden oder Familien)
Mehrstuge zufällige Auswahlverfahren
Jürgen Dippon (ISA)
Biostatistik I
13. Versuchsplanung
11. Dezember 2012
431 / 435
13.3. Grundlegende Aspekte der Versuchsplanung
Einige wichtige Versuchspläne
Einfaktorielle Randomisierungspläne für groÿe Stichprobenumfänge,
dreifache Zufallszuordnung
Blockversuchspläne
Messwiederholungspläne
Mehrfaktorielle Pläne
Mischversuchspläne
Unvollständige Versuchspläne wie hierarchische Pläne oder Lateinische
Quadrate
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
432 / 435
13. Versuchsplanung
13.4. Bestimmung optimaler Stichprobenumfänge
Bestimmung optimaler Stichprobenumfänge
X , . . . , Xn
Einfaches Beispiel: 1-Stichproben-Gauÿtest
1
unabhängige Zufallsgröÿen, verteilt wie
µ
unbekanntem Erwartungswert
N (µ, σ )
2
und bekannter Varianz
mit
σ 2 > 0.
Zu testen ist
H
0
: µ ≤ µ0
H
gegen
1
: µ > µ0
mit dem rechtsseitigen Gauÿ-Test: Lehne
√
n x̄ −σ µ > z
0
(Signikanztest)
H
0 zum Niveau
α ∈ (0, 1) ab, falls
:= Φ−1 (1 − α)
1−α
Gütefunktion dieses Tests:
G
n
z
√ µ − µ0
(µ) = Φ
−
σ
1−α
Die Wahrscheinlichkeit für einen Fehler 2. Art liegt damit für ein
wenig gröÿer ist als
µ0 ,
Biostatistik I
13. Versuchsplanung
Sind wir nur an
gewählte Gröÿe
H
0
11. Dezember 2012
13.4. Bestimmung optimaler Stichprobenumfänge
H
gegen
∆
: µ > µ0 + ∆
Für diesen Test kann die Wahrscheinlichkeit
kontrolliert werden:
β =1−
G (µ
0
+ ∆) = Φ
nz
σ
∆= √ (
1−α
Zu vorgegebenen Wahrscheinlichkeiten
α
β
z
Diese Beziehung ist äquivalent mit
σ
433 / 435
µ-Werten interessiert sind, die um mindestens eine von
∆ > 0 von µ0 abweichen, testen wir die Hypothesen
: µ ≤ µ0
Art, Streuung
das nur
− α.
knapp unterhalb von 1
Jürgen Dippon (ISA)
µ,
−
uns
(Relevanztest)
für einen Fehler 2. Art
n
√ ∆
1−α −
σ
z)
und
β
β
für einen Fehler 1. bzw. 2.
(geschätzt z.B. im Rahmen einer Pilotstudie) und
minimaler relevanter Abweichung (Mindesteekt)
minimalen Stichprobenumfang
n≥
Jürgen Dippon (ISA)
z
σ2(
2
1−α
+
∆2
Biostatistik I
z
2
1−β
∆
ergibt sich für den
)
11. Dezember 2012
434 / 435
14. Literatur
Literatur
L. Fahrmeir et al.:
Springer 2010.
Statistik Der Weg zur Datenanalyse
, 7. Auage,
Grundlegende Statistik mit R Eine anwendungsorientierte
Einführung in die Verwendung der Statistik Software R
J. Groÿ:
,
Vieweg+Teubner 2010.
J. Hain:
Statistik mit R Grundlagen der Datenanalyse
,
RRZN-Handbuch, Leibniz Universität Hannover 2011 (erhältlich in der
Benutzerberatung des RUS).
Biostatistik: Eine Einführung für
Biologen und Agrarwissenschaftler
Biostatistik eine Einführung für
Biowissenschaftler
Biostatistics with R An Introduction to Statistics
Through Biological Data
W. Köhler, G. Schachtel, P. Voleske:
, Springer 2007.
M. Rudolf und W. Kuhlisch:
, Pearson Studium 2008
B. Shababa:
, Springer 2012.
Jürgen Dippon (ISA)
Biostatistik I
11. Dezember 2012
435 / 435
Herunterladen