Biometrie_Teil_6 - Antiinfectives Intelligence

advertisement
Wahrscheinlichkeitsrechnung
M. Kresken
1
Stetige Zufallsvariable
und Dichtefunktion
M. Kresken
2
Stetige Zufallsvariable und Dichtefunktion
• Im letzten Kapitel wurden die so genannten diskreten
Zufallsvariablen vorgestellt.
• Für Merkmale mit kontinuierlichen Werten lässt sich die
Argumentation wie folgt modifizieren:
- Beispiel: Körpergröße von Patienten in einer klinischen
Prüfung
- Über die Körpergröße des nächsten, in eine Studie
eingeschlossenen männlichen Patienten lässt sich zunächst
keine exakte, sondern nur eine Wahrscheinlichkeitsaussage
machen.
M. Kresken
3
Stetige Zufallsvariable und Dichtefunktion
• Es ist zu erwarten, dass der Wert der Körpergröße eines
erwachsenen Mannes eher einen Wert in der Nähe von 1,75 m
als in der Nähe von 1,40 m oder 2,10 m liefert.
• Somit sind die Werte um 1,75 m „wahrscheinlicher“ als die um
1,40 m oder 2,10 m.
• Die beobachteten Messwerte liegen dichter um 1,75 m als um
1,40 m oder 2,10 m. Dabei wird angenommen, dass zumindest
theoretisch innerhalb eines Messbereiches jeder beliebige
Messwert möglich ist.
• Das betrachtete Merkmal (hier die Körpergröße) wird in diesem
Sinne als stetige Zufallsgröße bezeichnet.
M. Kresken
4
Stetige Zufallsvariable und Dichtefunktion
• Die Charakteristik stetiger Zufallsvariablen des unterschiedlich
dichten Auftretens von Messwerten x kann als
Wahrscheinlichkeitsbelegung der Messskala aufgefasst werden
und wird formal durch einen funktionalen Zusammenhang
ausgedrückt.
• Die sich ergebende Funktion nimmt nur nicht-negative Wert an
und heißt Dichte bzw. Dichtefunktion f(x) der Zufallsvariablen X,
wobei x den Messwert (die Realisation) der Zufallsvariablen X
bezeichnet.
• Sie ist das theoretische Analagon zum Histogramm zur
Darstellung der relativen Häufigkeiten von n Messwerten eines
stetigen Merkmals.
M. Kresken
5
Histogramm
Systolischer Blutdruck [mmHg]
relative Häufigkeit
0,30
0,24
0,25
0,25
0,18
0,20
0,15
0,10
0,11
0,11
0,05
0,05
0,05
0,00
0,00
(90,
100]
M. Kresken
(100,
110]
(110,
120]
(120,
130]
(130,
140]
(140,
150]
(150,
160]
(160,
170]
6
Stetige Zufallsvariable und Dichtefunktion
• Flächenstücke unter der Dichtefunktion über einem Interval der
x-Achse geben die Wahrscheinlichkeit an, mit der die
Zufallsgröße Werte innerhalb dieses Intervalls annimmt.
• Folgerichtig entspricht der Flächeninhalt unter der Gesamtkurve
der Wahrscheinlichkeit des sicheren Ergebnisses und hat daher
den Wert 1.
• Da einem isolierten Punkt auf der x-Achse unter der
Dichtefunktion der Wert 0 zukommt, ist die Wahrscheinlichkeit,
dass die Zufallsgröße einen bestimmten Wert annimmt, gleich 0
(z. B. dass die Körpergröße eines erwachsenen Mannes exakt
1,7000... m beträgt; beliebige Messgenauigkeit vorausgesetzt).
M. Kresken
7
Stetige Zufallsvariable und Dichtefunktion
• Ordnet man jedem Wert x auf der x-Achse die
Wahrscheinlichkeit zu, mit der die Zufallsgröße X Werte bis zu
der Zahl x annimmt, so heißt diese Zuordnung
Verteilungsfunktion (F(x)).
• Für jedes x ist F(x) somit die Fläche unter der Dichte f von -
bis zu der Stelle x, also als Integral darzustellen:
x
F(x) =  - f(u)du.
M. Kresken
8
Stetige Zufallsvariable und Dichtefunktion
• Die Verteilungsfunktion ist das theoretische Analagon zur
empirischen Verteilungsfunktion in einer Stichprobe (siehe
Univariate Statistik).
• Die gedankliche Brücke für den Übergang von der empirischen
zur theoretischen Verteilungsfunktion bildet die folgende
vereinfacht formulierte Überlegung:
- Die empirische Verteilungsfunktion eines stetigen
Merkmals - beobachtet in einer beliebig großen Stichprobe
mit beliebig großer Messgenauigkeit - ist gleich der
(theoretischen) Verteilungsfunktion.
M. Kresken
9
Kenngrößen der Verteilung
einer Zufallsvariablen
M. Kresken
10
Kenngrößen der Verteilung einer Zufallsvariablen
• Zur Charakterisierung einer Zufallsgröße lassen sich, ähnlich
wie im Rahmen der Beschreibung von Merkmalen, Kenngrößen
angeben wie Erwartungswert E(X), Varianz Var (X) oder
Verteilungsquantile.
• So ist beispielsweise das 0,95-Quantil jener Wert, unter dem im
long run 95% der Beobachtungen liegen werden.
• Analog zur Beschreibung der Statistik ist zwischen diskreten
und stetigen Zufallsgrößen zu unterscheiden.
M. Kresken
11
Kenngrößen der Verteilung einer Zufallsvariablen
Diskrete Zufallsvariable
• Für eine Zufallsvariable Y lässt sich der Erwartungswert E(Y)
anhand der möglichen Beobachtungen yj und der
Wahrscheinlichkeit pj ihres Auftretens berechnen:
E(Y) =

yj pj .
j
• Der Erwartungswert ist ein gewichtetes Mittel. Im
„physikalischen“ Sinn entspricht er dem Schwerpunkt mit den
entsprechenden Wahrscheinlichkeiten.
M. Kresken
12
Kenngrößen der Verteilung einer Zufallsvariablen
Diskrete Zufallsvariable
• Die Varianz einer diskreten Zufallsvariablen ist allgemein
definiert durch:
Var(Y) =

[yj – E(y)]2 pj .
j
• Sie ist ein Streuungsmaß für die Verteilung.
M. Kresken
13
Kenngrößen der Verteilung einer Zufallsvariablen
Binominalverteilung
• Für eine nach B(n,p) binominalverteilte Zufallsvariable Y
ergeben sich der Erwartungswert
E(Y) = n • p
und die Varianz
Var(Y) = n • p (1 – p) .
Beispiel
M. Kresken
14
Kenngrößen der Verteilung einer Zufallsvariablen
Binominalverteilung
• Für die Binominalverteilung bei n = 5 Spendern mit der
Erfolgswahrscheinlichkeit 0,4 ergeben sich der Erwartungswert
E(Y) = 5 • 0,4 = 2
und die Varianz
Var(Y) = 5 • 0,4 (1 – 0,4) = 1,2.
M. Kresken
15
Kenngrößen der Verteilung einer Zufallsvariablen
Stetige Zufallsvariable
• Für stetige Zufallsvariablen X müssen bei der Berechnung der
Parameter wie Erwartungswert und Varianz anstatt der
Wahrscheinlichkeiten die Werte der Dichtefunktionen
berücksichtigt werden.
• Darüber hinaus ist die Summation über die (möglichen) Werte
der Zufallsgröße durch die Integration zu ersetzen
• Dann ergeben sich:

E(X) =  - x f(x) dx ,

Var(X) =  - (x – E(X))2 f(x) dx .
M. Kresken
16
Standardisierung einer
Zufallsvariablen
M. Kresken
17
Standardisierung einer Zufallsvariablen
• Subtrahiert man von jedem Wert der Zufallsgröße X den
Erwartungswert E(X) (was einer Verschiebung der Messskala
entspricht) und teilt das Ergebnis durch die Wurzel aus der
Varianz Var(X) (was einer Normierung der Messskala
entspricht), so resultiert eine neue Zufallsgröße Z, die
Standardisierung von X:
Z =
X – E(X)
Var(X)
M. Kresken
18
Standardisierung einer Zufallsvariablen
• Die standardisierte Zufallsgröße Z ist dadurch charakterisiert,
dass sie den Erwartungswert E(Z) = 0 und die Varianz Var(Z) =
1 hat.
• Sie gibt an, um wie viele Standardabweichungen eine
Beobachtung über bzw. unter dem Erwartungswert liegt.
M. Kresken
19
Standardisierung einer Zufallsvariablen
• Beispiel: Nach der WHO spricht man von einer Risikogeburt,
wenn das Geburtsgewicht unter 2.700 g liegt.
• Aus langjährigen Beobachtungen weiß man, dass die
Geburtsgewichte in NRW bei Jungen im Mittel bei 3.400 g
(SD 400 g) und bei Mädchen im Mittel bei 3.300 g (SD 350 g)
liegen.
• Damit betragen die standardisierten Geburtsgewichte von
Risikogeburten:
2.700 – 3.400
= – 1,75 ,
Jungen =
400
2.700 – 3.300
= – 1,71 .
Mädchen =
350
M. Kresken
20
Zentraler Grenzwertsatz und
Normalverteilung
M. Kresken
21
Zentraler Grenzwertsatz und Normalverteilung
• Wird eine Zufallsvariable durch viele unabhängige Einflüsse mit
kleiner Wirkung bestimmt, beobachtet man, dass sowohl die
Wahrscheinlichkeitsfunktion als auch die
Wahrscheinlichkeitsdichte eine charakteristische Form
annehmen – die der Gauss‘schen Fehler- oder
Normalverteilung.
• Der Kurvenverlauf der Normalverteilung ist glockenförmig und
die Kurve verläuft symmetrisch um den Erwartungswert.
• Die Normalverteilung besitzt im Abstand einer
Standardabweichung vom Erwartungswert Wendepunkte und
nähert sich asymptotisch der x-Achse.
M. Kresken
22
Zentraler Grenzwertsatz und Normalverteilung
M. Kresken
23
Zentraler Grenzwertsatz und Normalverteilung
• Die Beobachtung einer Normalverteilung beim unabhängigen
Zusammenwirken vieler kleiner Einflussgrößen wird durch den
zentralen Grenzwertsatz beschrieben.
• Bei Zufallsexperimenten, wo diese Annahmen als zutreffend
angesehen werden können, wird die Normalverteilung als
Modell zugrunde gelegt.
• Beispiel
M. Kresken
24
Zentraler Grenzwertsatz und Normalverteilung
Verteilung der mittleren Anzahl von Episoden von Otitis media in den ersten
zwei Lebensjahren in einer Stichprobe n = 1
Zentraler Grenzwertsatz und Normalverteilung
Verteilung der mittleren Anzahl von Episoden von Otitis media in den ersten
zwei Lebensjahren in einer Stichprobe n = 2
Zentraler Grenzwertsatz und Normalverteilung
Verteilung der mittleren Anzahl von Episoden von Otitis media in den ersten
zwei Lebensjahren in einer Stichprobe n = 5
Zentraler Grenzwertsatz und Normalverteilung
Verteilung der mittleren Anzahl von Episoden von Otitis media in den ersten
zwei Lebensjahren in einer Stichprobe n = 10
Zentraler Grenzwertsatz und Normalverteilung
• Die Dichte einer normalverteilten Zufallsvariablen wird eindeutig
durch den Erwartungswert  sowie die Varianz 2 festgelegt und
durch die folgende Funktion beschrieben:
f(x) =
–
1

2
e
1
2
(
x–

)
2
• Die Zufallsvariable heißt dann (,2)-normalverteilt oder
N (,2).
M. Kresken
29
Zentraler Grenzwertsatz der Normalverteilung
Dichte
der Normalverteilung
N (,2):
Beachte:
f() =

1
2
Zentraler Grenzwertsatz der Normalverteilung
• Die zur Präzisierung der Dichte benötigten Parameter werden in
praxi durch Stichprobenkenngrößen geschätzt, z. B. der
Erwartungswert E(X) durch den „Stichproben“-Mittelwert und die
Varianz Var(X) durch die „Stichproben“-Varianz.
• Dies gilt in analoger Weise für die Erfolgsrate p der
Binominalverteilung.
M. Kresken
31
Zentraler Grenzwertsatz der Normalverteilung
• Bei praktischen Auswertungen erweist sich die Möglichkeit der
Standardisierung einer normalverteilten Zufallsvariablen als sehr
hilfreich.
• Durch die Ausnutzung dieser Eigenschaft lassen sich die
Quantile einer beliebigen Normalverteilung auf diejenigen der
Standardnormalverteilung zurückführen, so dass nur die
Verteilung der letzteren tabelliert zu werden braucht.
M. Kresken
32
Tabelle der Normalverteilung
Wichtige Werte der
Verteilungsfunktion F(z) der
Standardnormalverteilung
F(z): Fläche unter der
N (0,1)-Dichte von - bis z
M. Kresken
33
Häufig verwendete Wahrscheinlichkeiten der
Standardnormalverteilung für symmetrische Intervalle [-z, +z]
M. Kresken
-z
+z
P(-z  Z  +z)
-1,00
1,00
0,683
-2,00
2,00
0,954
-3,00
3,00
0,997
34
Symmetrische Intervalle [-z, +z] für ausgewählte
Wahrscheinlichkeiten der Standardnormalverteilung
M. Kresken
P(-z  Z  +z)
-z
+z
0,900
-1,64
+1,64
0,950
-1,96
+1,96
0,990
-2,58
+2,58
0,999
-3,29
+3,29
35
Zentraler Grenzwertsatz der Normalverteilung
• Man beachte, dass sich die Standardnormalverteilung gemäß
der Rücktransformation
x = z + 
in die nicht standardisierte Form überführen lässt.
M. Kresken
36
Zentraler Grenzwertsatz der Normalverteilung
• Beispiel: Erwartete Anteile der Risikogeburten unter den Knaben
und Madchengeburten in NRW
- Geburtsgewichte < 2.700 g
 Standardisiertes Geburtsgewicht von Jungen: – 1,75
 Erwarteter Anteil:
M. Kresken
37
Tabelle der Normalverteilung
Wichtige Werte der
Verteilungsfunktion F(z) der
Standardnormalverteilung
F(z): Fläche unter der
N (0,1)-Dichte von - bis z
M. Kresken
38
Zentraler Grenzwertsatz der Normalverteilung
• Beispiel: Erwartete Anteile der Risikogeburten unter den Knaben
und Madchengeburten in NRW
- Geburtsgewichte < 2.700 g
 Standardisiertes Geburtsgewicht von Jungen: – 1,75
 Erwarteter Anteil: 0,0401; 4,0%
 Standardisiertes Geburtsgewicht von Mädchen: – 1,71
 Erwarteter Anteil:
M. Kresken
39
Tabelle der Normalverteilung
Wichtige Werte der
Verteilungsfunktion F(z) der
Standardnormalverteilung
F(z): Fläche unter der
N (0,1)-Dichte von - bis z
M. Kresken
40
Zentraler Grenzwertsatz der Normalverteilung
• Beispiel: Erwartete Anteile der Risikogeburten unter den Knaben
und Madchengeburten in NRW
- Geburtsgewichte < 2.700 g
 Standardisiertes Geburtsgewicht von Jungen: – 1,75
 Erwarteter Anteil: 0,0401; 4,0%
 Standardisiertes Geburtsgewicht von Mädchen: – 1,71
 Erwarteter Anteil: 0,0436; 4,4%
Die Wahrscheinlichkeitsangaben treffen jedoch nur zu, wenn die
Geburtsgewichte tatsächlich normalverteilt sind.
Dies kann z. B. mit Hilfe eines Normal-Probability-Plots
überprüft werden.
M. Kresken
41
Tabelle der Normalverteilung
F(z): Fläche unter der
N (0,1)-Dichte von - bis –1,53
M. Kresken
42
Tabelle der Normalverteilung
• Aufgrund der Symmetrie der Dichte der
Standardnormalverteilung um den Wert ‚0‘ folgt für die
zugehörige Dichtefunktion F(z):
F(-z) = 1 - F(+z)
Damit ergibt sich, dass die Wahrscheinlichkeit 0,9370 beträgt
und bei der N(0,1)-Verteilung ein Wert vorkommt, der kleiner
oder gleich +1,53 ist.
M. Kresken
43
Zentraler Grenzwertsatz der Normalverteilung
• Umgekehrt lässt sich das -Quantil z() der
Standardnormalverteilung aus der Tabelle ermitteln
M. Kresken
44
Tabelle der Normalverteilung
Für das 0,05-Quantil
( = 0,05) ergibt sich:
• der z-Wert von 0,0505 ist –1,64
• der z-Wert von 0,0495 ist –1,65
• durch lineare Interpolation ergibt
sich –1,645.
M. Kresken
45
Tabelle der Normalverteilung
Entsprechend ergibt sich für das
0,975-Quantil ( = 0,975):
Verwenden der Symmetrie
z(0,975)
= -z(1 – 0,975)
= -z(0,025)
= -(-1,96)
= 1,96
M. Kresken
46
Herunterladen