3. Wahrscheinlichkeitsrechnung und

Werbung
14.11.2014
3. Wahrscheinlichkeitsrechnung und
Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Beispiel
Eine 1-Euro-Münze wird 1000 mal geworfen und die
beiden möglichen Versuchsausgänge "Kopf" oder
"Zahl" registriert.
500 mal
500 mal
521 mal
479 mal
600 mal
400 mal
Ist die 1-Euro-Münze „fair“ ?
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
2
1
14.11.2014
14.11.2014
Zufallsgrößen
Generell besteht der Wunsch, mit Versuchsergebnissen
zu rechnen.
dafür notwendig: Zahlen
Jedem Versuchsergebnis wird eine Zahl zugeordnet.
direkt:
indirekt:
wenn Versuchsergebnis numerisch ist
durch geeignete Codierungen
ja1, nein0
sehr gut1, gut2, unverändert3, schlecht4, sehr schlecht5
Mathematisch ist eine solche Zuordnung eine Funktion.
Derartige Funktionen heißen Zufallsgrößen.
3
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeit P(E) des Eintretens eines Ereignisses E:
definiert durch den Grenzwert der relativen Häufigkeit des
Ereignisses E
P( E )  lim n rn ( E )
Wahrscheinlichkeit:
relative Häufigkeit:
abstrakt
Erfahrungswert
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
beziehen sich
auf ein Ereignis
4
2
14.11.2014
14.11.2014
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilung vs. Häufigkeitsverteilung
5
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Wahrscheinlichkeitsrechnung
Ergebnismenge
Menge aller möglichen Ergebnisse eines Zufallsexperiments
(zufälliges) Ereignis
Teilmenge der Ergebnismenge
Bezeichnung durch Großbuchstaben
Beispiel: Würfel
Ergebnismenge: {1, 2, 3, 4, 5, 6}
Ereignisse:
„gerade Zahl“
„keine Zwei“
„Sechs“
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
{2, 4, 6}
{1, 3, 4, 5, 6}
{6}
6
3
14.11.2014
14.11.2014
Wahrscheinlichkeitsrechnung
unmögliches Ereignis
entspricht der leeren Menge
weniger als Eins würfeln
sicheres Ereignis
entspricht der Ergebnismenge
eine Zahl von Eins bis Sechs würfeln
unvereinbare (unverträgliche) Ereignisse
können nie gleichzeitig auftreten
vereinbar
unvereinbar
E1
E1
E2
E2
7
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Wahrscheinlichkeitsrechnung
unmögliches Ereignis
entspricht der leeren Menge
weniger als Eins würfeln
sicheres Ereignis
entspricht der Ergebnismenge
eine Zahl von Eins bis Sechs würfeln
unvereinbare (unverträgliche) Ereignisse
können nie gleichzeitig auftreten
würfeln einer geraden Zahl
mehr als Drei würfeln
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
vereinbar
unvereinbar
E1
E1
E2
E2
8
4
14.11.2014
14.11.2014
Wahrscheinlichkeitsrechnung
unmögliches Ereignis
entspricht der leeren Menge
weniger als Eins würfeln
sicheres Ereignis
entspricht der Ergebnismenge
eine Zahl von Eins bis Sechs würfeln
unvereinbare (unverträgliche) Ereignisse
können nie gleichzeitig auftreten
vereinbar
würfeln einer geraden Zahl
weniger als Zwei würfeln
unvereinbar
E1
E1
E2
E2
9
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Wahrscheinlichkeitsrechnung
Beispiel
16
History of Diabetes at Baseline * History of Hypertension at Baseline
Kreuztabelle
Anzahl
History of Hypertension
at Baseline
No
History of Diabetes
at Baseline
Gesamt
No
Yes
84
Yes
140
48
Gesamt
224
16
48
64
100
188
288
140
84
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
10
5
14.11.2014
14.11.2014
Wahrscheinlichkeitsrechnung
Verwandte Begriffe
Deskriptive Statistik (Stichprobe)
Math. Statistik (Grundgesamtheit)
Merkmal
Zufallsgröße
zufälliges Ereignis
Menge
relative Häufigkeit
Wahrscheinlichkeit
Häufigkeitsverteilung
Wahrscheinlichkeitsverteilung
Histogramm
Dichtefunktion
empirischer Mittelwert
Erwartungswert
Stichprobenmedian
Median
Stichprobenperzentile
Perzentile
Stichprobenquartile
Quartile
Stichprobenvarianz
Varianz
Stichprobenstandardabweichung
Standardabweichung
11
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Verteilungen
Beobachtungen
von zufällige Ereignissen (Zufallsgrößen)
einzelne Realisierungen durch Zufall beeinflusst
Betrachtung der Gesamtheit aller Ereignisse liefert
Häufigkeitsverteilung
Wahrscheinlichkeit:
relative Häufigkeit:
abstrakt
Erfahrungswert
beziehen sich
auf ein Ereignis
Wahrscheinlichkeitsverteilung: abstrakt
Häufigkeitsverteilung: Erfahrungswert
Gesamtheit aller
Ereignisse
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
12
6
14.11.2014
14.11.2014
Verteilungen
Bedeutung von Verteilungen
Viele Merkmale können in der Praxis durch theoretische
Verteilungen approximert werden.
Kenntnisse über ein Merkmal zu erlangen heißt, seine
Verteilung zu untersuchen.
13
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Verteilungen
Bedeutung von Verteilungen
-liefern eine mathematische Modellvorstellung
-ermöglichen praktischen Umgang mit Realisierungen von
Zufallsexperimenten
-ermöglichen die Einordnung von Versuchsergebnissen in
eine passende Modellwelt
Übereinstimmung mit a priori Annahmen
Einschätzung, wie wahrscheinlich ein konkreter Versuchsausgang
unter bestimmten Hypothesen ist
-stetige oder diskrete Verteilungen je nach Wertevorrat
-Beschreibung durch Dichtefunktion
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14
7
14.11.2014
14.11.2014
Verteilungen
Beispiele
Verteilung (Modell)
Häufigkeitsverteilung
Boxplot
Median < Erwartungswert
linksschief
Median = Erwartungswert
symmetrisch
15
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
diskrete Verteilungen
Beispiele
0.6
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0.5
0.4
0.3
0.2
0.1
0
0
1
0
1
2
3
4
5
6
0
0
5
10
15
20
faire Münze
fairer Würfel
Anzahl von Zellen
(Mikroskop)
endlich
endlich
(theoretisch) abzählbar
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
16
8
14.11.2014
14.11.2014
Normalverteilung
Bedeutung
Man wird immer dann erwarten können, daß eine
Zufallsgröße annähernd normalverteilt ist, wenn sie das
Resultat vieler zufälliger Ereignisse ist, die alle einen
kleinen Einfluß auf das Endergebnis haben.
Addition von vielen unabhängigen (zufälligen) Fehlern
schwanken im Vorzeichen
schwanken im Betrag
summarischer Fehler wird häufiger in der Umgebung von Null liegen
als betragsmäßig große Fehler
betragsmäßig große summarische Fehler sind selten aber nicht
unmöglich
17
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Normalverteilung
Beschreibung
stetige Verteilung
Wertevorrat eines normalverteilten Merkmals: reelle Zahlen
beschreibbar mit zwei Parametern  und ² > 0
0.4
Dichtefunktion

1
 ( x) 
e
 2
0.2
Gaußsche Glockenkurve
0
-4
( x  )2
2 2
-2
0
2
4
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
18
9
14.11.2014
14.11.2014
Normalverteilung
Beschreibung
beschreibbar mit zwei Parametern  und ² > 0
0.4
Dichtefunktion

1
 ( x) 
e
 2
0.2
( x  )2
2 2
Gaußsche Glockenkurve
0
-4
-2
0
2
4
Lageparameter
Median)
Streuparameter,(Erwartungswert,
Formparameter (Varianz)
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
19
14.11.2014
Normalverteilung
Eigenschaften
die wichtigste stetige Verteilung in der Statistik
Resultat vieler zufälliger Ereignisse (natürliches Vorkommen)
viele statistische Berechnungen benutzen Addition
damit sind Ergebnisse solcher Berechnungen für genügend
große n annähernd normalverteilt
Schreibweise:
X ~ N (  , 2 )
Erwartungswert: 
Varianz:
2
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
20
10
14.11.2014
14.11.2014
Normalverteilung
Eigenschaften
Standardnormalverteilung mit
Erwartungswert  = 0 und Varianz ² = 1
 = -2,  = 2
 = 0,  = 1
 = 2,  = 0,5
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
-8
-6
-4
-2
0
X ~ N (0,1)
2
4
0
-8
-6
-4
-2
0
2
4
0
-8
-6
-4
-2
0
2
4
21
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Normalverteilung
Eigenschaften
-Die Dichtefunktion ist symmetrisch um .
0.4

1
 ( x) 
e
 2
0.2
( x   )2
2 2
0
-4
-2
0
2
4
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
22
11
14.11.2014
14.11.2014
Normalverteilung
Eigenschaften
-Die Dichtefunktion ist symmetrisch um .
-Die Wendepunkte der Funktion liegen bei    .
0.4

1
 ( x) 
e
 2
0.2
( x   )2
2 2
0
-4
-2
0
2
4
23
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Normalverteilung
Eigenschaften
-Die Dichtefunktion ist symmetrisch um .
-Die Wendepunkte der Funktion liegen bei    .
1
-Maximum der Dichte bei :  (  ) 
 2
0.4

1
 ( x) 
e
 2
0.2
( x   )2
2 2
0
-4
-2
0
2
4
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
24
12
14.11.2014
14.11.2014
Normalverteilung
Eigenschaften
-Die Dichtefunktion ist symmetrisch um .
-Die Wendepunkte der Funktion liegen bei    .
1
-Maximum der Dichte bei :  (  ) 
 2
-Die Summe normalverteilter Zufallsgrößen ist normalverteilt.
Erwartungswerte addieren sich
Varianzen addieren sich wenn die Zufallsgrößen unabhängig sind
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
25
14.11.2014
Normalverteilung
Eigenschaften
-Die Dichtefunktion ist symmetrisch um .
-Die Wendepunkte der Funktion liegen bei    .
1
-Maximum der Dichte bei :  (  ) 
 2
-Die Summe normalverteilter Zufallsgrößen ist normalverteilt.
Erwartungswerte addieren sich
Varianzen addieren sich wenn die Zufallsgrößen unabhängig sind
-Die Flächen unter der Dichtefunktion innerhalb der -Grenzen
immer gleich: 0,6827 (1), 0,9545 (2) und 0,9973 (3).
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
26
13
14.11.2014
14.11.2014
Normalverteilung
-Grenzen
-3
-2
-1
0,6827
+1
+2
+3
0,9545
0,9973
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
27
3. Wahrscheinlichkeitsrechnung und
Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14
14.11.2014
14.11.2014
Referenzbereiche (Normalbereiche)
Definition
-Bereich um den Mittelwert oder Median
-Bereich wird so gewählt, dass ein vorher festgelegter
Prozentsatz von Messwerten in diesen Bereich fällt
-Basis für Festlegung bilden Daten einer gesunden Population
i.d.R. symmetrischer Ausschluss nach „unten“ und „oben“
z.B. 90%-Referenzbereich
0.4
90%-Referenzbereich
0.2
90%
0
5%
-4
-2
(perzentilbasiert)
5%
0
2
4
29
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Referenzbereiche (Normalbereiche)
Definition
Bereich um den Mittelwert oder Median
Bereich wird so gewählt, dass ein vorher festgelegter
Prozentsatz von Messwerten in diesen Bereich fällt
Basis für Festlegung bilden Daten einer gesunden Population
i.d.R. symmetrischer Ausschluss nach „unten“ und „oben“
z.B. 95%-Referenzbereich (im normalverteilten Fall)
95%-Referenzbereich
-3
-2
-1
0,6827
+1
+2
+3
(-Grenzen-basiert)
0,9545
0,9973
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
30
15
14.11.2014
14.11.2014
Schätzstatistik
Ziel statistischer Untersuchungen
Schlussfolgerungen aus statistischen Erhebungen ziehen
Interpretation von Daten
Bildung von Kennzahlen
Problem
Entscheidungsprozeß in einer Situation der Ungewißheit
Unvollständigkeit der Information innerhalb einer Stichprobe
zufallsbedingte Streuung der Beobachtungswerte
Die Wahrscheinlichkeit, eine falsche Schlußfolgerung zu
ziehen, ist im allgemeinen echt größer als Null!
31
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Schätzstatistik
X
Verteilung von X
Parameter der Verteilung
(Erwartungswert, Varianz, Median ...)
Beobachtungswerte
(konkrete Stichprobe)
Schätzwerte für Verteilungsparameter
emp. (Mittelwert, Varianz, Median ...)
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
Schlußfolgerungen
Interpretation
Fehlerbetrachtung
32
16
14.11.2014
14.11.2014
Schätzstatistik
Teil der schließenden Statistik
Ermittlung eines oder mehrerer Parameter einer
Grundgesamtheit aus einer konkreten Stichprobe
Punktschätzer
liefern Zahlen
Einschätzung und Berücksichtigung des Schätzfehlers auf
der Basis einer konkreten Stichprobe
Intervallschätzer
liefern Intervalle
33
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Punktschätzungen
am häufigsten verwendete Schätzwerte
Verteilungsparameter
Wahrscheinlichkeit eines Ereignisses E
Punktschätzwert
rn(E)
Median
x
~
x
Varianz
s²
Standardabweichung
s
Perzentile, Quantile
xp
Erwartungswert
Quartile
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
x0, 25 , x0,75
34
17
14.11.2014
14.11.2014
Intervallschätzungen
Probleme bei Punktschätzungen
-aus konkreter Stichprobe berechneter Schätzwert wird im
allgemeinen vom wirklichen Parameter abweichen
-ein einzelner Schätzwert kann sehr weit vom wahren
Parameter entfernt liegen
-Aussagen über Abweichungen fehlen bei Punktschätzern
Umgang mit Abweichungen
-Abweichungen werden durch zufällige Einflüsse verursacht
-folglich sind absolut sichere Aussagen i.a. nicht möglich
-Ziel sind Aussagen über den unbekannten Parameter, die
wenigstens „in den meisten Fällen“ richtig sind
35
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Intervallschätzungen
Deskriptive Statistik
Age in Years
Treatment Code
t-PA
Statistik
66,6210
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
5% getrimmtes Mittel
64,9313
68,3106
67,0207
Median
68,7243
Varianz
Standardabweichung
Placebo
Standardfe
hler
,85479
105,216
10,25749
Minimum
40,07
Maximum
88,51
Spannweite
Interquartilbereich
48,45
15,93
Schiefe
-,569
Kurtosis
-,390
,401
65,6903
,93842
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
5% getrimmtes Mittel
Median
Varianz
Standardabweichung
,202
63,8357
67,5449
66,2705
66,9994
129,453
11,37774
Minimum
33,90
Maximum
89,00
Spannweite
Interquartilbereich
55,10
16,50
Schiefe
-,694
,200
Kurtosis
-,040
,397
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
Unterschied
zufällig?
36
18
14.11.2014
14.11.2014
Intervallschätzungen
Deskriptive Statistik
Age in Years
Treatment Code
t-PA
Statistik
66,6210
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
5% getrimmtes Mittel
64,9313
68,3106
67,0207
Median
68,7243
Varianz
Standardabweichung
105,216
10,25749
Minimum
40,07
Maximum
88,51
Spannweite
48,45
15,93
Interquartilbereich
Schiefe
-,569
Kurtosis
Placebo
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Standardfe
hler
,85479
Untergrenze
Obergrenze
5% getrimmtes Mittel
,202
-,390
,401
65,6903
,93842
63,8357
mittlerer
Schätzfehler
67,5449
66,2705
Median
66,9994
Varianz
Standardabweichung
129,453
11,37774
Minimum
33,90
Maximum
89,00
Spannweite
Interquartilbereich
55,10
16,50
Schiefe
-,694
,200
Kurtosis
-,040
,397
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
37
14.11.2014
Intervallschätzungen
Definition
Ein (empirisches) (1-α)-Konfidenzintervall oder auch
(empirischer) (1-α)-Vertrauensbereich für den
unbekannten Verteilungsparameter ϑ ist ein Bereich um den
Punktschätzwert ̂, der aus der Stichprobe berechnet wird
und den unbekannten wahren Parameter ϑ mit Sicherheit
1-α enthält.
Die Zahl  = 1 -  nennt man Konfidenzniveau.
übliche Werte:
 = 0,95,

 = 0,99

3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
38
19
14.11.2014
14.11.2014
Intervallschätzungen
Fazit
Die Qualität der Entscheidung ˆu    ˆo wird durch das
Konfidenzniveau  maßgeblich beeinflußt.
Sinnvolle Forderungen
Die Wahrscheinlichkeit  sollte möglichst groß (nahe 1) sein.
Für brauchbare Entscheidungen sollte die Länge des Intervalls
(als Realisierung) möglichst klein sein.
Problem
Beide Forderungen wirken gegensätzlich!
Die Wahrscheinlichkeit  muß vor dem Versuch vorgegeben
werden.
39
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Intervallschätzungen
Deskriptive Statistik
Age in Years
Treatment Code
t-PA
Statistik
66,6210
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
5% getrimmtes Mittel
[64,93; 68,32]
64,9313
68,3106
67,0207
Median
68,7243
Varianz
Standardabweichung
Placebo
Standardfe
hler
,85479
105,216
10,25749
Minimum
40,07
Maximum
88,51
Spannweite
Interquartilbereich
48,45
15,93
Schiefe
-,569
Kurtosis
-,390
,401
65,6903
,93842
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
5% getrimmtes Mittel
Median
Varianz
Standardabweichung
,202
[63,83; 67,55]
63,8357
67,5449
66,2705
66,9994
129,453
11,37774
Minimum
33,90
Maximum
89,00
Spannweite
Interquartilbereich
55,10
16,50
Schiefe
-,694
,200
Kurtosis
-,040
,397
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
40
20
14.11.2014
14.11.2014
Intervallschätzungen
Deskriptive Statistik
Age in Years
Treatment Code
t-PA
Statistik
66,6210
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
67,0207
68,7243
69
105,216
[63,84; 67,54]
10,25749
Minimum
40,07
Maximum
88,51
Spannweite
48,45
15,93
Schiefe
-,569
Kurtosis
Mittelwert
95% Konfidenzintervall
des Mittelwerts
63
68,3106
Median
Interquartilbereich
Placebo
[64,93; 68,31]
64,9313
5% getrimmtes Mittel
Varianz
Standardabweichung
Standardfe
hler
,85479
Untergrenze
Obergrenze
5% getrimmtes Mittel
Median
,202
-,390
,401
65,6903
,93842
63,8357
Überlappung
67,5449
66,2705
66,9994
Varianz
Standardabweichung
129,453
11,37774
Minimum
33,90
Maximum
89,00
Spannweite
Interquartilbereich
55,10
16,50
Schiefe
-,694
,200
Kurtosis
-,040
,397
Unterschiede
möglicherweise
zufälliger Natur
( = 0,05)
41
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Konfidenzintervalle
[66,03; 68,31]
[64,93; 68,31]
63
69
[63,84; 67,54]
Überlappung
Unterschiede
möglicherweise
zufälliger Natur
( = 0,05)
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
63
69
[63,84; 65,94]
keine Überlappung
Unterschiede
signifikant
( = 0,05)
42
21
14.11.2014
14.11.2014
Intervallschätzungen
Berechnung
abhängig vom zu schätzenden Parameter
Erwartungswert, Median, Varianz, Median, Odds-Ratio, relatives
Risiko, Wahrscheinlichkeiten, Vorhersagewerte
Erwartungswertdifferenzen, Wahrscheinlichkeitsdifferenzen
häufige Form
ˆ  Quantil1 / 2  Standardfehler
Standardfehler … des Punktschätzers
Quantil … der passenden Verteilung
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
43
14.11.2014
Spezielle Konfidenzintervalle
t-Verteilung
0.4
0.3
s
s


 x  n  t1 / 2 , x  n  t1 / 2 
0.2
0.1
0
-4
-2
0
2
4
t9, 0,950 = 1,83
t9, 0,975 = 2,26
t9, 0,995 = 3,25
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
44
22
14.11.2014
14.11.2014
Spezielle Konfidenzintervalle
Erwartungswert einer N(,²)-verteilten Zufallsgröße
Voraussetzungen: normalverteilte Grundgesamtheit
 nicht bekannt
konkrete Stichprobe: x   x1 , x2 , , xn 
empirisches Konfidenzintervall
s
s


 x  n  t1 / 2 , x  n  t1 / 2 
Quantile der des
t-Verteilung
mit n - 1 Freiheitsgraden
Standardfehler
Mittelwertes
45
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
Spezielle Konfidenzintervalle
t-Verteilung
N(0,1)
0.4
F
0.3
4 Freiheitsgrade
15 Freiheitsgrade
0.2
0.1
0
-5
-2.5
0
x
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
2.5
5
46
23
14.11.2014
14.11.2014
Konfidenzintervalle
Eigenschaften
-je höher das Konfidenzniveau, desto länger das
Konfidenzintervall
Quantile werden größer
-je höher die Varianz der Daten, desto länger das
Konfidenzintervall
größere Unsicherheit bei der Schätzung
-je größer der Stichprobenumfang, desto kürzer das
Konfidenzintervall
fällt nur mit n
47
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
14.11.2014
AUFGABE 1 NORMALVERTEILUNG)
Etwa wieviel Prozent aller Werte einer normalverteilten
Zufallsgröße liegen im sogenannten 2--Bereich?
A
B
C
D
90 %
68 %
95 %
99%
-3
-2
-1
0,6827
+1
+2
+3
95%-Referenzbereich
(-Grenzen-basiert)
0,9545
0,9973
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
48
24
14.11.2014
AUFGABE 2 (REFERENZWERTE)
14.11.2014
Bestimmen Sie anhand geeigneter Perzentile den mittleren 95%
Referenzbereich für den systolischen Blutdruck in der Stichprobe
des Bundesgesundheitssurveys 1997/98 bei 5013 Personen, die
angaben, nicht an Bluthochdruck zu leiden:
Statistiken
95% Referenzbereich:
Mittlerer systol. Blutdruck in mmHG
171
mm Hg
102 mm Hg bis
N
Gültig
5013
Fehlend
9
( von 2.5 % bis 97.5 % )
Mittelwert
130,19
Standardabweichung
17,205
Perzentile 0,5
2,5
5
16
84
95
97,5
99,5
97,00
102,00
106,00
114,00
146,00
162,00
171,00
192,00
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
AUFGABE 2 (REFERENZWERTE)
49
14.11.2014
Wenn die Verteilung des Messwertes näherungsweise dem in der
Statistik häufig verwendeten theoretischen Modell einer
Normalverteilung (Gaußsche Glockenkurve) entspricht, kann der
mittlere 95%-Referenzbereich aus Mittelwert  2  Standardabweichung alternativ zur Perzentil-Methode gebildet werden. In
diesen Bereich fallen bei normalverteilten Messwerten ca. 95%
aller Werte.
Ergänzen Sie unter dieser Annahme die entsprechenden
Blutdruckwerte in der 2. Zeile unter der nachfolgenden
Grafik. Der Mittelwert von 130 mm Hg und die empirische
Standardabweichung von 17 mm Hg aus den Surveydaten
dienen als Schätzwerte für den Erwartungswert  und die
Standardabweichung  der Blutdruckwerte bei Personen, die
nach eigenen Angaben nicht unter Hypertonie leide
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
50
25
14.11.2014
AUFGABE 2 (REFERENZWERTE)
14.11.2014
 = 130
 = 17

79
  
  
96 113 130 147 164 181
51
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
AUFGABE 2 (REFERENZWERTE)
14.11.2014
Markieren Sie den 95% Referenzbereich und
vergleichen Sie das Ergebnis mit dem
Statistiken
Referenzbereich von 102 mmHg bis 171 mmHg,
Mittlerer systol. Blutdruck in mmHG
N
Gültig
5013
der nach der Perzentil-Methode ermittelt
Fehlend
9
wurde.
Mittelwert
130,19
Standardabweichung
17,205
Perzentile 0,5
2,5
5
16
84
95
97,5
99,5
97,00
102,00
106,00
114,00
146,00
162,00
171,00
192,00
Je besser das Modell einer Normalverteilung auf die empirischen Daten
passt, desto geringer werden die Unterschiede in den nach beiden
Methoden ermittelten Referenzbereichen sein!
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
52
26
14.11.2014
AUFGABE 2 (REFERENZWERTE)
14.11.2014
96 -164 mmHg
versus
102-171 mmHg
      
79 96 113 130 147 164 181
Faustregel: Rund wie viel Prozent der Werte liegen bei einer Normalverteilung
im Intervall zwischen
 und + : 68 %
2 und +2 : 95 % 3 und +3 : 99 %
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
?
53
14.11.2014
AUFGABE 3 (KONFIDENZINTERVALL)
Welche Aussage über das 95% - Konfidenzintervall für eine
unbekannte Wahrscheinlichkeit trifft zu?
A
B
C
D
Bei gleichbleibender relativer Häufigkeit wird das
Konfidenzintervall mit zunehmenden Stichprobenumfang
breiter.
Das 99% - Konfidenzintervall ist schmaler als das 95% Konfidenzintervall.
Bei gleichbleibender relativer Häufigkeit wird das
Konfidenzintervall mit zunehmendem Stichprobenumfang
schmaler.
Die Breite des Konfidenzintervalls hängt nicht vom
Stichprobenumfang n ab.
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
54
27
14.11.2014
AUFGABE 4 (KI für Mittelwert)
14.11.2014
Der Bundesgesundheitssurvey erfasste Risikofaktoren und Erkrankungen in einer repräsentativen Stichprobe der 18-79 jährigen Wohnbevölkerung in Deutschland. Dabei wurde auch das Cholesterin als
wichtiger Risikofaktor für Herz-Kreislauf-Erkrankungen erfasst. Die
nachfolgende Tabelle zeigt den Schätzwert für das mittlere HDLCholesterin von 1.64 mmol/l, 95% Konfidenzintervall (1.59, 1.68)
mmol/l in der Subgruppe der 20-29 jährigen Frauen (n=481).
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
AUFGABE 4 (KI für Mittelwert)
55
14.11.2014
1. Für welche Population ist der HDL Wert von 1.64 mmol/l ein guter
Schätzwert für den HDL-Mittelwert?
20-29 jährige Frauen der Wohnbevölkerung Deutschlands
2. Welche zusätzliche Information über den wahren, aber unbekannten
Mittelwert von HDL liefert das 95% Konfidenzintervall?
Das aus den Daten geschätzte 95% Konfidenzintervall
schließt den unbekannten HDL-Mittelwert mit einer
statistischen Sicherheit von 95% ein.
3. Wenn man den mittleren HDL-Wert und das zugehörige 95% CI
nicht nur in einer, sondern in 20 unabhängigen, bevölkerungsrepräsentativen Stichproben bestimmt ( jeweils 481 Frauen im Alter
von 20-29 Jahren), wie viele dieser 20 CI würden den wahren, aber
unbekannten HDL-Mittelwert näherungsweise einschließen?
ca. 19
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
56
28
14.11.2014
AUFGABE 4 (KI für Mittelwert)
14.11.2014
4. Zur Kontrolle könnte man das in der Tabelle angegebene 95% CI für
den HDL-Mittelwert nachrechnen (mit gerundete Werten):
gu = geschätzter HDL-Mittelwert – Quantil (1-α/2) * Standardfehler
= 1.64 – 1.96 * 0.02 = 1.60
go = geschätzter HDL-Mittelwert + Quantil (1-α/2) * Standardfehler
= 1.64 + 1.96 * 0.02 = 1.68
Für die Berechnung werden der geschätzte Mittelwert und der mit einem Faktor
(Quantil) multiplizierte Standardfehler des geschätzten Wertes (Standard Error, SE)
benötigt.
Der Standardfehler kann aus den Daten der Stichprobe durch SE = s/n geschätzt
werden.
Der Faktor entspricht einem Quantil einer bestimmten Verteilung, hier der tVerteilung. 1.96 ist der Wert des (1-α/2) = 0.975 Quantils bei (n-1) = 480
Freiheitsgraden.
57
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
AUFGABE 4 (KI für Mittelwert)
14.11.2014
„Fehler-Balken“-Darstellung Mittelwert und 95%-Konfidenzintervall für den HDLCholesterinwert der jungen Frauen. Die Breite des Intervalls hängt vom gewählten
Konfidenzniveau (1-α), vom Stichprobenumfang und der Streuung der HDL-Werte
ab.
Stichprobenumfang:
Konfidenzniveau:
481
90%
481
99%
481
95%
50
95%
5000
95%
grösser
Intervalllänge:
kleiner
grösser
kleiner
5. Geben Sie für die unterschiedlichen Konfidenzniveaus und Stichprobenumfänge
an, ob sich das Intervall gegenüber dem abgebildeten vergrößert oder verkleinert
(grob skizzieren).
6. Was ist besser: ein breites oder ein schmales Konfidenzintervall? Warum?
Wegen der höherer Genauigkeit (Präzision) der Schätzung wird immer ein
schmales Konfidenzintervall angestrebt!
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
58
29
14.11.2014
14.11.2014
5. Methoden der schließenden Statistik –
allgemeines Testprinzip
3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen
4. Referenzbereiche und Konfidenzintervalle
59
30
Herunterladen