14.11.2014 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Beispiel Eine 1-Euro-Münze wird 1000 mal geworfen und die beiden möglichen Versuchsausgänge "Kopf" oder "Zahl" registriert. 500 mal 500 mal 521 mal 479 mal 600 mal 400 mal Ist die 1-Euro-Münze „fair“ ? 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 2 1 14.11.2014 14.11.2014 Zufallsgrößen Generell besteht der Wunsch, mit Versuchsergebnissen zu rechnen. dafür notwendig: Zahlen Jedem Versuchsergebnis wird eine Zahl zugeordnet. direkt: indirekt: wenn Versuchsergebnis numerisch ist durch geeignete Codierungen ja1, nein0 sehr gut1, gut2, unverändert3, schlecht4, sehr schlecht5 Mathematisch ist eine solche Zuordnung eine Funktion. Derartige Funktionen heißen Zufallsgrößen. 3 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Wahrscheinlichkeitsrechnung Wahrscheinlichkeit P(E) des Eintretens eines Ereignisses E: definiert durch den Grenzwert der relativen Häufigkeit des Ereignisses E P( E ) lim n rn ( E ) Wahrscheinlichkeit: relative Häufigkeit: abstrakt Erfahrungswert 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle beziehen sich auf ein Ereignis 4 2 14.11.2014 14.11.2014 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilung vs. Häufigkeitsverteilung 5 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Wahrscheinlichkeitsrechnung Ergebnismenge Menge aller möglichen Ergebnisse eines Zufallsexperiments (zufälliges) Ereignis Teilmenge der Ergebnismenge Bezeichnung durch Großbuchstaben Beispiel: Würfel Ergebnismenge: {1, 2, 3, 4, 5, 6} Ereignisse: „gerade Zahl“ „keine Zwei“ „Sechs“ 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle {2, 4, 6} {1, 3, 4, 5, 6} {6} 6 3 14.11.2014 14.11.2014 Wahrscheinlichkeitsrechnung unmögliches Ereignis entspricht der leeren Menge weniger als Eins würfeln sicheres Ereignis entspricht der Ergebnismenge eine Zahl von Eins bis Sechs würfeln unvereinbare (unverträgliche) Ereignisse können nie gleichzeitig auftreten vereinbar unvereinbar E1 E1 E2 E2 7 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Wahrscheinlichkeitsrechnung unmögliches Ereignis entspricht der leeren Menge weniger als Eins würfeln sicheres Ereignis entspricht der Ergebnismenge eine Zahl von Eins bis Sechs würfeln unvereinbare (unverträgliche) Ereignisse können nie gleichzeitig auftreten würfeln einer geraden Zahl mehr als Drei würfeln 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle vereinbar unvereinbar E1 E1 E2 E2 8 4 14.11.2014 14.11.2014 Wahrscheinlichkeitsrechnung unmögliches Ereignis entspricht der leeren Menge weniger als Eins würfeln sicheres Ereignis entspricht der Ergebnismenge eine Zahl von Eins bis Sechs würfeln unvereinbare (unverträgliche) Ereignisse können nie gleichzeitig auftreten vereinbar würfeln einer geraden Zahl weniger als Zwei würfeln unvereinbar E1 E1 E2 E2 9 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Wahrscheinlichkeitsrechnung Beispiel 16 History of Diabetes at Baseline * History of Hypertension at Baseline Kreuztabelle Anzahl History of Hypertension at Baseline No History of Diabetes at Baseline Gesamt No Yes 84 Yes 140 48 Gesamt 224 16 48 64 100 188 288 140 84 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 10 5 14.11.2014 14.11.2014 Wahrscheinlichkeitsrechnung Verwandte Begriffe Deskriptive Statistik (Stichprobe) Math. Statistik (Grundgesamtheit) Merkmal Zufallsgröße zufälliges Ereignis Menge relative Häufigkeit Wahrscheinlichkeit Häufigkeitsverteilung Wahrscheinlichkeitsverteilung Histogramm Dichtefunktion empirischer Mittelwert Erwartungswert Stichprobenmedian Median Stichprobenperzentile Perzentile Stichprobenquartile Quartile Stichprobenvarianz Varianz Stichprobenstandardabweichung Standardabweichung 11 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Verteilungen Beobachtungen von zufällige Ereignissen (Zufallsgrößen) einzelne Realisierungen durch Zufall beeinflusst Betrachtung der Gesamtheit aller Ereignisse liefert Häufigkeitsverteilung Wahrscheinlichkeit: relative Häufigkeit: abstrakt Erfahrungswert beziehen sich auf ein Ereignis Wahrscheinlichkeitsverteilung: abstrakt Häufigkeitsverteilung: Erfahrungswert Gesamtheit aller Ereignisse 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 12 6 14.11.2014 14.11.2014 Verteilungen Bedeutung von Verteilungen Viele Merkmale können in der Praxis durch theoretische Verteilungen approximert werden. Kenntnisse über ein Merkmal zu erlangen heißt, seine Verteilung zu untersuchen. 13 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Verteilungen Bedeutung von Verteilungen -liefern eine mathematische Modellvorstellung -ermöglichen praktischen Umgang mit Realisierungen von Zufallsexperimenten -ermöglichen die Einordnung von Versuchsergebnissen in eine passende Modellwelt Übereinstimmung mit a priori Annahmen Einschätzung, wie wahrscheinlich ein konkreter Versuchsausgang unter bestimmten Hypothesen ist -stetige oder diskrete Verteilungen je nach Wertevorrat -Beschreibung durch Dichtefunktion 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14 7 14.11.2014 14.11.2014 Verteilungen Beispiele Verteilung (Modell) Häufigkeitsverteilung Boxplot Median < Erwartungswert linksschief Median = Erwartungswert symmetrisch 15 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 diskrete Verteilungen Beispiele 0.6 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0.5 0.4 0.3 0.2 0.1 0 0 1 0 1 2 3 4 5 6 0 0 5 10 15 20 faire Münze fairer Würfel Anzahl von Zellen (Mikroskop) endlich endlich (theoretisch) abzählbar 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 16 8 14.11.2014 14.11.2014 Normalverteilung Bedeutung Man wird immer dann erwarten können, daß eine Zufallsgröße annähernd normalverteilt ist, wenn sie das Resultat vieler zufälliger Ereignisse ist, die alle einen kleinen Einfluß auf das Endergebnis haben. Addition von vielen unabhängigen (zufälligen) Fehlern schwanken im Vorzeichen schwanken im Betrag summarischer Fehler wird häufiger in der Umgebung von Null liegen als betragsmäßig große Fehler betragsmäßig große summarische Fehler sind selten aber nicht unmöglich 17 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Normalverteilung Beschreibung stetige Verteilung Wertevorrat eines normalverteilten Merkmals: reelle Zahlen beschreibbar mit zwei Parametern und ² > 0 0.4 Dichtefunktion 1 ( x) e 2 0.2 Gaußsche Glockenkurve 0 -4 ( x )2 2 2 -2 0 2 4 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 18 9 14.11.2014 14.11.2014 Normalverteilung Beschreibung beschreibbar mit zwei Parametern und ² > 0 0.4 Dichtefunktion 1 ( x) e 2 0.2 ( x )2 2 2 Gaußsche Glockenkurve 0 -4 -2 0 2 4 Lageparameter Median) Streuparameter,(Erwartungswert, Formparameter (Varianz) 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 19 14.11.2014 Normalverteilung Eigenschaften die wichtigste stetige Verteilung in der Statistik Resultat vieler zufälliger Ereignisse (natürliches Vorkommen) viele statistische Berechnungen benutzen Addition damit sind Ergebnisse solcher Berechnungen für genügend große n annähernd normalverteilt Schreibweise: X ~ N ( , 2 ) Erwartungswert: Varianz: 2 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 20 10 14.11.2014 14.11.2014 Normalverteilung Eigenschaften Standardnormalverteilung mit Erwartungswert = 0 und Varianz ² = 1 = -2, = 2 = 0, = 1 = 2, = 0,5 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 -8 -6 -4 -2 0 X ~ N (0,1) 2 4 0 -8 -6 -4 -2 0 2 4 0 -8 -6 -4 -2 0 2 4 21 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Normalverteilung Eigenschaften -Die Dichtefunktion ist symmetrisch um . 0.4 1 ( x) e 2 0.2 ( x )2 2 2 0 -4 -2 0 2 4 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 22 11 14.11.2014 14.11.2014 Normalverteilung Eigenschaften -Die Dichtefunktion ist symmetrisch um . -Die Wendepunkte der Funktion liegen bei . 0.4 1 ( x) e 2 0.2 ( x )2 2 2 0 -4 -2 0 2 4 23 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Normalverteilung Eigenschaften -Die Dichtefunktion ist symmetrisch um . -Die Wendepunkte der Funktion liegen bei . 1 -Maximum der Dichte bei : ( ) 2 0.4 1 ( x) e 2 0.2 ( x )2 2 2 0 -4 -2 0 2 4 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 24 12 14.11.2014 14.11.2014 Normalverteilung Eigenschaften -Die Dichtefunktion ist symmetrisch um . -Die Wendepunkte der Funktion liegen bei . 1 -Maximum der Dichte bei : ( ) 2 -Die Summe normalverteilter Zufallsgrößen ist normalverteilt. Erwartungswerte addieren sich Varianzen addieren sich wenn die Zufallsgrößen unabhängig sind 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 25 14.11.2014 Normalverteilung Eigenschaften -Die Dichtefunktion ist symmetrisch um . -Die Wendepunkte der Funktion liegen bei . 1 -Maximum der Dichte bei : ( ) 2 -Die Summe normalverteilter Zufallsgrößen ist normalverteilt. Erwartungswerte addieren sich Varianzen addieren sich wenn die Zufallsgrößen unabhängig sind -Die Flächen unter der Dichtefunktion innerhalb der -Grenzen immer gleich: 0,6827 (1), 0,9545 (2) und 0,9973 (3). 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 26 13 14.11.2014 14.11.2014 Normalverteilung -Grenzen -3 -2 -1 0,6827 +1 +2 +3 0,9545 0,9973 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 27 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14 14.11.2014 14.11.2014 Referenzbereiche (Normalbereiche) Definition -Bereich um den Mittelwert oder Median -Bereich wird so gewählt, dass ein vorher festgelegter Prozentsatz von Messwerten in diesen Bereich fällt -Basis für Festlegung bilden Daten einer gesunden Population i.d.R. symmetrischer Ausschluss nach „unten“ und „oben“ z.B. 90%-Referenzbereich 0.4 90%-Referenzbereich 0.2 90% 0 5% -4 -2 (perzentilbasiert) 5% 0 2 4 29 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Referenzbereiche (Normalbereiche) Definition Bereich um den Mittelwert oder Median Bereich wird so gewählt, dass ein vorher festgelegter Prozentsatz von Messwerten in diesen Bereich fällt Basis für Festlegung bilden Daten einer gesunden Population i.d.R. symmetrischer Ausschluss nach „unten“ und „oben“ z.B. 95%-Referenzbereich (im normalverteilten Fall) 95%-Referenzbereich -3 -2 -1 0,6827 +1 +2 +3 (-Grenzen-basiert) 0,9545 0,9973 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 30 15 14.11.2014 14.11.2014 Schätzstatistik Ziel statistischer Untersuchungen Schlussfolgerungen aus statistischen Erhebungen ziehen Interpretation von Daten Bildung von Kennzahlen Problem Entscheidungsprozeß in einer Situation der Ungewißheit Unvollständigkeit der Information innerhalb einer Stichprobe zufallsbedingte Streuung der Beobachtungswerte Die Wahrscheinlichkeit, eine falsche Schlußfolgerung zu ziehen, ist im allgemeinen echt größer als Null! 31 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Schätzstatistik X Verteilung von X Parameter der Verteilung (Erwartungswert, Varianz, Median ...) Beobachtungswerte (konkrete Stichprobe) Schätzwerte für Verteilungsparameter emp. (Mittelwert, Varianz, Median ...) 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle Schlußfolgerungen Interpretation Fehlerbetrachtung 32 16 14.11.2014 14.11.2014 Schätzstatistik Teil der schließenden Statistik Ermittlung eines oder mehrerer Parameter einer Grundgesamtheit aus einer konkreten Stichprobe Punktschätzer liefern Zahlen Einschätzung und Berücksichtigung des Schätzfehlers auf der Basis einer konkreten Stichprobe Intervallschätzer liefern Intervalle 33 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Punktschätzungen am häufigsten verwendete Schätzwerte Verteilungsparameter Wahrscheinlichkeit eines Ereignisses E Punktschätzwert rn(E) Median x ~ x Varianz s² Standardabweichung s Perzentile, Quantile xp Erwartungswert Quartile 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle x0, 25 , x0,75 34 17 14.11.2014 14.11.2014 Intervallschätzungen Probleme bei Punktschätzungen -aus konkreter Stichprobe berechneter Schätzwert wird im allgemeinen vom wirklichen Parameter abweichen -ein einzelner Schätzwert kann sehr weit vom wahren Parameter entfernt liegen -Aussagen über Abweichungen fehlen bei Punktschätzern Umgang mit Abweichungen -Abweichungen werden durch zufällige Einflüsse verursacht -folglich sind absolut sichere Aussagen i.a. nicht möglich -Ziel sind Aussagen über den unbekannten Parameter, die wenigstens „in den meisten Fällen“ richtig sind 35 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Intervallschätzungen Deskriptive Statistik Age in Years Treatment Code t-PA Statistik 66,6210 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 5% getrimmtes Mittel 64,9313 68,3106 67,0207 Median 68,7243 Varianz Standardabweichung Placebo Standardfe hler ,85479 105,216 10,25749 Minimum 40,07 Maximum 88,51 Spannweite Interquartilbereich 48,45 15,93 Schiefe -,569 Kurtosis -,390 ,401 65,6903 ,93842 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 5% getrimmtes Mittel Median Varianz Standardabweichung ,202 63,8357 67,5449 66,2705 66,9994 129,453 11,37774 Minimum 33,90 Maximum 89,00 Spannweite Interquartilbereich 55,10 16,50 Schiefe -,694 ,200 Kurtosis -,040 ,397 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle Unterschied zufällig? 36 18 14.11.2014 14.11.2014 Intervallschätzungen Deskriptive Statistik Age in Years Treatment Code t-PA Statistik 66,6210 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 5% getrimmtes Mittel 64,9313 68,3106 67,0207 Median 68,7243 Varianz Standardabweichung 105,216 10,25749 Minimum 40,07 Maximum 88,51 Spannweite 48,45 15,93 Interquartilbereich Schiefe -,569 Kurtosis Placebo Mittelwert 95% Konfidenzintervall des Mittelwerts Standardfe hler ,85479 Untergrenze Obergrenze 5% getrimmtes Mittel ,202 -,390 ,401 65,6903 ,93842 63,8357 mittlerer Schätzfehler 67,5449 66,2705 Median 66,9994 Varianz Standardabweichung 129,453 11,37774 Minimum 33,90 Maximum 89,00 Spannweite Interquartilbereich 55,10 16,50 Schiefe -,694 ,200 Kurtosis -,040 ,397 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 37 14.11.2014 Intervallschätzungen Definition Ein (empirisches) (1-α)-Konfidenzintervall oder auch (empirischer) (1-α)-Vertrauensbereich für den unbekannten Verteilungsparameter ϑ ist ein Bereich um den Punktschätzwert ̂, der aus der Stichprobe berechnet wird und den unbekannten wahren Parameter ϑ mit Sicherheit 1-α enthält. Die Zahl = 1 - nennt man Konfidenzniveau. übliche Werte: = 0,95, = 0,99 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 38 19 14.11.2014 14.11.2014 Intervallschätzungen Fazit Die Qualität der Entscheidung ˆu ˆo wird durch das Konfidenzniveau maßgeblich beeinflußt. Sinnvolle Forderungen Die Wahrscheinlichkeit sollte möglichst groß (nahe 1) sein. Für brauchbare Entscheidungen sollte die Länge des Intervalls (als Realisierung) möglichst klein sein. Problem Beide Forderungen wirken gegensätzlich! Die Wahrscheinlichkeit muß vor dem Versuch vorgegeben werden. 39 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Intervallschätzungen Deskriptive Statistik Age in Years Treatment Code t-PA Statistik 66,6210 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 5% getrimmtes Mittel [64,93; 68,32] 64,9313 68,3106 67,0207 Median 68,7243 Varianz Standardabweichung Placebo Standardfe hler ,85479 105,216 10,25749 Minimum 40,07 Maximum 88,51 Spannweite Interquartilbereich 48,45 15,93 Schiefe -,569 Kurtosis -,390 ,401 65,6903 ,93842 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 5% getrimmtes Mittel Median Varianz Standardabweichung ,202 [63,83; 67,55] 63,8357 67,5449 66,2705 66,9994 129,453 11,37774 Minimum 33,90 Maximum 89,00 Spannweite Interquartilbereich 55,10 16,50 Schiefe -,694 ,200 Kurtosis -,040 ,397 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 40 20 14.11.2014 14.11.2014 Intervallschätzungen Deskriptive Statistik Age in Years Treatment Code t-PA Statistik 66,6210 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze 67,0207 68,7243 69 105,216 [63,84; 67,54] 10,25749 Minimum 40,07 Maximum 88,51 Spannweite 48,45 15,93 Schiefe -,569 Kurtosis Mittelwert 95% Konfidenzintervall des Mittelwerts 63 68,3106 Median Interquartilbereich Placebo [64,93; 68,31] 64,9313 5% getrimmtes Mittel Varianz Standardabweichung Standardfe hler ,85479 Untergrenze Obergrenze 5% getrimmtes Mittel Median ,202 -,390 ,401 65,6903 ,93842 63,8357 Überlappung 67,5449 66,2705 66,9994 Varianz Standardabweichung 129,453 11,37774 Minimum 33,90 Maximum 89,00 Spannweite Interquartilbereich 55,10 16,50 Schiefe -,694 ,200 Kurtosis -,040 ,397 Unterschiede möglicherweise zufälliger Natur ( = 0,05) 41 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Konfidenzintervalle [66,03; 68,31] [64,93; 68,31] 63 69 [63,84; 67,54] Überlappung Unterschiede möglicherweise zufälliger Natur ( = 0,05) 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 63 69 [63,84; 65,94] keine Überlappung Unterschiede signifikant ( = 0,05) 42 21 14.11.2014 14.11.2014 Intervallschätzungen Berechnung abhängig vom zu schätzenden Parameter Erwartungswert, Median, Varianz, Median, Odds-Ratio, relatives Risiko, Wahrscheinlichkeiten, Vorhersagewerte Erwartungswertdifferenzen, Wahrscheinlichkeitsdifferenzen häufige Form ˆ Quantil1 / 2 Standardfehler Standardfehler … des Punktschätzers Quantil … der passenden Verteilung 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 43 14.11.2014 Spezielle Konfidenzintervalle t-Verteilung 0.4 0.3 s s x n t1 / 2 , x n t1 / 2 0.2 0.1 0 -4 -2 0 2 4 t9, 0,950 = 1,83 t9, 0,975 = 2,26 t9, 0,995 = 3,25 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 44 22 14.11.2014 14.11.2014 Spezielle Konfidenzintervalle Erwartungswert einer N(,²)-verteilten Zufallsgröße Voraussetzungen: normalverteilte Grundgesamtheit nicht bekannt konkrete Stichprobe: x x1 , x2 , , xn empirisches Konfidenzintervall s s x n t1 / 2 , x n t1 / 2 Quantile der des t-Verteilung mit n - 1 Freiheitsgraden Standardfehler Mittelwertes 45 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 Spezielle Konfidenzintervalle t-Verteilung N(0,1) 0.4 F 0.3 4 Freiheitsgrade 15 Freiheitsgrade 0.2 0.1 0 -5 -2.5 0 x 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 2.5 5 46 23 14.11.2014 14.11.2014 Konfidenzintervalle Eigenschaften -je höher das Konfidenzniveau, desto länger das Konfidenzintervall Quantile werden größer -je höher die Varianz der Daten, desto länger das Konfidenzintervall größere Unsicherheit bei der Schätzung -je größer der Stichprobenumfang, desto kürzer das Konfidenzintervall fällt nur mit n 47 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 14.11.2014 AUFGABE 1 NORMALVERTEILUNG) Etwa wieviel Prozent aller Werte einer normalverteilten Zufallsgröße liegen im sogenannten 2--Bereich? A B C D 90 % 68 % 95 % 99% -3 -2 -1 0,6827 +1 +2 +3 95%-Referenzbereich (-Grenzen-basiert) 0,9545 0,9973 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 48 24 14.11.2014 AUFGABE 2 (REFERENZWERTE) 14.11.2014 Bestimmen Sie anhand geeigneter Perzentile den mittleren 95% Referenzbereich für den systolischen Blutdruck in der Stichprobe des Bundesgesundheitssurveys 1997/98 bei 5013 Personen, die angaben, nicht an Bluthochdruck zu leiden: Statistiken 95% Referenzbereich: Mittlerer systol. Blutdruck in mmHG 171 mm Hg 102 mm Hg bis N Gültig 5013 Fehlend 9 ( von 2.5 % bis 97.5 % ) Mittelwert 130,19 Standardabweichung 17,205 Perzentile 0,5 2,5 5 16 84 95 97,5 99,5 97,00 102,00 106,00 114,00 146,00 162,00 171,00 192,00 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle AUFGABE 2 (REFERENZWERTE) 49 14.11.2014 Wenn die Verteilung des Messwertes näherungsweise dem in der Statistik häufig verwendeten theoretischen Modell einer Normalverteilung (Gaußsche Glockenkurve) entspricht, kann der mittlere 95%-Referenzbereich aus Mittelwert 2 Standardabweichung alternativ zur Perzentil-Methode gebildet werden. In diesen Bereich fallen bei normalverteilten Messwerten ca. 95% aller Werte. Ergänzen Sie unter dieser Annahme die entsprechenden Blutdruckwerte in der 2. Zeile unter der nachfolgenden Grafik. Der Mittelwert von 130 mm Hg und die empirische Standardabweichung von 17 mm Hg aus den Surveydaten dienen als Schätzwerte für den Erwartungswert und die Standardabweichung der Blutdruckwerte bei Personen, die nach eigenen Angaben nicht unter Hypertonie leide 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 50 25 14.11.2014 AUFGABE 2 (REFERENZWERTE) 14.11.2014 = 130 = 17 79 96 113 130 147 164 181 51 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle AUFGABE 2 (REFERENZWERTE) 14.11.2014 Markieren Sie den 95% Referenzbereich und vergleichen Sie das Ergebnis mit dem Statistiken Referenzbereich von 102 mmHg bis 171 mmHg, Mittlerer systol. Blutdruck in mmHG N Gültig 5013 der nach der Perzentil-Methode ermittelt Fehlend 9 wurde. Mittelwert 130,19 Standardabweichung 17,205 Perzentile 0,5 2,5 5 16 84 95 97,5 99,5 97,00 102,00 106,00 114,00 146,00 162,00 171,00 192,00 Je besser das Modell einer Normalverteilung auf die empirischen Daten passt, desto geringer werden die Unterschiede in den nach beiden Methoden ermittelten Referenzbereichen sein! 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 52 26 14.11.2014 AUFGABE 2 (REFERENZWERTE) 14.11.2014 96 -164 mmHg versus 102-171 mmHg 79 96 113 130 147 164 181 Faustregel: Rund wie viel Prozent der Werte liegen bei einer Normalverteilung im Intervall zwischen und + : 68 % 2 und +2 : 95 % 3 und +3 : 99 % 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle ? 53 14.11.2014 AUFGABE 3 (KONFIDENZINTERVALL) Welche Aussage über das 95% - Konfidenzintervall für eine unbekannte Wahrscheinlichkeit trifft zu? A B C D Bei gleichbleibender relativer Häufigkeit wird das Konfidenzintervall mit zunehmenden Stichprobenumfang breiter. Das 99% - Konfidenzintervall ist schmaler als das 95% Konfidenzintervall. Bei gleichbleibender relativer Häufigkeit wird das Konfidenzintervall mit zunehmendem Stichprobenumfang schmaler. Die Breite des Konfidenzintervalls hängt nicht vom Stichprobenumfang n ab. 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 54 27 14.11.2014 AUFGABE 4 (KI für Mittelwert) 14.11.2014 Der Bundesgesundheitssurvey erfasste Risikofaktoren und Erkrankungen in einer repräsentativen Stichprobe der 18-79 jährigen Wohnbevölkerung in Deutschland. Dabei wurde auch das Cholesterin als wichtiger Risikofaktor für Herz-Kreislauf-Erkrankungen erfasst. Die nachfolgende Tabelle zeigt den Schätzwert für das mittlere HDLCholesterin von 1.64 mmol/l, 95% Konfidenzintervall (1.59, 1.68) mmol/l in der Subgruppe der 20-29 jährigen Frauen (n=481). 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle AUFGABE 4 (KI für Mittelwert) 55 14.11.2014 1. Für welche Population ist der HDL Wert von 1.64 mmol/l ein guter Schätzwert für den HDL-Mittelwert? 20-29 jährige Frauen der Wohnbevölkerung Deutschlands 2. Welche zusätzliche Information über den wahren, aber unbekannten Mittelwert von HDL liefert das 95% Konfidenzintervall? Das aus den Daten geschätzte 95% Konfidenzintervall schließt den unbekannten HDL-Mittelwert mit einer statistischen Sicherheit von 95% ein. 3. Wenn man den mittleren HDL-Wert und das zugehörige 95% CI nicht nur in einer, sondern in 20 unabhängigen, bevölkerungsrepräsentativen Stichproben bestimmt ( jeweils 481 Frauen im Alter von 20-29 Jahren), wie viele dieser 20 CI würden den wahren, aber unbekannten HDL-Mittelwert näherungsweise einschließen? ca. 19 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 56 28 14.11.2014 AUFGABE 4 (KI für Mittelwert) 14.11.2014 4. Zur Kontrolle könnte man das in der Tabelle angegebene 95% CI für den HDL-Mittelwert nachrechnen (mit gerundete Werten): gu = geschätzter HDL-Mittelwert – Quantil (1-α/2) * Standardfehler = 1.64 – 1.96 * 0.02 = 1.60 go = geschätzter HDL-Mittelwert + Quantil (1-α/2) * Standardfehler = 1.64 + 1.96 * 0.02 = 1.68 Für die Berechnung werden der geschätzte Mittelwert und der mit einem Faktor (Quantil) multiplizierte Standardfehler des geschätzten Wertes (Standard Error, SE) benötigt. Der Standardfehler kann aus den Daten der Stichprobe durch SE = s/n geschätzt werden. Der Faktor entspricht einem Quantil einer bestimmten Verteilung, hier der tVerteilung. 1.96 ist der Wert des (1-α/2) = 0.975 Quantils bei (n-1) = 480 Freiheitsgraden. 57 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle AUFGABE 4 (KI für Mittelwert) 14.11.2014 „Fehler-Balken“-Darstellung Mittelwert und 95%-Konfidenzintervall für den HDLCholesterinwert der jungen Frauen. Die Breite des Intervalls hängt vom gewählten Konfidenzniveau (1-α), vom Stichprobenumfang und der Streuung der HDL-Werte ab. Stichprobenumfang: Konfidenzniveau: 481 90% 481 99% 481 95% 50 95% 5000 95% grösser Intervalllänge: kleiner grösser kleiner 5. Geben Sie für die unterschiedlichen Konfidenzniveaus und Stichprobenumfänge an, ob sich das Intervall gegenüber dem abgebildeten vergrößert oder verkleinert (grob skizzieren). 6. Was ist besser: ein breites oder ein schmales Konfidenzintervall? Warum? Wegen der höherer Genauigkeit (Präzision) der Schätzung wird immer ein schmales Konfidenzintervall angestrebt! 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 58 29 14.11.2014 14.11.2014 5. Methoden der schließenden Statistik – allgemeines Testprinzip 3. Wahrscheinlichkeitsrechnung und Wahrscheinlichkeitsverteilungen 4. Referenzbereiche und Konfidenzintervalle 59 30