Medizinische Biometrie (L5) Vorlesung III Wichtige Verteilungen Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie [email protected] IBE, Med. Biom. (L5) 1 Lernziele • Normalverteilung: Warum sind Mittelwert und Standardabweichung so wichtig? QQ-Plot: Wann liegt die Normalverteilung vor? • Datentransformation: Wie man Daten normalverteilt macht • Binomialverteilung: Das Auftreten von Erfolgen • Poissonverteilung: Die Beschreibung seltener Ereignisse IBE, Med. Biom. (L5) 2 Beobachtung -> Abstraktion -> Modell 30 Christensen et al. (1985) Gastroenterology 89:10841091 15 20 25 Albuminwerte von 216 Patienten mit Leberzirrhose 5 0 0 5 10 15 20 Frequency 30 25 Histogramm und Modell 10 Frequency Histogramm 0 10 20 30 40 50 60 70 Serum Albumin [g/l] 0 10 20 30 40 50 60 70 Serum Albumin [g/l] Modell 0.02 Medizinerstrategie: Angabe von Mittelwert und Standardabweichung. 0.00 Dichte 0.04 Beobachtung ist zu komplex um direkt kommuniziert zu werden. Gibt es ein Modell, das in wenigen Worten, das Beobachtete angemessen beschreibt? 0 10 20 30 40 50 Serum Albumin [g/l] 60 70 IBE, Med. Biom. (L5) 3 Empirische Verteilung, theoretische Verteilung • Wenn eine metrische Größe an einer großen Anzahl von Individuen gemessen wird, so nennt man das daraus entstehende Muster des Auftretens der Werte eine empirische (weil auf einer Beobachtung beruhend) Verteilung. • Die Mathematik hat immer versucht, in den beobachteten Verteilungen Prototypen von theoretischen Verteilungen zu entdecken, die sich als mathematische Objekte beschreiben lassen und damit Berechnungen zugänglich sind. • Als Herausforderung wurde die theoretische Beschreibung von Erfolg und Verlust beim Glücksspiel gesehen. Wie lässt sich das Verhalten eines Münzwurfs formal beschreiben? Wie oft kann man bei 10 Würfen einer Münze mit mehr als 7 mal Kopf rechnen? • Die Normalverteilung ist eine der wichtigsten Verteilungen in der Statistik. Im 18. Jahrhundert haben Mathematiker bewiesen, dass die geeignet skalierte Summe vieler gleicher, unabhängiger Effekte immer normalverteilt ist. • Brown‘sche Bewegung: Kleine Partikel werden in Flüssigkeiten durch die Molekularbewegung hin und her gestoßen. Ihre Position verändert sich gegenüber dem Ausgangspunkt nach der Normalverteilung. IBE, Med. Biom. (L5) 4 Die Normalverteilung (I) 0.4 Die Normalverteilung ist symmetrisch um den Modalwert. 0.3 Wegen der Symmetrie ist der Modalwert auch ihr Mittelwert und Median. 0.2 Die spitze Normalverteilung (schwarz) ist besser um den Mittelwert konzentriert als die flache (rot). 0.1 Die flache Normalverteilung ist über einen größeren Bereich gestreut als die steile. 0.0 Dichte Beide Flächen haben den Inhalt 1. -10 -5 0 5 IBE, Med. Biom. (L5) 10 5 0.4 0.10 0.02 0.02 0.1 0.04 0.04 0.2 0.06 0.06 0.3 0.08 0.08 0.10 Die Normalverteilung (II): Umskalierung 0 5 10 µ = 10 σ=4 15 20 -10 Translation -5 0 µ=0 σ=4 5 10 -2 Reskalierung IBE, Med. Biom. (L5) -1 0 1 2 µ=0 σ=1 6 0.4 Die Normalverteilung (III): Umskalierung 0.1 Angaben zur Lokalisation (µ) und Streuung (σ) beschreiben die Normalverteilung vollständig 0.2 0.3 Gesamtfläche unter der Kurve =1 0.0 Dichte Nach geeigneter Umskalierung können die Dichten verschiedener Normalverteilungen nicht mehr unterschieden werden. µ - 4σ µ - 3σ µ - 2σ µ - σ IBE, Med. Biom. (L5) µ µ + σ µ + 2σ µ + 3σ µ + 4σ 7 Die Normalverteilung (IV): Umskalierung Wichtige Rechenregel: 0.4 Die Fläche einer Normalverteilung mit Parametern µ und σ, die rechts vom Abszissenwert µ + x•σ liegt, ist identisch der Fläche einer Normalverteilung mit Parametern µ = 0 und σ = 1 (Standardnormalverteilung), die rechts vom Abszissenwert x liegt. 0.2 P(µ,σ)[W>a] 0.0 0.1 Dichte P(µ,σ)[W> µ + x•σ] = P(0,1)[Z>x] 0.3 Als Formel: IBE, Med. Biom. (L5) a 8 Standardnormalverteilung: Fläche unter der Kurve Das Integral unter der Dichtefunktion der Standardnormalverteilung für interessierende Bereiche lässt sich explizit nur mit aufwändigen numerischen Verfahren berechnen. Sie liegen in der Regel in tabellierter Form vor. x P[Z>x] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.5000 0.4602 0.4207 0.3821 0.3446 0.3085 0.2743 0.2420 0.2119 0.1841 x P[Z>x] 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.96 0.1587 0.1357 0.1151 0.0968 0.0808 0.0668 0.0548 0.0446 0.0359 0.0287 0.025 IBE, Med. Biom. (L5) x P[Z>x] 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 0.0228 0.0179 0.0139 0.0107 0.0082 0.0062 0.0047 0.0035 0.0026 0.0019 0.0013 9 0.4 Standardnormalverteilung: Fläche unter der Kurve P[Z < -x] P[Z >x ] 0.1 P(0,1)[Z>x] = P(0,1)[Z< -x] 0.2 Dichte 0.3 Zwei wichtige Regeln: 0.0 Fläche rechts von x ist gleich der Fläche links von –x (Symmetrie um 0) 0 x 0.4 -x P[Z >x ] 0.1 0.2 1-P[Z >x ] 0.0 Gesamtfläche addiert sich zu 1 (Eigenschaft der Dichtefunktion) Dichte 0.3 P(0,1)[Z>x] = 1 - P(0,1)[Z§x] 0 IBE, Med. Biom. (L5) x 10 Wahrscheinlichkeitsdichte Wahrscheinlichkeitsverteilung Verteilungsfunktion 1.0 0.4 Dichtefunktion W'keit 0.4 0.2 0.1 0.2 Größe der Fläche vor dem Ordinatenwert 0.0 0.0 Dichte 0.6 0.3 0.8 F(x)=P(Z<x) -4 -2 0 2 4 -4 IBE, Med. Biom. (L5) -2 0 2 4 11 Aufgabe 1 Die Eisenbindungskapazität bei gesunden Personen ist normalverteilt mit Mittelwert µ = 115 g / 100 ml und Standardabweichung σ = 25 g / 100ml. In welchem zentralen Bereich um den Mittelwert liegen 95% aller Werte? 0.2 Wie muss x gewählt werden, dass die gestrichelte Fläche den Wert 0.05 erhält? 0.0 0.1 Dichte 0.3 0.4 Wie muss x gewählt werden, dass die zentrale Fläche den Wert 0.95 erhält? µ - x•σ µ + x•σ Für die Standardnormalverteilung liegt rechts von 1,96 noch 2.5% der Dichtefläche. 0.4 µ 0.1 0.2 0.3 Lösung: Im Bereich (115 ± 1,96•25) g/100ml liegen 95% aller Werte der Eisenbindungskapazität bei gesunden Personen. 0.0 Dichte Wie muss x gewählt werden, dass die Fläche rechts außen den Wert 0.025 erhält? µ µ + x•σ IBE, Med. Biom. (L5) 12 Aufgabe 2 Die Kreatininwerte von Nieren-Gesunden sind normalverteilt mit Mittelwert µ = 0,9 mg / 100 ml und Standardabweichung σ = 0,2 mg / 100ml. Kreatininwerte über 1.4 mg/ 100 ml gelten als Anzeichen der Retention harnpflichtiger Substanzen und damit als pathologisch. Mit welcher Wahrscheinlichkeit ist bei einem Nieren-Gesunden ein pathologischer Kreatinin-Wert zu erwarten? 0.4 1.4 = µ + x•σ = 0.9 + x•0.2 x = (1.4 – 0.9)/0.2 = 0.5/0.2 = 2.5 0.2 P(µ,σ)[W> µ + x•σ] = P(0,1)[Z>x] P(0,1)[Z>2.5] < 0.0062 0.1 Lösung: Bei weniger als 0,0062% der NierenGesunden ist ein pathologischer Kreatinin-Wert zu erwarten. 0.0 Dichte 0.3 Wie groß ist die Fläche die bei der Standardnormalverteilung rechts von 2.5 liegt? a IBE, Med. Biom. (L5) 13 QQ-Plot Normal Q-Q Plot 40 50 Die beobachtete Verteilung wird mit der theoretischen Normalverteilung verglichen. Pro Beobachtung wird ein Punkt in ein Koordinatenkreuz eingetragen. 20 10 Eine Gerade wird gezeichnet, die die theoretische Normalverteilung repräsentiert: Abszisse der Geraden: Mittelwert Steigung der Geraden: Standardabweichung. 0 Sample Quantiles 30 Für xi wird der Wert der empirischen Verteilungsfunktion an xi berechnet, zu diesem Wert wird das entsprechende Quantil zi der Standardnormalverteilung berechnet. Der Punkt (zi,xi) wird in ein Koordinatenkreuz eingetragen. -2 -1 0 1 2 Folgen die Punkte der Geraden, so kann die Normalverteilung der Beobachtung zugrunde gelegt werden. Theoretical Quantiles IBE, Med. Biom. (L5) 14 QQ-Plot Parameter der theoretischen Verteilung sind der MW und die Standardabw. der beobachteten Daten. Emp. Vereilung 0.8 0.6 0.2 0.4 Anteil 0.6 0.4 0.0 0.0 0.2 W'keit 0.8 1.0 1.0 Theor. Vereilung -10 0 10 20 30 40 -10 0 10 20 30 40 Skalierung auf Standardnormalverteilung Normal Q-Q Plot 30 20 0 10 Sample Quantiles 0.6 0.4 0.2 -10 0.0 W'keit 0.8 1.0 40 Skal. Vereilung -3 -2 -1 0 1 2 -2 -1 0 1 2 Theoretical Quantiles IBE, Med. Biom. (L5) 15 Log-Transformation Serum Bilirubin von 216 Patienten mit Leberzirrhose (Christensen et al.) Normal Q-Q Plot 500 60 600 Historgramm 200 300 Sample Quantiles 40 30 100 20 10 0 0 Frequency 400 50 Daten sind schief verteilt und passen nicht zu einer Normalverteilung 0 100 200 300 400 Serum Bilirubin [µmol/l] 500 600 -3 -2 -1 0 1 2 3 Theoretical Quantiles IBE, Med. Biom. (L5) 16 Log-Transformation Die Logarithmusfunktion wird oft in der Beschreibung von Daten verwendet. Man betrachtet dann die log-transformierten Werte der Messungen und nicht die Originalwerte. -6 -4 -2 0 2 Der Logarithmus kontrahiert Bereiche mit großen Werten und extrahiert Wertebereiche zwischen 0 und 1. Somit können rechts-schiefe positive Verteilungen eventuell symmetrisiert werden. 0 IBE, Med. Biom. (L5) 5 10 15 20 17 40 30 0 0 10 20 Frequency 60 40 20 Frequency 80 50 100 60 Log-Transformation 0 100 200 300 400 500 600 1 2 Serum Bilirubin 3 4 5 6 Serum Bilirubin (log-transf.) 5 4 2 3 Sample Quantiles 60 40 20 1 0 Frequency 80 6 100 Normal Q-Q Plot 0 100 200 300 Serum Bilirubin 400 500 600 -3 IBE, Med. Biom. (L5) -2 -1 0 1 Theoretical Quantiles 2 3 18 Log-Transformation Der arrithmetische Mittelwert der log-transformierten Beobachtungen wird durch Exponentialisierung zum geometrischen Mittelwert der Originaldaten: xi Originalwert der Beobachtung i yi = log(xi) log-transformierter Wert der Beobachtung i Arithm. Mittel der log- transf. Werte: m = (y1 + … yn) / n Geometrisches Mittel der Originalwerte: g = exp{m} = (x1• … • xn)1/n IBE, Med. Biom. (L5) 19 Binomial-Verteilung Die Wahrscheinlichkeit einer Person zur Blutgruppe B zu gehören ist etwa 8% (0.08). Somit ist die Wahrscheinlichkeit einer Person die Blutgruppe A, 0 oder AB zu haben 92% (0.92). Wie groß ist die W‘keit in einer Gruppe von 4 Personen mindestens 2 Mitglieder der Gruppe B zu finden? Keine mit B 0.92•0.92•0.92•0.92 = 0.7164 Genau eine mit B 4 • 0.08•0.92•0.92•0.92 = 0.2592 Genau zwei mit B 6 • 0.08•0.08•0.92•0.92 = 0.0325 Genau drei mit B 4 • 0.08•0.08•0.08•0.92 = 0.0012 Genau vier mit B 0.08•0.08•0.08•0.08 Gesuchte Antwort: 0.0325 + 0.0012 + 0.00004 IBE, Med. Biom. (L5) = 0.00004 = 0.0344 ~ 3.4% 20 Binomial-Verteilung Die Wahrscheinlichkeit bei n unabhängigen Versuchen genau k Erfolge zu erhalten, falls die Erfolgswahrscheinlichkeit p beträgt ist: ⎛n ⎞ k P(n , p ) (k ) = ⎜ ⎟ p ⋅ (1 − p )n −k ⎝k ⎠ ⎛n ⎞ n! ⎜ ⎟= ⎝ k ⎠ k ! (n − k )! n und p sind die Parameter der Binomialverteilung n ! = 1 ⋅ ... ⋅ n Mittelwert: n•p Varianz: n•p•(1-p) Beispiel: W‘keit genau 2 Personen mit Blutgruppe B in einer Gruppe von 4 unabhängigen Personen zu finden? (n=4, p=0.08, k=2) ⎛ 4⎞ ⎝2⎠ P( 4,0.08) (2) = ⎜⎜ ⎟⎟ ⋅ 0.082 ⋅ (1 − 0.08) 4 −2 = 4! 1 ⋅2⋅3⋅ 4 ⋅ 0.082 ⋅ 0.922 = ⋅ 0.082 ⋅ 0.922 = 6 ⋅ 0.082 ⋅ 0.922 1 ⋅2 ⋅1 ⋅2 2!⋅2! IBE, Med. Biom. (L5) 21 Poisson-Verteilung Die Poisson-Verteilung beschreibt das Auftreten von Ereignissen in einem Zeitintervall oder in einem räumlichen Gebiet. Die Poisson-Verteilung spielt in epidemiologischen Analysen eine zentrale Rolle. Die Poisson-Verteilung wird durch einen Parameter beschrieben: λ = mittlere Zahl von Ereignissen pro Einheit Wahrscheinlichkeit von genau k Ereignissen bei der mittleren Anzahl von Ereignissen pro Einheit λ; Pλ(k) = exp{-λ}•λk / (k!) Mittelwert: λ Varianz: λ IBE, Med. Biom. (L5) 22 Poisson-Verteilung Beispiel: 1983 wurden im Umfeld von Kernkraftwerk B 10 kindliche Leukämiefälle in einer Population von etwa 30000 Kindern gemeldet. Die mittlere jährliche Leukämieinzidenz einer entsprechenden deutschen Kinderpopulation betrug in diesem Jahr 10 Fälle pro 100000 Kinder. Wie groß ist die W‘keit mindestens 10 Leukämiefälle im Umfeld von B im betreffenden Jahr entdeckt zu haben, wenn man die deutsche Durchschnittsinzidenz zu Grunde legt? P(Anzahl ≥ 10) = 1 – P(Anzahl ≤ 9) = 1 – P(0) – P(1) - … - P(9) λ = mittlere Anzahl von Ereignissen in einer Population von 30000 Kindern = (10/100000)•30000 = 3 P(0) = P3(0) = exp{-3} = 0.05 P(1) = P3(1) = exp{-3}•3 = 0.15 P(2) = P3(2) = exp{-3}•32/2 =0.224 P(Anzahl ≥ 10) = 1 – P(Anzahl ≤ 9) = 1 – 0.999 = 0.001 IBE, Med. Biom. (L5) 23 Zusammenfassung • Die Normalverteilung erlaubt durch die Kenntnis zweier Parameter (Mittelwert µ und Standardabweichung σ) Verteilungseigenschaften einer metrischen Variablen von Populationen zu beschreiben. • Wie gut die beobachtete Verteilung in einer Population der Normalverteilung entspricht kann durch einen QQ –Plot visualisiert werden. • Eine Populationsvariable, deren beobachtete Verteilung stark von der Normalverteilung abweicht, kann möglicherweise durch eine geeignete Transformation einer Normalverteilung ähnlich gemacht werden. Damit lassen sich über den Umweg der Transformation die Vorteile der Normalverteilung für die Informationsübermittlung nutzen. • Die Binomialverteilung beschreibt die Verteilung von Erfolgen in einer Serie unabhängiger Experimente. • Die Poissonverteilung beschreibt das Auftreten seltener Ereignisse in einer großen Population für eine räumliche oder zeitliche Bezugseinheit. IBE, Med. Biom. (L5) 24