Biometrisches Tutorial II EBM Evidenzgrade eojvrepvj Parameterschätzung Statistisches Testen Modellbildung Effektmaße Multiples Testproblem Das Zentrum für klinische Studien Kiel Statistische Analyse zwei qualitative Merkmale Ziel: Unterstützung (wissenschaftsinitiierter) klinischer Studien Leistungen Typischerweise wird in Fall-Kontroll-Studien der Zusammenhang zwischen Exposition und Erkrankung untersucht 1. Beratungsgespräche • Fortbildungen + Beratungen, Biometrie 2. Planung klinischer Studien 3. Durchführung klinischer Studien 4. Abschluss klinischer Studien (Auswertungen, Berichte, Abmeldungen) 5. Fortbildungen • GCP-Kurse, Prüfarztkurse nach AMG und MPG, Medical Writing, Dazu wird retrospektiv an Individuen mit bekanntem Erkrankungsstatus (Fall/Kontrolle) der Expositionsstatus erhoben (Exposition ja/nein). English for Investigators 3 Herzinfarkt und Geschlecht Herzinfarkt und Geschlecht 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße: Infarkt ja/nein Einflussgröße: Geschlecht Fragestellung: Ist die Wahrscheinlichkeit einen Infarkt zu erleiden bei Männern und Frauen gleich? Nullhypothese: Infarkt und Geschlecht sind unabhängig männlich Universitätsklinikum Schleswig-Holstein ©2005 Infarkt n=40 Kein Infarkt n=40 25 (62.2%) [45.8%-77.7%] 28 (70.0%) [53.5%-83.43%] p Seite: 1 Herzinfarkt und Geschlecht Statistisches Testen Vorgehensweise Nullhypothese Geschlecht und Infarkt sind unabhängig X Unter der Nullhypothese erwartete Werte: 1 Σ 25 26.5 28 26.5 53 w 15 13.5 12 13.5 27 Σ 40 40 80 Y 0 m Teststatistik kritische Werte χ2 = e ij = o i+ ⋅ o + j o ++ 53 ⋅ 40 = = 26 . 5 80 (25 − 26.5 ) 2 26.5 + ... = 0 . 503 Die in den Daten einer Stichprobe enthaltene Information wird in der Teststatistik T, zusammengefasst. Der Annahmebereich des Tests enthält alle Werte von T, bei denen H0 beibehalten wird. Der Ablehnungsbereich enthält alle Werte von T, bei denen H0 verworfen wird. Annahme- und Ablehnungsbereich werden von den kritischen Werten begrenzt. c0.95,1=3.841 > 0.503 => H0 nicht ablehnen Herzinfarkt und Geschlecht Herzinfarkt und Geschlecht χ2-Test Statistische Tests Y 1 X ... 1 ... n o11 ... on1 ... ... ... o1m ... onm o1+ ... on+ Σ o+1 ... o+m o++ Nullhypothese m Σ nominale Daten Unter der Annahme, dass die Zeilen und Spalten unabhängig sind, beträgt die erwartete Zellhäufigkeit e ij = o i+ ⋅ o + j Studiendesign zwischen Individuen o ++ zwei Gruppen innerhalb von Individuen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen McNemarTest SymmetrieTest H0: X und Y sind unabhängig Teststatistik χ2 = kritische Werte c1-α,ν n m i=1 j =1 ∑ ∑ ( o ij − e ij ) 2 χ2-Test χ2-Test e ij (Fishers exakter Test) (Fishers exakter Test) "Anzahl Freiheitsgrade" ν=(n-1)⋅(m-1) Universitätsklinikum Schleswig-Holstein ©2005 Seite: 2 Normalverteilung N(µ,σ2) Statistische Analyse ein stetiges, normalverteiltes Merkmal Normalverteilung N(µ,σ2) mit µ=E(X) und σ2 = Var(x) f (x) = 1 σ 2π e − N(0,1) N(1,1) N(0,4) N(0,0.25) ( x − µ )2 2 σ2 Parameterschätzung Wie repräsentativ ist die Kontrollgruppe? Normalverteilung N(µ,σ2) Parameter θ Beobachtungen x1,...,xn µ Erwartungswert 80,94,110,... Schätzer ) θ( x1 ,..., x n ) µ ˆ=x Stichprobenmittel Es soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von den Kontrollpersonen vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet. H0: µ=µ0 Wie repräsentativ ist die Kontrollgruppe? HA: µ≠µ0 Statistische Analyse Ein-Stichproben-t-Test Zufallsvariable X∼N(µ,σ2) beide Parameter unbekannt Hypothesen H0 :µ = µ0 Teststatistik T = HA :µ ≠ µ0 (zweiseitig) X − µ0 ⋅ n S kritische Werte t1-α/2,n-1 (zweiseitig) 95%-KI: [90.73-96.52] Universitätsklinikum Schleswig-Holstein ©2005 H 0 wird abgelehnt, falls | t | ≥ t1−α/2, n −1 Seite: 3 Statistische Analyse Statistisches Testen Ein-Stichproben-t-Test Vorgehensweise Ablehnungsbereich Ablehnungsbereich Annahmebereich H0 verwerfen H0 verwerfen H0 α/2 α/2 H0 beibehalten cα/2 c1-α/2 =-2.23 =2.23 T t = 9.5 Statistisches Testen Statistisches Testen mögliche Fehler p-Wert Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die Nullhypothese wahr ist. Er entspricht dem Signifikanzniveau, bei dem H0 gerade eben verworfen würde. Das Signifikanzniveau (α) eines Tests ist die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen. Die Power (1-β) eines Tests ist die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden. Wahrheit Entscheidung H0 HA H0 beibehalten 1-α β H0 verworfen α 1-β Statistische Analyse H0 p tobs T Herzinfarkt und Blutdruck zwei stetige Merkmale 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße: Infarkt ja/nein Einflussgrößen: Blutdruck Fragestellung: Beeinflusst der Blutdruck die Wahrscheinlichkeit für einen Herzinfarkt? Universitätsklinikum Schleswig-Holstein ©2005 Seite: 4 Ist der diast. Blutruck normalverteilt? Statistische Analyse Verteilungsformen 30 30 25 25 20 20 15 15 10 10 5 5 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 0 10 - 20 20 - 30 symmetrisch 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 70 - 80 80 - 90 linkssteil 30 30 25 25 20 20 15 15 10 10 5 5 0 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 rechtssteil Statistische Analyse 30 - 40 70 - 80 80 - 90 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 bimodal Behandlung von Depressionen zwei stetige, nicht normalverteilte Merkmale Zufallsvariablen Hypothesen X∼F, Y∼G F, G stetige Verteilungen Ho: F(z) = G(z) HA: F(z+d) = G(z) n Teststatistik kritische Werte Wn = ∑ R (X_i ) Zur Wirksamkeitsprüfung eines neuen Antidepressivums werden 10 klinisch depressive Patienten zufällig einer von zwei Gruppen zugeordnet. Gruppe 1 bekommt für 6 Monate das neue Medikament, Gruppe 2 bekommt ein Placebo. Am Ende der Studie wird der Zustand jedes Teilnehmers von einem verblindeten Psychiater mit einem Score bewertet. i =1 Wα/2,n und W1-α/2,n Howird abgelehnt, falls Wn>W1-α/2,n oder Wn<Wα/2,n H0: Die Verteilung des Depressionsscores ist unter Verum die gleiche wie unter Placebo. HA: Die Verteilung des Depressionsscores ist unter Verum eine andere als unter Placebo. Behandlung von Depressionen Statistische Analyse Wilcoxon-Rangsummentest zwei stetige, nicht normalverteilte Merkmale Patient Score X1 X2 X3 X4 X5 Y1 Y2 Y3 Y4 Y5 11 15 7 8 12 3 4 9 2 5 Patient Rang Y4 Y1 Y2 Y5 X3 X4 Y3 X1 X5 X2 1 2 3 4 5 6 7 8 9 10 ∑ R (A ) = 5 + 6 + 8 + 9 + 10 = 38 i Teststatistik (maximale Rangsumme) W=38 kritischer Wert (zweiseitig) W0.975,5=37 H0 kann zum 5% Signifikanzniveau verworfen werden. Universitätsklinikum Schleswig-Holstein ©2005 Seite: 5 Risikofaktoren für Herzinfarkt 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße Infarkt (ja/nein) HBDH Blutzucker Zigaretten Zielgröße: Infarkt ja/nein Einflussgrößen: Geschlecht, Alter, Blutdruck, Diabetiker, Cholesterin, Triglyzerid, HBDH, GOT, Zigaretten pro Tag Diabetes Einflussgröße Blutdruck GOT Risikofaktoren für Herzinfarkt Cholesterin Fragestellung: Welche Faktoren beeinflussen die Wahrscheinlichkeit für einen Herzinfarkt? ??? Risikofaktoren für Herzinfarkt Statistische Analyse zwei normalverteilte Merkmale Infarkt n=40 Kein Infarkt n=40 M 25 (62.2%) [45.8-77.7]* 28 (70.0%) [53.5-83.43]* 0.478 Diabetes 3 (7.5%) [2.7-19.5]* 5 (12.5%) [5.6-26.2]* 0.456 Rauchen 23 (57.5%) [42.6-71.5]* 31 (77.5%) [61.5-89.2]* 0.056 diast. BD 98 (95-105)** 93.63±9.1 [90.73-96.52]* 0.012 p Alter 54.0 ± 9.1 62.9 ± 10.4 ? BMI 26 (21.4-29.7)** 25 (21.7-27.4)** 0.32 Blutzucker 96.9±25.26 96.6±45.3 ? *95%-Konfidenzintervall Zufallsvariable Xa∼N(µa,σ2) und Xb∼N(µb,σ2) Hypothesen H0 : µ a = µ b H A : µ a ≠ µ b Teststatistik T = Xa − Xb ⋅ S pooled (zweiseitig) na ⋅ nb na + nb Ablehnungs- T ≤ t α / 2,na +nb −2 oder T ≥ t1−α / 2,na +nb −2 (zweiseitig) bereich ** Erstes und drittes Quartil Statistische Analyse Risikofaktoren für Herzinfarkt zwei normalverteilte Merkmale Infarkt n=40 Kein Infarkt n=40 M 25 (62.2%) [45.8-77.7]* 28 (70.0%) [53.5-83.43]* 0.478 Diabetes 3 (7.5%) [2.7-19.5]* 5 (12.5%) [5.6-26.2]* 0.456 Rauchen 23 (57.5%) [42.6-71.5]* 31 (77.5%) [61.5-89.2]* 0.056 diast. BD 98 (95-105)** 93.63±9.1 [90.73-96.52]* 0.012 Alter 54.0 ± 9.1 62.9 ± 10.4 <0.001 BMI 26 (21.4-29.7)** 25 (21.7-27.4)** 0.32 Blutzucker 96.9±25.26 96.6±45.3 0.98 *95%-Konfidenzintervall Universitätsklinikum Schleswig-Holstein ©2005 p ** Erstes und drittes Quartil Seite: 6 Statistische Analyse Statistische Analyse parametrische versus nicht-parametrisch parametrische versus nicht-parametrisch Viele statistische Tests machen implizite Annahmen über die den Daten zu Grunde liegende Verteilung. Solche Tests heißen "parametrisch". Werden die Verteilungsannahmen verletzt, so ist der parametrische Test möglicherweise nicht "valide" (d.h. das Signifikanzniveau ist falsch). Statistische Tests, die keine oder nur schwache Annahmen über die den Daten zu Grunde liegende Verteilung machen, heißen "nicht-parametrisch". Parametrische Tests gewinnen mehr Information aus Daten und haben daher für normalverteilte Daten mehr Power als nicht-parametrische. Im Fall der Normalität haben nicht-parametrische Tests etwa 95% der Power des entsprechenden parametrischen Tests. Nichtparametrische Tests Parametrische Tests nicht normalverteilte Daten normalverteilte Daten Studiendesign Studiendesign zwischen Individuen zwei Gruppen WilcoxonRangsummenTest innerhalb von Individuen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen KruskalWallis-Test WilcoxonVorzeichenRangtest Friedman-Test Universitätsklinikum Schleswig-Holstein ©2005 zwischen Individuen innerhalb von Individuen zwei Gruppen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen ZweiStichproben t-Test Varianzanalyse (ANOVA) EinStichproben t-Test ANOVA mit Messwiederholungen Seite: 7 Statistische Modellbildung Mortalität nach Herz-OP ZG: Überlebt (ja/nein) ... beinhaltet die Analyse des funktionellen Zusammenhangs zwischen Zielgröße (abhängige Variable) und Einflussgrößen (unabhängigen Variablen), einschließlich der Adjustierung für unkontrollierbare Störgrößen. Vor-OPs (0,1,2, >2) Alter (Jahre) Geschlecht (m/w) Lineare Regression stetige Zielgröße stetige Einflussgröße Zufallsfehler 150 y = a + bx 140 Körpergewicht (Pfund) Y: X: Ε: Einfaches lineares Modelle Für Ε wird im Allgemeinen eine mit unbekanntem σ2 unterstellt. N(0,σ2)-Verteilung Y = a+b⋅x + Ε 130 120 110 100 90 62 Diese Modellgleichung nennt man lineares Regressionsmodell, b heißt "Regressionskoeffizient" exponentielle Regression y 68 70 72 Pearson Korrelationskoeffizient y logarithmische Regression y 66 Körpergröße (Zoll) Regressionsmodelle lineare Regression 64 y y rXY ∼ +1 rXY ∼ -1 y x x x rXY ∼ 0 x y =a+b⋅x x y =a+e-b⋅x Universitätsklinikum Schleswig-Holstein ©2005 x y =a+b⋅log(x) perfekt |rXY|=1.00 0.75≤|rXY|<1.00 stark rXY misst die Stärke und Richtung des moderat 0.50≤|r XY|<0.75 linearen Zusammenhangs zwischen X und Y. schwach 0.25≤|r |<0.50 XY Seite: 8 Pearson Korrelationskoeffizient Spearman Rang-Korrelationskoeffizient Signifikanztest 160 X∼N(µX,σX2), Y∼N(µY,σY2) alle unbekannt H0 : rXY = 0 H0 : rXY ≤ 0 Hypothesen HA : rXY ≠ 0 HA : rXY > 0 rXY = 0.85 ρXY = 1.00 120 80 (zweiseitig) y Zufallsvariable (einseitig) 25 40 rXY = 1.00 ρXY = 1.00 20 0 Ablehnungsbereich n−2 2 1 − r̂XY T ≤ tα / 2,n−2 oder T ≥ t1−α,n−2 (einseitig) 15 -40 -1 1 2 3 4 x T ≥ t1−α / 2,n−2 (zweiseitig) 5 6 10 5 0 0 5 10 15 20 25 rg[x] Multiples lineares Modelle Y: X1,...,Xk: Ε: 0 rg[y] T = r̂XY ⋅ Teststatistik stetige Zielgröße Einflussgrößen Zufallsfehler Für Ε wird im Allgemeinen eine N(0,σ2)-Verteilung mit unbekanntem σ2 unterstellt. Y = a + b1 x1 + b 2 x 2 + ... + bk x k + Ε Multiple lineare (und andere) Modelle erlauben die Schätzung der Regressionskoeffizienten bi unter Berücksichtigung von Störgrößen ("Adjustierung"). Verallgemeinertes lineares Modelle Y: X1,...,Xk: G: stetige Zielgröße Einflussgrößen Linkfunktion G[E(Y)] = a + b1 x 1 + b 2 x 2 + ... + bk x k für eine dichotome Zielgröße Y gilt: E(Y) = 0⋅P(Y=0)+1⋅P(Y=1) = P(Y=1) =π Logistische Regression Verallgemeinertes Lineares Modell mit "logit" als Link-Funktion 6 4 logit(x) 2 0 -2 logit(x) = ln( -4 x ) 1−x -6 0.0 0.2 0.4 0.6 0.8 1.0 x logit(π) = a + b1 x1 + b 2 x 2 + ... + bk x k Universitätsklinikum Schleswig-Holstein ©2005 Seite: 9 Ergebnisse Mortalität nach Herz-OP Logistische Regression gestorben n=31 überlebt n=969 weiblich 15 (51.6%) 705 (72.8%) keine Vor-OP 1 2 >2 20 (64.5%) 4 (12.9%) 2 (6.5%) 5 (16.1%) 775 (80%) 114 (11.8%) 26 (2.7%) 54 (5.6%) Alter1 75 (70-80) 67 (56-73) OR p 0.787 [0.67-0.92] 0.03 1.221 [1.14-1.28] <0.001 1.023 [1.02-1.03] < 0.001 G[E(Y)] = -4.792 - 0.239x 1 + 0.023x 2 + 0.192x 3 Effektmaße Effektmaße in Fall-Kontroll- und Kohortenstudie Kohortenstudie: Relatives Risiko betroffen nicht betroffen gesamt betroffen nicht betroffen gesamt exponiert a b a+b exponiert a b a+b nicht exponiert c d c+d nicht exponiert c d c+d gesamt a+c b+d n gesamt a+c b+d n Aus den Inzidenzen A a ≈ e a + b Ne folgt das relative Risiko und c A ≈ n c + d Nn a /(a + b) ˆγ e = =ˆ ρ c /(c + d) ˆγ n Effektmaße Effektmaße Fall-Kontroll-Studie: Odds-Ratio in Fall-Kontroll- und Kohortenstudie betroffen nicht betroffen gesamt exponiert a b a+b nicht exponiert c d c+d gesamt a+c b+d n OR = Wenn die Risiken γe und γn "hinreichend klein" für die gewählte Zeiteinheit sind, d.h. höchstens ein paar Prozent betragen, dann gilt Es lässt sich „nur“ das Chancenverhältnis berechnen a /c Ae / An ˆγ /(1 − ˆγ e ) ≈ = ... = e = OR b / d ( Ne − A e ) /(Nn − A n ) ˆγ n /(1 − ˆγ n ) Universitätsklinikum Schleswig-Holstein ©2005 γ e /(1 − γ e ) γ n /(1 − γ n ) OR = γ e /(1 − γ e ) γ e ≈ =ρ γ n /(1 − γ n ) γ n Seite: 10 Effektmaße Multiples Testen Leukämie bei Kautschuk-Fabrikarbeiter Problemstellung Wenn mehrere Nullhypothesen gleichzeitig jeweils zum gesamt betroffen nicht betroffen exponiert 7 nicht exponiert gesamt OR = Signifikanzniveau 5% getestet werden, dann kann die 7 / 51 = 20.60 11 / 1651 Wahrscheinlichkeit, mindestens eine wahre 11 18 51 1651 1702 95%KI: 7.77 - 55.15 58 1662 1720 P < 0.001 Chi-Quadrat-Test als 5% sein. 17/8728 = 21.84 1/11214 P(mindestens eine NP fälschlicherweise ablehnen)= gesamt betroffen nicht betroffen ρ̂ = Nullhypothese fälschlicherweise zu verwerfen α*, sehr viel größer Beispiel: 6 Nullhypothesen (NP) 17 8711 8728 nicht exponiert 1 11213 11214 95%KI: 2.89 - 164.02 gesamt 18 19924 19942 P < 0.001 Chi-Quadrat-Test exponiert 1-P(keine NP fälschlicherweise ablehnen) = 1-0.956 = 0.265 > 0.05 Naturheilmittel gegen Warzen Multiples Testen Bonferroni-Korrektur Fünf Naturheilmittel wurden in randomisierten, doppelt verblindeten und placebokontrollierten Studien an jeweils 100 Patienten hinsichtlich ihrer heilenden Wirkung bei Fingerwarzen untersucht. Teeblätter Besprechen ja nein 17 33 Verum Placebo 15 35 Verum χ2=0.184 (p=0.668) ja nein 25 25 Verum Placebo 18 32 χ2=1.199 (p=0.157) Ringelblume Pendel ja nein ja nein 9 41 29 21 Placebo 18 32 Verum Placebo 14 Verum 36 χ2=1.412 (p=0.235) Werden k Nullhypothesen getestet, so gilt Tarot ja nein 14 36 Placebo 12 38 α* ≤ n k ⋅ α test FWER Wird αtest=α/n gewählt, so folgt daraus χ2=0.200 (p=0.648) FWER α* ≤ kn ⋅ α test = n k⋅ BINGO! Carlo Bonferroni (1892-1960) α =α k n χ2=4. 857 (p=0.028) Naturheilmittel gegen Warzen Damit α* höchstens 5% ist, muss das testspezifische Signifikanzniveau nach Bonferroni-Korrektur αtest=0.05/5=0.01 betragen, wozu ein kritischer Wert von χ20.99,1=6.635 gehört. Teeblätter χ2=0.184 (p=0.668) Besprechen χ2=1.999 (p=0.157) Tarot χ2=0.200 (p=0.648) Ringelblume χ2=1.412 (p=0.235) Pendel χ2=4.857 (p=0.028) Damit α* von höchstens 5% eingehalten wird, kann keine der H0 verworfen werden. Universitätsklinikum Schleswig-Holstein ©2005 Statistisches Testen Was man nicht tun sollte! 1. den Umfang einer Stichprobe so lange vergrößern, bis sich ein "signifikantes" Ergebnis einstellt 2. Daten nach auffälligen Resultaten durchsuchen und diese nachträglich für "signifikant" erklären. 3. auf Daten so lange verschiedene Tests anwenden, bis einer davon ein "signifikantes" Ergebnis liefert 4. das Signifikanzniveau nachträglich so an das Ergebnis anpassen, dass letzteres gerade eben "signifikant" wird 5. ein und dasselbe Experiment so lange wiederholen, bis es zu einem "signifikanten" Ergebnis führt 6. einem statistisch signifikanten Ergebnis automatisch auch wissenschaftliche Signifikanz zuschreiben Quelle: R. Hilgers, P. Bauer, V. Schreiber (2002) Einführung in die Medizinische Statistik Seite: 11