Biometrisches Tutorial II EBM Evidenzgrade eojvrepvj Statistisches Testen Modellbildung Effektmaße Multiples Testproblem Das Zentrum für klinische Studien Kiel Statistische Analyse zwei qualitative Merkmale Ziel: Unterstützung (wissenschaftsinitiierter) klinischer Studien Leistungen Typischerweise wird in Fall-Kontroll-Studien der Zusammenhang zwischen Exposition und Erkrankung untersucht 1. Beratungsgespräche • Fortbildungen + Beratungen, Biometrie 2. Planung klinischer Studien 3. Durchführung klinischer Studien 4. Abschluss klinischer Studien (Auswertungen, Berichte, Abmeldungen) 5. Fortbildungen • GCP-Kurse, Prüfarztkurse nach AMG und MPG, Medical Writing, Dazu wird retrospektiv an Individuen mit bekanntem Erkrankungsstatus (Fall/Kontrolle) der Expositionsstatus erhoben (Exposition ja/nein). English for Investigators 3 Herzinfarkt und Geschlecht Ist die Wahrscheinlichkeit einen Infarkt zu erleiden bei Männern und Frauen gleich? Herzinfarkt und Geschlecht Zielgröße Infarkt (ja/nein) 40 Infarktpatienten, 40 Kontrollen Einflussgröße Geschlecht (m/w) Universitätsklinikum Schleswig-Holstein ©2005 Seite: 1 Herzinfarkt und Geschlecht Herzinfarkt und Geschlecht 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße: Infarkt ja/nein Einflussgröße: Geschlecht Fragestellung: Ist die Wahrscheinlichkeit einen Infarkt zu erleiden bei Männern und Frauen gleich? Nullhypothese: Infarkt und Geschlecht sind unabhängig Herzinfarkt und Geschlecht Herzinfarkt und Geschlecht Nullhypothese Geschlecht und Infarkt sind unabhängig Infarkt n=40 männlich Kein Infarkt n=40 25 (62.2%) [45.8%-77.7%] p X 1 Σ 25 26.5 28 26.5 53 w 15 13.5 12 13.5 27 Σ 40 40 Y 0 m Teststatistik 28 (70.0%) [53.5%-83.43%] kritische Werte Y 1 1 ... n o11 ... on1 ... ... ... o1m ... onm o1+ ... on+ Σ o+1 ... o+m o++ Nullhypothese m Σ = e ij = o i+ ⋅ o + j o ++ 53 ⋅ 40 = = 26 . 5 80 80 (25 − 26.5 ) 2 26.5 + ... = 0 . 503 c0.95,1=3.841 > 0.503 => H0 nicht ablehnen Statistische Tests χ2-Test X ... χ 2 Unter der Nullhypothese erwartete Werte: nominale Daten Unter der Annahme, dass die Zeilen und Spalten unabhängig sind, beträgt die erwartete Zellhäufigkeit e ij = o i+ ⋅ o + j Studiendesign zwischen Individuen o ++ zwei Gruppen innerhalb von Individuen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen McNemarTest SymmetrieTest H0: X und Y sind unabhängig Teststatistik χ2 = kritische Werte c1-α,ν n m i=1 j =1 ∑ ∑ ( o ij − e ij ) 2 χ2-Test χ2-Test e ij (Fishers exakter Test) (Fishers exakter Test) "Anzahl Freiheitsgrade" ν=(n-1)⋅(m-1) Universitätsklinikum Schleswig-Holstein ©2005 Seite: 2 Normalverteilung N(µ,σ2) Statistische Analyse ein stetiges, normalverteiltes Merkmal Normalverteilung N(µ,σ2) mit µ=E(X) und σ2 = Var(x) f (x) = 1 σ 2π e − N(0,1) N(1,1) N(0,4) N(0,0.25) ( x − µ )2 2 σ2 Parameterschätzung Wie repräsentativ ist die Kontrollgruppe? Normalverteilung N(µ,σ2) Parameter θ Beobachtungen x1,...,xn µ Erwartungswert 1.23,4.81,7.55,... Schätzer ) θ( x1 ,..., x n ) µ ˆ=x Stichprobenmittel Es soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von den Kontrollpersonen vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet. H0: µ=µ0 Wie repräsentativ ist die Kontrollgruppe? HA: µ≠µ0 Statistische Analyse Ein-Stichproben-t-Test Zufallsvariable X∼N(µ,σ2) beide Parameter unbekannt Hypothesen H0 :µ = µ0 Teststatistik T = HA :µ ≠ µ0 (zweiseitig) X − µ0 ⋅ n S kritische Werte t1-α/2,n-1 (zweiseitig) 95%-KI: [90.73-96.52] Universitätsklinikum Schleswig-Holstein ©2005 H 0 wird abgelehnt, falls | t | ≥ t1−α/2, n −1 Seite: 3 Statistische Analyse Statistisches Testen Ein-Stichproben-t-Test Vorgehensweise Ablehnungsbereich Ablehnungsbereich Annahmebereich H0 verwerfen H0 verwerfen H0 α/2 α/2 H0 beibehalten cα/2 c1-α/2 =-2.23 =2.23 Statistisches Testen Statistisches Testen Vorgehensweise mögliche Fehler Die in den Daten einer Stichprobe enthaltene Information wird in der Teststatistik T, zusammengefasst. Der Annahmebereich des Tests enthält alle Werte von T, bei denen H0 beibehalten wird. Das Signifikanzniveau (α) eines Tests ist die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen. Die Power (1-β) eines Tests ist die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden. Wahrheit Der Ablehnungsbereich enthält alle Werte von T, bei denen H0 verworfen wird. Annahme- und Ablehnungsbereich werden von den kritischen Werten begrenzt. Entscheidung H0 HA H0 beibehalten 1-α β H0 verworfen α 1-β Statistisches Testen Statistische Analyse p-Wert Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die Nullhypothese wahr ist. Er entspricht dem Signifikanzniveau, bei dem H0 gerade eben verworfen würde. Verteilungsformen 30 30 25 25 20 20 15 15 10 10 5 5 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 0 10 - 20 20 - 30 symmetrisch Universitätsklinikum Schleswig-Holstein ©2005 60 - 70 70 - 80 80 - 90 70 - 80 80 - 90 20 15 15 10 10 T 50 - 60 25 20 tobs 40 - 50 30 25 p 30 - 40 linkssteil 30 H0 T t = 9.5 5 5 0 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 rechtssteil 70 - 80 80 - 90 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 bimodal Seite: 4 Ist der diast. Blutruck normalverteilt? Statistische Analyse zwei stetige, nicht normalverteilte Merkmale möglicher Ausreißer Statistische Analyse Statistische Analyse Box-Plot zwei stetige, nicht normalverteilte Merkmale kleinster Wert im inneren Zaun größter Wert im inneren Zaun Ausreißer o * ~ x0.25 ~ x0.50 ~ x0.75 innerer Zaun 1.5⋅IQR IQR innerer Zaun äußerer Zaun 1.5⋅IQR 3⋅IQR 3⋅IQR Behandlung von Depressionen Zur Wirksamkeitsprüfung eines neuen Antidepressivums werden 10 klinisch depressive Patienten zufällig einer von zwei Gruppen zugeordnet. Gruppe A (5 Patienten) bekommt für 6 Monate das neue Medikament. Gruppe B bekommt ein Placebo. Am Ende der Studie wird der Zustand jedes Teilnehmers von einem verblindeten Psychiater auf einer Skala von 0 - 20 mit einem Score bewertet. Patient Score A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 11 15 7 8 12 3 4 9 2 5 H0: Die Verteilung des Depressionsscores ist unter Verum die gleiche wie unter Placebo. HA: Die Verteilung des Depressionsscores ist unter Verum eine andere als unter Placebo. Universitätsklinikum Schleswig-Holstein ©2005 Behandlung von Depressionen Wilcoxon-Rangsummentest Patient Score Rang A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 11 15 7 8 12 3 4 9 2 5 8 10 5 6 9 2 3 7 1 4 Patient Rang B4 B1 B2 B5 A3 A4 B3 A1 A5 A2 1 2 3 4 5 6 7 8 9 10 ∑ R (A ) = 5 + 6 + 8 + 9 + 10 = 38 ∑ R (B ) = 1 + 2 + 3 + 4 + 7 = 17 i i Teststatistik (maximale Rangsumme) W=38 kritischer Wert (zweiseitig) W0.975,5,5=37 H0 kann zum 5% Signifikanzniveau verworfen werden. Seite: 5 Risikofaktoren für Herzinfarkt 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße Infarkt (ja/nein) HBDH Blutzucker Zigaretten Zielgröße: Infarkt ja/nein Einflussgrößen: Geschlecht, Alter, Blutdruck, Diabetiker, Cholesterin, Triglyzerid, HBDH, GOT, Zigaretten pro Tag Diabetes Einflussgröße Blutdruck GOT Risikofaktoren für Herzinfarkt Cholesterin Fragestellung: Welche Faktoren beeinflussen die Wahrscheinlichkeit für einen Herzinfarkt? ??? Risikofaktoren für Herzinfarkt Statistische Analyse zwei normalverteilte Merkmale Infarkt n=40 Kein Infarkt n=40 M 25 (62.2%) [45.8-77.7]* 28 (70.0%) [53.5-83.43]* 0.478 Diabetes 3 (7.5%) […]* 5 (12.5%) […]* 0.456 Rauchen 23 (57.5%) […]* 31 (77.5%) […]* 0.056 diast. BD 98 (95-105)** 93.63±9.1 [90.73-96.52]* 0.012 p Alter 54.0 ± 9.1 62.9 ± 10.4 ? BMI 26 (21.4-29.7)** 25 (21.7-27.4)** 0.32 Blutzucker 96.9±25.26 96.6±45.3 ? *95%-Konfidenzintervall Zufallsvariable Xa∼N(µa,σ2) und Xb∼N(µb,σ2) Hypothesen H0 : µ a = µ b H A : µ a ≠ µ b Teststatistik T = Xa − Xb ⋅ S pooled (zweiseitig) na ⋅ nb na + nb Ablehnungs- T ≤ t α / 2,na +nb −2 oder T ≥ t1−α / 2,na +nb −2 (zweiseitig) bereich ** Erstes und drittes Quartil Statistische Analyse Risikofaktoren für Herzinfarkt zwei normalverteilte Merkmale Infarkt n=40 Kein Infarkt n=40 M 25 (62.2%) [45.8-77.7]* 28 (70.0%) [53.5-83.43]* 0.478 Diabetes 3 (7.5%) […]* 5 (12.5%) […]* 0.456 Rauchen 23 (57.5%) […]* 31 (77.5%) […]* 0.056 diast. BD 98 (95-105)** 93.63±9.1 [90.73-96.52]* 0.012 Alter 54.0 ± 9.1 62.9 ± 10.4 <0.001 BMI 26 (21.4-29.7)** 25 (21.7-27.4)** 0.32 Blutzucker 96.9±25.26 96.6±45.3 0.98 *95%-Konfidenzintervall Universitätsklinikum Schleswig-Holstein ©2005 p ** Erstes und drittes Quartil Seite: 6 Statistische Analyse parametrische versus nicht-parametrisch Viele statistische Tests machen implizite Annahmen über die den Daten zu Grunde liegende Verteilung. Solche Tests heißen "parametrisch". Statistische Tests, die keine oder nur schwache Annahmen über die den Daten zu Grunde liegende Verteilung machen, heißen "nicht-parametrisch". Statistische Analyse Statistische Analyse parametrische versus nicht-parametrisch parametrische versus nicht-parametrisch Die meisten parametrischen Tests setzen voraus, dass die Stichprobendaten normalverteilt sind. Wird diese Annahme verletzt, so ist der Test möglicherweise nicht "valide" (d.h. das Signifikanzniveau ist falsch). Viele parametrische Tests, insbesondere die für den Vergleich von zwei oder mehr Gruppen, setzen die Gleichheit der gruppenspezifischen Varianzen voraus ("Homogenität der Varianzen"). Parametrische Tests gewinnen mehr Information aus Daten und haben daher für normalverteilte Daten mehr Power als nicht-parametrische. Im Fall der Normalität haben nicht-parametrische Tests etwa 95% der Power des entsprechenden parametrischen Tests. Nichtparametrische Tests Parametrische Tests nicht normalverteilte Daten normalverteilte Daten Studiendesign Studiendesign zwischen Individuen zwei Gruppen WilcoxonRangsummenTest innerhalb von Individuen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen KruskalWallis-Test WilcoxonVorzeichenRangtest Friedman-Test Universitätsklinikum Schleswig-Holstein ©2005 zwischen Individuen innerhalb von Individuen zwei Gruppen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen ZweiStichproben t-Test Varianzanalyse (ANOVA) EinStichproben t-Test ANOVA mit Messwiederholungen Seite: 7 Statistische Modellbildung Mortalität nach Herz-OP ZG: Überlebt (ja/nein) ... beinhaltet die Analyse des funktionellen Zusammenhangs zwischen Zielgröße (abhängige Variable) und Einflussgrößen (unabhängigen Variablen), einschließlich der Adjustierung für unkontrollierbare Störgrößen. Vor-OPs (0,1,2, >2) Alter (Jahre) Geschlecht (m/w) Lineare Regression stetige Zielgröße stetige Einflussgröße Zufallsfehler 150 y = a + bx 140 Körpergewicht (Pfund) Y: X: Ε: Einfaches lineares Modelle Für Ε wird im Allgemeinen eine mit unbekanntem σ2 unterstellt. N(0,σ2)-Verteilung Y = a+b⋅x + Ε 130 120 110 100 90 62 Diese Modellgleichung nennt man lineares Regressionsmodell, b heißt "Regressionskoeffizient" exponentielle Regression y 68 70 72 Pearson Korrelationskoeffizient y logarithmische Regression y 66 Körpergröße (Zoll) Regressionsmodelle lineare Regression 64 y y rXY ∼ +1 rXY ∼ -1 y x x x rXY ∼ 0 x y =a+b⋅x x y =a+e-b⋅x Universitätsklinikum Schleswig-Holstein ©2005 x y =a+b⋅log(x) perfekt |rXY|=1.00 0.75≤|rXY|<1.00 stark rXY misst die Stärke und Richtung des moderat 0.50≤|r XY|<0.75 linearen Zusammenhangs zwischen X und Y. schwach 0.25≤|r |<0.50 XY Seite: 8 Pearson Korrelationskoeffizient Spearman Rang-Korrelationskoeffizient Signifikanztest 160 X∼N(µX,σX2), Y∼N(µY,σY2) alle unbekannt H0 : rXY = 0 H0 : rXY ≤ 0 Hypothesen HA : rXY ≠ 0 HA : rXY > 0 rXY = 0.85 ρXY = 1.00 120 80 (zweiseitig) y Zufallsvariable (einseitig) 25 40 rXY = 1.00 ρXY = 1.00 20 0 Ablehnungsbereich n−2 2 1 − r̂XY T ≤ tα / 2,n−2 oder T ≥ t1−α,n−2 (einseitig) 15 -40 -1 1 2 3 4 x T ≥ t1−α / 2,n−2 (zweiseitig) 5 6 10 5 0 0 5 10 15 20 25 rg[x] Multiples lineares Modelle Y: X1,...,Xk: Ε: 0 rg[y] T = r̂XY ⋅ Teststatistik stetige Zielgröße Einflussgrößen Zufallsfehler Für Ε wird im Allgemeinen eine N(0,σ2)-Verteilung mit unbekanntem σ2 unterstellt. Y = a + b1 x1 + b 2 x 2 + ... + bk x k + Ε Multiple lineare (und andere) Modelle erlauben die Schätzung der Regressionskoeffizienten bi unter Berücksichtigung von Störgrößen ("Adjustierung"). Verallgemeinertes lineares Modelle Y: X1,...,Xk: G: stetige Zielgröße Einflussgrößen Linkfunktion G[E(Y)] = a + b1 x 1 + b 2 x 2 + ... + bk x k für eine dichotome Zielgröße Y gilt: E(Y) = 0⋅P(Y=0)+1⋅P(Y=1) = P(Y=1) =π Logistische Regression Verallgemeinertes Lineares Modell mit "logit" als Link-Funktion 6 4 logit(x) 2 0 -2 logit(x) = ln( -4 x ) 1−x -6 0.0 0.2 0.4 0.6 0.8 1.0 x logit(π) = a + b1 x1 + b 2 x 2 + ... + bk x k Universitätsklinikum Schleswig-Holstein ©2005 G[E(Y)] = -4.792 - 0.239x 1 + 0.023x 2 + 0.192x 3 Seite: 9 Ergebnisse Mortalität nach Herz-OP Effektmaße Logistische Regression Kohortenstudie: Relatives Risiko weiblich gestorben n=31 überlebt n=969 15 (51.6%) 705 (72.8%) keine Vor-OP 1 2 >2 20 (64.5%) 4 (12.9%) 2 (6.5%) 5 (16.1%) 775 (80%) 114 (11.8%) 26 (2.7%) 54 (5.6%) Alter1 75 (70-80) 67 (56-73) OR p 0.787 [0.67-0.92] 0.03 1.221 [1.14-1.28] <0.001 1.023 [1.02-1.03] < 0.001 betroffen nicht betroffen gesamt exponiert a b a+b nicht exponiert c d c+d gesamt a+c b+d n A a ≈ e Aus den Inzidenzen a + b Ne folgt das relative Risiko c A ≈ n und c + d Nn a /(a + b) ˆγ e = =ˆ ρ c /(c + d) ˆγ n Effektmaße Effektmaße Fall-Kontroll-Studie: Odds-Ratio in Fall-Kontroll- und Kohortenstudie betroffen nicht betroffen gesamt exponiert a b a+b nicht exponiert c d c+d gesamt a+c b+d n OR = Wenn die Risiken γe und γn "hinreichend klein" für die gewählte Zeiteinheit sind, d.h. höchstens ein paar Prozent betragen, dann gilt Es lässt sich „nur“ das Chancenverhältnis berechnen a /c Ae / An ˆγ /(1 − ˆγ e ) ≈ = ... = e = OR b / d ( Ne − A e ) /(Nn − A n ) ˆγ n /(1 − ˆγ n ) γ e /(1 − γ e ) γ n /(1 − γ n ) OR = γ e /(1 − γ e ) γ e ≈ =ρ γ n /(1 − γ n ) γ n Effektmaße Multiples Testen Leukämie bei Kautschuk-Fabrikarbeiter Problemstellung Wenn mehrere Nullhypothesen gleichzeitig jeweils zum gesamt betroffen nicht betroffen 7 / 51 OR = = 20.60 11 / 1651 Signifikanzniveau 5% getestet werden, dann kann die Wahrscheinlichkeit, mindestens eine wahre exponiert 7 11 18 nicht exponiert 51 1651 1702 95%KI: 7.77 - 55.15 gesamt 58 1662 1720 P < 0.001 Chi-Quadrat-Test als 5% sein. 17/8728 = 21.84 1/11214 P(mindestens eine NP fälschlicherweise ablehnen)= gesamt betroffen nicht betroffen ρ̂ = 17 8711 8728 nicht exponiert 1 11213 11214 95%KI: 2.89 - 164.02 gesamt 18 19924 19942 P < 0.001 Chi-Quadrat-Test exponiert Universitätsklinikum Schleswig-Holstein ©2005 Nullhypothese fälschlicherweise zu verwerfen α*, sehr viel größer Beispiel: 6 Nullhypothesen (NP) 1-P(keine NP fälschlicherweise ablehnen) = 1-0.956 = 0.265 > 0.05 Seite: 10 Naturheilmittel gegen Warzen Multiples Testen Bonferroni-Korrektur Fünf Naturheilmittel wurden in randomisierten, doppelt verblindeten und placebokontrollierten Studien an jeweils 100 Patienten hinsichtlich ihrer heilenden Wirkung bei Fingerwarzen untersucht. Teeblätter Tarot ja nein ja nein 25 25 Verum 14 36 Placebo 18 32 Placebo 12 38 nein 17 33 Verum Placebo 15 35 Verum χ2=0.184 (p=0.668) χ2=1.199 (p=0.157) Ringelblume Pendel ja nein ja nein 9 41 29 21 Placebo 18 32 Verum Placebo 14 Verum 36 χ2=1.412 (p=0.235) Werden k Nullhypothesen getestet, so gilt Besprechen ja α* ≤ n k ⋅ α test FWER Wird αtest=α/n gewählt, so folgt daraus χ2=0.200 (p=0.648) FWER α* ≤ kn ⋅ α test = n k⋅ BINGO! Carlo Bonferroni (1892-1960) α =α k n χ2=4. 857 (p=0.028) Naturheilmittel gegen Warzen Damit α* höchstens 5% ist, muss das testspezifische Signifikanzniveau nach Bonferroni-Korrektur αtest=0.05/5=0.01 betragen, wozu ein kritischer Wert von χ20.99,1=6.635 gehört. Teeblätter χ2=0.184 (p=0.668) Besprechen χ2=1.999 (p=0.157) Tarot χ2=0.200 (p=0.648) Ringelblume Pendel χ2=1.412 (p=0.235) χ2=4.857 (p=0.028) Damit α* von höchstens 5% eingehalten wird, kann keine der H0 verworfen werden. Statistisches Testen Was man nicht tun sollte! 1. den Umfang einer Stichprobe so lange vergrößern, bis sich ein "signifikantes" Ergebnis einstellt 2. Daten nach auffälligen Resultaten durchsuchen und diese nachträglich für "signifikant" erklären. 3. auf Daten so lange verschiedene Tests anwenden, bis einer davon ein "signifikantes" Ergebnis liefert 4. das Signifikanzniveau nachträglich so an das Ergebnis anpassen, dass letzteres gerade eben "signifikant" wird 5. ein und dasselbe Experiment so lange wiederholen, bis es zu einem "signifikanten" Ergebnis führt 6. einem statistisch signifikanten Ergebnis automatisch auch wissenschaftliche Signifikanz zuschreiben Quelle: R. Hilgers, P. Bauer, V. Schreiber (2002) Einführung in die Medizinische Statistik Das schaffen wir nicht mehr: Fallzahlplanung Powerberechnung ANOVA Überlebenszeiten …. Universitätsklinikum Schleswig-Holstein ©2005 Seite: 11