Biometrisches Tutorial II Datenaufbereitung / beschreibende Statistik Statistisches Testen Auswertungsverfahren Statistische Analyse Qualitative/Quantitative Merkmale Die Wahl des gewählten statistischen Auswertungsverfahrens hängt von der Skala des Merkmals ab. Qualitative Variable - nominal: Kategorien ohne Anordnung (z.B. Blutgruppe) - ordinal: Kategorien mit Anordnung (z.B. Tumor-Stadien) Quantitative Variable - diskret: ganze Zahlen (z.B. Zellzahl) - stetig: reelle Zahlen (z.B. Blutdruck) Binomialverteilung Bin(n,π) Modell: n unabhängige Wiederholungen eines Experiments mit binärem Ausgang ("Erfolg", "Misserfolg") und konstanter Erfolgswahrscheinlichkeit π bei jeder Wiederholung X: Anzahl der Erfolge n k f (k ) = P( X = k ) = ⋅ π (1 − π)n −k k n 1 ⋅ 2 ⋅ ... ⋅ n n! = = k 1 ⋅ 2 ⋅ ... ⋅ k ⋅ 1 ⋅ 2 ⋅ ... ⋅ (n − k ) k! (n − k )! "Binomialkoeffizient" Binomialverteilung Bin(n,π) Die Wahrscheinlichkeit für eine unerwünschte Impfreaktion beträgt 5%, 10 Personen werden geimpft. Fragen Wie groß ist die Wahrscheinlichkeit dafür, dass es keine unerwünschte Impfreaktionen gibt? Wie groß ist die Wahrscheinlichkeit für genau zwei unerwünschte Impfreaktionen? Modell Binomialmodell Bin(n, π) mit n = 10 und π=0.05 Binomialverteilung Bin(10,0.05) Anzahl AnzahlErfolge Erfolge Binomialverteilung Bin(10,0.5) Anzahl Erfolge Parameterschätzung Binomialverteilung Bin(n,π) Parameter θ ππ Wahrscheinlichkeit Wahrscheinlichkeit Beobachtungen x1,...,xn 0,0,1,1,0,1,... 0,0,1,1,0,1,... Schätzer ) θ( x 1 ,..., x n ) πˆ ==kk/ /nn ˆ πAnteil Anteil Konfidenzintervall Um Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruiert man aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Das Konfidenzintervall überdeckt den unbekannten Parameter mit einer Wahrscheinlichkeit von z.B. 95%. Je größer der Stichprobenumfang ist, desto schmaler ist das Konfidenzintervall. Wahrscheinlichkeit für die Geburt eines Jungen Quartal Geschlecht Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez. weiblich 202 184 213 170 männlich 206 205 224 227 total 408 389 437 397 π̂ 0.505 0.527 0.513 0.572 (0.455-0.554) (0.476-0.557) (0.465-0.560) Geschlecht Jan.-Dez. weiblich 769 männlich 862 total 1631 π̂ 0.529 (0.504-0.553) (0.521-0.621) Ist die Wahrscheinlichkeit für die Geburt eines Jungen π̂ > 0.5? Viele Fragen können auch mit Hilfe eines KI beantwortet werden! Nullhypothese Die Nullhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es falsch ist. Sie repräsentiert meistens Konservativismus bzw. die allgemeine Meinung. Die Nullhypothese nicht zu verwerfen, bedeutet nicht, dass sie wahr ist. H0: Die Wahrscheinlichkeit für die Geburt eines Jungen beträgt 50%. Alternativhypothese Die Alternativhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es wahr ist. Die Alternativhypothese gilt als etabliert, wenn die Nullhypothese verworfen wurde. HA: Die Wahrscheinlichkeit für die Geburt eines Jungen ist größer als 50%. Statistisches Testen Einseitig versus zweiseitig HA H0 ungleich (≠) gleich (=) zweiseitig (ungerichtet) größer (>) höchstens (≤) kleiner (<) mindestens (≥) einseitig (gerichtet) HA: Die Wahrscheinlichkeit für einen Jungen ist ungleich 50%. HA: Die Wahrscheinlichkeit für einen Jungen ist größer/kleiner 50%. Binomialtest Ist die W‘keit für die Geburt eines Jungen größer als 50%? Zufallsvariable X∼Bin(n, π) Hypothesen H 0 : π ≤ 0 .5 Beobachtung H A : π > 0 .5 10 Geburten, davon 8 Jungen Teststatistik Binomialverteilung Entscheidung H0 wird abgelehnt, wenn x > ? ist. Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter H0 P(X = 8) + P(X = 9) + P(X =10) 0.045 + 0.01 + 0.001 = 0.056 kritischer Wert Annahmebereich Anzahl der Jungen Ablehnungsbereich Statistische Analyse Teststatistik Unter H0 wird eine zum Test gehörige Wahrscheinlichkeitsfunktion berechnet. Mit dieser Teststatistik kann jedes Ergebnis durch eine Wahrscheinlichkeit unter H0 bewertet werden. Folgt aus der Teststatistik, dass das Ergebnis unter H0 sehr unwahrscheinlich ist (z.B. < 5%), wird H0 abgelehnt. Statistische Analyse kritischer Wert Die kritischen Werte werden so gewählt, dass das Signifikanzniveau α des zugehörigen Tests höchstens einen fest vorgegebenen Wert annimmt (z.B. 5 %). Die Wahl der kritischen Werte hängt nur von der Nullhypothese H0 ab, aber nicht von HA. Sind die kritischen Werte einmal gewählt, hängt die Power des Tests nur von HA ab. Statistische Analyse p-Wert Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die Nullhypothese wahr ist. Er entspricht dem Signifikanzniveau, bei dem H0 gerade eben verworfen würde. H0 p tobs T Statistische Analyse mögliche Fehler Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese H0 verworfen wird, obwohl sie wahr ist. Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese H0 beibehalten wird, obwohl sie falsch ist. Wahrheit Entscheidung H0 HA H0 beibehalten richtig Typ-IIFehler H0 verworfen Typ-IFehler richtig Statistische Analyse mögliche Fehler Das Signifikanzniveau (α) eines Tests ist die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen. Die Power (1-β) eines Tests ist die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden. Wahrheit Entscheidung H0 HA H0 beibehalten 1-α β H0 verworfen α 1-β Statistische Analyse Entscheidung H0 wird getestet verwerfe H0 HA HA wird angenommen H0 verwerfe H0 nicht H0 ? Statistische Analyse negative Ergebnisse Negative Ergebnisse sind genauso wichtig wie positive Ergebnisse, da sie das Unwissen verringern und auf neue interessante Hypothesen oder Forschungsziele verweisen. Sie sind auch notwendig, um zukünftiger Forschung in einem bestimmten Gebiet die richtige Richtung zu weisen (Publikationsbias). Statistische Analyse zwei qualitative Merkmale Typischerweise wird in Fall-Kontroll-Studien der Zusammenhang zwischen Exposition und Erkrankung untersucht Dazu wird retrospektiv an Individuen mit bekanntem Erkrankungsstatus (Fall/Kontrolle) der Expositionsstatus erhoben (Exposition ja/nein). Herzinfarkt und Geschlecht 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße: Infarkt ja/nein Einflussgröße: Geschlecht Fragestellung: Ist die Wahrscheinlichkeit einen Infarkt zu erleiden bei Männern und Frauen gleich? Nullhypothese: Infarkt und Geschlecht sind unabhängig Herzinfarkt und Geschlecht Zielgröße Infarkt (ja/nein) Einflussgröße Geschlecht (m/w) Herzinfarkt und Geschlecht Herzinfarkt und Geschlecht männlich Infarkt n=40 Kein Infarkt n=40 25 (62.2%) [45.8%-77.7%] 28 (70.0%) [53.5%-83.43%] p ? Herzinfarkt und Geschlecht Nullhypothese Geschlecht und Infarkt sind unabhängig X Unter der Nullhypothese erwartete Werte: Y 0 1 Σ m 25 26.5 28 26.5 53 w 15 13.5 12 13.5 27 Σ 40 40 80 Teststatistik kritische Werte χ2 = ∑ ∑ e ij = n m i =1 j =1 o i+ ⋅ o + j o ++ ( o ij − e ij ) 2 e ij Chi-Quadrat-Verteilung c1-α,ν Herzinfarkt und Geschlecht Nullhypothese Geschlecht und Infarkt sind unabhängig X Y 0 1 Σ m 25 26.5 28 26.5 53 w 15 13.5 12 13.5 27 Σ 40 40 80 Teststatistik kritische Werte χ2 = Unter der Nullhypothese erwartete Werte: e ij = o i+ ⋅ o + j o ++ 53 ⋅ 40 = = 26 . 5 80 (25 − 26.5 ) 2 26.5 + ... = 0 . 503 c0.95,1=3.841 > 0.503 => H0 nicht ablehnen χ2-Test Y 1 X ... 1 ... n o11 ... on1 ... ... ... o1m ... onm o1+ ... on+ Σ o+1 ... o+m o++ Nullhypothese m Σ Unter der Annahme, dass die Zeilen und Spalten unabhängig sind, beträgt die erwartete Zellhäufigkeit e ij = o i+ ⋅ o + j o ++ H0: X und Y sind unabhängig Teststatistik χ2 = kritische Werte c1-α,ν ∑ ∑ n m i =1 j =1 ( o ij − e ij ) 2 e ij "Anzahl Freiheitsgrade" ν=(n-1)⋅(m-1) Statistische Tests nominale Daten Studiendesign zwischen Individuen innerhalb von Individuen zwei Gruppen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen χ2-Test χ2-Test (Fishers exakter Test) (Fishers exakter Test) McNemarTest SymmetrieTest Risikofaktoren für Herzinfarkt HBDH Zielgröße Infarkt (ja/nein) Blutzucker GOT Zigaretten Diabetes Alter ??? Cholesterin Risikofaktoren für Herzinfarkt 40 Infarktpatienten werden mit 40 Kontrollen verglichen Zielgröße: Infarkt ja/nein Einflussgrößen: Geschlecht, Alter, Blutdruck, Diabetiker, Cholesterin, Triglyzerid, HBDH, GOT, Zigaretten pro Tag Fragestellung: Welche Faktoren beeinflussen die Wahrscheinlichkeit für einen Herzinfarkt? Risikofaktoren für Herzinfarkt Infarkt n=40 Kein Infarkt n=40 männlich KI 25 (62.2%) [45.8-77.7] 28 (70.0%) [53.5-83.43] 0.478 Diabetes 3 (7.5%) […] 5 (12.5%) […] 0.456 Rauchen 23 (57.5%) […] 31 (77.5%) […] 0.056 diast. BD ? 93.63±9.1 ? Alter 54.0 ± 9.1 62.9 ± 10.4 ? BMI ? ? ? … … … p Statistische Analyse ein stetiges, normalverteiltes Merkmal Normalverteilung N(µ,σ2) mit µ=E(X) und σ2 = Var(x) f (x) = 1 σ 2π e − ( x −µ )2 2 σ2 Normalverteilung N(µ,σ2) N(0,1) N(1,1) N(0,4) N(0,0.25) Parameterschätzung Normalverteilung N(µ,σ2) Parameter θ µ Erwartungswert Beobachtungen x1,...,xn 1.23,4.81,7.55,... Schätzer ) θ( x 1 ,..., x n ) µ ˆ=x Stichprobenmittel Wie repräsentativ ist die Kontrollgruppe? Es soll geprüft werden, ob sich der erwartete diastolische Blutdruck µ von den Kontrollpersonen vom erwarteten Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet. H0: µ=µ0 HA: µ≠µ0 Wie repräsentativ ist die Kontrollgruppe? 95%-KI: [90.73-96.52] Statistische Analyse Ein-Stichproben-t-Test Zufallsvariable X∼N(µ,σ2) beide Parameter unbekannt Hypothesen H0 :µ = µ0 Teststatistik X − µ0 T = ⋅ n S HA :µ ≠ µ0 kritische Werte t1-α/2,n-1 (zweiseitig) H 0 wird abgelehnt, falls | t | ≥ t1−α/2,n −1 (zweiseitig) Statistische Analyse Ein-Stichproben-t-Test Statistische Analyse kritische Werte Ablehnungsbereich Annahmebereich Ablehnungsbereich H0 α/2 α/2 cα/2 c1-α/2 =-2.23 =2.23 T t = 9.5 Der p-Wert Der p-Wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als tobs annimmt, wenn die Nullhypothese wahr ist. Er entspricht dem Signifikanzniveau, bei dem H0 gerade eben verworfen würde. H0 p tobs T Statistische Analyse Verteilungsformen 30 30 25 25 20 20 15 15 10 10 5 5 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 0 10 - 20 20 - 30 symmetrisch 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 70 - 80 80 - 90 linkssteil 30 30 25 25 20 20 15 15 10 10 5 5 0 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 rechtssteil 70 - 80 80 - 90 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 bimodal 60 - 70 Ist der diast. Blutruck normalverteilt? Statistische Analyse zwei stetige, nicht normalverteilte Merkmale Statistische Analyse Box-Plot möglicher Ausreißer kleinster Wert im inneren Zaun größter Wert im inneren Zaun Ausreißer o * ~ x0.25 ~ x0.50 ~ x0.75 innerer Zaun 1.5⋅IQR 3⋅IQR IQR innerer Zaun 1.5⋅IQR 3⋅IQR äußerer Zaun Statistische Analyse zwei stetige, nicht normalverteilte Merkmale Behandlung von Depressionen Zur Wirksamkeitsprüfung eines neuen Antidepressivums werden 10 klinisch depressive Patienten zufällig einer von zwei Gruppen zugeordnet. Gruppe A (5 Patienten) bekommt für 6 Monate das neue Medikament. Gruppe B bekommt ein Placebo. Am Ende der Studie wird der Zustand jedes Teilnehmers von einem verblindeten Psychiater auf einer Skala von 0 - 20 mit einem Score bewertet. Patient Score A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 11 15 7 8 12 3 4 9 2 5 H0: Die Verteilung des Depressionsscores ist unter Verum die gleiche wie unter Placebo. HA: Die Verteilung des Depressionsscores ist unter Verum eine andere als unter Placebo. Behandlung von Depressionen Wilcoxon-Rangsummentest Patient Score Rang A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 11 15 7 8 12 3 4 9 2 5 8 10 5 6 9 2 3 7 1 4 Patient Rang B4 B1 B2 B5 A3 A4 B3 A1 A5 A2 1 2 3 4 5 6 7 8 9 10 ∑ R (A ) = 5 + 6 + 8 + 9 + 10 = 38 ∑ R (B ) = 1 + 2 + 3 + 4 + 7 = 17 i i Teststatistik (maximale Rangsumme) W=38 kritischer Wert (zweiseitig) W0.975,5,5=37 H0 kann zum 5% Signifikanzniveau verworfen werden. Risikofaktoren für Herzinfarkt Infarkt n=40 Kein Infarkt n=40 M KI 25 (62.2%) [45.8-77.7] 28 (70.0%) [53.5-83.43] 0.478 Diabetes 3 (7.5%) […] 5 (12.5%) […] 0.456 Rauchen 23 (57.5%) […] 31 (77.5%) […] 0.056 diast. BD 98 (95-105)* 93.63±9.1 [90.73-96.52] 0.012 Alter 54.0 ± 9.1 62.9 ± 10.4 <0.001?? BMI 26 (21.4-29.7)* 25 (21.7-27.4)* 0.32 … … … * Erstes und drittes Quartil p Statistische Analyse zwei normalverteilte Merkmale Zufallsvariable Xa∼N(µa,σ2) und Xb∼N(µb,σ2) Hypothesen H0 : µ a = µ b H A : µ a ≠ µ b Xa − Xb ⋅ Teststatistik T = S pooled Ablehnungsbereich (zweiseitig) na ⋅ nb na + nb T ≤ tα / 2,na +nb −2 oder T ≥ t1−α / 2,na +nb −2 (zweiseitig) Statistische Analyse zwei normalverteilte Merkmale Risikofaktoren für Herzinfarkt Infarkt n=40 Kein Infarkt n=40 männlich KI 25 (62.2%) [45.8-77.7] 28 (70.0%) [53.5-83.43] 0.478 Diabetes 3 (7.5%) […] 5 (12.5%) […] 0.456 Rauchen 23 (57.5%) […] 31 (77.5%) […] 0.056 diast. BD 98 (95-105)* 93.63±9.1 [90.73-96.52] 0.012 Alter 54.0 ± 9.1 62.9 ± 10.4 <0.001 BMI 26 (21.4-29.7)* 25 (21.7-27.4)* 0.32 Blutzucker 96.9±25.26 96.6±45.3 0.98 * Erstes und drittes Quartil p Statistische Analyse parametrische versus nicht-parametrisch Viele statistische Tests machen implizite Annahmen über die den Daten zu Grunde liegende Verteilung. Solche Tests heißen "parametrisch". Statistische Tests, die keine oder nur schwache Annahmen über die den Daten zu Grunde liegende Verteilung machen, heißen "nicht-parametrisch". Statistische Analyse parametrische versus nicht-parametrisch Die meisten parametrischen Tests setzen voraus, dass die Stichprobendaten normalverteilt sind. Wird diese Annahme verletzt, so ist der Test möglicherweise nicht "valide" (d.h. das Signifikanzniveau ist falsch). Viele parametrische Tests, insbesondere die für den Vergleich von zwei oder mehr Gruppen, setzen die Gleichheit der gruppenspezifischen Varianzen voraus ("Homogenität der Varianzen"). Statistische Analyse parametrische versus nicht-parametrisch Parametrische Tests gewinnen mehr Information aus Daten und haben daher für normalverteilte Daten mehr Power als nicht-parametrische. Im Fall der Normalität haben nicht-parametrische Tests etwa 95% der Power des entsprechenden parametrischen Tests. Nichtparametrische Tests nicht normalverteilte Daten Studiendesign zwischen Individuen zwei Gruppen WilcoxonRangsummenTest innerhalb von Individuen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen KruskalWallis-Test WilcoxonVorzeichenRangtest Friedman-Test Parametrische Tests normalverteilte Daten Studiendesign zwischen Individuen innerhalb von Individuen zwei Gruppen mehr als zwei Gruppen zwei Messungen mehr als zwei Messungen ZweiStichproben t-Test Varianzanalyse (ANOVA) EinStichproben t-Test ANOVA mit Messwiederholungen