Einführung in die Statistik zur Tierversuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie So viele Tiere wie nötig, so wenig Tiere wie möglich Statistik • Schließende Statistik Statistische Tests: H0 H1 • Z.B.: „wirkt mein Medikament“? • Poweranalyse Effektstärke Fallzahlen Biometrisches Gutachten Statistischer Test: Hypothesen Null-Hypothese H0: kein Unterschied Alternativ-Hypothese H1: Unterschied Blutdruck (mm Hg) • Bsp.: 2 Gruppen, Kontrolle & Behandlung 160 • Frage: Behandlung Unterschied? 145 130 • Hypothesen 115 100 • H0 annehmen, wenn Irrtumswahrscheinlichkeit für H1>0.05 H1 annehmen, wenn Irrtumswahrscheinlichkeit p≤0.05 Statistischer Test: Prinzip H1/ Effekt wenn: + Effekt hoch - Variation niedrig + Stichprobe hoch t= 𝑎𝑎� −𝑏𝑏� 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 × 𝑁𝑁 Testprinzip: je höher t (F, r, Chi², U…), desto kleiner p Bsp. (t*(10)=2.2): t(10) = 2.3 p< 0.05 H1 t(10) = 1.9 p> 0.05 H0 Fehler 1. Art oder alpha-Fehler • p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich! • p klein, üblich ist 5% „möglichst keine falsche Behauptung“ Fehler 1. Art oder alpha-Fehler • p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich! • Viele Tests: alpha-Fehler addieren sich z.B. 7 Gruppen, 21 statistische Vergleiche 1 signifikantes Ergebnis erwartet bei 5% Irrtumswahrscheinlichkeit g a p=0.012 b • damit alpha gesamt <5% Bonferroni-Korrektur α‘ = α/21 im Bsp. α‘= 0.05 /21= 0.0024 nur wenn p<0.0024 signifikant f c e d Statistik • Schließende Statistik Statistische Testgröße (Beispiel t) steigt mit: • Mittelwerts-Unterschied • 1/Variation • Stichprobenumfang (Richtiger Test mehr Power) Ggf.: Bonferroni-Korrektur p*=5% Irrtum in 5% der Fälle = alpha-Fehler alpha & beta-Fehler • Alpha-Fehler (α=p): 5% Irrtumswahrscheinlichkeit = 5% Wahrscheinlichkeit dass man sich irrt (Zufall) • β-Fehler: Wahrscheinlichkeit, Effekt nicht zu finden H1 = Alternativhypothese: es gibt Effekt bzw. MW sind verschieden Pharmakon wirkt wirkt nicht Statistischer (H1 stimmt) (H1 falsch) Test Typ 1 Fehler H1 akzeptiert o.k. α (p) (wirkt) Typ 2 Fehler H0 akzeptiert o.k. β (wirkt nicht) v ? Alpha: Gesellschaft trägt Risiko. Wirkungslos = gefährlich alpha klein wählen Beta: Versuchsträger Risiko. (Tabletten)wirkung nicht entdeckt = schade, Einkommensverlust beta kann etwas größer sein Power Statistische Power = Wahrscheinlichkeit (vorhandenen) Effekt zu finden = Wahrscheinlichkeit, falsche H0 zurückzuweisen =1-β Beispiel: Blutdrucksenker wirkt (vgl. zu Placebo) z.B.: β = 0.2 Power = 1- β = 0.8 => In 80% der Fälle statistische Signifikanz => In ß=20% keine Signifikanz (trotz Wirksamkeit) Vier statistische Größen • Wenn 3 Größen bekannt, 4. berechenbar: α (i.A. p=0.05) N (z.B. N=10+10=20) β-Fehler bzw. Power = 1-ß Effektstärke (z.B. „d“) Beispiel Blutdruck Placebo = 150 mmHg Medikament = 135 mmHg SD = 30 mmHg Effektstärke = 150 −135 30 = 0.5 (SD) Effektstärke d= 𝑎𝑎� −𝑏𝑏� 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 β und Power Fehler: Stabw. ß = H1 nicht gefunden. 165 60% 150 50% 135 50% ß - Fehler d=0.5 d=0.5 (r=0.24), α=0.05 40% 30% 120 20% 105 Placebo d=0.5 (r=0.24), ß=0.2 ** * Signifikanz 10% 5% 0% 20% *** 20% 10% Medikament Häufigkeit Blutdruck (mm Hg) 180 ns 0 100 200 Stichprobenumfang n 1% 300 Underpowered • Neurobiologie: durchschnittliche Power war1 0.21 = viel zu niedrig nur in 21% finde ich den Effekt, in 79% finde ich den Effekt nicht! • Grund: i.A. Tierzahl zu niedrig • Beispiel: Geschlecht im Watermaze d=0.49 Notwendige Tiere bei Power von 0.8: 134 Im Mittel eingesetzte Tiere: 22 1: Butten et al. 2013, Nat Neurosc Rev. flickr.com β-Fehler Post-hoc, also nach dem Experiment: Gegeben: d und n sowie alpha Berechenbar: Power = 0.19 (ß=0.81) t-tests Means: Difference between two independent means Post hoc: Compute achieved power – given α, sample size and effect size Effect size d α err prob Sample size group 1 Sample size group 2 0.5 0.05 10 10 Power (1-ß err prob) 0.1851 Zwischenstand Poweranalyse • 2 Fehlermöglichkeiten, α + β • Effektgröße: bei ttest d= ΔMittelwerte / Standardabweichung • 4 Werte α, β, d und n: Wenn drei davon bekannt, ist der vierte berechenbar α (bzw. p) i.A. auf 0.05 festsetzen Nach Experiment ist Effektgröße d bekannt Nach Experiment ist n bekannt • Power = 1- β: Wahrscheinlichkeit, Effekt zu finden Vier Rechengrößen • Wenn drei davon gegeben α = 0.05 ß = 0.2 d z.B. aus Vorversuchen ! ? ? • dann ist N bestimmbar Biometrisches Gutachten: α, ß, d N Beispiel Effekt klein mittel groß Tierversuch Effektgröße d 0.2 0.5 0.8 1.0 1-ß=0.80 779 131 52 34 N gesamt 1-ß=0.90 1-ß=0.95 1054 1289 172 215 68 84 46 54 Keine kleinen Effekte in einzelnen Tierversuchen suchen „Standard“ mittlere Effekte ist i.A. immer noch zu gering Größere Effekte als d=1.0 sind erlaubt und erwünscht 1-ß = 0.95 ist i.A. zu hoch Power = 0.8? Wahl Power ist arbiträr, zwischen 80 und 95% 80% Power heißt 1. Wahrscheinlichkeit für "signifikantes Ergebnis" 80% 2. 20% KEIN "signifikantes Ergebnis". Risiko-Kosten-Abwägung: • was kostet Experiment (Zeit, Geld und Leid der Tiere)? • wie wichtig ist es, Effekt zu finden? • Was passiert, wenn Effekt mit Risiko =20% verpasst Beispiel: • Power = 0.8 n = 28 • Power = 0.9 n = 36, also 30% mehr Tiere • Risiko halbiert, Signifikanz zu verpassen, also -50% Power = 0.8, nur begründet ev. 0.9 Beispiel Biometrische Planung • ttest: N=34, U-Test: N=36 t-tests Means: Difference between two independent means A priori: Compute required sample size – given α, power and effect size Effect size d α err prob Power (1-ß err prob) 1 0.05 0.80 Total sample size 34 Biometrische Planung • Statistische Hypothesen H0 und H1 • Welcher Test? (vor Experiment) ein- oder zweiseitig? parametrisch (MW) oder nicht-parametrisch (Median) wie viele Gruppen (Dosierungen) • Versuchsdesign wichtige Neben-Variablen, Messwiederholungen Blockdesign, Abfolge, Randomisieren, … • N-Zahl (Poweranalyse) Avisierte Effektstärke • d≥1 bei Tierversuchen, höher = besser 1-ß=0.8 bei Tierversuchen Standard. Ich brauche wenig Tiere, wenn • • • • • • • • großer Unterschied zwischen Mittelwerten Streuung der Daten klein Signifikanzniveau α hoch (5% statt 1%) Power nicht so hoch (80% statt 95%) einseitiger Test (~20% weniger Tiere) Parametrische Tests ~1 Tier/Gruppe weniger Gutes Versuchsdesign (z.B. Messwiederholung) wenig Gruppen Formblatt Biometrische Planung 1. 2. 3. 4. 5. 6. 7. Primäre Zielgröße Verteilungsform der Zielgröße Planungsgrößen Statistisches Test-Verfahren Annahmen zum Fehler 1. Art (alpha) und 2. Art (beta) Falls verwendet: Bei der Berechnung durchgeführte Korrekturen Richtung von Hypothese und Test 1. 2. 3. 4. 5. 6. 7. (zu untersuchendes Haupt-Zielmerkmal des Versuches, anhand dessen die Stichprobe berechnet wurde; ggf. inkl. der Transformation dieser Zielgröße). (soweit anhand der Vordatendichte Angabe möglich; in diesem Fall inkl. des Testverfahrens mit dem die Verteilungsform bestimmt wurde) (erwarteter Unterschied (z.B. erwartete relevante Mittelwertsdifferenz und Standardabweichung oder zu detektierende Veränderung der Ereignisrate, i.A. mit Begründung für diese Erwartung anhand von Vordaten) & verwendete Effektgröße mit Angabe ihrer Berechnung) mit welchem die Tierzahlplanung durchgeführt wird (z.B. t-Test, Anova, Wilcoxon-Test). (falls alpha ungleich 0,05 und beta ungleich 0,2 bitte begründen) (z.B. Bonferroni-Korrektur --> in diesem Fall inkl. Angabe, welche Gruppen jeweils gegeneinander getestet werden und Angabe des geänderten alphaWerts). (ein- oder zweiseitig? --> 2-seitiges Testen bitte begründen). Zusammenfassung Schließende Statistik: Prüfgröße (t) Effektumfang, 1/Varianz , N Poweranalyse Statistische Effektstärke Blutdrucksenkung geteilt durch SD, d=0.5 Effekt = ½ SD Power = 1-ß = 0.8 (Power soll hoch sein) Biometrisches Gutachten α =0.05, ß=0.2, d aus Vorversuchen möglichst ≥ 1.0 damit kann man N schätzen Anhang • Poweranalyse: GPower = Opensource-Programm http://www.gpower.hhu.de/ • A. Field: Discovering statistics using SPSS. Meistverkauftes Statistikbuch, nette Beispiele, manchmal „Geschwafel“. • v. Zupthen et al. Versuchstierkunde, Kapitel 12 „Planung von Tierversuchen“. (Planung Stichprobenumfang = veraltet. Bei mir eine um veraltete Inhalte gekürzte Version erhältlich [email protected]) • www.ats.ucla.edu/stat/seminars/Intro_power/default.htm erläutert Power, viele Tipps, Power von Experimenten zu erhöhen. • Glaser, W. Varianzanalyse. UTB. Erläutert, warum man ab n=10 fast immer die Normalverteilung annehmen darf. • Tabachnik, BG, Fidell LS. Using Multivariate Statistics. Pearson. Erläutert, warum man ab 7 Stufen bei ordinalen Daten kontinuierliche Datenform annehmen darf. Schlägt vor, dass diskrete und stetige Daten nicht unbedingt unterschieden werden müssen.