Einführung in die Statistik zur Tierversuchsplanung und

Werbung
Einführung in die Statistik zur Tierversuchsplanung und -auswertung
Prof. Peter Pilz
Fachbereich Biologie
So viele Tiere wie nötig,
so wenig Tiere wie möglich
Statistik
• Schließende Statistik

Statistische Tests: H0  H1
• Z.B.: „wirkt mein Medikament“?
• Poweranalyse
Effektstärke
 Fallzahlen
 Biometrisches Gutachten

Statistischer Test: Hypothesen


Null-Hypothese H0: kein Unterschied
Alternativ-Hypothese H1: Unterschied
Blutdruck (mm Hg)
• Bsp.: 2 Gruppen, Kontrolle & Behandlung
160
• Frage: Behandlung  Unterschied?
145
130
• Hypothesen
115
100
• H0 annehmen, wenn Irrtumswahrscheinlichkeit für H1>0.05
H1 annehmen, wenn Irrtumswahrscheinlichkeit p≤0.05
Statistischer Test: Prinzip
H1/ Effekt wenn:
+ Effekt hoch
- Variation niedrig
+ Stichprobe hoch
t=
𝑎𝑎� −𝑏𝑏�
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
× 𝑁𝑁
Testprinzip: je höher
t (F, r, Chi², U…),
desto kleiner p
Bsp. (t*(10)=2.2):
t(10) = 2.3  p< 0.05  H1
t(10) = 1.9  p> 0.05  H0
Fehler 1. Art oder alpha-Fehler
• p = α-Fehler = Irrtumswahrscheinlichkeit

in 5% der signifikanten Funde irre ich mich!
• p klein, üblich ist 5%
 „möglichst keine falsche Behauptung“
Fehler 1. Art oder alpha-Fehler
• p = α-Fehler = Irrtumswahrscheinlichkeit

in 5% der signifikanten Funde irre ich mich!
• Viele Tests: alpha-Fehler addieren sich

z.B. 7 Gruppen, 21 statistische Vergleiche
 1 signifikantes Ergebnis  erwartet
bei 5% Irrtumswahrscheinlichkeit g
a
p=0.012
b
• damit alpha gesamt <5%
Bonferroni-Korrektur
 α‘ = α/21 im Bsp. α‘= 0.05 /21= 0.0024
nur wenn p<0.0024 signifikant

f
c
e
d
Statistik
• Schließende Statistik

Statistische Testgröße (Beispiel t) steigt mit:
• Mittelwerts-Unterschied
• 1/Variation
• Stichprobenumfang
(Richtiger Test  mehr Power)
 Ggf.: Bonferroni-Korrektur
 p*=5%  Irrtum in 5% der Fälle = alpha-Fehler

alpha & beta-Fehler
• Alpha-Fehler (α=p): 5% Irrtumswahrscheinlichkeit =
5% Wahrscheinlichkeit dass man sich irrt (Zufall)
• β-Fehler: Wahrscheinlichkeit, Effekt nicht zu finden
H1 = Alternativhypothese: es gibt Effekt bzw. MW sind verschieden
Pharmakon
wirkt
wirkt nicht Statistischer
(H1 stimmt)
(H1 falsch)
Test
Typ 1 Fehler H1 akzeptiert
o.k.
α (p)
(wirkt)
Typ 2 Fehler
H0 akzeptiert
o.k.
β
(wirkt nicht)
v
?
Alpha: Gesellschaft trägt Risiko.
Wirkungslos = gefährlich
 alpha klein wählen
Beta: Versuchsträger Risiko.
(Tabletten)wirkung nicht entdeckt
= schade, Einkommensverlust
 beta kann etwas größer sein
Power
Statistische Power
= Wahrscheinlichkeit (vorhandenen) Effekt zu finden
= Wahrscheinlichkeit, falsche H0 zurückzuweisen
=1-β
Beispiel: Blutdrucksenker wirkt (vgl. zu Placebo)
z.B.: β = 0.2  Power = 1- β = 0.8
=> In 80% der Fälle statistische Signifikanz
=> In ß=20% keine Signifikanz (trotz Wirksamkeit)
Vier statistische Größen
• Wenn 3 Größen bekannt, 4. berechenbar:




α
(i.A. p=0.05)
N
(z.B. N=10+10=20)
β-Fehler bzw. Power = 1-ß
Effektstärke (z.B. „d“)
Beispiel Blutdruck
Placebo = 150 mmHg
Medikament = 135 mmHg
SD = 30 mmHg
Effektstärke =
150 −135
30
= 0.5 (SD)
Effektstärke
d=
𝑎𝑎� −𝑏𝑏�
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
β und Power
Fehler: Stabw.
ß = H1 nicht gefunden.
165
60%
150
50%
135
50%
ß - Fehler
d=0.5
d=0.5 (r=0.24),
α=0.05
40%
30%
120
20%
105
Placebo
d=0.5 (r=0.24),
ß=0.2
**
*
Signifikanz
10%
5%
0%
20%
***
20%
10%
Medikament
Häufigkeit
Blutdruck (mm Hg)
180
ns
0
100
200
Stichprobenumfang n
1%
300
Underpowered
• Neurobiologie: durchschnittliche Power war1
0.21 = viel zu niedrig
 nur in 21% finde ich den Effekt,
in 79% finde ich den Effekt nicht!
• Grund: i.A. Tierzahl zu niedrig
• Beispiel: Geschlecht im Watermaze d=0.49
Notwendige Tiere bei Power von 0.8: 134
 Im Mittel eingesetzte Tiere: 22

1:
Butten et al. 2013, Nat Neurosc Rev.
flickr.com
 β-Fehler
Post-hoc, also nach dem Experiment:
Gegeben: d und n sowie alpha
Berechenbar: Power = 0.19 (ß=0.81)
t-tests
Means: Difference between two independent means
Post hoc: Compute achieved power – given α, sample size and effect size
Effect size d
α err prob
Sample size group 1
Sample size group 2
0.5
0.05
10
10
Power (1-ß err prob) 0.1851
Zwischenstand Poweranalyse
• 2 Fehlermöglichkeiten, α + β
• Effektgröße: bei ttest
d= ΔMittelwerte / Standardabweichung
• 4 Werte α, β, d und n:




Wenn drei davon bekannt, ist der vierte berechenbar
α (bzw. p) i.A. auf 0.05 festsetzen
Nach Experiment ist Effektgröße d bekannt
Nach Experiment ist n bekannt
• Power = 1- β: Wahrscheinlichkeit, Effekt zu finden
Vier Rechengrößen
• Wenn drei davon gegeben
α = 0.05
 ß = 0.2
 d z.B. aus Vorversuchen

!
?
?
• dann ist N bestimmbar

Biometrisches Gutachten: α, ß, d  N
Beispiel
Effekt
klein
mittel
groß
Tierversuch
Effektgröße
d
0.2
0.5
0.8
1.0
1-ß=0.80
779
131
52
34
N gesamt
1-ß=0.90 1-ß=0.95
1054
1289
172
215
68
84
46
54
Keine kleinen Effekte in einzelnen Tierversuchen suchen
„Standard“ mittlere Effekte ist i.A. immer noch zu gering
Größere Effekte als d=1.0 sind erlaubt und erwünscht
1-ß = 0.95 ist i.A. zu hoch
Power = 0.8?
Wahl Power ist arbiträr, zwischen 80 und 95%
80% Power heißt
1. Wahrscheinlichkeit für "signifikantes Ergebnis" 80%
2. 20% KEIN "signifikantes Ergebnis".
Risiko-Kosten-Abwägung:
• was kostet Experiment (Zeit, Geld und Leid der Tiere)?
• wie wichtig ist es, Effekt zu finden?
• Was passiert, wenn Effekt mit Risiko =20% verpasst
Beispiel:
• Power = 0.8  n = 28
• Power = 0.9  n = 36, also 30% mehr Tiere
• Risiko halbiert, Signifikanz zu verpassen, also -50%
Power = 0.8, nur begründet ev. 0.9
Beispiel Biometrische Planung
• ttest: N=34, U-Test: N=36
t-tests
Means: Difference between two independent means
A priori: Compute required sample size – given α, power and effect size
Effect size d
α err prob
Power (1-ß err prob)
1
0.05
0.80
Total sample size
34
Biometrische Planung
• Statistische Hypothesen H0 und H1
• Welcher Test? (vor Experiment)



ein- oder zweiseitig?
parametrisch (MW) oder nicht-parametrisch (Median)
wie viele Gruppen (Dosierungen)
• Versuchsdesign


wichtige Neben-Variablen, Messwiederholungen
Blockdesign, Abfolge, Randomisieren, …
• N-Zahl (Poweranalyse)

Avisierte Effektstärke
• d≥1 bei Tierversuchen, höher = besser

1-ß=0.8 bei Tierversuchen Standard.
Ich brauche wenig Tiere, wenn
•
•
•
•
•
•
•
•
großer Unterschied zwischen Mittelwerten
Streuung der Daten klein
Signifikanzniveau α hoch (5% statt 1%)
Power nicht so hoch (80% statt 95%)
einseitiger Test (~20% weniger Tiere)
Parametrische Tests ~1 Tier/Gruppe weniger
Gutes Versuchsdesign (z.B. Messwiederholung)
wenig Gruppen
Formblatt Biometrische Planung
1.
2.
3.
4.
5.
6.
7.
Primäre Zielgröße
Verteilungsform der
Zielgröße
Planungsgrößen
Statistisches Test-Verfahren
Annahmen zum Fehler 1. Art
(alpha) und 2. Art (beta)
Falls verwendet: Bei der
Berechnung durchgeführte
Korrekturen
Richtung von Hypothese und
Test
1.
2.
3.
4.
5.
6.
7.
(zu untersuchendes Haupt-Zielmerkmal des
Versuches, anhand dessen die Stichprobe
berechnet wurde; ggf. inkl. der Transformation
dieser Zielgröße).
(soweit anhand der Vordatendichte Angabe
möglich; in diesem Fall inkl. des Testverfahrens mit
dem die Verteilungsform bestimmt wurde)
(erwarteter Unterschied (z.B. erwartete relevante
Mittelwertsdifferenz und Standardabweichung oder
zu detektierende Veränderung der Ereignisrate, i.A.
mit Begründung für diese Erwartung anhand von
Vordaten) & verwendete Effektgröße mit Angabe
ihrer Berechnung)
mit welchem die Tierzahlplanung durchgeführt wird
(z.B. t-Test, Anova, Wilcoxon-Test).
(falls alpha ungleich 0,05 und beta ungleich 0,2 bitte
begründen)
(z.B. Bonferroni-Korrektur --> in diesem Fall inkl.
Angabe, welche Gruppen jeweils gegeneinander
getestet werden und Angabe des geänderten alphaWerts).
(ein- oder zweiseitig? --> 2-seitiges Testen bitte
begründen).
Zusammenfassung
Schließende Statistik:
Prüfgröße (t)  Effektumfang, 1/Varianz , N
Poweranalyse
Statistische Effektstärke
Blutdrucksenkung geteilt durch SD, d=0.5  Effekt = ½ SD
Power = 1-ß
= 0.8 (Power soll hoch sein)
Biometrisches Gutachten
 α =0.05, ß=0.2, d aus Vorversuchen möglichst ≥ 1.0
 damit kann man N schätzen
Anhang
• Poweranalyse: GPower = Opensource-Programm
http://www.gpower.hhu.de/
• A. Field: Discovering statistics using SPSS. Meistverkauftes Statistikbuch,
nette Beispiele, manchmal „Geschwafel“.
• v. Zupthen et al. Versuchstierkunde, Kapitel 12 „Planung von
Tierversuchen“. (Planung Stichprobenumfang = veraltet. Bei mir eine um
veraltete Inhalte gekürzte Version erhältlich [email protected])
• www.ats.ucla.edu/stat/seminars/Intro_power/default.htm
erläutert Power, viele Tipps, Power von Experimenten zu erhöhen.
• Glaser, W. Varianzanalyse. UTB. Erläutert, warum man ab n=10 fast immer
die Normalverteilung annehmen darf.
• Tabachnik, BG, Fidell LS. Using Multivariate Statistics. Pearson. Erläutert,
warum man ab 7 Stufen bei ordinalen Daten kontinuierliche Datenform
annehmen darf. Schlägt vor, dass diskrete und stetige Daten nicht
unbedingt unterschieden werden müssen.
Herunterladen