The Title of my fabulous talk

Werbung
Statistik im Labor
BFB-tech Workshop 29.11.07
Eugen Lounkine
Übersicht







Darstellung und Charakterisierung von Daten
Datentransformationen
Lineare Korrelation
Wahrscheinlichkeitsverteilung(en)
Schätzer
Konfidenzintervalle
Testen von Hypothesen
-
Kontinuierliche Daten
Kategorische Daten
Das Histogram
 symmetrisch
Häufigster Wert
(mode) = 5
12
10
Median = 5
Mittelwert = 5.4
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
Das Histogram
 Negativ verzerrt
Häufigster Wert
(mode) = 9
12
10
Median = 8
Mittelwert = 7.6
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
Das Histogram
 Positiv verzerrt
Häufigster Wert
(mode) = 3
12
10
Median = 3
Mittelwert = 3.9
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
Median und andere Quantile
 Häufig verwendete Quantile sind, neben dem
Median, die 25% und 75% Quantile (Quartile)
12
Median
10
1. Quartil
8
3. Quartil
6
4
2
0
1
2
3
4
5
6
7
8
9
10
Box Plot
Quelle: http://www.reiter1.com/Glossar/BoxPlot01.gif
Charakterisierung der Streuung
 Einfachste Messgröße für Streuung: Spannweite
(= maximaler – minimaler Wert)
 Quantile geben einen besseren Eindruck der
Streuung (Höhe des Box Plots)
 Häufig verwendet wird die Standardabweichung:
s
1 N
2
(
x

x
)

i
N  1 i 1
Basierend auf
Stichprobe

1 N
2
(
x

x
)

i
N i 1
Gesamtpopulation
Transformation von Daten: log
 In der Darstellung wird häufig eine log – Achse
benutzt, statt einer linearen Achse mit
transformierten Daten
 Verteilung symmetrisch(er) machen
- Näherung an Normalverteilung
- z.B. Durchflußzytometrie
 Abhängige Variablen in eine Form bringen, die
einer bekannten Funktion entspricht
-
z.B. Dosis – Wirkungs Kurve in der Pharmakologie
Transformation von Daten
Signal Allel 2
 Beispiel einer Datentransformation für zwei
unabhängige Variablen aus der Genetik. Das
Clustern wird hier vereinfacht.
R
R
q
Signal Allel 1
0°
q
Quelle: Nature Publishing Group
90°
Transformation von Daten
Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007
Lineare Korrelation
 Gibt es eine lineare Abhängigkeit zwischen zwei
Messreihen?
 Kovarianz: Cov( X , Y )  E[( X  X )(Y  Y )]  XY  X * Y
 Korrelationskoeffizient: Corr ( X , Y )  Cov( X , Y ) /  X  Y
-
Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1]
+*+
-*-
-*+
+*-
-*-
+*-
Quelle: Nature Publishing Group
Wahrscheinlichkeitsverteilungen
 Allgemein:
P
diskret: jedem Wert wird eine Wahrscheinlichkeit P
zugeordnet (probability mass function pmf)
kontinuierlich: man benutzt die W. – Dichte pdf, da für
einen bestimmten Wert die W. unendlich klein ist
Poisson
Verteilung
(diskret)
m
Gauß- oder Normalverteilung
(kontinuierlich)
pdf
Quellen:
http://www.regentsprep.org/Regents/math/algtrig/ATS2/normalcurvesmaller.jpg
http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png
Binomialverteilung
 Fragstellung: Wenn die Wahrscheinlichkeit für ein
Ereigniss p ist, wie groß ist die W., k Ereignisse
bei insgesamt n Beobachtungen zu haben?
n k
nk


P( X  k )    p (1  p)
k 
E ( X )  np
Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pBinomial.gif
Poisson Verteilung
 Fragestellung: Wenn pro Zeiteinheit Dt
lDt Ereignisseintritte erwartet werden, wie groß
ist die W., k Ereignisse in der Zeit t zu
beobachten?
 Dt kann durch andere Größen ersetzt werden,
wie z.B. Anteil einer Pertischalenfläche, die von
Bakterien besiedelt ist (l = Anzahl Bakterien pro
Fläche)
m k
e m
P( X  k ) 
, m  lt
k!
Poisson Verteilung
P
m
k
Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png
Standardnormalverteilung
X ~ N (m ,  2 )
Z ~ N (0,1)
p
Z
X m

P(0.5 ≤ Z ≤ 2)
 Das Integral F der Dichtefunktion ist tabelliert
Höhe und Position der Dichtefunktion
 Höhe invers proportional zu 
 Maximum liegt bei m
h
m1
m2
m3
1
2 
Approximation anderer Verteilungen
 Die Normalverteilung kann benutzt werden, um
andere Verteilungen, deren Berechnung
aufwändiger ist, zu approximieren.
 Approximation der Poissonverteilung ist Sinnvoll
für m ≥ 10 :
k
P( X  k ) 
1
2
m
p
 N ( m ,m )
k
1
2
Quelle: http://obelix.ee.duth.gr/BKP/stats/kef3/poisson.gif
Schätzer für den Mittelwert
 Bei vielen Experimenten hat man es mit einer
Stichprobe aus einer Gesamtpopulation zu tun
 Wie kann man aufgrund der Stichprobe den
Mittelwert der Gesamtpopulation am besten
schätzen?
 Intuitive Annahme richtig: Mittel der Stichprobe.
Aber wie groß ist der Fehler bzw. wie sicher ist
das Ergebnis?

 SEM: Standard Error of the Mean: SEM 
n
Zentraler Grenzwertsatz
 Sei X1, X2, ... Xn eine Stichprobe aus einer
Gesamtpopulation mit Mittel m und Varianz 2
 Dann gilt für große n, dass die Mittelwerte solcher
Stichproben durch die Normalverteilung
approximiert werden, selbst wenn die
Ursprungsverteilung nicht normal ist.
X ~ N (m ,

2
n
)
X m
 Z ~ N (0,1)
 n
Die t - Verteilung
 Die Varianz 2 in der Population ist unbekannt
 Schätzen mit Varianz der Stichprobe S2
N(0,1)
X m
 Z ~ t n1
S n
2
1
Freiheitsgrade
(df)
Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg
Konfidenzintervall für den Mittelwert
 Die t – Verteilung wird benutzt, um ein Intervall
(CI1-a) zu finden, in dem der Mittelwert der
Population m mit der Wahrscheinlichkeit 1-a liegt:

CI1a  x  t n1,1a 2 s
n , x  t n1,1a 2 s
n
t k ,a : Das a – Quantil der t - Verteilung
 Für n > 200 oder wenn  bekannt ist, kann auch
die Normalverteilung benutzt werden

Die c2 Verteilung
 Die c2 Verteilung wird benutzt, um ein
Konfidenzintervall für die Varianz 2 einer
normalverteilten (!) Population aufgrund der
Varianz s2 der Stichprobe zu berechnen
 Sie ist nicht Symmetrisch und wird über eine
Freiheitsgradzahl definiert
CI1a  [n  1s 2 / c n21,1a 2 , n  1s 2 / c n21,a 2 ]
Quelle: http://cnx.org/content/m13129/latest/chi_sq.gif
Testen von Hypothesen
 Nullhypothese: H0, die Hypothese, die getestet
(und ggf. widerlegt) werden soll
 Alternativhypothese: H1
Wahrheit
H0
H1
H0
☺
b / Typ II
H1
a / Typ I
☺
Test
Testen von Hypothesen
Wahrheit
Test
H0
H1
H0
H1
Power
Quelle: http://www.xycoon.com/ht_mean_knownvar.htm
Power und p-Wert
 Die Power eines Tests ist 1 – b, also die
Wahrschinlichkeit dass H0 abgewiesen wird,
wenn sie falsch ist.
 Der p-Wert (p-value) gibt dasjenige a an, bei dem
die beiden Hypothesen gleichberechtigt sind
 Wenn p-Wert < a, dann wird H0 verworfen
 Übliche Interpretationen des p-Wertes sind:
- signifikant: 0.01 ≤ p < 0.5
- hochsignifikant: p < 0.01
Die richtige Stichprobengröße
 Normalverteilung: Power hängt von Distanz der
beiden Verteilungen ab und von deren Varianz
(„dicke“)
 2 (z  z )2
n
1 b
1a
2
( m 0  m1 )
Statistische Tests
 Je nach Problem ist die zugrundeliegende
Verteilung unterschiedlich
 Weiß man, welches Modell passt, berechnet man
eine Teststatistik, die man mit der
entschprechenden Verteilung vergleicht
 t Test: Normalverteilte Mittelwerte (Gewicht)
 Poisson tests: Raten (Zellen/Fläche, Tote/Jahr)
 F Test: Vergleich von Varianzen
 Exact Fisher’s Test: (wenige) Kategorische Daten
t Test: Einseitig
 Testen von Normalverteilten Mittelwerten bei
unbekanntem 2
 H0: m = m0
 H1: m < m0
 Teststatistik
x  m0
t
s n
 p-Wert = P(tn-1≤t)
 Anzahl Freiheitsgrade: df = n-1
Beispiel Einseitiger t Test
 Test: Ein neues Medikament zur Begrenzung des
Schadens 24h nach einem Herzinfarkt.
 Durchschnittliche Infarktgröße in unbehandelten
Patienten: m0 = 25
 8 Patienten (n) wurden behandelt
 Durchschnittliche Infarktgröße bei behandelten
Patienten: x  16
s  10
Beispiel Einseitiger t Test
Daten
Hypothesen
m 0  25
H 0 : m  25
x  16
H1 : m  25
s  10
n8
Teststatistik
16  25
t
 2.55
10 / 8
x  m0
t
s n
 p-Wert lässt sich mit Excel berechnen:
- TDIST(2.55, 7, 1) = 0.019 < 0.05
- signifikante Verbesserung
t Test: Zweiseitig
 Testen von Normalverteilten Mittelwerten bei
unbekanntem 2
 H0: m = m0
 H1: m ≠ m0
 Teststatistik
 p-Wert =
x  m0
t
s n
 2 * P(tn1  t )
p
2 *[1  P(tn1  t )]
falls t ≤ 0
falls t > 0
 Anzahl Freiheitsgrade: df = n-1
Beispiel Zweiseitiger t Test
 Test: Unterscheiden sich die Cholesterinlevel von
Asiatischen Einwanderern in Amerika von denen
der Amerikaner?
 Durchschnittlicher Cholesterinlevel in der amer.
Bevölkerung: 190 mg/dl
 100 Immigranten wurden untersucht
 Durchschnittlicher Cholesterinwert bei
Immigranten: 181.52 ± 40 mg/dl
Beispiel Zweiseitiger t Test
Daten
Hypothesen
m 0  190
H 0 : m  190 t  181.52  190  2.12
40 / 100
H1 : m  190
x  181.52
s  40
n  100
Teststatistik
x  m0
t
s n
 p-Wert lässt sich mit Excel berechnen:
- TDIST(2.12, 99, 2) = 0.037 < 0.05
- signifikanter Unterschied
Paired t Test
 Zwei normalverteilte Messgrößen x0 und x1
 Sich entsprechende Wertepaare sind vorhanden
-
Beispiel: Medikamentenwirkung
 Frage: unterscheiden sich die Mittelwerte
signifikant?
 Benutze Differenzen di der Wertepaare
- Annahme: x0 ~ N(mi, 2); x1 ~ N(mi + D, 2)
- H0: D = 0
t
- H1: D ≠ 0
Standardabweichung
der Differenzen
d
sd
n
Two-sample t Test
 Wenn die beiden Variablen unabhängig sind,
aber für beide die selbe Varianz 2 angenommen
werden kann, wird die t Statistik mit dem
zusammengefassten Schätzwert der Varianz s2
berechnet:
(n1  1) s  (n2  1) s
s 
n1  n2  2
2
2
1
2
2
t
x1  x 2
1
1
s

n1 n 2
 Die Anzahl der Freiheitsgrade für die t Verteilung:
df = n1+n2-2
F Test
 Der F Test beantwortet die Frage, ob die
Varianzen zweier Messgrößen gleich sind
 Wenn die Varianzen sich signifikant
unterscheiden, wird die Anzahl der Freiheitsgrade
beim t Test nach einer komplexeren Formel
berechnet
s12
F 2
 Die F-Verteilung wird über zwei
s2
Freiheitsgradzahlen definiert
 Akzeptanzintervall:
[ Fn1 1,n2 1,a 2 , Fn1 1,n2 1,1a 2 ]
Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png
p-Wert bei einer Poisson-Verteilung




Beispiel: Vergleich von Sterblichkeitsraten
H0: m = m0 = 3.3 Tote / Jahr (Erwartungswert)
H1: m ≠ m0
Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr
 m0

e m 0k
,1)
 min( 2 * 
k!
k 0
p
k
x 1  m 0
e
m
0
min( 2 * (1 
),1)


k!
k 0
x
x  m0
x  m0
= 0.84, nicht signifikant
Annäherung durch die c2 Verteilung
 Für m0 ≥ 10 kann man die c2 Verteilung mit einer
Teststatistik X2 benutzen, um den p-Wert einer
Poissonverteilung zu bestimmen:
X 
2
(x  m0 )
m0
2
~c
p  P( c  X )
2
1
2
2
1
Kategorische Daten: Kontingenztabelle
 Daten werden in ja/nein Kategorien unterteilt
 Untersuchen, ob ein Ereigniss ein anderes
beeinflusst
-
Beispiel: Fördern Orale Kontrazeptiva einen
Herzinfarkt?
Herzinfarkt in 3 Jahren?
Orale
Kontrazeptiva?
Ja
Nein
Total
Ja
a
b
a+b
Nein
c
d
c+d
Total
a+c
b+d
a+b+c+d
Erwartungswerte einer Kontingenztabelle
 Die Erwartungswerte für jede Zelle werden aus
den entsprechenden Summen berechnet
 H0: Die Beiden Kategorien sind unabhängig
Herzinfarkt in 3 Jahren?
Orale
Kontrazeptiva?
Ja
Nein
Total
Ja
m1n1/N
m2n1/N
n1
Nein
m1n2/N
m2n2/N
n2
Total
m1
m2
N
Yates-Korrigierter c2 Test
 Vergleich der Beobachteten Kontingenztabelle O
mit der erwarteten Kontingenztabelle E
 Teststatistik X2 ist die Summe der Vergleiche
einzelner Zellen
1

X 2   O  E  
2

2
E ~ c 12
Ja
Nein
Total
Ja
E11
E12
n1
Nein
E21
E22
n2
Total
m1
m2
N
Fisher’s Exact Test
 Verwendung: Bei kleinen Stichproben, wenn
mindestens ein Erwartungswert der
Kontingenztabelle <5 ist
 Die Randsummen werden fest gehalten und die
Wahrscheinlichkeit aller möglichen solcher
Tabellen berechnet
(a  b)!(c  d )!(a  c)!(b  d )!
P(a, b, c, d ) 
n!a!b!c!d!
Hypergeometrische Verteilung
Ja
Nein
Total
Ja
a
b
a+b
Nein
c
d
c+d
Total
a+c
b+d
n
Fisher’s Exact Test
 Nicht viele mögliche Tabellen mit festen
Randsummen
0
+1
-1
-1
+1
O
k
p  2 * min[ P(0)  P(1)  ...  P(O), P(O)  P(O  1)  ...  P(k ),0.5]
(H0: unabhängig)
Zusammenfassung
 Geschickt (und nicht unnötig) Transformieren
 Wenn es um Ereignissraten (pro Zeit) geht:
Poisson
 Normalverteilter Mittelwert: t-Test
 Zwei Alternativen: Paired t-Test, Two-sample tTest
 Kategorische Daten: Fischer’s Exact Test oder
Yates korrigierter c2 Test
Literatur
 Bernard Rosner, Fundamentals of Biostatistics,
6th ed., 2006, Duxbury, ISBN 0-534-41820-1
 Lew M, Good statistical practice in pharmacology
Problem 1, British Journal of Pharmacology
(2007) 152, 295–298
 http://www.graphpad.com/manuals/Prism4/Statist
icsGuide.pdf
Herunterladen