Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine Übersicht Darstellung und Charakterisierung von Daten Datentransformationen Lineare Korrelation Wahrscheinlichkeitsverteilung(en) Schätzer Konfidenzintervalle Testen von Hypothesen - Kontinuierliche Daten Kategorische Daten Das Histogram symmetrisch Häufigster Wert (mode) = 5 12 10 Median = 5 Mittelwert = 5.4 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 Das Histogram Negativ verzerrt Häufigster Wert (mode) = 9 12 10 Median = 8 Mittelwert = 7.6 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 Das Histogram Positiv verzerrt Häufigster Wert (mode) = 3 12 10 Median = 3 Mittelwert = 3.9 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 Median und andere Quantile Häufig verwendete Quantile sind, neben dem Median, die 25% und 75% Quantile (Quartile) 12 Median 10 1. Quartil 8 3. Quartil 6 4 2 0 1 2 3 4 5 6 7 8 9 10 Box Plot Quelle: http://www.reiter1.com/Glossar/BoxPlot01.gif Charakterisierung der Streuung Einfachste Messgröße für Streuung: Spannweite (= maximaler – minimaler Wert) Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots) Häufig verwendet wird die Standardabweichung: s 1 N 2 ( x x ) i N 1 i 1 Basierend auf Stichprobe 1 N 2 ( x x ) i N i 1 Gesamtpopulation Transformation von Daten: log In der Darstellung wird häufig eine log – Achse benutzt, statt einer linearen Achse mit transformierten Daten Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.B. Durchflußzytometrie Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.B. Dosis – Wirkungs Kurve in der Pharmakologie Transformation von Daten Signal Allel 2 Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. R R q Signal Allel 1 0° q Quelle: Nature Publishing Group 90° Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007 Lineare Korrelation Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen? Kovarianz: Cov( X , Y ) E[( X X )(Y Y )] XY X * Y Korrelationskoeffizient: Corr ( X , Y ) Cov( X , Y ) / X Y - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] +*+ -*- -*+ +*- -*- +*- Quelle: Nature Publishing Group Wahrscheinlichkeitsverteilungen Allgemein: P diskret: jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) kontinuierlich: man benutzt die W. – Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist Poisson Verteilung (diskret) m Gauß- oder Normalverteilung (kontinuierlich) pdf Quellen: http://www.regentsprep.org/Regents/math/algtrig/ATS2/normalcurvesmaller.jpg http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png Binomialverteilung Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? n k nk P( X k ) p (1 p) k E ( X ) np Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pBinomial.gif Poisson Verteilung Fragestellung: Wenn pro Zeiteinheit Dt lDt Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten? Dt kann durch andere Größen ersetzt werden, wie z.B. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist (l = Anzahl Bakterien pro Fläche) m k e m P( X k ) , m lt k! Poisson Verteilung P m k Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png Standardnormalverteilung X ~ N (m , 2 ) Z ~ N (0,1) p Z X m P(0.5 ≤ Z ≤ 2) Das Integral F der Dichtefunktion ist tabelliert Höhe und Position der Dichtefunktion Höhe invers proportional zu Maximum liegt bei m h m1 m2 m3 1 2 Approximation anderer Verteilungen Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren. Approximation der Poissonverteilung ist Sinnvoll für m ≥ 10 : k P( X k ) 1 2 m p N ( m ,m ) k 1 2 Quelle: http://obelix.ee.duth.gr/BKP/stats/kef3/poisson.gif Schätzer für den Mittelwert Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen? Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis? SEM: Standard Error of the Mean: SEM n Zentraler Grenzwertsatz Sei X1, X2, ... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel m und Varianz 2 Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist. X ~ N (m , 2 n ) X m Z ~ N (0,1) n Die t - Verteilung Die Varianz 2 in der Population ist unbekannt Schätzen mit Varianz der Stichprobe S2 N(0,1) X m Z ~ t n1 S n 2 1 Freiheitsgrade (df) Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg Konfidenzintervall für den Mittelwert Die t – Verteilung wird benutzt, um ein Intervall (CI1-a) zu finden, in dem der Mittelwert der Population m mit der Wahrscheinlichkeit 1-a liegt: CI1a x t n1,1a 2 s n , x t n1,1a 2 s n t k ,a : Das a – Quantil der t - Verteilung Für n > 200 oder wenn bekannt ist, kann auch die Normalverteilung benutzt werden Die c2 Verteilung Die c2 Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz 2 einer normalverteilten (!) Population aufgrund der Varianz s2 der Stichprobe zu berechnen Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert CI1a [n 1s 2 / c n21,1a 2 , n 1s 2 / c n21,a 2 ] Quelle: http://cnx.org/content/m13129/latest/chi_sq.gif Testen von Hypothesen Nullhypothese: H0, die Hypothese, die getestet (und ggf. widerlegt) werden soll Alternativhypothese: H1 Wahrheit H0 H1 H0 ☺ b / Typ II H1 a / Typ I ☺ Test Testen von Hypothesen Wahrheit Test H0 H1 H0 H1 Power Quelle: http://www.xycoon.com/ht_mean_knownvar.htm Power und p-Wert Die Power eines Tests ist 1 – b, also die Wahrschinlichkeit dass H0 abgewiesen wird, wenn sie falsch ist. Der p-Wert (p-value) gibt dasjenige a an, bei dem die beiden Hypothesen gleichberechtigt sind Wenn p-Wert < a, dann wird H0 verworfen Übliche Interpretationen des p-Wertes sind: - signifikant: 0.01 ≤ p < 0.5 - hochsignifikant: p < 0.01 Die richtige Stichprobengröße Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz („dicke“) 2 (z z )2 n 1 b 1a 2 ( m 0 m1 ) Statistische Tests Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht t Test: Normalverteilte Mittelwerte (Gewicht) Poisson tests: Raten (Zellen/Fläche, Tote/Jahr) F Test: Vergleich von Varianzen Exact Fisher’s Test: (wenige) Kategorische Daten t Test: Einseitig Testen von Normalverteilten Mittelwerten bei unbekanntem 2 H0: m = m0 H1: m < m0 Teststatistik x m0 t s n p-Wert = P(tn-1≤t) Anzahl Freiheitsgrade: df = n-1 Beispiel Einseitiger t Test Test: Ein neues Medikament zur Begrenzung des Schadens 24h nach einem Herzinfarkt. Durchschnittliche Infarktgröße in unbehandelten Patienten: m0 = 25 8 Patienten (n) wurden behandelt Durchschnittliche Infarktgröße bei behandelten Patienten: x 16 s 10 Beispiel Einseitiger t Test Daten Hypothesen m 0 25 H 0 : m 25 x 16 H1 : m 25 s 10 n8 Teststatistik 16 25 t 2.55 10 / 8 x m0 t s n p-Wert lässt sich mit Excel berechnen: - TDIST(2.55, 7, 1) = 0.019 < 0.05 - signifikante Verbesserung t Test: Zweiseitig Testen von Normalverteilten Mittelwerten bei unbekanntem 2 H0: m = m0 H1: m ≠ m0 Teststatistik p-Wert = x m0 t s n 2 * P(tn1 t ) p 2 *[1 P(tn1 t )] falls t ≤ 0 falls t > 0 Anzahl Freiheitsgrade: df = n-1 Beispiel Zweiseitiger t Test Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner? Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl 100 Immigranten wurden untersucht Durchschnittlicher Cholesterinwert bei Immigranten: 181.52 ± 40 mg/dl Beispiel Zweiseitiger t Test Daten Hypothesen m 0 190 H 0 : m 190 t 181.52 190 2.12 40 / 100 H1 : m 190 x 181.52 s 40 n 100 Teststatistik x m0 t s n p-Wert lässt sich mit Excel berechnen: - TDIST(2.12, 99, 2) = 0.037 < 0.05 - signifikanter Unterschied Paired t Test Zwei normalverteilte Messgrößen x0 und x1 Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung Frage: unterscheiden sich die Mittelwerte signifikant? Benutze Differenzen di der Wertepaare - Annahme: x0 ~ N(mi, 2); x1 ~ N(mi + D, 2) - H0: D = 0 t - H1: D ≠ 0 Standardabweichung der Differenzen d sd n Two-sample t Test Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz 2 angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s2 berechnet: (n1 1) s (n2 1) s s n1 n2 2 2 2 1 2 2 t x1 x 2 1 1 s n1 n 2 Die Anzahl der Freiheitsgrade für die t Verteilung: df = n1+n2-2 F Test Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet s12 F 2 Die F-Verteilung wird über zwei s2 Freiheitsgradzahlen definiert Akzeptanzintervall: [ Fn1 1,n2 1,a 2 , Fn1 1,n2 1,1a 2 ] Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png p-Wert bei einer Poisson-Verteilung Beispiel: Vergleich von Sterblichkeitsraten H0: m = m0 = 3.3 Tote / Jahr (Erwartungswert) H1: m ≠ m0 Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr m0 e m 0k ,1) min( 2 * k! k 0 p k x 1 m 0 e m 0 min( 2 * (1 ),1) k! k 0 x x m0 x m0 = 0.84, nicht signifikant Annäherung durch die c2 Verteilung Für m0 ≥ 10 kann man die c2 Verteilung mit einer Teststatistik X2 benutzen, um den p-Wert einer Poissonverteilung zu bestimmen: X 2 (x m0 ) m0 2 ~c p P( c X ) 2 1 2 2 1 Kategorische Daten: Kontingenztabelle Daten werden in ja/nein Kategorien unterteilt Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? Herzinfarkt in 3 Jahren? Orale Kontrazeptiva? Ja Nein Total Ja a b a+b Nein c d c+d Total a+c b+d a+b+c+d Erwartungswerte einer Kontingenztabelle Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet H0: Die Beiden Kategorien sind unabhängig Herzinfarkt in 3 Jahren? Orale Kontrazeptiva? Ja Nein Total Ja m1n1/N m2n1/N n1 Nein m1n2/N m2n2/N n2 Total m1 m2 N Yates-Korrigierter c2 Test Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E Teststatistik X2 ist die Summe der Vergleiche einzelner Zellen 1 X 2 O E 2 2 E ~ c 12 Ja Nein Total Ja E11 E12 n1 Nein E21 E22 n2 Total m1 m2 N Fisher’s Exact Test Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet (a b)!(c d )!(a c)!(b d )! P(a, b, c, d ) n!a!b!c!d! Hypergeometrische Verteilung Ja Nein Total Ja a b a+b Nein c d c+d Total a+c b+d n Fisher’s Exact Test Nicht viele mögliche Tabellen mit festen Randsummen 0 +1 -1 -1 +1 O k p 2 * min[ P(0) P(1) ... P(O), P(O) P(O 1) ... P(k ),0.5] (H0: unabhängig) Zusammenfassung Geschickt (und nicht unnötig) Transformieren Wenn es um Ereignissraten (pro Zeit) geht: Poisson Normalverteilter Mittelwert: t-Test Zwei Alternativen: Paired t-Test, Two-sample tTest Kategorische Daten: Fischer’s Exact Test oder Yates korrigierter c2 Test Literatur Bernard Rosner, Fundamentals of Biostatistics, 6th ed., 2006, Duxbury, ISBN 0-534-41820-1 Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (2007) 152, 295–298 http://www.graphpad.com/manuals/Prism4/Statist icsGuide.pdf