Skriptum Biomathe begleitdendes Skript zur Vorlesung „medizinische Statistik“ im 1. klinischen Semester der HHU Düsseldorf A. Ruttmann © 1999 http://www.ruttmann.notrix.de Version 1.7 Inhaltsverzeichnis I. WAHRSCHEINLICHKEITSTHEORIE 3 II. STATISTISCHES SCHLIEßEN 4 II.1. Empirie 4 II.2. Verteilungsfunktionen 8 II.3. Statistisches Schließen 11 II.4. Testverfahren 14 II.5. Statistische Auswertung stetiger Meßverfahren 18 II.6. Diagnostik 23 III. STERBLICHKEITSANALYSEN 25 IV. ANHANG A 27 IV.1. Abkürzungen 27 IV.2. Das griechische Alphabet 27 I. Wahrscheinlichkeitstheorie [M AU I:]41FF. Abb. 1 Der formelle Begriff der Wahrscheinlichkeit ist geknüpft an Ereignisse und an Zugehörigkeiten dieser Ereignisse zu einer Ereignismenge. Es stellt sich die Frage, wann ein Ereignis einer bestimmten Menge zuzuordnen bzw. nicht zuzuordnen ist und wie groß die Wahrscheinlichkeit ist, daß ein Ereignis der einen oder anderen Menge zugeordnet werden kann. Anschaulich darstellbar ist diese Überlegung anhand geometrischer Flächen (s. nebenstehende Abbildung). Jede Fläche repräsentiert dabei eine bestimmte Ereignismenge. Ihre Größe gibt die Wahrscheinlichkeit an, mit der ihr ein Ereignis zugeordnet werden kann. Die Gesamtfläche, dh. Die Summe aller Ereignismengen, ist kleiner oder gleich 1. Formale Schreibweise für die Wahrscheinlichkeit p eines Ereignisses E: p ( E ) = x; x ∈ [0;1] „p“ für „probalité“ (x entspricht der Flächenmaßzahl) Veranschaulichung: Der rote Kreis soll die Menge aller Cholera-Neuerkrankungen innerhalb eines Jahres in einer Bevölkerung darstellen (Morbidität). Der blaue Kreis die Menge all derjeniger, die innerhalb eines Jahres versterben (Mortalität). Beide Flächen sind als Fraktionen der Gesamtpopulation anzusehen, ihre Maßzahl liegt daher zwischen Null und Eins. Nun existieren drei diesbezügliche Ereignisse: A – Erkrankung an Cholera, B – Versterben, C – Versterben an Cholera. I.1.1 Bedingte Wahrscheinlichkeit (ein Verhältnis) Letalität Ggf. ist es von Interesse, eine Wahrscheinlichkeit unter dem Gesichtspunkt zu betrachten, daß bereits ein anderes Ereignis zutrifft – z.B. die Wahrscheinlichkeit von B unter der Bedingung, daß A schon zutrifft. Dann spricht man von einer bedingten Wahrscheinlichkeit. p ( B A) = p A ( B) = 20 mon p( A ∩ B) p( A) Anschaulich handelt es sich um das Verhältnis der Schnittfläche (violett) zur Menge des vorausgesetzten Ereignisses (rot). Mit dieser Definition läßt sich auch die Wahrscheinlichkeit für die Schnittmenge berechnen, wenn die bedingte Wahrscheinlichkeit bekannt ist. 40 mon p ( A ∩ B) = p B ( A) ⋅ p( B) = p ( A) ⋅ p A ( B) 60 mon Abb. 2 Beispiel: Morbidität (roter Kreis in Abb. 2) der Krankheit x liegt bei 0,000.03 %. Mediane Überlebenszeit liegt bei 60 Monaten (dh. Verhältnis tot:lebend nach 60 Monaten liegt bei 0,5). Wie hoch ist die Mortalität (violett in Abb. 2) ? Die Letalität pA(B) liegt nach 60 Monaten bei 0,5. Durch einfache Multiplikation mit der Morbidität p(A) ergibt sich die Mortalität. P(A∩B)=0,000.015. Additionssatz: Um die Wahrscheinlichkeit zu erfassen, daß entweder A oder B zutrifft, muß die Vereinigungsmenge gebildet werden. - p ( A ∪ B) = p ( A) + p( B) − p( A ∩ B) Sind beide Mengen disjunkt, dh. es kann niemals A und B gleichzeitig zutreffen, gilt einfach: p ( A ∪ B) = p ( A) + p ( B) Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 3 II. Statistisches Schließen II.1. Empirie II.1.1 Lagemaße [VOGLER:15FF.] Das arithmetische Mittel x , Mittelwert wert. stellt den Durchschnittswert einer Menge dar. Handelt es sich dabei um eine Klasseneinteilung, stellt xi das Produkt aus Klassenmitte und absoluter Häufigkeit dieser Klasse dar. Die summierten Differenzen ergeben Null. x= x ist der Durchschnitts- n 1 n ∑x i i =1 Ermittelt man zu jedem Wert xi die Differenz zum arithmetischen Mittel, ergibt die Summe der aller Differenzen (positive und negative Werte) den Wert Null. Daten mit Ordinalniveau Der Median x0,5 ist der zentrale Wert einer Rangordnung. bieten keine Möglichkeit, Mittelwerte zu berechnen. Dennoch kann man einen Ordinaldatenbestand deskriptiv erfassen. Dazu müssen die Werte zunächst in eine Rangfolge gebracht werden. • Die Rangzahl Rg(x(i) ) ist dabei der Index i des Wertes x in der geordneten Reihenfolge. Tauchen mehrere Werte gleicher Größe auf, erhalten alle den Mittelwert ihrer Ränge. Indizes einer geordneten Rangfolge werden anstelle eckiger in runde Klammern gesetzt. Bsp: x(1)=1, x(2)=4, x(3)=4, x(4)=5, x(5)=7 à Rg(x(2));x(3))=(2+3)/2=2,5 • Der Modalwert xh= ist der häufigste Wert der Menge. • Quantile sind Werte, welche die Obergrenze für eine bestimmte Fraktion des Datenbestandes angeben. Der Median x0,5 ist beispielsweise derjenige Wert, für den gilt, daß genau die Hälfte aller Daten kleiner oder gleich groß ist. Er faßt die Fraktion 0,5 des Datenbestandes unter sich zusammen. Weitere wichtige Quantile sind das untere Quartil x0,25 und das obere Quartil x0,75 oder die Dezentile x 0,1 und x 0, 9 . WertetabelleBeispiel 1 2 1 1 3 4 5 6 7 8 9 10 11 2 4 5 6 6 8 8 9 9 n=11 Berechnung eines Quantils am Beispiel von x0,25 1) zunächst müssen die Daten in einer Reihenfolge geordnet werden. 2) Über das Produkt aus gewünschter Fraktion 0.25 und Anzahl der Daten n erhält man einen Wert (2.75), der abgerundet einen Indexwert i (2) ergibt. 3) Die Differenz aus i-tem und dem daruffolgenden Datum (2-1=1) wird mit der Fraktion multipliziert und zum -iten Datum hinzuaddiert. Man erhält das gewünschte Quantil (1.25) Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 4 auffällig 3 auffällig normal 1,5 1 xMAX xmax x 0,75 x x 0,5 x 0,25 QA 1 1,5 3 whisker xmin Box-and-whiskers-Plot Die graphische Auftragung ordinaler Daten erfolgt folgendermaßen. Oberes und unteres Quartil werden als obere und untere Grenze eines Rechtecks (box) genommen. Die Differenz zwischen beiden wird auch als Quartil-Abstand QA bezeichnet und umfaßt die Hälfte aller Daten ! Innerhalb des Rechtecks werden der Median als Balken und der empirische Mittelwert als Kreuz (+) eingetragen. Alle Daten, die außerhalb des Rechtecks zu liegen kommen, werden gesondert betrachtet und nach ihrer Entfernung (in QA) von der Grenze des Rechtecks bewertet. Werte bis zu 1,5-facher Entfernung gelten als normal, danach bis zu 3-facher Entfernung als auffällig und solche, die darüber hinausgehen als extrem auffällig. Der größte normale und der kleinste normale Wert wird mit einer senkrechten Linie verbunden und diese als ‚whisker‘ bezeichnet („Schnurrbarthaar“). Alle auffälligen und extrem auffälligen Werte werden einzeln eingetragen. Der größte und der kleinste aller Werte wird gesondert gekennzeichnet (Dreieck,Quadrat). x MIN II.1.2 Eindimensionale Streuungsmaße Abb. 3 Box-and-Whiskers Plot [VOGLER:20FF.]; [T IMISCHL:4F.] Die Spannweite R R ist der Abstand zwischen dem niedrigsten und dem höchsten Wert und daher sehr anfällig für Ausreißer. Außerdem wird die Stichprobenzahl n nicht berücksichtigt. R = x max − x min [R]=[x] Stichprobenvarianz s 2 Sie stellt ein Streuungsmaß um den Mittelwert einer Menge dar und berücksichtigt gleichsam die Anzahl der Stichproben. s = 2 n 1 2 ⋅ ∑ ( xi − x ) n − 1 i =1 [s 2]=[x]2 Das Quadrieren der Abweichungen vom arithmetischen Mittel verhindert, daß die Summe der Abweichungen Null ergibt. Anstelle von (n-1) könnte man auch nur durch n dividieren. Für nà∞ strebte die Varianz dann aber gegen Null, da 1/∞ =0. Da durch das Quadrieren die Einheiten einer Messung ebenfalls quadriert werden, wird zur Angabe der Streuung die Quadratwurzel der Stichprobenvarianz angegeben, die Standardabweichung. Standardabweichung s vs. Standardfehler Die Standardabweichung ist ein absolutes Maß für die Streuung einer Stichprobe und ist als mittlerer Fehler der Einzelmessung interpretierbar. Sie ergibt sich direkt aus der Stichprobenvarianz. Die Standardabweichung stellt den mittleren Fehler der Einzelmessung dar. Der Standardfehler erschließt ein Intervall, in dem der wahre Wert liegt. Standardabweichung Standardfehler s= n 1 ⋅ ∑ ( xi − x) 2 n − 1 i=1 s sx = n [s]=[x] [ s x ]=[x] Ergänzt wird die Standardabweichung durch den Standardfehler s x . Dieser stellt einen Wert dar, der zusammen mit dem Mittelwert ein Intervall erschließt, in dem mit etwa 70%iger Wahrscheinlichkeit der wahre Wert anzutreffen ist. Der Variationskoeffizient v, VK Der Variationskoeffizient ist der relativierte mittlere Fehler der Einzelmessung. Er relativiert die Standardabweichung anhand des Mittelwertes und stellt damit ein relatives Streuungsmaß dar, welches den Vergleich unterschiedlicher Stichprobenmengen zuläßt. Angaben in Prozent (dimensionslos). Variationskoeffizient v= s ⋅100 x Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann [v]=1, [100 v]=% S. 5 II.1.3 Maße zweidimensionaler Verteilungen [VOGLER:28FF.]; [T IMISCHL:51FF.] Die Kontingenztafel Die Kontingenztafel ist eine zweidimensionale Häufigkeitsverteilung. j=1 j=2 j=3 i=1 < 25 Jahre i=2 25-50 Jahre i=3 >50 Jahre < 100 mmHg 100-120 mmHg > 120 mmHg 5 13 1 2 7 3 1 8 10 Randhäufigkeit 19 12 19 Randhäufigkeit 8 28 14 n=50 Dabei versteht man unter Randhäufigkeit die eindimensionale Verteilung eines Merkmals. Die einzelnen Elemente werden mithilfe zweier Indizes j und i erfaßt (Zeile j, Spalte i). Beispiel: n 23 = 8 Die empirische Kovarianz sxy yi AB CD xi Die empirische Kovarianz s xy ist analog zur eindimensionalen Stichprobenvarianz s 2x ein Streuungsmaß für zweidimensionale Merkmale. Anschaulich stellt sie eine mit der Punkte-Anzahl relativierte 'mathematische Summen-Fläche' dar, die je nach Streuung verschieden groß ist und je nach Anordnung der Punktewolke ein bestimmtes Vorzeichen hat. Dabei spannt jeder Punkt P x i ; y i mit dem Zentroid P x ; y ein Rechteck auf, ( s xy = ) 1 n ∑ ( xi − x )( y i − y ) n − 1 i =1 s xy ≈ 0 s xy < 0 Die Kovarianz s xy ist ein zweidimensionales Maß über Streuung und lineare Verknüpfung. ( ) das links oder rechts bzw. ober- oder unterhalb des Zentroids zu liegen kommt, und dessen Flächenwert je nach Lage ein positives oder negatives Vorzeichen bekommt. yi yi xi negativ linearer Zusammenhang s xy > 0 yi xi x und y sind unabhängig von einander xi positiv linearer Zusammenhang Regression Regression ist ein funktioneller Zusammenhang zwischen zwei Merkmalen Bei der Regression handelt es sich um den Zusammenhang zweier Merkmale (z.B. Alter und Größe), die in Form einer Funktion aufeinander bezogen werden, dh. die eine Größe ist durch die andere definiert. Eine Regression von y auf x bedeutet, daß es eine Rechenvorschrift gibt, die jedem x ein y zuordnet, dh. y (Größe) kann berechnet werden, wenn x (Alter) bekannt ist. Demzufolge wird x (Alter) auch als unabhängige und y (Größe) als abhängige Variable bezeichnet. Um eine solche Funktion herzuleiten, müssen zunächst Werte gesammelt werden. Diese können in einer Wertetabelle oder in einem karthesischen Koordinatensystem aufgetragen werden. Bei letzterer Darstellungsform handelt es sich um eine Punktwolke (syn. Korellationsdiagramm, Streudiagramm). Die als unabhängig angenommeine Variable wird dabei auf der horizontalen x-Achse aufgetragen, die als abhängig angenommene auf der y-Achse. Anhand der graphischen Darstellung läßt sich bereits erkennen, ob die Punkte einem Trend folgen. Handelt es sich dabei um einen Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 6 B linearen Trend, dh. die Punkte liegen um eine Gerade herum verstreut, handelt es sich um eine lineare Regression und die Trend-Gerade wird als Regressionsgerade bezeichnet. Diese läßt sich auch rechnerisch bestimmen. yi ei yi xi Die Bestimmung der Regressionsgeraden (y auf x) beruht auf der Annahme, daß die x-Werte als statische bzw. bereits wahre Werte angenommen werden und nur die y-Werte streuen. Die Streuung der y-Werte wird dabei durch folgenden Term gedeutet: yˆ i = y i − ei A ŷ stellt dabei den wahren y-Wert dar, der um e (die Residue) verfälscht wurde. y ist der gemessene Wert, der um e vom wahren Wert abweicht. Das mathematische Problem konzentriert sich nun auf die Aufgabe, eine Geradengleichung zu finden, für die alle e möglichst klein werden, da es sich nur dann um die Regressionsgerade handelt. Dazu müssen Steigung â und Achsenabschnitt b̂ bestimmt werden (Variablen mit Dach gelten als Schätzwerte). Abb. 4 Regressionsgerade y auf x Bei der Regressionsgeraden y nach x sind die vertikalen Abstände zwischen Punkten und Geraden minimiert. yˆ i = aˆ xi + bˆ Das mathematische Lösungsverfahren der kleinsten Quadrate beruht auf der Untersuchung, wann Σe2 möglichst klein ist. Dazu wird e durch die Geradengleichung ersetzt, sowie die Mittelwerte x, y eingeführt und der Term mittels Einführung von Varianz und Kovarianz verein- Bei der Regressionsgeraden x nach y die horizontalen Abstände facht. Am kleinsten wird dieser genau dann, wenn möglichst viele Koeffizienten Null werden. Dies ist unter folgenden Bedinungen der Fall: aˆ = s xy s 2 x = ∑ ( x − x )( y − y ) ∑(x − x) 1 n −1 1 n −1 i i bˆ = y − aˆ x und 2 i Bestimmung der Regressionsgeradengleichung y auf x Mittelwert für x x= 1 n Mittelwert für y y= 1 n Varianz s 2x = Kovarianz s xy = ∑x ∑y 1 n −1 1 n−1 s xx = 1 n−1 ∑ (x − x ) 2 = ⋅ ∑ ( x − x )( y − y ) = x ... ... y ... ... x2 ... ... y2 ... ... xy ... ... ... ... ... ... ... Σx Σy Σ x2 Σ y2 Σxy ∑ x − (∑ x ) ∑ xy − ∑ x ∑ y 1 n−1 1 n−1 2 1 n 2 1 n n x y S xx S xy ... ... ... ... ... (Σ x)2 1. 2. 3. aufsummieren aller x und aller y, quadrieren aller x und aller y, Produkte bilden aus allen x und allen y Bilden der Mittelwerte für x und y, Summieren der Quadrate und Produkte Bilden der Varianz und Kovarianz unter Auslassen des Koeffizienten 1/(n-1), der sich später wegkürzt Beide Regressionsgeraden laufen durch den Punkt P( x ; y ) , das Zentroid. Die Bestimmung der Regressionsgeradengleichung x auf y erfolgt auf analoge Weise. Einziger Unterschied: Im Nenner der Steigung steht anstelle der Varianz für x die für y. aˆ = s xy = s 2y 1 n −1 1 n −1 ∑ ( x − x )( y − y ) ∑ ( y − y) i Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann i 2 i S. 7 II.2. Verteilungsfunktionen [STATISTIK-SKRIPT]:51FF. Die Welt der Statistik ist erfüllt von Ereignismengen, Einzelereignissen und deren Auftretenswahrscheinlichkeiten. Mathematisch kann ihr Zustand erfaßt werden durch eine Verteilungsfunktion. Es ist der Versuch, die Wirklichkeit durch eine Rechenvorschrift darzustellen, die auf einfache Weise zusammenfaßt, wie häufig ein Ereignis in einer Menge auftritt bzw. wie groß seine Auftretenswahrscheinlichkeit in Zukunft sein wird. Praktisch muß unterschieden werden zwischen einer Verteilung, die einen gewonnenen Datenbestand beschreibt, also retrospektiv ist und einer Verteilung, die bereits mathematisch formuliert ist, um eine Aussage über zukünftige Ereignisse zu treffen, also prospektiv ist. Die mathematische Formulierung ist in beiden Fällen dieselbe, ihre Qualität jedoch unterschiedlich. Im ersten Fall dient die Verteilung lediglich der zusammenfassenden Darstellung eines Zustandes, der durch eine Datenerhebung erfaßt wurde. Die zwei Parameter der Verteilung sind der Erwartungswert E und die Varianz V. Diese Verteilung beschreibt die Wirklichkeit, indem sie sich auf eine begrenzte Anzahl empirischer Datenerhebungen beruft. Beschrieben werden nur die Häufigkeiten realisierter Ereignisse. Würden jetzt unendlich viele Datenerhebungen gewonnen, erhielte man eine genaue Beschreibung der Wirklichkeit, dies ist jedoch nicht möglich, aber es ist klar, daß bei steigender Anzahl von Datenerhebungen dieser Fall angenähert wird. Das Ziel dieses Verfahrens ist die Ermittlung der wahren Werte der Verteilung. Ihre Parameter sind die ‚theoretischen Momente‘ µ und σ-2. Beschrieben werden Auftretenswahrscheinlichkeiten realisierbarer Ereignisse, mit deren Hilfe man Voraussagen über zukünftige Verteilungen anstellen kann. Drei Arten von Verteilungen sind hervorzuheben: • • • die Binomialverteilung. Sie beschäftigt sich nur mit binären Ereignissen. Ve rteilt ist die Häufigkeit der Realisierung einer der beiden Möglichkeiten. die Poisson-Verteilung. ist eine Verteilung seltener Ereignisse. die Normalverteilung. Sie beschreibt die Korrelation zwischen Werten auf einer Skala und deren Häufigkeiten. II.2.1 Binomialverteilung Ereignisse mit binärem Charakter (ja/nein; wahr/falsch; männlich/weiblich) stellen sich in Form einer Binomialverteilung dar. Dabei stellt sich nicht die Frage, wie wahrscheinlich die eine oder die andere Möglichkeit der Verwirklichung ist (p{ja} oder p{nein}). Diese muß nämlich bereits bekannt sein. Die Frage ist stattdessen, wie oft eines der beiden Ereignisse eintrifft, wenn man es n mal hintereinander (z.B. bei 10 Personen) wiederholt betrachtet. Das n-fache Betrachten stellt dann eine Untersuchungsreihe dar, deren Ergebnis - die Anzahl der zugetroffenen Ereignisse (Sn) - auf der x-Skala aufgestragen wird (z.B. S10=8, wenn 8 von 10 mal „ja“ die Realisierung des Ereignisses ist). Betreibt man nun viele solcher Untersuchungsreihen, werden einige Sn häufiger, andere seltener auf der Skala aufgetragen werden und bekommen dementsprechend eine höhere Auftretenshäufigkeit P{Sn=x) (ein fünffaches Auftreten, x=5, ist häufiger als gar kein Auftreten x=0). Der Ausdruck P{Sn=x) ist wie folgt zu lesen: P{Sn=x) ist die Wahrscheinlichkeit für genau den Fall, daß das Ereignis („ja“) in einer Reihe von n Untersuchtungen genau x mal realisiert ist. Allgemein: n n n! P{Sn = x} = ⋅ p x ⋅ (1 − p )n− x mit = („Binomialkoeffizient“) x x x!( n − x)! Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 8 Beispiel: Es soll die Geburtenverteilung in einem Krankenhaus betrachtet werden (binäre Ereignisse m/w, dh. Binomialverteilung). Dazu werden an jedem Tag die Geschlechter von den ersten 10 Geburten bestimmt (n=10). Das zu untersuchende Ereignis gelte als eingetroffen, wenn es sich bei einer Geburt um einen Jungen handelt („ja“). Am ersten Tag werden nun 4 Jungen von 10 Geburten festgestellt (S10=4; also 4 Realisierungen von „ja“). Am zweiten Tag 6 (S10=6), am dritten Tag wieder 4 usw. Nach 365 Tagen ergibt sich, daß es am häufigsten vorkam, daß genau die Hälfte Jungen und die andere Hälfte Mädchen waren, die Realisierungszahl 5 (5 mal „ja“) war am häufigsten; P{ S10 =5} ist maxiamal. Da die Wahrscheinlichkeit p für das Einzelereignis „Geburt=männlich“ – die Realisierung des binären Wertes - bekannt ist, kann berechnet werden, wie hoch die Wahrscheinlichkeit ist, daß genau x von 10 Geburten Jungen sind. Dh., wenn p{Geburt=männlich}=0,51 und n=10, dann ist die Wahrscheinlichkeit, daß genau die Hälfte der Geburten männlich ist (x=5) wie folgt zu berechnen: 10 10− 5 10 P{S10 = 5} = ⋅ 0,515 ⋅ (1 − 0,51) = 0 ,246 mit = 10! = 252 . 5 5 5!(10 − 5)! II.2.2 Normalverteilung N(µ,σ-2) Die Normalverteilung geht mathematisch hervor aus der Binomialverteilung (Annäherung bei einer großen Anzahl von Binärexperimenten). Die Normalverteilung beschreibt, wie häufig die einzelnen Werte auf einer Skala bei einer Datenerhebung realisiert werden. Häufig finden sich bei statistischen Untersuchungen, daß einige Werte besonders häufig sind, andere hingegen weniger häufig. Dies drückt sich dann in der Verteilung dadurch aus, daß die Kurve symmetrisch ist und die Form einer Glocke hat (s.Abb. 5 ). In diesem Fall handelt es sich um eine Normalverteilung, die ‚Gauß‘-verteilt ist. σ2 σ2 µ Abb. 5 Glockenkurve Manchmal ist es vonnutzen, ihre Daten und Parameter so zu transformieren, daß die Spiegelachse genau im Nullpunkt des Koordinatensystems zu liegen kommt und die Wendepunkte bei 1 und –1. In diesem Fall handelt es sich um die ‚standardnormierte‘ Gauß-Verteilung, deren Fläche genau 1 ergibt. Dadurch wird es möglich, auf einfache Weise mit Wahrscheinlichkeiten zu hantieren. Die beiden Parameter der Normalverteilung sind: ϕ(x) 1 0.5 Φ(x) x1 Abb. 6 Dichte- und Integralfunktion der GaußNormalverteilung E(x) V(x) =µ = σ-2 =x = s2 Lageparameter Streuungsparameter; Abstand der Wendepunkte von der Mitte Gesetzt den Fall, in einer Datenerhebung wurden eine Reihe von Daten gesammelt. Dann beschreiben Mittelwert und Standardabweichung die Verteilung der Daten. In der Gewißheit, daß diese Daten empirisch gewonnen wurden, sind ihnen Erwartungswert und Varianz gleichzusetzen, beide zusammen genügen, um eine Glockenkurve zu zeichnen . Um eine Aussage über die Wahrscheinlichkeit eines bestimmten Ereignisses machen zu können, muß jedoch auf die wahren Werte der Verteilung geschlossen werden. Dabei werden die theoretischen Momente den empirischen Momenten einfach gleichgesetzt. Dieses Verfahren ist nicht ohne Nachteil, da man dabei dem erheblichen Risiko ausgesetzt ist, daß die empirische Untersuchung den wahren Tatbestand nicht richtig erfaßt. Dennoch setzt man die Momente gleich und transponiert die Glockenkurve in eine stadard-normierte. In dieser Kurve korreliert die Fläche unter der Kurve mit der Wahrscheinlichkeit für das Auftreten eines Ereignisses. Da die Kurve aus unendlich vielen Einzelpunkten besteht, die jeweils unendlich viele Einzelereignisse repräsentieren, macht es nur Sinn, Intervalle zu betrachten und keine einzelnen Punkte, da die Fläche unter einem Punkt unendlich klein (also 0) ist. Da die mathematische Berechnung der Fläche linksseitig eines Punktes (also für das Intervall [-∞;X1]) einfacher zu bewerkstelligen ist, wird das statistische Problem der Berechnung einer Wahrscheinlichkeit darauf beschränkt, diejenige Wahrscheinlichkeit zu berechnen, daß ein Ereignis kleiner oder gleich X1 eintritt. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 9 Mathematisch korreliert diese Wahrscheinlichkeit mit dem Integral der standardnormierten Gauß-Verteilungsfunktion über dem Intervall [-∞;X1]. Die zugehörige Integralfunktion Φ stellt zu jedem Wert X1 die zugehörige Fläche über dem Intervall [-∞;X] der Glockenkurve (vgl. Abb. 6 Dichte- und Integralfunktion ) dar. Die Wahrscheinlichkeit, daß ein Punkt irgendwo in dem Intervall auftaucht, ist gleich dem Anteil, den die Intervall-Fläche an der Gesamtfläche einnimmt. Da die Gesamtfläche gleich 1 ist, repräsentiert die Fläche über dem Intervall eine bestimmte Fraktion von 1, interpretierbar als Wahrscheinlichkeit. 2 Formel der Glockenkurve: N µ ;σ 2 ( x ) = 1 2Π σ 2 ⋅e − ( x− µ ) 2σ 2 Normierung einer Normalverteilung in die standardisierte Form N(0,1): N 0;1 ( x) = N µ ;σ 2 ( x ) − µ σ2 , dh. x0;1 = x−µ σ2 Wahrscheinlichkeitsberechnung: 1. 2. 3. µ und σ2 bestimmen x normieren (x0;1 berechnen) Integral für x0;1 berechnen oder Funktionswert der Integralfunktion in einer Tabelle nachschlagen II.2.3 Approximation einer Binomialverteilung Da die Gauß-Normalverteilung vertafelt ist, lassen sich hier die Wahrscheinlichkeiten einfacher berechnen. Aus diesem Grund werden sonstige Gauß-Verteilungen umgeformt und Binomialverteilungen an eine Normalverteilung approximiert (durch eine Normalverteilung ausgedrückt). Eine Binomialverteilung durch eine Normalverteilung darzustellen bedeutet, Wahrscheinlichkeiten für [0;x] nicht mehr mit dem Binomialkoeffizienten zu berechnen und deren Summen S0+S1+...+Sx zu bilden, sondern direkt unter Angabe eines zWertes ein Ergebnis in einer Tabelle nachzuschlagen. P0; x = Φ ( z ) Zu beachten ist dabei, daß bei dieser Methode nur die Wahrscheinlichkeit für das Intervall [0;x] berechnet wird, also die Wahrscheinlichkeit,daß Sn ≤ x sei. Um einen vertafelten Wert nachschlagen zu können, muß also ‚z‘ berechnet werden (eigentliche Transformation). z= S X−p n; X = n n p (1 − p ) E V np ≡ x µ np(1-p) ≡ s 2 σ2 Beispiel: Eine Variable (z.B. Krankheitszustand) sei binomial verteilt. Die Wahrscheinlichkeit für das Auftreten (Patient=krank) sei p=0,3 und es wird genau eine Untersuchungsreihe mit n=100 Patienten erstellt. Als Ergebnis sind 23 Patienten krank (Sn=23), der Mittelwert ist dementsprechend 0,23. Die Fragestellung sei nun, wie groß die Wahrscheinlichkeit P ist, daß in einer Patientenkohorte mehr als 23 Patienten krank sind. P{Sn > 23} = 1 − P {Sn ≤ 23} (0, 23 − 0,3) 100 = 1 − P{U ≤ − 1,5275 } = 1 − 0,6332 = 0,93668 P{Sn > 23} ≅ 1 − P U ≤ 0,3 ⋅ 0, 7 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 10 II.3. Statistisches Schließen II.3.1 Empirie vs.Theorie n=15 E(x) n=30 E(x) nà oo e Theoretische Verteilung Abb. 7 Empirische Angleichung einer Binomialverteilung; mit wachsendem n findet eine Annäherung an die theoretische Verteilung statt. Statistische Datenerhebungen lassen Aussagen über zukünftige Ereignisse zu, die über Wahrscheinlichkeiten ausgedrückt werden. Um solche Aussagen treffen zu können, muß erkannt werden, mit welchem statistischen Modell sich ein Datensatz erklären läßt. Handelt es sich beispielsweise um einen normalverteilten Datensatz, so ist davon auszugehen, daß eine zukünftige Datenerhebung gleich verteilt ist. Um nun eine Prognose treffen zu können, muß zunächst die Art der Verteilung erkannt und die empirischen ersten beiden Momente errechnet werden. Schreibweise X ~ N(µ,σ2) B ~ B(n,p) X ~ P(c) Verteilung Gauß Binomial Poisson E(X) µ np c V(X) σ2 np(1-p) c Das 1. Moment ist der Erwartungswert E(X). Es gibt die Lage (Lokation) der Ve rteilung an und damit den Wert, der erwartungsgemäß bei einer zukünftigen Verteilung am häufigsten zu erwarten ist. Das 2. Moment ist die empirische Varianz V(X). Es gibt die Streuung (Dispersion) der Verteilung (also die Breite der Glocke) an. Da beide Momente aus gewonnenen Daten berechnet werden, handelt es sich um empirische Größen. Sie nähern sich mit wachsender Datenanzahl (n→∞) den wahren theoretischen Größen an. Man spricht davon, daß die Momente an die wahren Größen approximiert werden. Geht n gegen unendlich, tendiert E zum wahren Wert e und V zum wahren Wert v. n→∞: E(X)→e, V(X) →v II.3.2 Schätzwerte Abb. 8 zufällige Verteilungen (blau) und wahre Verteilung (violett) px x Abb. 9 Verteilung des Mittelwertes (rot) und Auftragung zufälliger Verteilungen (schwarz) -1 0 1 Punktschätzer Gaußverteilung: x schätzt µ, s 2 schätzt σ2 Binomialverteilung: x schätzt p Die Wahrscheinlichkeit, daß ein Punktschätzer ausgerechnet gerade den wahren Wert trifft ist null. Aber man geht davon aus, daß beide nahe beieinander liegen. Bereichsschätzer, Konfidenzintervalle Dabei handelt es sich um Intervalle, die die wahren Werte mit einer bestimmten Wahrscheinlichkeit (68%, 95%) überdecken. Konfidenzintervall -1,96 Abb. 8 zeigt das Ergebnis einer 6-fach wiederholten empirischen Verteilungsuntersuchung. Dazu wurden insgesamt 6 Datensätze gewonnen mitsamt 6 Mittelwerten und 6 Standardabweichungen. Die Frage ist nun, wie genau die empirisch ermittelten Verteilungen (blau) der wahren theoretischen Verteilung repräsentieren und wie sehr man den empirischen Momenten E und V vertrauen darf. Schließlich findet man, daß auch die empirischen Momente (Mittelwert und Standardabweichung) durch eine Verteilungsfunktion dargestellt werden können. Abb. 9 veranschaulicht diesen Sachverhalt anhand der Verteilung des Mittelwertes bei einer Studie mit beispielsweise 100 Datenerhebungen. Dabei sind 100 Mittelwerte und 100 Standardabweichungen berechnet worden und es findet sich, daß der rot dargestellte Mittelwert am häufigsten vorkommt. Da die empirischen Momente selbst gewissen Schwankungen unterliegen, ist es nicht möglich, die wahren Werte zu erhalten. Stattdessen werden Schätzwerte angegeben. 1,96 Abb. 10 Bestimmung der unteren 95%-Konfidenzschranke Y einer Binomialverteilung mit υ(0,975)=1,96 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann Y= S n 1,96 − n 2 n S. 11 II.3.3 Statistische Schlußweise (Binomialverteilung) T -1,96 1,96 Abb. 11 statistischer Testes mit Prüfgröße T (t-Verteilung); blau: „Ablehnungsbereich“ Nehmen wir eine binomialverteilte Variable an (z.B. Krankheit) und stellen uns die Frage, wie groß die Wahrscheinlichkeit p (Patient krank) sei, welche die Grundlage für eine Binomialverteilung sein soll. Problematischer Weise ist p objektiv nicht zu ermitteln und wir können nur Schätzwerte mithilfe von Datenerhebungen gewinnen. Eine Möglichkeit, dieses Problem zu bewältigen, besteht nun darin, zwei unterschiedliche p zu vermuten und eine Untersuchung anzustreben, ob eines der beiden eher unwahrscheinlich ist. Dazu wird zunächst eine Hypothese festgelegt, die davon ausgeht, daß p1 zutreffe und eine Alternative, die davon ausgeht, daß p2 zutreffe. Da über einen Datensatz ein p abgeschätzt werden kann, läßt sich rechnerisch bestimmen, ob eher die Hypothese p=p1 oder die Alternative p=p2 dem wahren Zustand näher kommt. Aufgrund der Erkenntnis von Hopper, daß Hypothesen nicht bestätigt, nur falsifiziert werden können, muß nun versucht werden, das Gegenteil der Hypothese mittels Daten zu widerlegen. Es wird also ein Datensatz erhoben mit den Angaben n und Sn. Aus beiden Werten ergibt sich der Schätzwert für p, nämlich x =Sn/n. Dieser wird nun auf eine Abweichung von p getestet. Dabei soll die Hypothese als richtig angenommen werden, wenn T innerhalb des Intervalls [-1,96;1,96] zu liegen kommt. T= X−p p (1 − p ) n Liegt T innerhalb des Intervalls [-1,96;1,96] bedeutet dies, daß das Konfidenzintervall in 95% aller Fälle den wahren Wert für p abdeckt und daß die Irrtumswahrscheinlichkeit bei nur 5% liegt. Die Wahrscheinlichkeit, daß ein Datensatz ein p schätzt, das außerhalb des Konfidenzintervalls liegt, bezeichnet man als ‚Signifikanzniveau‘ Pobs. Hier: Pobs ≤ 0,05. II.3.4 Testniveau und Trennschärfe 0,3 Abb. 12 Konfidenzintervalle verschiedener Datenerhebungen. Der wahre Wert (0,3) wird nur zu 95% überdeckt (roter Ausreißer). Durch statistische Tests ist es möglich, eine objektive Entscheidung zwischen Alternative und Hypothese zu fällen. Zugrundegelegt wird der Anspruch, daß die Hypothese nur dann Bestand haben darf, wenn nur in einer begrenzten Zahl, z.B. 5% aller Fälle ein p nicht vom Konfidenzintervall der Hypothese überstrichen wird (T ∉ [-1,96;1,96]). In 5% aller Fälle darf aber genauso trotz richtiger Hypothese ein Schätzwert außerhalb des Konfidenzintervalles liegen und die Hypothese gilt trotzdem (s. Abb. 12). Diesen Anspruch der Testgenauigkeit bezeichnet man als Signifikanzniveau Pobs. Es gibt an, wie groß die Wahrscheinlichkeit ist, daß trotz richtiger Hypothese ein falscher Schätzwert auftritt (rot in Abb. 12). Laut Vereinbarung soll Pobs≤ 0,05 sein. Angenommen, die Hypothese sei richtig, der wahre Wert sei p=0,3. Dann kann es vorkommen, daß bei einer Datenerhebung ein Schätzwert gewonnen wird, der außerhalb des Konfidenzintervalls liegt. Die Wahrscheinlichkeit Pobs für diesen Fall liegt bei ≤ 0,05. Angenommen, es werden zufällig genau solche irreführenden Testreihen durchgeführt und 5 Schätzwerte ermittelt, die allesamt die Hypothese widerlegen. Dann muß sich ein objektiver Untersucher für die Alternative entscheiden und die Hypothese verwerfen, obwohl p=0,3 der wahre Wert ist. Das Beispiel erläutert den Fehler 1. Art; die Hypothese war richtig, dennoch hat man sich für die Alternative entschieden, weil zufällig nur Ausreißer gewonnen wurden. Die Wahrscheinlichkeit, diesem Fehler 1. Art zu unterliegen, wird als Testniveau α bezeichnet und wird für einen Test im vorhinein festgelegt. Andererseits kann der Fall eintreten, daß die Hypothese beibehalten wird, obwohl sie falsch ist (Alternative richtig). In diesem Fall spricht man von einem Fehler 2. Art. Die Wahrscheinlichkeit, diesem Fehler zu unterliegen, wird mit β bezeichnet, das Komplement 1-β als Trennschärfe. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 12 Berechnung der Trennschärfe für eine Binomialverteilung Um die Trennschärfe zu berechnen, muß zunächst der „kritische Wert“ kW ermittelt werden. Es ist in der Verteilung genau das k, für das gilt: p (Sn=k) P(Sn ≥ k) ≤ α α k kW Abb. 13 Kritischer Wert zu B(1,p 1) p(Sn=k) β kW k Abb. 14 kritischer Wert zu B(1,p 2) z.B. P(Sn ≥ k) ≤ 0,05 Anschlaulich ist kW in Abb. 13 dasjenige k, dessen rechte Nachbarflächen (blau) kleiner als die rote Fläche sind (k=12). Zwar gilt die Bedingung auch für k größer kW (13 und 14); kW wird jedoch so gewählt, daß es möglichst klein ist. Dadurch verbessert sich die Trennschärfe. Sobald kW bekannt ist, wird nun die Fläche links von kW berechnet, jedoch unter der Alternativbedingung B(1;p2). Diese Fläche (grün in Abb. 14) stellt die Wahrscheinlichkeit für einen Fehler 2. Art dar, also das Beibehalten einer falschen Hypothese β. Das Komplement bezeichnet man als Trennschärfe (Fläche rechts von kW). (1-β) = p{Sn ≥ kW}= 1-p{Sn<kW} Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 13 II.4. Testverfahren [BIOMETRIE-SKRIPTII]:1FF., [L.CAVALLI-SFORZA ]:49FF. Statistische Testverfahren bieten objektive Anhaltspunkte für die Bemessung einer Hypothese. Unter Hypothese wird hierbei die Mutmaßung einer bestimmten Verteilung verstanden, nach der sich empirische Daten ‚richten‘. II.4.1 Anpassungstest Der Anpassungstest dient der Überprüfung, ob ein Merkmal Poisson-verteilt ist. Grundlage der Bemessung ist der Datensatz einer Stichprobe, betreffs eines Merkmals. Als Beis piel soll eine Erythrozytenzählung mittels Zählkammer-Quadrat-Methode dienen (Abb. 15). Das Betreffende Merkmal sei die Anzahl Erythrozyten k pro ausgezähltes Quadrat; untersucht werden genau n=400 Quadrate. Es findet sich, daß bei 75 Quadraten genau 0 Erys vorhanden sind, bei 103 Quadraten genau 1 usw. Die Hypothese sei: Es handele sich um eine Poisson-Verteilung. Die Hypothese wird als wahr angenommen, wenn der Datensatz nur geringfügig – also nicht signifikant – von einer theoretischen Verteilung abweicht. n 100 50 0 1 2 3 4 5 6 7 k - Abb. 15 Datensatz einer Erythrozytenzählung Die Parameter der Verteilung - Freiheitsgrad und die ersten beiden theoretischen Momente (bei Poisson identisch) – werden anhand der Daten abgeschätzt. Der Schätzwert für Erwartungswert E(x) und Varianz V(x) errechnet sich aus dem empirischen Mittelwert der Daten x =c. Anhand der Formel für die Poisson-Verteilung läßt sich für jedes k eine Auftretenswahrscheinlichkeit p k berechnen und daraus der entsprechende Erwartungswert Ek. Ek = n ⋅ p{X = k} und p{X = k} = e −c z.B. E0 = 400 ⋅ e −1,8 n,E 100 - 50 0 1 2 3 4 5 6 7 k Abb. 16 Differenz (rot) zwischen erwarteten E (grün) und gezählten n (grau) Häufigkeiten Tk = (Ek − nk )2 Ek und f 7 (Ek − n k )2 k =0 k =0 Ek Tobs = ∑ Tk ;im Bsp.: Tobs = ∑ = 8,77 Das Problem, ob der Datensatz Poisson-verteilt ist, läßt sich auf die Überlegung zurückführen, wie sehr Varianz und empirischer Mittelwert voneinander abweichen. Theoretisch müßten sie identisch sein, empirisch wird eine gewisse Abweichung toleriert und durch den Dispersionsindex χ2 („chi-Quadrat“) quantifiziert. χ2 = ∑(x i − x )2 i =0 x ; im Beispiel n=400 Liegt χ2 unter der entsprechenden (vertafelten) Signifikanzschwelle (bestimmt durch die Anzahl der Freiheitsgrade), gilt die Abweichung als nicht signifikant. Dementsprechend gilt die Hypothese des Testes als wahr, wenn Tobs unterhalb der Signifikanzschwelle zu liegen kommt. 5% Tobs 14 1,8 0 = 66,12 mit n=400, c=1,8 für k=0 0! Das Maß der Abweichung der empirischen von den theoretischen Daten sei Tk. Es bemißt sich aus der quadrierten Differenz, normiert an dem jeweiligen Erwartungswert. Die Summe aller Tk ist Tobs. Tobs ist der signifikante Wert des Tests; f sei die Anzahl der Freiheitsgrade (im Beispiel: 8-1=7). n f ck k! T Abb. 17 χ2-Verteilung (blau) mit 7 (rot) Freiheitsgraden f; die Wahrscheinlichkeit, daß T obs die Signifikanzschwelle (14,067) überschreitet, liegt bei 5%. Der χ2-Wert ist vertafelt und wird nachgeschlagen. Bei 7 Freiheitsgeraden ist χ2 = 14,067 (rot in Abb. 17). Das bedeutet: die Wahrscheinlichkeit, daß eine χ2-verteilte Größe (hier Tobs) die Schwelle 14,067 überschreitet liegt bei 5%. Entsprechende Tafeln existieren für 10%-, 2,5%- oder 1%-Quantile. Da 8,77 ≤ 14,067, gilt die Abweichung von Varianz und Mittelwert als nicht signifikant und die Hypothese, der Datensatz sei Poisson-verteilt, als wahr. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 14 II.4.2 Unabhängigkeitstest B1 B2 A1 n 11 n 12 A2 n 21 n 22 ... ... ... Ak n k1 n k2 Σ n .1 n .2 ... ... ... ... ... ... Bm n 1m n 2m ... n km n .m Σ n 1. n 2. ... n k. n .. Abb. 18 Kontingenztafel ... n k1 n.1 B2 E12 E22 ... Ek2 n .2 ... ... ... ... ... ... Bm E1m E 2m ... E km n .m Die Hypothese des Testes lautet: Beide Merkmale werden als unabhängig angenommen, demzufolge gilt: P(A i ∩ Bj )=P(A i)⋅P(Bj ). Wie beim Anpassungstest werden die erhobenen Daten zunächst mit ihren Erwartungswerten verglichen. Dazu werden die Auftretenshäufigkeiten vorerst in eine Kontingenztafel eingetragen (Abb. 18). Jedem Feld wird dabei ein Index zugeordnet, dessen erste Ziffer für die Zeile, die zweite für die Spalte steht. Der Summe aller Werte in einer Zeile bzw. einer Spalte wird ein spezieller Index zugeordnet, der an zweiter bzw. erster oder an beiden Stellen einen Punkt (.) beinhaltet. n 11 n 21 B1 A1 E11 A2 E21 ... ... Ak Ek1 Σ n .1 Der Unabhängigkeitstest dient der Überprüfung, ob zwei Merkmale unabhängig voneinander sind. Grundlage der Bemessung ist ein Datensatz mit zwei Merkmalen, deren Randverteilung zufällig ist (dh. die Beobachtungen sind in beiden Fällen zufällig). Σ n 1. n 2. ... n k. n .. - Grundlage der Überlegung ist folgende: Der Erwartungswert Eij ergibt sich aus der Schnittmenge der Wahrscheinlichkeit für Ai und Bj , realtiviert mit der Gesamtzahl n..; dabei lassen sich p(Ai) und p(Bj ) über die ermittelten Auftretenshäufigkeiten schätzen, weil A und B gemäß der Hypothese als unabhängig angenommen werden: P(Ai ∩ Bj )=P(Ai)⋅P(Bj ). Abb. 19 Bestimmung der Erwartungswerte B1 A1 T 21 A2 T 21 ... ... Ak T 21 Σ T .1 B2 T 21 T 22 ... T 21 T .2 ... ... ... ... ... ... Bm T1m T2m ... Tkm Σ T 1. T 2. ... T k. A1 A2 Σ B1 n 11 n 21 n .1 B2 n 12 n 22 n .2 Eij = n.. ⋅ p( Ai ∩ B j ) = n.. ⋅ - Σ n 1. n 2. n .. Abb. 21 Kontingenztafel des Vierfeldertests - ni n j ⋅ n.. n.. ⇒ Eij = ni. n. j n.. Wie beim Erwartungstest wird nun die Differenz zwischen Erwartungswert und empirischem Meßwert in einer Testgröße T quantifiziert und alle T zu Tobs aufaddiert (Abb. 20). Tij = T .m Tobs Abb. 20 Bestimmung von Tobs (rotes Feld) Als erstes werden nun die Randsummen der erhobenen Werte berechnet (blau in Abb. 18). Gemäß der Forderung des Testes ist ihre Verteilung zufällig Danach wird für jeden Wert n ij der jeweilige Erwartungswert Eij anhand der Randsummen ermittelt (Abb. 19). (n ij k m − Eij )2 und Tobs = ∑∑ Tij Eij i =1 j =1 Da T als χ2-verteilt angenommen wird, stellt sich nun die Frage, ob Tobs unter der Signifikanzschranke eines bestimmten (z.B. 5%-) Quantils zu liegen kommt. Die Signifikanzschranke ist vertafelt; Anzahl Freiheitsgrade: (k-1)(m-1). Bei einem Freiheitsgrad (4-Feldertafel) liegt diese unter Testgenauigkeit α=5% bei 3,841. Tobs ≤ 3,841 ⇒ Hypothese gilt als wahr, beide Merkmale sind statistisch unabhängig. Vierfeldertest Eine Spezialform des Unabhängigkeitstestes ist der Vierfeldertest. Voraussetzung dieser Spezialform ist, daß in der Stichprobe insgesamt nur 4 Werte erhoben werden, dh. die Kontingenztafel umfaßt nur 4 Felder (k=2, m=2). Dh. es werden 2 Merkmale A und B untersucht und zu jedem Merkmal genau 2 Daten erhoben. Die Hypothese lautet, A und B seien unabhängig. In diesem Fall läßt sich Tobs mit dem Kreuzprodukt (approximativ) ermitteln. Tobs = n.. (n11 ⋅ n22 − n12 ⋅ n21 )2 n .1 ⋅ n. 2 ⋅ n1. ⋅ n2. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 15 II.4.3 Homogenitätstest Der Homogenitätstest dient der Überprüfung, ob ein Merkmal B in seinen m verschiedenen zufälligen Ausprägungen die gleiche Verteilung besitzt, wie A. Grundlage der Bemessung ist ein Datensatz mit zwei Merkmalen, deren eine Randverteilung zufällig, die andere bekannt ist. + T TΣ C lo hi Σ 1 97 98 4 45 49 2 47 49 7 189 196 Abb. 22 Datensatz einer Medikationsuntersuchung; Merkmal A: Tumorauftreten, Merkmal B: Medikamentendosis Zur Verdeutlichung wird folgender Fall angenommen. Merkmal A sei binomialverteilt und entspreche dem Auftreten eines Tumors bei einem Versuchstier. Merkmal B sei nun eine Medikamentendosis in 3 Abstufungen: (Control) „keine Dosis“ (Kontrollgruppe), (low) „geringe Dosis“ und (high) „hohe Dosis“. Als Voraussetzung sei die Verteilung der Kontrollgruppe bekannt (p0 bekannt). Der Test soll nun überprüfen, ob die Verteilungen unter Medikation genau gleich sind, wie ohne Medikation. Die Hypothese lautet: Alle 3 Binomialverteilungen sind gleich. Hypothese: p0=p1=p2=p (im abstrakteren Fall: p0=p1=...=pm=p, bei m Dosen) Wie bei den vorangegangenen Tests würde man jetzt Tobs berechnen, indem zunächst die Erwartungswerte ermittelt würden. + T T- C lo hi p 3,5 1,75 1,75 0,035 94,5 47,25 47,25 0,964 Abb. 23 Erwartungswerte des Datensatzes von Abb. 22 ; die Erwartungswerte für A=T+ liegen unterhalb von 5. n 11 n .1- n 11 n .1 n 1.- n 11 n.2- (n1.- n11) n .2 n 1. n 2. n .. Abb. 24 Vierfeldertafel bei bekannter Randverteilung; nur n11 ist zufällig. 1 97 98 4 45 49 5 142 147 P{n11}=0,03888 Abb. 25 E1 j = p ⋅ n. j = n. j n1. n und E2 j = (1 − p ) ⋅ n. j = 2. n. j n.. n.. Wie im Beispiel der Fall, kann ein Erwartungswert unter dem Wert 5 zu liegen kommen. In solchen Fällen sollte die χ2-Prüfung nicht angewandt werden. Stattdessen wird hier der Fisher-Test benutzt. II.4.4 Fishertest Der exakte Test von Fisher untersucht, ob die zwei Merkmale in einer Vierfeldertafel statistisch unabhängig voneinander sind (Andere Fälle müssen zur Anwendung dieses Tests immer auf Vierfeldertafeln zurückgeführt werden). Er kommt zur Anwendung, wenn ein Datensatz eine χ2-Prüfung nicht mehr zuläßt, dh. mindestens ein Erwartungswert kleiner als 5 ist. Bemessensgrundlage des Tests ist die Auftretenswahrscheinlichkeit Pobs für extreme (die Hypothese widerlegende) Werte, die nicht über eine durch das Signifikanzniveau bestimmte Grenze steigen darf. Zur Demonstration wird das vorangegangene Beispiel des Homogenitätstests weitergeführt. Kern der Überlegung bei diesem Test ist folgender. Die gewonnenen Daten werden in der Weise interpretiert, daß die Randsummen konstant (also nicht zufällig, sondern vor der Datenerhebung bekannt) und nur ein einziger Wert n11 zufällig verteilt (quasi ‚frei‘) sei – auch wenn dies nicht der Fall ist. Die übrigen Daten leiten sich dann direkt von n11 ab, wie in Abb. 24 dargestellt ist. Unter dieser Interpretation untersucht man nun die Auftretenswahrscheinlichkeit für verschiedene n 11. Abb. 25 zeigt die Umsetzung des vorangegangenen Beispiels. Die Werte in den grau schraffierten Feldern sind als konstant vorausgesetzt, n11 kann zufällige Werte annehmen (mit der Realisation „1“ im Beispiel), die übrigen Werte sind abhängig von n 11. Nun werden die theoretischen Fälle durchexerziert, daß n11 andere Werte annimmt und anschließend die Auftretenswahrscheinlichkeit in jedem Fall (für jede einzelne Vierfeldertafel) bestimmt. Um die Bedingung der konstanten Randsummen zu erfüllen, errechnen sich die übrigen n auf folgende Weise. Es sei a die ganzzahlige Abweichung vom realen Wert nij , mit a=1,2,..., n11 und Nij der zufällige Wert. Dann gilt: N11=n 11-a ; N12=n 12+a; N21=n 21+a; N11=n 22-a. (kreuzweise a subrathieren und addieren) 0 98 98 5 44 49 5 142 147 P{N11=n11-1}=0,00357 Abb. 26 Die Vierfeldertafel der Abb. 25 zeigt die Realisation, Abb. 26 die Situation unter a=1 (n 11=„0“). Tatsächlich könnte bei einer zukünftigen Stichprobe eine beliebige Tafel zustande kommen, die sich jeweils aus der realen mittels Parameter a herleiten ließe. Es stellt sich nun die Frage, wie groß die Auftretenswahrscheinlichkeit solch einer Tafel mit Abweichung a (Spezialfall a=0: realisierte Tafel in Abb. 25) ist. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 16 P{N11 = n11 − a} = n.1!⋅n2.!⋅n. 1!⋅n. 2! (n11 − a )!⋅(n12 + a )!⋅(n21 + a ) ⋅ (n22 − a )!⋅n..! Unter Testbedingungen wird eine Tafel nun als extrem verstanden, wenn sich ihre Daten im Sinne der Test-Alternative darstellen. Dies sind solche Tafeln, deren Auftretenswahrscheinlichkeit unter der Wahrscheinlichkeit der realisierten Tafel liegen. Als quantitatives Kriterium für den Fishertest bemißt die Summe Pobs aller ExtremTafelwahrscheinlichkeiten, einschließlich der Real-Tafel-Wahrscheinlichkeit die Gültigkeit der Hypothese. Sie wird als nicht gültig erachtet, wenn Pobs unter die Signifikanzschwelle α fällt. n11 Pobs = ∑ P{N11 = n11 − a} im Beispiel: Pobs(1)= 0,00357+0,03888=020425 a= 0 Wird sie aber als gültig erachtet, wenn sie darüber liegt ? Bisher haben wir lediglich den Vergleich zweier Verteilungen (B0:„Kontrollgruppe“ und B1:„niedrige Dosierung“) betrachtet. Um der Globalhypothese (alle Verteilungen sind gleich) zu bestätigen, muß auch noch ein Vergleich der übrigen Realisierungen von B (B2: „hohe Dosierung“) mit der Kontrollgruppe angestellt werden. Um die Signifikanzschwelle α global gleich zu halten, müssen daher die Signifikanzschwellen der einzelnen Vergleiche erniedrigt werden (Adjustierung nach Bonferroni): αi = α 0,05 mit k Ausprägungen von B, im Beispiel: α1 = α 2 = = 0,025 k 2 Dh. die Gobalhypothese (Niveau α=0,05) gilt nur dann als bestätigt, wenn Pobs(1) und Pobs(2) jeweils über 0,025 zu liegen kommen. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 17 II.5. Statistische Auswertung stetiger Meßverfahren [M AU II]:34FF. Im folgenden werden verschiedene Testverfahren vorgestellt, deren Funktion es ist, zwei oder mehr Meßreihen miteinander zu vergleichen, deren Daten stetig (also nicht diskret) sind, um festzustellen, ob ein statistisch signifikanter Unterschied zwischen ihnen vorliegt. Entscheidungskriterium ist immer eine zu berechnende Prüfgröße T, die mit einem vertafelten Wert verglichen werden muß (Zur Verdeutlichung wird die Hypothese H jedes Testes gesondert in einem Kasten nebenangestellt). Je nach Größe des Datensatzes werden alternative Möglichkeiten zur Berechnung von T angeboten, gemeinsam ist allen Verfahren der Umgang mit drei Größen: - empirische Lage-Werte (Daten-Differenzen,Rangzahlen) empirische Streuung (Varianz) theoretisch zu erwartende Werte (Erwartungswerte) Nichtparametrische Tests: Vorzeichentest Wilcoxon-Vorzeichentest Mann-Whitney-Wilcoxon-Rangtest Kruskal-Wallis -Test Mittelwertvergleiche: Student-Test Varianzanalyse (f-Test) II.5.1 Vorzeichentest H: Die Datenpaare unterliegen keinem ‚Trend‘ dh. positive und negative Differenzen sind gleich wahrscheinlich. Der Vorzeichentest quantifiziert, in wie fern empirische Datenpaare (VorherNachher-Daten) einem Wachstumstrend unterliegen. Die Idee ist, zu jedem Datenpaar eine Differenz zu bilden und anschließend den Datensatz dahingehend zu untersuchen, wie die Vorzeichen der Differenzen insgesamt verteilt sind. Gibt es mehr negative Vorzeichen als positive, handelt es sich um einen positiven Wachstumstrend (a=2, b=4 à positives Wachstum, weil a-b negativ) und umgekehrt. Gibt es aber in etwa gleich viele positive wie negative Vorzeichen, ist kein signifikanter Trend nachweisbar. Tatsächlich konzentriert sich der Test hauptsächlich darauf, zu quantifizieren, ob überhaupt ein Trend vorliegt, oder nicht. Die Hypothese des Testes lautet: Es liegt kein Trend vor, sollte das Gleichgewicht zwischen positiven und negativen Differenzen unausgeglichen sein, so ist dies zufällig. Das Verfahren gründet sich darauf, die Anzahl der positiven Differenzen als binomial verteilt zu sehen. Binäres Ereignis: Differenz ist positiv oder negativ. Der Hypothese zufolge sind positive und negative Differenzen gleich wahrscheinlich, daher liegt die Wahrscheinlichkeit für das Ereignis: Differenz ist positiv bei p=0,5. Je nachdem, ob die empirische Realisation – die Anzahl der positiven Differenzen – aus dem Rahmen fällt oder nicht, entscheidet man sich für oder gegen die Hypothese. n ≤ 50: exakte Form n > 50: approximative Form Berechnung des Signifikanzniveaus zur Binomialverteilung mit Tobs= d + Berechnung der Prüfgröße T unter Transformation in eine Gaußverteilung E(D+ )=n⋅p und V(D+ )= n⋅p(1-p) E(D+ )=n/2 und V(D+ )=n/4 Pobs = n n 1 ∑ k ⋅ 2 k =d + n n n! k = k! ( n − k )! und Hypothese wird verworfen, falls: Pobs < α Tobs = 2d + − n , z.B. T obs=4 n Hypothese wird verworfen, falls: P{U > Tobs} < α Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann z.B. P{U > 4) vertafelt S. 18 x1 x2 x3 x4 x5 x6 x7 1,8 3,0 -0,5 1,35 5,2 -0,1 0,4 y1 y2 y3 â y4 y5 y6 y7 1 1 0 1 1 0 1 n=7, p=0,5 à E(D+ )=3,5 à V(D+ )=1,75 Hypothese: p=0,5 n≤ 50 Tobs=d + =5 7 7! 1 Pobs = ⋅ 7 ∑ k = 5 k !(7 − k )! 2 = 0,164+0,054+0,008=0,226 Beispiel: Untersucht werden soll, ob eine Salbe sich positiv auf die Verkleinerung von subkutanen Hämatomen auswirkt. Als Hypothese wird angenommen, daß die Salbe keinerlei Einfluß hat. Daß ein Hämatom wächst, wäre demzufolge genauso wahrscheinlich, wie daß es sich verkleinert. Bei der empirischen Untersuchung wird also eine Wahrscheinlichkeit für Wachstum mit p=0,5 angenommen. Bei der Untersuchung wird die Salbe an n=7 Probanden mit subkutanen Hämatomen aufgetragen und nach einer Weile die Größendifferenz xi des Hämatoms bemessen. Der Hypothese zufolge wäre die Eigenschaft Wachstum jetzt binomial verteilt, wobei mit höchster Wahrscheinlichkeit genau 50% ein positives und 50% ein negatives Wachstum zu verzeichnen haben - mit geringer Wahrscheinlichkeit ein zufällig davon unterchiedliches Ergebnis (z.B. 60% positiv, 40% negativ). Testdurchführung: Hypothese: Die Salbe hat keinen Einfluß auf das Hämatom, dh. die Wahrscheinlichkeit für eine positive Größendifferenz liegt jeweils bei p=0,5. - Als erstes werden die Vorzeichen der Differenzen ausgewertet; jede negative Differenz erhält den Wert ‚0‘, jede positive Differenz den Wert ‚1‘. Die Summe aller positiven Vorzeichen wird als d + bezeichnet. - Der Hypothese nach ist d + die Realisation der Verteilung D+ ~B(7;0,5); je nach Anzahl n erfolgt eine unterschiedliche Verfahrensweise: 0,226 > 0,05: die Hypothese wird angenommen. II.5.2 Wilcoxon-Vorzeichen-Rrangtest H: positive Differenzen haben dieselbe RangzahlVerteilung wie negative. Der Wilcoxon-Vorzeichen-Rangtest quantifiziert, in wie fern empirische Datenpaare (Vorher-Nachher-Daten) einem Wachstumstrend unterliegen. Im Vergleich zum Vorzeichentest, wo nur das Vorzeichen der Differenzen berücksichtigt wurde, wird in diesem Test zusätzlich der Betrag der Differenz berücksichtigt. Die Idee des Tests ist, die Differenzen hinsichtlich ihrer absoluten (also bei Weglassen der Vorzeichen) Beträge in einer Rangfolge zu ordnen und die Rangzahl-Summe aller positiven Differenzen zu bilden. Man erhält eine Maßzahl für die Häufigkeit des Auftretens und die Stärke des Trends. (Man bedenke den Fall, daß zwar gleich viele negative wie positive Differenzen auftreten, die positiven Differenzen aber durchweg die größeren Maßzahlen besitzen.) Die Hypothese des Test lautet: positive Differenzen sind bei großen und kleinen Rangzahlen ebenso häufig vertreten wie negative Differenzen. Je nach Anzahl n der erhobenen Datenpaare werden wieder zwei Vorgehensweisen unterschieden: n ≤ 50: exakte Form n > 50: approximative Form Berechnung der Zufälligkeit von Werten ober- Berechnung der Zufälligkeit von Werten oberoder unterhalb von T obs mittels T -Verteilung (?) oder unterhalb von T obs mittels Gauß-Verteilung E(R+ )= n (n4+1) und V(R+ )= Tobs= R+ − n( n +1) 4 Hypothese wird verworfen, falls: Pobs < α Bsp. (n=10, α=0,05): T obs> 17,5 à H abgelehnt. n( n +1)( 2 n+ 1) 24 Tobs= 2 R+ − n ( n +1) 2 n ( n +1)( 2 n +1 ) 6 Hypothese wird verworfen, falls: P{U > Tobs} < α Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 19 II.5.3 Mann-Whitney-Wilcoxon-Rangtest H: zwei Gruppen unterliegen derselben Ve rteilung. Der Mann-Whitney-Wilcoxon-Rangtest quantifiziert, in wie weit die Datensätze genau zweier Gruppen hinsichtlich eines stetigen Merkmals derselben Verteilung unterliegen. Bei mehr als zwei Gruppen wird der Kruskal-Wallis -Test angewandt (s.u.). Die Idee des Testes ist es, eine gemeinsame Verteilung vorauszusetzten (Hypothese) und anschließend eine Rangordnung der gemeinsamen Daten aufzustellen. Handelt es sich tatsächlich um dieselbe Verteilung, müßten hohe und niedrige Ränge gleichmäßig auf beide Gruppen verteilt sein, dh. die Rangsummen beider Gruppen müßten in etwa gleich sein. Je nach Anzahl der gesammelten Werte n wird wieder unterschieden: n 1,n 2 ≤ 20: exakte Form E(R1.-R2.)= 12 (n1 − n2 )(n1 + n2 + 1) n 1,n 2 > 20: approximative Form E(R1.-R2.)= 12 (n1 − n2 )(n1 + n2 + 1) V(R1.-R2.)= n1 ⋅ n 2 T= R1. − R 2. − 12 (n1 − n2 )(n1 + n2 + 1) Hypothese wird verworfen, falls: Tobs > cn 1,n2,α T= 1 3 ( n1 + n2 + 1) R1. − R2. − E( R1. − R2. ) V ( R1. − R2. ) Hypothese wird verworfen, falls: Pobs < α mit Pobs =2⋅P{U>Tobs}=P{U> Tobs } II.5.4 Kruskal-Wallis-Test Der Kruskal-Wallis -Test ist prinzipiell eine Ergänzung des Mann-WhitneyWilcoxon-Rangtest. Er quantifiziert, in wie weit die Datensätze mehr als zwei Gruppen hinsichtlich eines stetigen Merkmals derselben Verteilung unterliegen. Die Idee ist dieselbe, wie die des Mann-Whitney-Wilcoxon-Rangtests. Hinsichtlich der Anzahl gesammelter Werte n werden wieder zwei Formen unterschieden. k Anzahl Gruppen (in diesem Test mindestens 3) ni Anzahl Werte (Patienten) in Gruppe i n. Anzahl aller Werte (Patienten) aller Gruppen Ri. Summe aller Rangzahlen in Gruppe i n 1,n 2,...,n k ≤ 5: exakte Form n 1,n 2,...,n k >20: approximative Form chi-Quadrat-Verteilung mit k-1 Freiheitsgraden. E ( Ri. ) = ni 12 ( n. + 1) k 12 Ri2. T= ⋅ ∑ − 3( n. + 1) n.( n. + 1) i=1 ni Hypothese wird verworfen, falls: Tobs > cn 1,...,nk,α Hypothese wird verworfen, falls: Tobs > χ2 k-1;1-α Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 20 II.5.5 Student-Test mg/l Der Student-Test quantifiziert die Ähnlichkeit zweier Datensätze mit derselben Verteilung. Dabei wird unterschieden, ob es sich um Meßwertpaare an denselben Individuen (s. Abb. 27) oder um interindividuelle Meßwerte handelt. In beiden Fällen wird die Höhe der Meßwerte in die Untersuchung mit einbezogen. Jede der Varianten sieht vor, daß alle Daten Gauß-Normal-verteilt sind und beide Datengruppen dieselben Mittelwerte besitzen. Dies wird allerdings unterschiedlich ausgedrückt. P1 P2 Abb. 27 Paarvergleich, z.B. Gabe zweier Präparate im Abstand von einer Woche µ1 µ2 N1 N2 D Abb. 28 Normalverteilungen der zwei Datensätze. Die Mittelwerte sind unterschiedlich, die Varianzen jedoch gleich. Tobs 0,25 Untersuchung von Meßwert-Paaren Die Idee ist, von jedem Paar eine Differenz zu bilden und die GaußNormalverteilung aller Differenzen zu ermitteln. Die gewonnen Daten werden an der Hypothese gemessen, daß der Erwartungswert E für den Mittelwert dieser Ve rteilung Null sein soll. Es wird genau eine Verteilung gebildet Hypothese: µD=0 (Nullhypothese), dh. positive und negative Differenzen ergeben Null. Untersuchung interindividueller Daten Die Idee ist, für jeden Datensatz eine eigene Gauß-Normalverteilung zu ermitteln und zu prüfen, ob die Differenz beider Mittelwerte noch im Rahmen zufälliger Abweichung liegt (also beide Mittelwerte als gleich angenommen werden können). Dabei wird davon ausgegangen, daß nur die Mittelwerte verschieden, die Varianzen jedoch gleich sind. Es werden genau zwei Verteilungen gebildet (s. Abb. 28) Hypothese: µ1-µ2 = 0 (Nullhypothese), dh. die gewonnenen Mittelwerte unterliegen rein zufälligen Schwankungen, die theoretischen ersten Momente sind aber gleich. Untersuchung von Meßwertpaaren Untersuchung interindividueller Daten Hypothese: µD = 0 (Nullhypothese) Hypothese: µ1 - µ2 =0 (Nullhypothese) 0,25 E ( X 1 − X 2 ) = 0 ; V ( X 1 − X 2 ) = n1 + n2 ⋅σ 2 n1 ⋅ n 2 0 Abb. 29 t-Verteilung; T obs liegt im Toleranzbereich zufälliger Schwankungen; α=0,05 E(D) = 0, sD = 2 ∑ (D n 1 n −1 j =1 − D) 2 j s 2 gesamt si2 = Tobs = Falls Dn sD n ( n1 −1)s12 + (n2 − 1)s22 = n1 + n2 − 2 ∑ (X ni 1 n i −1 j =1 x1 − x2 Tobs = 2 Tobs > t n−1;1− α , Falls − X j ) , i = 1,2 2 ij s Tobs > t n + n − 2;1− α , 1 2 wird die Nullhypothese verworfen, dh. es besteht eine signifikante Abweichung n1 ⋅n 2 n1 + n 2 2 gesamt 2 2 wird die Nullhypothese verworfen, dh. es besteht eine signifikante Abweichung. 100(1-α)% -Konfidenzintervalle wahre mittlere Differenz Differenz der wahren Mittelwerte s 2D n YU = X1 − X 2 − t n YO = Dn − tn −1;1− α ⋅ s 2D n YO = X 1 − X 2 + t n1 + n2 −2;1− α ⋅ s 2ges ⋅ nn11+⋅ nn22 2 2 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann α 1 + n 2 − 2 ;1 − 2 2 ⋅ s ges ⋅ n1 + n 2 n1 ⋅ n 2 YU = D n − t n−1;1−α ⋅ 2 S. 21 II.5.6 Die einfaktorielle Varianzanalyse ANOVA Die einfaktorielle Varianzanalyse stellt quasi eine Erweiterung des Student-Tests dar, indem hier mehr als zwei, nämlich k Datensätze (k Gruppen), auf einen Streich überprüft werden können. Und zwar wird impliziert, daß es sich bei den Daten um die zufällige Realisation genau einer Variablen X handelt, die an insgesamt n Personen (interindividuell) bzw. in n Fällen (intraindividuell) bemessen wurde. Die Analyse geht davon aus, daß alle Gruppen zwar empirisch unterschiedliche Mittelwerte aufweisen, ihre Varianzen jedoch identisch sind. Die Hypothese lautet, daß die Unterschiede in den Mittelwerten rein zufällig bzw. gleich Null sind. Das Verfahren zielt nun darauf ab, die Gesamtstreuung der Werte in Unterkategorien aufzuteilen und die Streuungen innerhalb der Kategorien miteinander zu vergleichen. Je mehr Streuungskategorien bemessen werden, desto genauer und komplizierter wird der Test. Einfaktorieller Parallelgruppenplan; F-Test Zunächst wird die Gesamtstreuung in zwei Kategorien aufgesplittet – in die Variabilität zwischen den Gruppen (Vergleich der Gruppenmittelwerte mit dem Gesamtmittelwert) und die Variabilität innerhalb der Gruppen (Vergleich der Werte mit ihrem zugehörigen Gruppenmittelwert) – dargestellt jeweils durch die SummenAbweichungs-Quadrate SAQ (doppelt umrahmt). Diese werden mit ihren jeweiligen Freiheitsgraden FG relativiert – wodurch die mittleren Abweichungsquadrate MAQ gebildet werden. n. k i j Anzahl der Werte insgesamt Anzahl Gruppen Gruppen-Index (zwischen 1 und k) Wert-Index (zwischen 1 und n.) Kategorie gesamt Abweichung X ij − X .. ∑ (X SAQ FG MAQ Gruppe à Gesamtheit “zwischen” − X ..) 2 ij X i. − X .. = = ∑( X n.-1 - + − X ..) 2 i. k-1 SAQ/(k-1) Wert à Gruppe „innerhalb“ + X ij − X i. ∑ (X − X i. ) 2 ij n.-k SAQ/(n.-k) Als Prüfgröße Tobs wird nun der Quotient der beiden MAQ gebildet. Hypothese: µ1=µ2=...=µk (dh. kein signifikanter Unterschied); die Hypothese wird verworfen, falls Tobs >F k-1,n.-k;1-α ist. Tobs = MAQ zwischen MAQ innerhalb Einfaktorieller Blockplan Hierbei wird eine neue Kategorie eröffnet, indem die letzte Kategorie des Parallelgruppenplanes, das SAQinnerhalb noch weiter aufgesplittet wird. ∑∑ (X 2 n i =1 j =1 ij − X i . ) =∑∑ ( X . j − X ..) + ∑∑ (X ij − X i . − X . j + X ..) 2 2 n i =1 j =1 2 2 n 2 i =1 j =1 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 22 II.6. Diagnostik [M AU I]:60FF II.6.1 Sensitivität se, Spezifität sp a) b) Abb. 30 Testrichtige (grün) und Testfalsche (grau) bei positivem Testergebnis; in b ist die Spezifität sp geringer als in a (mehr Testfalsche). Zur Diagnose von Krankheiten werden Verfahren angewandt, deren Ergebnisse Aufschluß über den Zustand eines Patienten geben – beispielsweise die Bestimmung der Antikörperzahl für die Diagnose AIDS. Läuft so etwas im Rahmen eines Testes ab, so entscheidet der Test über den Gesundheitszustand anhand eines vorher definierten Schwellenwertes in „krank“ (K+ ) oder „gesund“ (K-). Nun kann jedoch nicht davon ausgegangen werden, daß ein Test 100%-ig sicher diese Auswahl zu treffen vermag. Mal liegt der Test in seiner Diagnose richtig (positives Testergebnis bei einem Kranken T+ K+ - negatives bei einem Gesunden T-K-) mal falsch (Test positiv, Patient aber gesund T+ K+ oder Test negativ, Patient aber krank T-K+ ). Die Frage ist nun, wie groß die Wahrscheinlichkeit ist, daß der Test Recht behält – also wie sensitiv er gegenüber der Krankheit ist und wie groß andererseits die Wahrscheinlichkeit ist, daß der Test nicht anschlägt, wenn der Patient auch tatsächlich nicht krank ist, dh. wie spezifisch er ist und nicht über das Ziel hinausschießt. Beide Größen, Sensitivität se und Spezifität sp lassen sich mittels eines Zufallsexp erimentes quantifizieren. Dazu ist es notwendig, zunächst über einen unabhängigen sicheren Test (golden standard) die tatsächliche Anzahl Kranker und Gesunder in einem Patientenkollektiv zu ermitteln. Danach wird nun bei jedem Patienten der zu untersuchende Test angewandt, desse Schwellenwert die Grenze zwischen T+ und Tangibt. Die Sensitivität ist ein Maß dafür, wie gut der Test die Kranken erfaßt. Sie ist dementsprechend das Verhältnis aus Testrichtigen und Krankheit und sollte möglichst hoch sein. Die Spezifität ist ein Maß dafür, wie sehr der Test von den Gesunden abläßt, dh. wie viele Testfalsche er bemißt. Je höher die Testfalschen-Zahl wird, desto unspezifischer ist der Test, weil er immer weniger zwischen Kranken und Gesunden differenziert (s. Abb. 30 ). Die Spezifität könnte anhand des Verhältnisses der Testfalschen zu den Gesunden (K-) ermittelt werden. Dann würde sp aber mit abnehmender Spezifität wachsen (didaktisch ungünstig). Daher bemißt sich sp aus dem Komplement. se = p K+(T+) = Testrichtige/Kranken und sp = p K-(T-) = (1-Testfalsche)/Gesunde Beispiel HIV-Test: Durch einen golden-standard-Test ist bekannt, daß 88 Patienten HIV-infiziert und 228 nicht infiziert sind. Diese Patienten werden nun einem speziellen Test unterzogen, bei dem die Serumabsorption eine Aussage über den Gesundheitszustand treffen soll. Testergebnis Serumwert 88 HIV+ 228 HIV- > 50 20 0 T+ ]50-12] ]12-6] 36 3 ]6-5] ]5-4] T]4-2] ]2-0] 9 4 7 16 2 74 0 128 14 3 Bei Festlegung des Schwellenwertes auf „5“ (schwarzer Balken) ergeben sich folgende Werte: K+ K- T+ a Tc 79 9 b d 10 218 88 228 se = 79 = 0.897... 88 sp = 218 = 0.956... 228 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 23 II.6.2 Binomiale Verteilung der Testergebnisse Prinzipiell kann die Anwendung eines diagnostischen Testes als binäres Zufalls experiment verstanden werden. Man nehme m=20 (s.Abb. 31) kranke Patienten, pS=X führe an jedem Patienten den Test durch und erhalte 20 Ergebnisse, wovon 14 Patienten einen positiven Test bekommen (X=14 Testpositive à Y=6 TestnegatiT+ ve). Dieses Resultat ist nun rein zufällig. Es hätten auch mehr oder weniger TestpoX=14 sitive dabei sein können, nur ist die Wahrscheinlichkeit für X=14 am größten, wie Abb. 31 binomiale Testverteilung sich aus der Binomialverteilung des Testes ergibt (Glockenspitze bei X=14). Glockenform und Glockenmaximum werden von der Wahrscheinlichkeit p bestimmt, daß ein einziger Patient ein positives Testergebnis erziehl. Diese Wahrscheinlichkeit ist nach den Testbedingungen eine bedingte Wahrscheinlichkeit, denn es war vorausgesetzt, daß alle m=20 Patienten krank sein sollen. Sie hängt nur vom gewählten Schwellenwert des Testes ab und läßt sich folgendermaßen schätzen: X m + schätzt p K (T + ) , mit m Kranken und X Testrichtigen. Im Beispiel also p{T+}=14/20=0,7. Ebenso kann eine Binomialverteilung für die Testfalschen bei einem Kollektiv an Gesunden (ohne Abbildung) bestimmt werden. Dabei gilt dann: Y n − schätzt p K (T + ) , mit n Gesunden und Y Testfalschen. II.6.3 Prädikative Werte Bisher war nur die Frage untersucht worden, wie gut der Test das Krankheitskollektiv erfaßt, dh. wie oft ein Testergebnis positiv ist, unter der Bedingung, daß ein Patient krank ist. Eines der Resultate war, daß ein positives Testergebnis auch vorliegen kann, wenn der Patient gesund ist. Die nächste Frage ist also, wie hoch die Wahrscheinlichkeit ist, daß eine Krankheit tatsächlich vorliegt, wenn ein Testergebnis bekannt ist. 1. Wie groß ist die Wahrscheinlichkeit, daß der Patient krank ist, wenn ein positives Testergebnis vorliegt p T+(K+), ppW (positiver prädikativer Wert). richtig positiv 2. ppW = se ⋅ pr se ⋅ pr + (1 − sp )(1 − pr ) Wie groß ist die Wahrscheinlichkeit, daß der Patient gesund ist, wenn ein negatives Testergebnis vorliegt p T-(K-), npW (negativer prädikativer Wert) richtig negativ npW = sp (1 − pr ) sp (1 − pr ) + (1 − se ) pr Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 24 III. Sterblichkeitsanalysen [M AU II]:26FF. Sterblichkeitsanalysen beschäftigen sich mit der Auswertung von Sterbealter und Sterbezeitpunkt von Individuen in einer bestimmten Population. Die Sterblichkeit der Population wird dann anhand einer empirischen Überlebensfunktion dargestellt oder mit der Sterblichkeit einer anderer Populationen verglichen, um z.B. Aussagen über einen Therapieerfolg treffen zu können. Grundlage der Analyse sind zwei unterschiedliche Herangehensweisen der Datenerhebung: - Die Querschnittsuntersuchung Die Längsschnittuntersuchung Beide Methoden ermöglichen die Herleitung einer Überlebensfunktion. Diese gibt an, wie die Überlebenswahrscheinlichkeit eines Individuums ist, das einer bestimmten Population i angehört, und hat die Form einer Treppe. n III.1.1 Die Querschnittuntersuchung 20 Hierbei erfolgt die Datenerhebung zu einem bestimmten Zeitpunkt (beispielsweise rückblickend auf ein Jahr). Dabei wird die Population in Altersklassen unterteilt und die jeweilige Sterbezahl in einer Klasse festgehalten. à Ordnung der Gestorbenenanzahl hinsichtlich der Zugehörigkeit zu einer Alters-Klasse. Um die Sterblichkeiten zweier Populationen (s. Abb. 32) vergleichen zu können, muß eine Altersadjustierung vorgenommen werden, um den Effekt auszugleichen, daß verschiedene Altersklassen unterschiedlich stark besetzt sein können, wodurch die Sterblichkeit statistisch beeinflußt wird. Dazu wird für beide Populationen in jeder Altersklasse der relative Anteil Gestorbener qi auf eine fiktive Kohorte von beispielsweise 100.000 Individuen bezogen, wobei sich die Anzahl der unter Risiko stehenden n i sukzessive verringert. 10 0 30 20 10 0 1 2 3 4 5 6 Abb. 32 Gegenüberstellung der Altersverteilung (hell) und der jeweiligen Sterbeziffern (dunkel) unter Geistlichen (grün) und Bahnbediensteten (braun) 100 n 95 qi = di w ni − i 2 , d: Anzahl Tote, w: Anzahl Ausgeschiedener (withdrawals ) Die Wahrscheinlichkeit pi,0, eine bestimmte Altersklasse i zu überleben ist eine bedingte Wahrscheinlichkeit, wobei die Bedingung das Überleben der vorherigen (i1)-ten Altersklasse ist. Dh. pi,0 errechnet sich durch sukzessive Multiplikation der Überlebensanteile pi , wobei pi das Komplement von qi ist (Wer nicht gestorben ist, lebt folglich). Damit ergibt sich die empirische Überlebenswahrscheinlichkeit, deren graphische Auftragung die Form einer Treppe hat (s. Abb. 33). p0, i = (1 − q1 ) ⋅ (1 − q2 ) ⋅ ... ⋅ (1 − qi ) = ∏ 90 j≤ i pj und p i=1-q i. 1 2 3 4 5 6 Abb. 33 empirische Überlebensfunktion für Geistliche (grün/durchgezogen) und Bahnbedienstete (braun / gestrichelt); die Daten der Klasse 6 wurden der Anschaulichkeit wegen ergänzt Beispiel (keine Ausscheidende w) Klasse 25-34 25-44 45-54 55-64 65... i 1 2 3 4 5 ni di 17.318 38 23.313 74 23.368 178 18.257 400 - qi pi p i,0 n i (adjustiert) 0,0022 0,0032 0,0076 0,0219 - 0,9978 0,9968 0,9924 0,9781 - 1 0,9978 0,9946 0,9871 0,9654 100.000 99.780 99.460 98.710 96.540 à Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 25 III.1.2 Die Längsschnittuntersuchung Bei der Längsschnittuntersuchung wird ein Kollektiv aus Individuen bestimmt, eine sogenannte Kohorte, die für einen längeren Zeitraum hinsichtlich ihres Sterbeverhaltens beobachtet wird. à Ordnung der Gestorbenenanzahl hinsichtlich des Zeitpunktes des Todes. Beispiel einer Datentabelle für einen Längsschnitt: i Überlebensdauer t in Tagen (geordnet) 1 unter Therapie 6 6 6* 7 9* 10 10* 11* 13 16 2 Kontrollgruppe 1 1 2 2 3 4 4 5 5 8 j;x nj dj 12 3 9 1 8 1 7 2 5 1 4 1 3 1 2 1 1 1 1;6 2;7 3;9 4;10 5;11 6;13 7;16 8;17 9;19 Sj 9 8 7 5 4 3 2 1 0 π Sx 0,75 0,888 0,875 0,714 0,8 0,75 0,666 0,5 0 0,75 0,666 0,583 0,416 0,333 0,245 0,166 0,083 0 Abb. 34 empirische Funktion des Überlebens bei Längsschnittuntersuchung nach Kaplan und Meier S x(j) 0,5 j 1 5 Abb. 35 empirische Funktion des Überlebens; grün: Skalen für πj . 19* 8 Es wurden i=2 Patienten-Populationen untersucht mit dem jeweiligen Umfang von j=12 Patienten. Jede Zahl repräsentiert die Überlebenszeit eines Patienten. Befindet sich ein Stern (*) hinter einer Zahl, handelt es sich um einen zensierten Wert. In diesem Fall hat der Patient mit sicherheit bis zu dem angegebenen Zeitpunkt überlebt, entzog sich dann aber der Untersuchung (z.B. aufgrund Krankenhauswechsels). Solch einen Patienten nennt man auch withdrawal w. Zensierte Werte werden konventionell den unzensierten hintenangestellt, falls beide gleich hoch sein sollten. Nach dieser ersten Datenerhebung folgt nun für jede Population eine erste Analyse. Dazu wird zu jedem Zeitpunkt, an dem mindestens ein Patient gestorben ist, die Anzahl derjenigen festgehalten, die unter Risiko standen nj (zu Anfang 12), die gestorbenen sind dj (deads) und derjenigen, die überlebt haben Sj (survivals)= n j - d j (s. Abb. 34). Jetzt soll berechnet werden, wie hoch die Wahrscheinlichkeit ist, den Zeitpunkt xj noch zu erleben (Produktlimit-Schätzer). Dazu wird zunächst für jedes Intervall ein Schätzwert πj ermittelt, der angibt, wie hoch die Überlebenswahrscheinlichkeit ist, das nächste Intervall j zu erleben, wenn das letzte schon erreicht war. In Abb. 35. Die Schätzwerte werden multiplikativ kumuliert und ergeben den jeweiligen Produktlimit-Schätzer oder Kaplan-Meier-Schätzer Sx . Die graphische Auftragung ergibt die typische Treppenfunktion (Abb. 35). πˆ j = 0 17* 8 nj − d j nj und S ( x) = Π x ( j) ≤ xπ̂ j z.B. S(10)=S(x(4) ) π6⋅π7⋅π9⋅π10=0,75⋅0,888⋅0,875⋅0,714 = 0,416. Zu lesen: Die Wahrscheinlichkeit für die Patienten unter Therapie (i=1) nach 10 Wochen immer noch zu leben, ist 0,416. Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann S. 26 IV. Anhang A IV.1. Abkürzungen α 1-β ϕ µ σ Φ Σ Π ν χ2 Signifikanznieveau Trennschärfe Dichtefunktion der Normalverteilung theoretisches 1. Moment theoretisches 2. Moment Integralfunktion Summenzeichen Produktzeichen Variationskoeffizient chi-quadrat; Dispersionsindex a b B E e f kW n N npW p P pA(B) Steigung Achsenabschnitt Binomialverteilung Erwartungswert Eulersche Zahl; e=2,71828... Anzahl Freiheitsgrade kritischer Wert Anzahl Werte Normalverteilung negativer prädikativer Wert Wahrscheinlichkeit Wkt. Poissonverteilung bedingte Wkt. IV.2. Pobs ppW QA R Rg s s2 observed probability positiv prädikativer Wert Quartilabstand Spannweite Rangzahl Standardabweichung Stichprobenvarianz Standardfehler sx SAQ se sp t T Tobs V VK x 0,5 xh Summen-Abweichungs-Quadrat Sensitivität Spezifität vertafelter Wert der t-Verteilung Prüfgröße eines statistischen Tests observed testvalue Varianz Variationskoeffizient Median Modalwert empirischer Mittelwert x x Absolutwert von x; ! x = − x = x2 Fakultät Das griechische Alphabet α β χ δ ε ϕ γ η ι κ λ µ Α Β Χ δ Ε Φ Γ Η Ι Κ Λ Μ ['alfa] ['beta] [¸i]; [¸] wie in ‚ich‘ ['½elta]; [½] wie in ‚that‘ ['epsilon] [fi] ['gama] ['ita] ['jota] ['kapa] ['lam½a]; [½] wie in ‚that‘ [mi] [my]; [y] wie in ‚übel‘ ν Ν [ni] [ny]; [y] wie in ‚übel‘ Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann ο π θ Ο Π Θ ρ σ, ϖ τ υ ω ξ ψ ζ Ρ Σ Τ Υ ς Ω Ξ Ζ ['omikron] [pi] ['θita] ['teta]; [θ] wie in ‚thing‘ [ro] ['sigma]; [s] wie in ‚Wasser‘ [taf] [tau] ['ipsilon] ['omega] [ksi] [psi]; [ps] wie in ‚Psalm] ['zita]; [z] wie in ‚Rose‘ S. 27 Index Anpassungstest............................14 Binomialkoeffizient ......................8 Binomialverteilung .......................8 Blockplan......................................24 Box-and-whiskers-Plot.................5 chi-Quadrat...................................14 Dezentil...........................................4 Dispersionsindex χ 2 ...................14 Erwartungswert............................11 Fishertest.......................................16 F-Test ............................................24 Gauß-Verteilungsfunktion .........10 Kovarianz....................................... 6 kritischer Wert............................. 13 Kruskal-Wallis -Test................... 21 Längsschnittuntersuchung......... 28 Mann-Whitney-WilcoxonRangtest................................... 21 Median............................................ 4 Mittelwert....................................... 4 Modalwert ...................................... 4 Testniveau α.................................12 Trennschärfe.................................12 Normalverteilung.......................... 9 Unabhängigkeitstest....................15 Parallelgruppenplan.................... 24 Poisson ......................................... 14 prädikativer Wert ........................ 26 Produktlimit-Schätzer................ 28 Punktschätzer.............................. 11 Integralfunktion Φ.......................10 Quantil ............................................ 4 Quartil............................................. 4 Querschnittuntersuchung........... 27 Kaplan-Meier-Schätzer ..............28 Kohorte .........................................28 Konfidenzintervall ................11, 22 Kontingenztafel .............................6 Randhäufigkeit .............................. 6 Rangzahl......................................... 4 Regression...................................... 6 Regressionsgerade........................ 7 Homogenitätstest.........................16 Sensitivität....................................25 Signifikanzniveau Pobs..............12 Spannweite .....................................5 Spezifität.......................................25 Standardabweichung.....................5 Standardfehler................................5 Stichprobenvarianz .......................5 Student-Test.................................22 Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann Varianz..........................................11 Varianzanalyse.............................24 Variationskoeffizient ....................5 Vierfeldertest................................15 Vorzeichentest.............................18 Wilcoxon-VorzeichenRrangtest...................................20 withdrawals ..................................27 Zentroid...........................................6 S. 28