Skriptum Biomathe

Werbung
Skriptum Biomathe
begleitdendes Skript zur Vorlesung
„medizinische Statistik“
im 1. klinischen Semester der HHU Düsseldorf
A. Ruttmann © 1999
http://www.ruttmann.notrix.de
Version 1.7
Inhaltsverzeichnis
I. WAHRSCHEINLICHKEITSTHEORIE
3
II. STATISTISCHES SCHLIEßEN
4
II.1.
Empirie
4
II.2.
Verteilungsfunktionen
8
II.3.
Statistisches Schließen
11
II.4.
Testverfahren
14
II.5.
Statistische Auswertung stetiger Meßverfahren
18
II.6.
Diagnostik
23
III. STERBLICHKEITSANALYSEN
25
IV. ANHANG A
27
IV.1.
Abkürzungen
27
IV.2.
Das griechische Alphabet
27
I. Wahrscheinlichkeitstheorie
[M AU I:]41FF.
Abb. 1
Der formelle Begriff der Wahrscheinlichkeit ist geknüpft an Ereignisse und an Zugehörigkeiten dieser Ereignisse zu einer Ereignismenge. Es stellt sich die Frage,
wann ein Ereignis einer bestimmten Menge zuzuordnen bzw. nicht zuzuordnen ist
und wie groß die Wahrscheinlichkeit ist, daß ein Ereignis der einen oder anderen
Menge zugeordnet werden kann.
Anschaulich darstellbar ist diese Überlegung anhand geometrischer Flächen (s. nebenstehende Abbildung). Jede Fläche repräsentiert dabei eine bestimmte Ereignismenge. Ihre Größe gibt die Wahrscheinlichkeit an, mit der ihr ein Ereignis zugeordnet werden kann. Die Gesamtfläche, dh. Die Summe aller Ereignismengen, ist kleiner oder gleich 1. Formale Schreibweise für die Wahrscheinlichkeit p eines Ereignisses E:
p ( E ) = x; x ∈ [0;1]
„p“ für „probalité“ (x entspricht der Flächenmaßzahl)
Veranschaulichung:
Der rote Kreis soll die Menge aller Cholera-Neuerkrankungen innerhalb eines Jahres
in einer Bevölkerung darstellen (Morbidität). Der blaue Kreis die Menge all derjeniger, die innerhalb eines Jahres versterben (Mortalität). Beide Flächen sind als Fraktionen der Gesamtpopulation anzusehen, ihre Maßzahl liegt daher zwischen Null
und Eins. Nun existieren drei diesbezügliche Ereignisse: A – Erkrankung an Cholera, B – Versterben, C – Versterben an Cholera.
I.1.1 Bedingte Wahrscheinlichkeit (ein Verhältnis)
Letalität
Ggf. ist es von Interesse, eine Wahrscheinlichkeit unter dem Gesichtspunkt zu betrachten, daß bereits ein anderes Ereignis zutrifft – z.B. die Wahrscheinlichkeit von
B unter der Bedingung, daß A schon zutrifft. Dann spricht man von einer bedingten
Wahrscheinlichkeit.
p ( B A) = p A ( B) =
20 mon
p( A ∩ B)
p( A)
Anschaulich handelt es sich um das Verhältnis der Schnittfläche (violett) zur Menge
des vorausgesetzten Ereignisses (rot).
Mit dieser Definition läßt sich auch die Wahrscheinlichkeit für die Schnittmenge
berechnen, wenn die bedingte Wahrscheinlichkeit bekannt ist.
40 mon
p ( A ∩ B) = p B ( A) ⋅ p( B) = p ( A) ⋅ p A ( B)
60 mon
Abb. 2
Beispiel:
Morbidität (roter Kreis in Abb. 2) der Krankheit x liegt bei 0,000.03 %.
Mediane Überlebenszeit liegt bei 60 Monaten (dh. Verhältnis tot:lebend nach
60 Monaten liegt bei 0,5).
Wie hoch ist die Mortalität (violett in Abb. 2) ?
Die Letalität pA(B) liegt nach 60 Monaten bei 0,5. Durch einfache Multiplikation mit der Morbidität p(A) ergibt sich die Mortalität. P(A∩B)=0,000.015.
Additionssatz:
Um die Wahrscheinlichkeit zu erfassen, daß entweder A oder B zutrifft, muß
die Vereinigungsmenge gebildet werden.
-
p ( A ∪ B) = p ( A) + p( B) − p( A ∩ B)
Sind beide Mengen disjunkt, dh. es kann niemals A und B gleichzeitig zutreffen, gilt einfach:
p ( A ∪ B) = p ( A) + p ( B)
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 3
II. Statistisches Schließen
II.1.
Empirie
II.1.1 Lagemaße
[VOGLER:15FF.]
Das arithmetische Mittel x , Mittelwert
wert.
stellt den Durchschnittswert einer Menge dar. Handelt es sich dabei um eine Klasseneinteilung, stellt xi das Produkt aus Klassenmitte und absoluter Häufigkeit dieser
Klasse dar.
Die summierten Differenzen ergeben Null.
x=
x ist der Durchschnitts-
n
1
n
∑x
i
i =1
Ermittelt man zu jedem Wert xi die Differenz zum arithmetischen Mittel, ergibt die
Summe der aller Differenzen (positive und negative Werte) den Wert Null.
Daten mit Ordinalniveau
Der Median x0,5 ist der
zentrale Wert einer Rangordnung.
bieten keine Möglichkeit, Mittelwerte zu berechnen. Dennoch kann man einen Ordinaldatenbestand deskriptiv erfassen. Dazu müssen die Werte zunächst in eine Rangfolge gebracht werden.
•
Die Rangzahl Rg(x(i) ) ist dabei der Index i des Wertes x in der geordneten Reihenfolge. Tauchen mehrere Werte gleicher Größe auf, erhalten alle den Mittelwert ihrer Ränge. Indizes einer geordneten Rangfolge werden anstelle eckiger in
runde Klammern gesetzt.
Bsp: x(1)=1, x(2)=4, x(3)=4, x(4)=5, x(5)=7 à Rg(x(2));x(3))=(2+3)/2=2,5
•
Der Modalwert xh= ist der häufigste Wert der Menge.
•
Quantile sind Werte, welche die Obergrenze für eine bestimmte Fraktion des
Datenbestandes angeben. Der Median x0,5 ist beispielsweise derjenige Wert, für
den gilt, daß genau die Hälfte aller Daten kleiner oder gleich groß ist. Er faßt
die Fraktion 0,5 des Datenbestandes unter sich zusammen. Weitere wichtige
Quantile sind das untere Quartil x0,25 und das obere Quartil x0,75 oder die Dezentile
x 0,1 und x 0, 9 .
WertetabelleBeispiel
1
2
1 1
3
4
5
6
7
8
9
10
11
2 4 5 6 6 8 8 9 9 n=11
Berechnung eines Quantils am Beispiel von x0,25
1) zunächst müssen die Daten in einer Reihenfolge geordnet werden.
2) Über das Produkt aus gewünschter Fraktion 0.25 und Anzahl der Daten n
erhält man einen Wert (2.75), der abgerundet einen Indexwert i (2) ergibt.
3) Die Differenz aus i-tem und dem daruffolgenden Datum (2-1=1) wird mit
der Fraktion multipliziert und zum -iten Datum hinzuaddiert. Man erhält
das gewünschte Quantil (1.25)
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 4
auffällig
3
auffällig
normal
1,5
1
xMAX
xmax
x 0,75
x
x 0,5
x 0,25
QA
1
1,5
3
whisker
xmin
Box-and-whiskers-Plot
Die graphische Auftragung ordinaler Daten erfolgt folgendermaßen. Oberes und
unteres Quartil werden als obere und untere Grenze eines Rechtecks (box) genommen. Die Differenz zwischen beiden wird auch als Quartil-Abstand QA bezeichnet
und umfaßt die Hälfte aller Daten ! Innerhalb des Rechtecks werden der Median als
Balken und der empirische Mittelwert als Kreuz (+) eingetragen.
Alle Daten, die außerhalb des Rechtecks zu liegen kommen, werden gesondert betrachtet und nach ihrer Entfernung (in QA) von der Grenze des Rechtecks bewertet.
Werte bis zu 1,5-facher Entfernung gelten als normal, danach bis zu 3-facher Entfernung als auffällig und solche, die darüber hinausgehen als extrem auffällig.
Der größte normale und der kleinste normale Wert wird mit einer senkrechten Linie
verbunden und diese als ‚whisker‘ bezeichnet („Schnurrbarthaar“). Alle auffälligen
und extrem auffälligen Werte werden einzeln eingetragen. Der größte und der
kleinste aller Werte wird gesondert gekennzeichnet (Dreieck,Quadrat).
x MIN
II.1.2 Eindimensionale Streuungsmaße
Abb. 3
Box-and-Whiskers Plot
[VOGLER:20FF.]; [T IMISCHL:4F.]
Die Spannweite R
R ist der Abstand zwischen dem niedrigsten und dem höchsten Wert und daher sehr
anfällig für Ausreißer. Außerdem wird die Stichprobenzahl n nicht berücksichtigt.
R = x max − x min
[R]=[x]
Stichprobenvarianz s 2
Sie stellt ein Streuungsmaß um den Mittelwert einer Menge dar und berücksichtigt
gleichsam die Anzahl der Stichproben.
s =
2
n
1
2
⋅ ∑ ( xi − x )
n − 1 i =1
[s 2]=[x]2
Das Quadrieren der Abweichungen vom arithmetischen Mittel verhindert, daß die
Summe der Abweichungen Null ergibt. Anstelle von (n-1) könnte man auch nur
durch n dividieren. Für nà∞ strebte die Varianz dann aber gegen Null, da 1/∞ =0.
Da durch das Quadrieren die Einheiten einer Messung ebenfalls quadriert werden,
wird zur Angabe der Streuung die Quadratwurzel der Stichprobenvarianz angegeben, die Standardabweichung.
Standardabweichung s vs. Standardfehler
Die Standardabweichung ist ein absolutes Maß für die Streuung einer Stichprobe
und ist als mittlerer Fehler der Einzelmessung interpretierbar. Sie ergibt sich direkt
aus der Stichprobenvarianz.
Die Standardabweichung
stellt den mittleren Fehler der
Einzelmessung dar.
Der Standardfehler erschließt
ein Intervall, in dem der wahre Wert liegt.
Standardabweichung
Standardfehler
s=
n
1
⋅ ∑ ( xi − x) 2
n − 1 i=1
s
sx =
n
[s]=[x]
[ s x ]=[x]
Ergänzt wird die Standardabweichung durch den Standardfehler
s x . Dieser stellt
einen Wert dar, der zusammen mit dem Mittelwert ein Intervall erschließt, in dem
mit etwa 70%iger Wahrscheinlichkeit der wahre Wert anzutreffen ist.
Der Variationskoeffizient v, VK
Der Variationskoeffizient ist
der relativierte mittlere Fehler der Einzelmessung.
Er relativiert die Standardabweichung anhand des Mittelwertes und stellt damit ein
relatives Streuungsmaß dar, welches den Vergleich unterschiedlicher Stichprobenmengen zuläßt. Angaben in Prozent (dimensionslos).
Variationskoeffizient
v=
s
⋅100
x
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
[v]=1, [100 v]=%
S. 5
II.1.3 Maße zweidimensionaler Verteilungen
[VOGLER:28FF.]; [T IMISCHL:51FF.]
Die Kontingenztafel
Die Kontingenztafel ist eine zweidimensionale Häufigkeitsverteilung.
j=1
j=2
j=3
i=1
< 25 Jahre
i=2
25-50 Jahre
i=3
>50 Jahre
< 100 mmHg
100-120 mmHg
> 120 mmHg
5
13
1
2
7
3
1
8
10
Randhäufigkeit
19
12
19
Randhäufigkeit
8
28
14
n=50
Dabei versteht man unter Randhäufigkeit die eindimensionale Verteilung eines
Merkmals. Die einzelnen Elemente werden mithilfe zweier Indizes j und i erfaßt
(Zeile j, Spalte i).
Beispiel: n 23 = 8
Die empirische Kovarianz sxy
yi
AB
CD
xi
Die empirische Kovarianz s xy ist analog zur eindimensionalen Stichprobenvarianz s 2x
ein Streuungsmaß für zweidimensionale Merkmale.
Anschaulich stellt sie eine mit der Punkte-Anzahl relativierte 'mathematische Summen-Fläche' dar, die je nach Streuung verschieden groß ist und je nach Anordnung
der Punktewolke ein bestimmtes Vorzeichen hat.
Dabei spannt jeder Punkt P x i ; y i mit dem Zentroid P x ; y ein Rechteck auf,
(
s xy =
)
1 n
∑ ( xi − x )( y i − y )
n − 1 i =1
s xy ≈ 0
s xy < 0
Die Kovarianz s xy ist
ein zweidimensionales Maß über Streuung und lineare Verknüpfung.
(
)
das links oder rechts bzw. ober- oder unterhalb des Zentroids zu liegen kommt, und
dessen Flächenwert je nach Lage ein positives oder negatives Vorzeichen bekommt.
yi
yi
xi
negativ linearer Zusammenhang
s xy > 0
yi
xi
x und y sind unabhängig
von einander
xi
positiv linearer Zusammenhang
Regression
Regression ist ein
funktioneller Zusammenhang
zwischen
zwei Merkmalen
Bei der Regression handelt es sich um den Zusammenhang zweier Merkmale (z.B.
Alter und Größe), die in Form einer Funktion aufeinander bezogen werden, dh. die
eine Größe ist durch die andere definiert.
Eine Regression von y auf x bedeutet, daß es eine Rechenvorschrift gibt, die jedem x
ein y zuordnet, dh. y (Größe) kann berechnet werden, wenn x (Alter) bekannt ist.
Demzufolge wird x (Alter) auch als unabhängige und y (Größe) als abhängige Variable bezeichnet.
Um eine solche Funktion herzuleiten, müssen zunächst Werte gesammelt werden.
Diese können in einer Wertetabelle oder in einem karthesischen Koordinatensystem
aufgetragen werden. Bei letzterer Darstellungsform handelt es sich um eine Punktwolke (syn. Korellationsdiagramm, Streudiagramm). Die als unabhängig angenommeine Variable wird dabei auf der horizontalen x-Achse aufgetragen, die als abhängig angenommene auf der y-Achse. Anhand der graphischen Darstellung läßt sich
bereits erkennen, ob die Punkte einem Trend folgen. Handelt es sich dabei um einen
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 6
B
linearen Trend, dh. die Punkte liegen um eine Gerade herum verstreut, handelt es
sich um eine lineare Regression und die Trend-Gerade wird als Regressionsgerade
bezeichnet. Diese läßt sich auch rechnerisch bestimmen.
yi
ei
yi
xi
Die Bestimmung der Regressionsgeraden (y auf x) beruht auf der Annahme, daß die x-Werte als
statische bzw. bereits wahre Werte angenommen werden und nur die y-Werte streuen. Die
Streuung der y-Werte wird dabei durch folgenden Term gedeutet:
yˆ i = y i − ei
A
ŷ stellt dabei den wahren y-Wert dar, der um e (die Residue) verfälscht wurde. y ist der gemessene Wert, der um e vom wahren Wert abweicht.
Das mathematische Problem konzentriert sich nun auf die Aufgabe, eine Geradengleichung zu
finden, für die alle e möglichst klein werden, da es sich nur dann um die Regressionsgerade handelt. Dazu müssen Steigung â und Achsenabschnitt b̂ bestimmt werden (Variablen mit Dach
gelten als Schätzwerte).
Abb. 4
Regressionsgerade y auf x
Bei der Regressionsgeraden y nach x sind die
vertikalen Abstände zwischen Punkten und Geraden minimiert.
yˆ i = aˆ xi + bˆ
Das mathematische Lösungsverfahren der kleinsten Quadrate beruht auf der Untersuchung,
wann Σe2 möglichst klein ist. Dazu wird e durch die Geradengleichung ersetzt, sowie die Mittelwerte x, y eingeführt und der Term mittels Einführung von Varianz und Kovarianz verein-
Bei der Regressionsgeraden x nach y die horizontalen Abstände
facht. Am kleinsten wird dieser genau dann, wenn möglichst viele Koeffizienten Null werden.
Dies ist unter folgenden Bedinungen der Fall:
aˆ =
s xy
s
2
x
=
∑ ( x − x )( y − y )
∑(x − x)
1
n −1
1
n −1
i
i
bˆ = y − aˆ x
und
2
i
Bestimmung der Regressionsgeradengleichung y auf x
Mittelwert für x
x=
1
n
Mittelwert für y
y=
1
n
Varianz
s 2x =
Kovarianz
s xy =
∑x
∑y
1
n −1
1
n−1
s xx =
1
n−1
∑ (x − x )
2
=
⋅ ∑ ( x − x )( y − y ) =
x
...
...
y
...
...
x2
...
...
y2
...
...
xy
...
...
...
...
...
...
...
Σx
Σy
Σ x2
Σ y2
Σxy
∑ x − (∑ x )
∑ xy − ∑ x ∑ y
1
n−1
1
n−1
2
1
n
2
1
n
n
x
y
S xx
S xy
...
...
...
...
...
(Σ x)2
1.
2.
3.
aufsummieren aller x und aller y, quadrieren aller x und aller y, Produkte bilden
aus allen x und allen y
Bilden der Mittelwerte für x und y, Summieren der Quadrate und Produkte
Bilden der Varianz und Kovarianz unter Auslassen des Koeffizienten 1/(n-1),
der sich später wegkürzt
Beide Regressionsgeraden laufen durch den Punkt
P( x ; y ) , das Zentroid.
Die Bestimmung der Regressionsgeradengleichung x auf y erfolgt auf analoge Weise. Einziger Unterschied: Im Nenner der Steigung steht anstelle der Varianz für x die
für y.
aˆ =
s xy
=
s 2y
1
n −1
1
n −1
∑ ( x − x )( y − y )
∑ ( y − y)
i
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
i
2
i
S. 7
II.2.
Verteilungsfunktionen
[STATISTIK-SKRIPT]:51FF.
Die Welt der Statistik ist erfüllt von Ereignismengen, Einzelereignissen und deren
Auftretenswahrscheinlichkeiten. Mathematisch kann ihr Zustand erfaßt werden
durch eine Verteilungsfunktion. Es ist der Versuch, die Wirklichkeit durch eine
Rechenvorschrift darzustellen, die auf einfache Weise zusammenfaßt, wie häufig ein
Ereignis in einer Menge auftritt bzw. wie groß seine Auftretenswahrscheinlichkeit in
Zukunft sein wird.
Praktisch muß unterschieden werden zwischen einer Verteilung, die einen gewonnenen Datenbestand beschreibt, also retrospektiv ist und einer Verteilung, die bereits
mathematisch formuliert ist, um eine Aussage über zukünftige Ereignisse zu treffen,
also prospektiv ist. Die mathematische Formulierung ist in beiden Fällen dieselbe,
ihre Qualität jedoch unterschiedlich.
Im ersten Fall dient die Verteilung lediglich der zusammenfassenden Darstellung
eines Zustandes, der durch eine Datenerhebung erfaßt wurde. Die zwei Parameter
der Verteilung sind der Erwartungswert E und die Varianz V. Diese Verteilung
beschreibt die Wirklichkeit, indem sie sich auf eine begrenzte Anzahl empirischer
Datenerhebungen beruft. Beschrieben werden nur die Häufigkeiten realisierter Ereignisse.
Würden jetzt unendlich viele Datenerhebungen gewonnen, erhielte man eine genaue
Beschreibung der Wirklichkeit, dies ist jedoch nicht möglich, aber es ist klar, daß
bei steigender Anzahl von Datenerhebungen dieser Fall angenähert wird. Das Ziel
dieses Verfahrens ist die Ermittlung der wahren Werte der Verteilung. Ihre Parameter sind die ‚theoretischen Momente‘ µ und σ-2. Beschrieben werden Auftretenswahrscheinlichkeiten realisierbarer Ereignisse, mit deren Hilfe man Voraussagen
über zukünftige Verteilungen anstellen kann.
Drei Arten von Verteilungen sind hervorzuheben:
•
•
•
die Binomialverteilung. Sie beschäftigt sich nur mit binären Ereignissen. Ve rteilt ist die Häufigkeit der Realisierung einer der beiden Möglichkeiten.
die Poisson-Verteilung. ist eine Verteilung seltener Ereignisse.
die Normalverteilung. Sie beschreibt die Korrelation zwischen Werten auf einer
Skala und deren Häufigkeiten.
II.2.1 Binomialverteilung
Ereignisse mit binärem Charakter (ja/nein; wahr/falsch; männlich/weiblich) stellen
sich in Form einer Binomialverteilung dar.
Dabei stellt sich nicht die Frage, wie wahrscheinlich die eine oder die andere Möglichkeit der Verwirklichung ist (p{ja} oder p{nein}). Diese muß nämlich bereits
bekannt sein.
Die Frage ist stattdessen, wie oft eines der beiden Ereignisse eintrifft, wenn man es n
mal hintereinander (z.B. bei 10 Personen) wiederholt betrachtet. Das n-fache Betrachten stellt dann eine Untersuchungsreihe dar, deren Ergebnis - die Anzahl der
zugetroffenen Ereignisse (Sn) - auf der x-Skala aufgestragen wird (z.B. S10=8, wenn
8 von 10 mal „ja“ die Realisierung des Ereignisses ist). Betreibt man nun viele solcher Untersuchungsreihen, werden einige Sn häufiger, andere seltener auf der Skala
aufgetragen werden und bekommen dementsprechend eine höhere Auftretenshäufigkeit P{Sn=x) (ein fünffaches Auftreten, x=5, ist häufiger als gar kein Auftreten x=0).
Der Ausdruck P{Sn=x) ist wie folgt zu lesen: P{Sn=x) ist die Wahrscheinlichkeit für
genau den Fall, daß das Ereignis („ja“) in einer Reihe von n Untersuchtungen genau
x mal realisiert ist. Allgemein:
n
 n
n!
P{Sn = x} =   ⋅ p x ⋅ (1 − p )n− x mit   =
(„Binomialkoeffizient“)
 x
 x  x!( n − x)!
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 8
Beispiel:
Es soll die Geburtenverteilung in einem Krankenhaus betrachtet werden (binäre
Ereignisse m/w, dh. Binomialverteilung). Dazu werden an jedem Tag die
Geschlechter von den ersten 10 Geburten bestimmt (n=10). Das zu untersuchende
Ereignis gelte als eingetroffen, wenn es sich bei einer Geburt um einen Jungen
handelt („ja“). Am ersten Tag werden nun 4 Jungen von 10 Geburten festgestellt
(S10=4; also 4 Realisierungen von „ja“). Am zweiten Tag 6 (S10=6), am dritten Tag
wieder 4 usw. Nach 365 Tagen ergibt sich, daß es am häufigsten vorkam, daß genau
die Hälfte Jungen und die andere Hälfte Mädchen waren, die Realisierungszahl 5 (5
mal „ja“) war am häufigsten; P{ S10 =5} ist maxiamal.
Da die Wahrscheinlichkeit p für das Einzelereignis „Geburt=männlich“ – die Realisierung des binären Wertes - bekannt ist, kann berechnet werden, wie hoch die
Wahrscheinlichkeit ist, daß genau x von 10 Geburten Jungen sind.
Dh., wenn p{Geburt=männlich}=0,51 und n=10, dann ist die Wahrscheinlichkeit,
daß genau die Hälfte der Geburten männlich ist (x=5) wie folgt zu berechnen:
10 
10− 5
 10 
P{S10 = 5} =   ⋅ 0,515 ⋅ (1 − 0,51)
= 0 ,246 mit   = 10!
= 252 .
5
 5  5!(10 − 5)!
II.2.2
Normalverteilung N(µ,σ-2)
Die Normalverteilung geht mathematisch hervor aus der Binomialverteilung
(Annäherung bei einer großen Anzahl von Binärexperimenten).
Die Normalverteilung beschreibt, wie häufig die einzelnen Werte auf einer Skala bei
einer Datenerhebung realisiert werden. Häufig finden sich bei statistischen Untersuchungen, daß einige Werte besonders häufig sind, andere hingegen weniger häufig.
Dies drückt sich dann in der Verteilung dadurch aus, daß die Kurve symmetrisch ist
und die Form einer Glocke hat (s.Abb. 5 ). In diesem Fall handelt es sich um eine
Normalverteilung, die ‚Gauß‘-verteilt ist.
σ2 σ2
µ
Abb. 5 Glockenkurve
Manchmal ist es vonnutzen, ihre Daten und Parameter so zu transformieren, daß die
Spiegelachse genau im Nullpunkt des Koordinatensystems zu liegen kommt und die
Wendepunkte bei 1 und –1. In diesem Fall handelt es sich um die ‚standardnormierte‘ Gauß-Verteilung, deren Fläche genau 1 ergibt. Dadurch wird es möglich,
auf einfache Weise mit Wahrscheinlichkeiten zu hantieren.
Die beiden Parameter der Normalverteilung sind:
ϕ(x)
1
0.5
Φ(x)
x1
Abb. 6 Dichte- und Integralfunktion der GaußNormalverteilung
E(x)
V(x)
=µ
= σ-2
=x
= s2
Lageparameter
Streuungsparameter; Abstand der Wendepunkte von der Mitte
Gesetzt den Fall, in einer Datenerhebung wurden eine Reihe von Daten gesammelt.
Dann beschreiben Mittelwert und Standardabweichung die Verteilung der Daten. In
der Gewißheit, daß diese Daten empirisch gewonnen wurden, sind ihnen Erwartungswert und Varianz gleichzusetzen, beide zusammen genügen, um eine Glockenkurve zu zeichnen . Um eine Aussage über die Wahrscheinlichkeit eines bestimmten
Ereignisses machen zu können, muß jedoch auf die wahren Werte der Verteilung
geschlossen werden. Dabei werden die theoretischen Momente den empirischen
Momenten einfach gleichgesetzt. Dieses Verfahren ist nicht ohne Nachteil, da man
dabei dem erheblichen Risiko ausgesetzt ist, daß die empirische Untersuchung den
wahren Tatbestand nicht richtig erfaßt. Dennoch setzt man die Momente gleich und
transponiert die Glockenkurve in eine stadard-normierte.
In dieser Kurve korreliert die Fläche unter der Kurve mit der Wahrscheinlichkeit für
das Auftreten eines Ereignisses. Da die Kurve aus unendlich vielen Einzelpunkten
besteht, die jeweils unendlich viele Einzelereignisse repräsentieren, macht es nur
Sinn, Intervalle zu betrachten und keine einzelnen Punkte, da die Fläche unter einem
Punkt unendlich klein (also 0) ist.
Da die mathematische Berechnung der Fläche linksseitig eines Punktes (also für das
Intervall [-∞;X1]) einfacher zu bewerkstelligen ist, wird das statistische Problem der
Berechnung einer Wahrscheinlichkeit darauf beschränkt, diejenige Wahrscheinlichkeit zu berechnen, daß ein Ereignis kleiner oder gleich X1 eintritt.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 9
Mathematisch korreliert diese Wahrscheinlichkeit mit dem Integral der standardnormierten Gauß-Verteilungsfunktion über dem Intervall [-∞;X1]. Die zugehörige
Integralfunktion Φ stellt zu jedem Wert X1 die zugehörige Fläche über dem Intervall
[-∞;X] der Glockenkurve (vgl. Abb. 6 Dichte- und Integralfunktion ) dar.
Die Wahrscheinlichkeit, daß ein Punkt irgendwo in dem Intervall auftaucht, ist
gleich dem Anteil, den die Intervall-Fläche an der Gesamtfläche einnimmt. Da die
Gesamtfläche gleich 1 ist, repräsentiert die Fläche über dem Intervall eine bestimmte
Fraktion von 1, interpretierbar als Wahrscheinlichkeit.
2
Formel der Glockenkurve: N µ ;σ 2 ( x ) =
1
2Π σ
2
⋅e
−
( x− µ )
2σ
2
Normierung einer Normalverteilung in die standardisierte Form N(0,1):
N 0;1 ( x) =
N µ ;σ 2 ( x ) − µ
σ2
, dh.
x0;1 =
x−µ
σ2
Wahrscheinlichkeitsberechnung:
1.
2.
3.
µ und σ2 bestimmen
x normieren (x0;1 berechnen)
Integral für x0;1 berechnen oder Funktionswert der Integralfunktion in einer
Tabelle nachschlagen
II.2.3 Approximation einer Binomialverteilung
Da die Gauß-Normalverteilung vertafelt ist, lassen sich hier die Wahrscheinlichkeiten einfacher berechnen. Aus diesem Grund werden sonstige Gauß-Verteilungen
umgeformt und Binomialverteilungen an eine Normalverteilung approximiert (durch
eine Normalverteilung ausgedrückt).
Eine Binomialverteilung durch eine Normalverteilung darzustellen bedeutet, Wahrscheinlichkeiten für [0;x] nicht mehr mit dem Binomialkoeffizienten zu berechnen
und deren Summen S0+S1+...+Sx zu bilden, sondern direkt unter Angabe eines zWertes ein Ergebnis in einer Tabelle nachzuschlagen.
P0; x = Φ ( z )
Zu beachten ist dabei, daß bei dieser Methode nur die Wahrscheinlichkeit für das
Intervall [0;x] berechnet wird, also die Wahrscheinlichkeit,daß Sn ≤ x sei. Um einen
vertafelten Wert nachschlagen zu können, muß also ‚z‘ berechnet werden (eigentliche Transformation).
z=
S
X−p
n; X = n
n
p (1 − p )
E
V
np ≡
x
µ
np(1-p) ≡ s 2
σ2
Beispiel:
Eine Variable (z.B. Krankheitszustand) sei binomial verteilt. Die Wahrscheinlichkeit
für das Auftreten (Patient=krank) sei p=0,3 und es wird genau eine Untersuchungsreihe mit n=100 Patienten erstellt. Als Ergebnis sind 23 Patienten krank (Sn=23), der
Mittelwert ist dementsprechend 0,23. Die Fragestellung sei nun, wie groß die Wahrscheinlichkeit P ist, daß in einer Patientenkohorte mehr als 23 Patienten krank sind.
P{Sn > 23} = 1 − P {Sn ≤ 23}

(0, 23 − 0,3) 100  = 1 − P{U ≤ − 1,5275 } = 1 − 0,6332 = 0,93668
P{Sn > 23} ≅ 1 − P U ≤

0,3 ⋅ 0, 7


Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 10
II.3.
Statistisches Schließen
II.3.1 Empirie vs.Theorie
n=15
E(x)
n=30
E(x)
nà oo
e
Theoretische Verteilung
Abb. 7 Empirische Angleichung einer Binomialverteilung; mit wachsendem n findet
eine Annäherung an die theoretische Verteilung statt.
Statistische Datenerhebungen lassen Aussagen über zukünftige Ereignisse zu, die
über Wahrscheinlichkeiten ausgedrückt werden. Um solche Aussagen treffen zu
können, muß erkannt werden, mit welchem statistischen Modell sich ein Datensatz
erklären läßt. Handelt es sich beispielsweise um einen normalverteilten Datensatz,
so ist davon auszugehen, daß eine zukünftige Datenerhebung gleich verteilt ist.
Um nun eine Prognose treffen zu können, muß zunächst die Art der Verteilung erkannt und die empirischen ersten beiden Momente errechnet werden.
Schreibweise
X ~ N(µ,σ2)
B ~ B(n,p)
X ~ P(c)
Verteilung
Gauß
Binomial
Poisson
E(X)
µ
np
c
V(X)
σ2
np(1-p)
c
Das 1. Moment ist der Erwartungswert E(X). Es gibt die Lage (Lokation) der Ve rteilung an und damit den Wert, der erwartungsgemäß bei einer zukünftigen Verteilung
am häufigsten zu erwarten ist.
Das 2. Moment ist die empirische Varianz V(X). Es gibt die Streuung (Dispersion)
der Verteilung (also die Breite der Glocke) an.
Da beide Momente aus gewonnenen Daten berechnet werden, handelt es sich um
empirische Größen. Sie nähern sich mit wachsender Datenanzahl (n→∞) den wahren theoretischen Größen an. Man spricht davon, daß die Momente an die wahren
Größen approximiert werden.
Geht n gegen unendlich, tendiert E zum wahren Wert e und V zum wahren Wert v.
n→∞: E(X)→e, V(X) →v
II.3.2 Schätzwerte
Abb. 8 zufällige Verteilungen (blau) und wahre Verteilung (violett)
px
x
Abb. 9 Verteilung des Mittelwertes (rot) und Auftragung zufälliger Verteilungen (schwarz)
-1
0
1
Punktschätzer
Gaußverteilung:
x schätzt µ, s 2 schätzt σ2
Binomialverteilung: x schätzt p
Die Wahrscheinlichkeit, daß ein Punktschätzer ausgerechnet gerade den wahren
Wert trifft ist null. Aber man geht davon aus, daß beide nahe beieinander liegen.
Bereichsschätzer, Konfidenzintervalle
Dabei handelt es sich um Intervalle, die die wahren Werte mit einer bestimmten
Wahrscheinlichkeit (68%, 95%) überdecken.
Konfidenzintervall
-1,96
Abb. 8 zeigt das Ergebnis einer 6-fach wiederholten empirischen Verteilungsuntersuchung. Dazu wurden insgesamt 6 Datensätze gewonnen mitsamt 6 Mittelwerten
und 6 Standardabweichungen. Die Frage ist nun, wie genau die empirisch
ermittelten Verteilungen (blau) der wahren theoretischen Verteilung repräsentieren
und wie sehr man den empirischen Momenten E und V vertrauen darf.
Schließlich findet man, daß auch die empirischen Momente (Mittelwert und
Standardabweichung) durch eine Verteilungsfunktion dargestellt werden können.
Abb. 9 veranschaulicht diesen Sachverhalt anhand der Verteilung des Mittelwertes
bei einer Studie mit beispielsweise 100 Datenerhebungen. Dabei sind 100
Mittelwerte und 100 Standardabweichungen berechnet worden und es findet sich,
daß der rot dargestellte Mittelwert am häufigsten vorkommt.
Da die empirischen Momente selbst gewissen Schwankungen unterliegen, ist es
nicht möglich, die wahren Werte zu erhalten. Stattdessen werden Schätzwerte
angegeben.
1,96
Abb. 10
Bestimmung der unteren 95%-Konfidenzschranke Y einer
Binomialverteilung mit υ(0,975)=1,96
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
Y=
S n 1,96
−
n 2 n
S. 11
II.3.3 Statistische Schlußweise (Binomialverteilung)
T
-1,96
1,96
Abb. 11
statistischer Testes mit Prüfgröße T (t-Verteilung);
blau: „Ablehnungsbereich“
Nehmen wir eine binomialverteilte Variable an (z.B. Krankheit) und stellen uns die
Frage, wie groß die Wahrscheinlichkeit p (Patient krank) sei, welche die Grundlage
für eine Binomialverteilung sein soll. Problematischer Weise ist p objektiv nicht zu
ermitteln und wir können nur Schätzwerte mithilfe von Datenerhebungen gewinnen.
Eine Möglichkeit, dieses Problem zu bewältigen, besteht nun darin, zwei unterschiedliche p zu vermuten und eine Untersuchung anzustreben, ob eines der beiden
eher unwahrscheinlich ist.
Dazu wird zunächst eine Hypothese festgelegt, die davon ausgeht, daß p1 zutreffe
und eine Alternative, die davon ausgeht, daß p2 zutreffe.
Da über einen Datensatz ein p abgeschätzt werden kann, läßt sich rechnerisch
bestimmen, ob eher die Hypothese p=p1 oder die Alternative p=p2 dem wahren
Zustand näher kommt. Aufgrund der Erkenntnis von Hopper, daß Hypothesen nicht
bestätigt, nur falsifiziert werden können, muß nun versucht werden, das Gegenteil
der Hypothese mittels Daten zu widerlegen.
Es wird also ein Datensatz erhoben mit den Angaben n und Sn. Aus beiden Werten
ergibt sich der Schätzwert für p, nämlich x =Sn/n. Dieser wird nun auf eine Abweichung von p getestet. Dabei soll die Hypothese als richtig angenommen werden,
wenn T innerhalb des Intervalls [-1,96;1,96] zu liegen kommt.
T=
X−p
p (1 − p
)
n
Liegt T innerhalb des Intervalls [-1,96;1,96] bedeutet dies,
daß das Konfidenzintervall in 95% aller Fälle den wahren
Wert für p abdeckt und daß die Irrtumswahrscheinlichkeit
bei nur 5% liegt.
Die Wahrscheinlichkeit, daß ein Datensatz ein p schätzt, das außerhalb des Konfidenzintervalls liegt, bezeichnet man als ‚Signifikanzniveau‘ Pobs. Hier: Pobs ≤ 0,05.
II.3.4 Testniveau und Trennschärfe
0,3
Abb. 12 Konfidenzintervalle
verschiedener Datenerhebungen. Der wahre Wert (0,3)
wird nur zu 95% überdeckt
(roter Ausreißer).
Durch statistische Tests ist es möglich, eine objektive Entscheidung zwischen Alternative und Hypothese zu fällen.
Zugrundegelegt wird der Anspruch, daß die Hypothese nur dann Bestand haben
darf, wenn nur in einer begrenzten Zahl, z.B. 5% aller Fälle ein p nicht vom Konfidenzintervall der Hypothese überstrichen wird (T ∉ [-1,96;1,96]). In 5% aller Fälle
darf aber genauso trotz richtiger Hypothese ein Schätzwert außerhalb des Konfidenzintervalles liegen und die Hypothese gilt trotzdem (s. Abb. 12).
Diesen Anspruch der Testgenauigkeit bezeichnet man als Signifikanzniveau Pobs. Es
gibt an, wie groß die Wahrscheinlichkeit ist, daß trotz richtiger Hypothese ein falscher Schätzwert auftritt (rot in Abb. 12). Laut Vereinbarung soll Pobs≤ 0,05 sein.
Angenommen, die Hypothese sei richtig, der wahre Wert sei p=0,3. Dann kann es
vorkommen, daß bei einer Datenerhebung ein Schätzwert gewonnen wird, der außerhalb des Konfidenzintervalls liegt. Die Wahrscheinlichkeit Pobs für diesen Fall
liegt bei ≤ 0,05. Angenommen, es werden zufällig genau solche irreführenden Testreihen durchgeführt und 5 Schätzwerte ermittelt, die allesamt die Hypothese widerlegen. Dann muß sich ein objektiver Untersucher für die Alternative entscheiden und
die Hypothese verwerfen, obwohl p=0,3 der wahre Wert ist.
Das Beispiel erläutert den Fehler 1. Art; die Hypothese war richtig, dennoch hat
man sich für die Alternative entschieden, weil zufällig nur Ausreißer gewonnen
wurden. Die Wahrscheinlichkeit, diesem Fehler 1. Art zu unterliegen, wird als Testniveau α bezeichnet und wird für einen Test im vorhinein festgelegt.
Andererseits kann der Fall eintreten, daß die Hypothese beibehalten wird, obwohl
sie falsch ist (Alternative richtig). In diesem Fall spricht man von einem Fehler 2.
Art. Die Wahrscheinlichkeit, diesem Fehler zu unterliegen, wird mit β bezeichnet,
das Komplement 1-β als Trennschärfe.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 12
Berechnung der Trennschärfe für eine Binomialverteilung
Um die Trennschärfe zu berechnen, muß zunächst der „kritische Wert“ kW ermittelt
werden. Es ist in der Verteilung genau das k, für das gilt:
p
(Sn=k)
P(Sn ≥ k) ≤ α
α
k
kW
Abb. 13 Kritischer Wert zu
B(1,p 1)
p(Sn=k)
β
kW
k
Abb. 14 kritischer Wert zu
B(1,p 2)
z.B. P(Sn ≥ k) ≤ 0,05
Anschlaulich ist kW in Abb. 13 dasjenige k, dessen rechte Nachbarflächen (blau)
kleiner als die rote Fläche sind (k=12). Zwar gilt die Bedingung auch für k größer
kW (13 und 14); kW wird jedoch so gewählt, daß es möglichst klein ist. Dadurch
verbessert sich die Trennschärfe.
Sobald kW bekannt ist, wird nun die Fläche links von kW berechnet, jedoch unter
der Alternativbedingung B(1;p2). Diese Fläche (grün in Abb. 14) stellt die Wahrscheinlichkeit für einen Fehler 2. Art dar, also das Beibehalten einer falschen Hypothese β. Das Komplement bezeichnet man als Trennschärfe (Fläche rechts von
kW).
(1-β) = p{Sn ≥ kW}= 1-p{Sn<kW}
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 13
II.4.
Testverfahren
[BIOMETRIE-SKRIPTII]:1FF., [L.CAVALLI-SFORZA ]:49FF.
Statistische Testverfahren bieten objektive Anhaltspunkte für die Bemessung einer
Hypothese. Unter Hypothese wird hierbei die Mutmaßung einer bestimmten Verteilung verstanden, nach der sich empirische Daten ‚richten‘.
II.4.1 Anpassungstest
Der Anpassungstest dient der Überprüfung, ob ein Merkmal Poisson-verteilt ist.
Grundlage der Bemessung ist der Datensatz einer Stichprobe, betreffs eines Merkmals.
Als Beis piel soll eine Erythrozytenzählung mittels Zählkammer-Quadrat-Methode
dienen (Abb. 15).
Das Betreffende Merkmal sei die Anzahl Erythrozyten k pro ausgezähltes Quadrat;
untersucht werden genau n=400 Quadrate. Es findet sich, daß bei 75 Quadraten
genau 0 Erys vorhanden sind, bei 103 Quadraten genau 1 usw.
Die Hypothese sei: Es handele sich um eine Poisson-Verteilung. Die Hypothese
wird als wahr angenommen, wenn der Datensatz nur geringfügig – also nicht signifikant – von einer theoretischen Verteilung abweicht.
n
100
50
0 1 2 3 4 5 6 7
k
-
Abb. 15 Datensatz einer
Erythrozytenzählung
Die Parameter der Verteilung - Freiheitsgrad und die ersten beiden theoretischen Momente (bei Poisson identisch) – werden anhand der Daten abgeschätzt.
Der Schätzwert für Erwartungswert E(x) und Varianz V(x) errechnet sich aus
dem empirischen Mittelwert der Daten x =c.
Anhand der Formel für die Poisson-Verteilung läßt sich für jedes k eine Auftretenswahrscheinlichkeit p k berechnen und daraus der entsprechende Erwartungswert Ek.
Ek = n ⋅ p{X = k} und p{X = k} = e −c
z.B. E0 = 400 ⋅ e −1,8
n,E
100
-
50
0 1 2 3 4 5 6 7
k
Abb. 16 Differenz (rot) zwischen erwarteten E (grün)
und gezählten n (grau) Häufigkeiten
Tk =
(Ek − nk )2
Ek
und
f
7
(Ek − n k )2
k =0
k =0
Ek
Tobs = ∑ Tk ;im Bsp.: Tobs = ∑
= 8,77
Das Problem, ob der Datensatz Poisson-verteilt ist, läßt sich auf die Überlegung
zurückführen, wie sehr Varianz und empirischer Mittelwert voneinander abweichen.
Theoretisch müßten sie identisch sein, empirisch wird eine gewisse Abweichung
toleriert und durch den Dispersionsindex χ2 („chi-Quadrat“) quantifiziert.
χ2 =
∑(x
i
− x )2
i =0
x
; im Beispiel n=400
Liegt χ2 unter der entsprechenden (vertafelten) Signifikanzschwelle (bestimmt durch
die Anzahl der Freiheitsgrade), gilt die Abweichung als nicht signifikant.
Dementsprechend gilt die Hypothese des Testes als wahr, wenn Tobs unterhalb der
Signifikanzschwelle zu liegen kommt.
5%
Tobs 14
1,8 0
= 66,12 mit n=400, c=1,8 für k=0
0!
Das Maß der Abweichung der empirischen von den theoretischen Daten sei Tk.
Es bemißt sich aus der quadrierten Differenz, normiert an dem jeweiligen Erwartungswert. Die Summe aller Tk ist Tobs. Tobs ist der signifikante Wert des
Tests; f sei die Anzahl der Freiheitsgrade (im Beispiel: 8-1=7).
n
f
ck
k!
T
Abb. 17 χ2-Verteilung (blau)
mit 7 (rot) Freiheitsgraden f;
die Wahrscheinlichkeit, daß
T obs die Signifikanzschwelle
(14,067) überschreitet, liegt
bei 5%.
Der χ2-Wert ist vertafelt und wird nachgeschlagen. Bei 7 Freiheitsgeraden ist χ2 =
14,067 (rot in Abb. 17). Das bedeutet: die Wahrscheinlichkeit, daß eine χ2-verteilte
Größe (hier Tobs) die Schwelle 14,067 überschreitet liegt bei 5%.
Entsprechende Tafeln existieren für 10%-, 2,5%- oder 1%-Quantile.
Da 8,77 ≤ 14,067, gilt die Abweichung von Varianz und Mittelwert als nicht signifikant und die Hypothese, der Datensatz sei Poisson-verteilt, als wahr.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 14
II.4.2 Unabhängigkeitstest
B1 B2
A1 n 11 n 12
A2 n 21 n 22
... ... ...
Ak n k1 n k2
Σ n .1 n .2
...
...
...
...
...
...
Bm
n 1m
n 2m
...
n km
n .m
Σ
n 1.
n 2.
...
n k.
n ..
Abb. 18 Kontingenztafel
...
n k1
n.1
B2
E12
E22
...
Ek2
n .2
...
...
...
...
...
...
Bm
E1m
E 2m
...
E km
n .m
Die Hypothese des Testes lautet: Beide Merkmale werden als unabhängig angenommen, demzufolge gilt: P(A i ∩ Bj )=P(A i)⋅P(Bj ).
Wie beim Anpassungstest werden die erhobenen Daten zunächst mit ihren Erwartungswerten verglichen. Dazu werden die Auftretenshäufigkeiten vorerst in eine
Kontingenztafel eingetragen (Abb. 18). Jedem Feld wird dabei ein Index zugeordnet, dessen erste Ziffer für die Zeile, die zweite für die Spalte steht. Der Summe aller
Werte in einer Zeile bzw. einer Spalte wird ein spezieller Index zugeordnet, der an
zweiter bzw. erster oder an beiden Stellen einen Punkt (.) beinhaltet.
n 11
n 21
B1
A1 E11
A2 E21
... ...
Ak Ek1
Σ n .1
Der Unabhängigkeitstest dient der Überprüfung, ob zwei Merkmale unabhängig
voneinander sind. Grundlage der Bemessung ist ein Datensatz mit zwei Merkmalen,
deren Randverteilung zufällig ist (dh. die Beobachtungen sind in beiden Fällen zufällig).
Σ
n 1.
n 2.
...
n k.
n ..
-
Grundlage der Überlegung ist folgende: Der Erwartungswert Eij ergibt sich aus der
Schnittmenge der Wahrscheinlichkeit für Ai und Bj , realtiviert mit der Gesamtzahl n..;
dabei lassen sich p(Ai) und p(Bj ) über die ermittelten Auftretenshäufigkeiten schätzen,
weil A und B gemäß der Hypothese als unabhängig angenommen werden: P(Ai ∩
Bj )=P(Ai)⋅P(Bj ).
Abb. 19 Bestimmung der
Erwartungswerte
B1
A1 T 21
A2 T 21
... ...
Ak T 21
Σ T .1
B2
T 21
T 22
...
T 21
T .2
...
...
...
...
...
...
Bm
T1m
T2m
...
Tkm
Σ
T 1.
T 2.
...
T k.
A1
A2
Σ
B1
n 11
n 21
n .1
B2
n 12
n 22
n .2
Eij = n.. ⋅ p( Ai ∩ B j ) = n.. ⋅
-
Σ
n 1.
n 2.
n ..
Abb. 21 Kontingenztafel
des Vierfeldertests
-
ni n j
⋅
n.. n..
⇒
Eij =
ni. n. j
n..
Wie beim Erwartungstest wird nun die Differenz zwischen Erwartungswert und
empirischem Meßwert in einer Testgröße T quantifiziert und alle T zu Tobs aufaddiert (Abb. 20).
Tij =
T .m Tobs
Abb. 20 Bestimmung von
Tobs (rotes Feld)
Als erstes werden nun die Randsummen der erhobenen Werte berechnet (blau in
Abb. 18). Gemäß der Forderung des Testes ist ihre Verteilung zufällig
Danach wird für jeden Wert n ij der jeweilige Erwartungswert Eij anhand der
Randsummen ermittelt (Abb. 19).
(n
ij
k m
− Eij )2
und Tobs = ∑∑ Tij
Eij
i =1 j =1
Da T als χ2-verteilt angenommen wird, stellt sich nun die Frage, ob Tobs unter
der Signifikanzschranke eines bestimmten (z.B. 5%-) Quantils zu liegen kommt.
Die Signifikanzschranke ist vertafelt; Anzahl Freiheitsgrade: (k-1)(m-1). Bei einem Freiheitsgrad (4-Feldertafel) liegt diese unter Testgenauigkeit α=5% bei
3,841.
Tobs ≤ 3,841 ⇒ Hypothese gilt als wahr, beide Merkmale sind statistisch
unabhängig.
Vierfeldertest
Eine Spezialform des Unabhängigkeitstestes ist der Vierfeldertest. Voraussetzung
dieser Spezialform ist, daß in der Stichprobe insgesamt nur 4 Werte erhoben werden,
dh. die Kontingenztafel umfaßt nur 4 Felder (k=2, m=2).
Dh. es werden 2 Merkmale A und B untersucht und zu jedem Merkmal genau 2
Daten erhoben. Die Hypothese lautet, A und B seien unabhängig. In diesem Fall läßt
sich Tobs mit dem Kreuzprodukt (approximativ) ermitteln.
Tobs = n..
(n11 ⋅ n22 − n12 ⋅ n21 )2
n .1 ⋅ n. 2 ⋅ n1. ⋅ n2.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 15
II.4.3 Homogenitätstest
Der Homogenitätstest dient der Überprüfung, ob ein Merkmal B in seinen m verschiedenen zufälligen Ausprägungen die gleiche Verteilung besitzt, wie A. Grundlage der Bemessung ist ein Datensatz mit zwei Merkmalen, deren eine Randverteilung
zufällig, die andere bekannt ist.
+
T
TΣ
C
lo
hi
Σ
1
97
98
4
45
49
2
47
49
7
189
196
Abb. 22 Datensatz einer
Medikationsuntersuchung;
Merkmal A: Tumorauftreten,
Merkmal B: Medikamentendosis
Zur Verdeutlichung wird folgender Fall angenommen. Merkmal A sei binomialverteilt und entspreche dem Auftreten eines Tumors bei einem Versuchstier. Merkmal
B sei nun eine Medikamentendosis in 3 Abstufungen: (Control) „keine Dosis“ (Kontrollgruppe), (low) „geringe Dosis“ und (high) „hohe Dosis“.
Als Voraussetzung sei die Verteilung der Kontrollgruppe bekannt (p0 bekannt). Der
Test soll nun überprüfen, ob die Verteilungen unter Medikation genau gleich sind,
wie ohne Medikation. Die Hypothese lautet: Alle 3 Binomialverteilungen sind
gleich.
Hypothese: p0=p1=p2=p (im abstrakteren Fall: p0=p1=...=pm=p, bei m Dosen)
Wie bei den vorangegangenen Tests würde man jetzt Tobs berechnen, indem zunächst
die Erwartungswerte ermittelt würden.
+
T
T-
C
lo
hi
p
3,5
1,75
1,75
0,035
94,5
47,25
47,25
0,964
Abb. 23 Erwartungswerte des
Datensatzes von Abb. 22 ; die
Erwartungswerte für A=T+
liegen unterhalb von 5.
n 11
n .1- n 11
n .1
n 1.- n 11
n.2- (n1.- n11)
n .2
n 1.
n 2.
n ..
Abb. 24 Vierfeldertafel bei
bekannter Randverteilung;
nur n11 ist zufällig.
1
97
98
4
45
49
5
142
147
P{n11}=0,03888
Abb. 25
E1 j = p ⋅ n. j = n. j
n1.
n
und E2 j = (1 − p ) ⋅ n. j = 2. n. j
n..
n..
Wie im Beispiel der Fall, kann ein Erwartungswert unter dem Wert 5 zu liegen
kommen. In solchen Fällen sollte die χ2-Prüfung nicht angewandt werden. Stattdessen wird hier der Fisher-Test benutzt.
II.4.4 Fishertest
Der exakte Test von Fisher untersucht, ob die zwei Merkmale in einer Vierfeldertafel statistisch unabhängig voneinander sind (Andere Fälle müssen zur Anwendung
dieses Tests immer auf Vierfeldertafeln zurückgeführt werden). Er kommt zur Anwendung, wenn ein Datensatz eine χ2-Prüfung nicht mehr zuläßt, dh. mindestens ein
Erwartungswert kleiner als 5 ist.
Bemessensgrundlage des Tests ist die Auftretenswahrscheinlichkeit Pobs für extreme
(die Hypothese widerlegende) Werte, die nicht über eine durch das Signifikanzniveau bestimmte Grenze steigen darf.
Zur Demonstration wird das vorangegangene Beispiel des Homogenitätstests weitergeführt.
Kern der Überlegung bei diesem Test ist folgender. Die gewonnenen Daten werden
in der Weise interpretiert, daß die Randsummen konstant (also nicht zufällig, sondern vor der Datenerhebung bekannt) und nur ein einziger Wert n11 zufällig verteilt
(quasi ‚frei‘) sei – auch wenn dies nicht der Fall ist. Die übrigen Daten leiten sich
dann direkt von n11 ab, wie in Abb. 24 dargestellt ist. Unter dieser Interpretation
untersucht man nun die Auftretenswahrscheinlichkeit für verschiedene n 11.
Abb. 25 zeigt die Umsetzung des vorangegangenen Beispiels. Die Werte in den grau
schraffierten Feldern sind als konstant vorausgesetzt, n11 kann zufällige Werte annehmen (mit der Realisation „1“ im Beispiel), die übrigen Werte sind abhängig von
n 11.
Nun werden die theoretischen Fälle durchexerziert, daß n11 andere Werte annimmt
und anschließend die Auftretenswahrscheinlichkeit in jedem Fall (für jede einzelne
Vierfeldertafel) bestimmt. Um die Bedingung der konstanten Randsummen zu erfüllen, errechnen sich die übrigen n auf folgende Weise.
Es sei a die ganzzahlige Abweichung vom realen Wert nij , mit a=1,2,..., n11 und Nij
der zufällige Wert. Dann gilt: N11=n 11-a ; N12=n 12+a; N21=n 21+a; N11=n 22-a. (kreuzweise a subrathieren und addieren)
0
98
98
5
44
49
5
142
147
P{N11=n11-1}=0,00357
Abb. 26
Die Vierfeldertafel der Abb. 25 zeigt die Realisation, Abb. 26 die Situation unter
a=1 (n 11=„0“). Tatsächlich könnte bei einer zukünftigen Stichprobe eine beliebige
Tafel zustande kommen, die sich jeweils aus der realen mittels Parameter a herleiten
ließe. Es stellt sich nun die Frage, wie groß die Auftretenswahrscheinlichkeit solch
einer Tafel mit Abweichung a (Spezialfall a=0: realisierte Tafel in Abb. 25) ist.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 16
P{N11 = n11 − a} =
n.1!⋅n2.!⋅n. 1!⋅n. 2!
(n11 − a )!⋅(n12 + a )!⋅(n21 + a ) ⋅ (n22 − a )!⋅n..!
Unter Testbedingungen wird eine Tafel nun als extrem verstanden, wenn sich ihre
Daten im Sinne der Test-Alternative darstellen. Dies sind solche Tafeln, deren Auftretenswahrscheinlichkeit unter der Wahrscheinlichkeit der realisierten Tafel liegen.
Als quantitatives Kriterium für den Fishertest bemißt die Summe Pobs aller ExtremTafelwahrscheinlichkeiten, einschließlich der Real-Tafel-Wahrscheinlichkeit die
Gültigkeit der Hypothese. Sie wird als nicht gültig erachtet, wenn Pobs unter die
Signifikanzschwelle α fällt.
n11
Pobs = ∑ P{N11 = n11 − a} im Beispiel: Pobs(1)= 0,00357+0,03888=020425
a= 0
Wird sie aber als gültig erachtet, wenn sie darüber liegt ? Bisher haben wir lediglich
den Vergleich zweier Verteilungen (B0:„Kontrollgruppe“ und B1:„niedrige Dosierung“) betrachtet. Um der Globalhypothese (alle Verteilungen sind gleich) zu bestätigen, muß auch noch ein Vergleich der übrigen Realisierungen von B (B2: „hohe
Dosierung“) mit der Kontrollgruppe angestellt werden.
Um die Signifikanzschwelle α global gleich zu halten, müssen daher die Signifikanzschwellen der einzelnen Vergleiche erniedrigt werden (Adjustierung nach Bonferroni):
αi =
α
0,05
mit k Ausprägungen von B, im Beispiel: α1 = α 2 =
= 0,025
k
2
Dh. die Gobalhypothese (Niveau α=0,05) gilt nur dann als bestätigt, wenn Pobs(1)
und Pobs(2) jeweils über 0,025 zu liegen kommen.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 17
II.5.
Statistische Auswertung stetiger Meßverfahren
[M AU II]:34FF.
Im folgenden werden verschiedene Testverfahren vorgestellt, deren Funktion es ist,
zwei oder mehr Meßreihen miteinander zu vergleichen, deren Daten stetig (also
nicht diskret) sind, um festzustellen, ob ein statistisch signifikanter Unterschied
zwischen ihnen vorliegt. Entscheidungskriterium ist immer eine zu berechnende
Prüfgröße T, die mit einem vertafelten Wert verglichen werden muß (Zur Verdeutlichung wird die Hypothese H jedes Testes gesondert in einem Kasten nebenangestellt).
Je nach Größe des Datensatzes werden alternative Möglichkeiten zur Berechnung
von T angeboten, gemeinsam ist allen Verfahren der Umgang mit drei Größen:
-
empirische Lage-Werte (Daten-Differenzen,Rangzahlen)
empirische Streuung (Varianz)
theoretisch zu erwartende Werte (Erwartungswerte)
Nichtparametrische Tests:
Vorzeichentest
Wilcoxon-Vorzeichentest
Mann-Whitney-Wilcoxon-Rangtest
Kruskal-Wallis -Test
Mittelwertvergleiche:
Student-Test
Varianzanalyse (f-Test)
II.5.1 Vorzeichentest
H: Die Datenpaare unterliegen keinem ‚Trend‘ dh.
positive und negative Differenzen sind gleich wahrscheinlich.
Der Vorzeichentest quantifiziert, in wie fern empirische Datenpaare (VorherNachher-Daten) einem Wachstumstrend unterliegen.
Die Idee ist, zu jedem Datenpaar eine Differenz zu bilden und anschließend den
Datensatz dahingehend zu untersuchen, wie die Vorzeichen der Differenzen insgesamt verteilt sind. Gibt es mehr negative Vorzeichen als positive, handelt es sich um
einen positiven Wachstumstrend (a=2, b=4 à positives Wachstum, weil a-b
negativ) und umgekehrt. Gibt es aber in etwa gleich viele positive wie negative
Vorzeichen, ist kein signifikanter Trend nachweisbar. Tatsächlich konzentriert sich
der Test hauptsächlich darauf, zu quantifizieren, ob überhaupt ein Trend vorliegt,
oder nicht.
Die Hypothese des Testes lautet: Es liegt kein Trend vor, sollte das Gleichgewicht
zwischen positiven und negativen Differenzen unausgeglichen sein, so ist dies
zufällig.
Das Verfahren gründet sich darauf, die Anzahl der positiven Differenzen als binomial verteilt zu sehen. Binäres Ereignis: Differenz ist positiv oder negativ. Der Hypothese zufolge sind positive und negative Differenzen gleich wahrscheinlich, daher
liegt die Wahrscheinlichkeit für das Ereignis: Differenz ist positiv bei p=0,5. Je
nachdem, ob die empirische Realisation – die Anzahl der positiven Differenzen –
aus dem Rahmen fällt oder nicht, entscheidet man sich für oder gegen die Hypothese.
n ≤ 50: exakte Form
n > 50: approximative Form
Berechnung des Signifikanzniveaus zur Binomialverteilung mit Tobs= d +
Berechnung der Prüfgröße T unter Transformation
in eine Gaußverteilung
E(D+ )=n⋅p und V(D+ )= n⋅p(1-p)
E(D+ )=n/2 und V(D+ )=n/4
Pobs =
n
n  1
∑ k  ⋅ 2
k =d +
 
n
n 
n!
 k  = k! ( n − k )!
 
und 
Hypothese wird verworfen, falls:
Pobs < α
Tobs =
2d + − n
, z.B. T obs=4
n
Hypothese wird verworfen, falls:
P{U > Tobs} < α
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
z.B. P{U > 4) vertafelt
S. 18
x1
x2
x3
x4
x5
x6
x7
1,8
3,0
-0,5
1,35
5,2
-0,1
0,4
y1
y2
y3
â
y4
y5
y6
y7
1
1
0
1
1
0
1
n=7, p=0,5 à E(D+ )=3,5
à V(D+ )=1,75
Hypothese: p=0,5
n≤ 50
Tobs=d + =5
7
7!
1
Pobs =
⋅ 7
∑
k = 5 k !(7 − k )! 2
= 0,164+0,054+0,008=0,226
Beispiel:
Untersucht werden soll, ob eine Salbe sich positiv auf die Verkleinerung von subkutanen Hämatomen auswirkt. Als Hypothese wird angenommen, daß die Salbe keinerlei Einfluß hat. Daß ein Hämatom wächst, wäre demzufolge genauso wahrscheinlich, wie daß es sich verkleinert. Bei der empirischen Untersuchung wird also eine
Wahrscheinlichkeit für Wachstum mit p=0,5 angenommen.
Bei der Untersuchung wird die Salbe an n=7 Probanden mit subkutanen Hämatomen
aufgetragen und nach einer Weile die Größendifferenz xi des Hämatoms bemessen.
Der Hypothese zufolge wäre die Eigenschaft Wachstum jetzt binomial verteilt, wobei mit höchster Wahrscheinlichkeit genau 50% ein positives und 50% ein negatives
Wachstum zu verzeichnen haben - mit geringer Wahrscheinlichkeit ein zufällig
davon unterchiedliches Ergebnis (z.B. 60% positiv, 40% negativ).
Testdurchführung:
Hypothese: Die Salbe hat keinen Einfluß auf das Hämatom, dh. die
Wahrscheinlichkeit für eine positive Größendifferenz liegt jeweils bei p=0,5.
-
Als erstes werden die Vorzeichen der Differenzen ausgewertet; jede negative
Differenz erhält den Wert ‚0‘, jede positive Differenz den Wert ‚1‘. Die Summe
aller positiven Vorzeichen wird als d + bezeichnet.
-
Der Hypothese nach ist d + die Realisation der Verteilung D+ ~B(7;0,5); je nach
Anzahl n erfolgt eine unterschiedliche Verfahrensweise:
0,226 > 0,05: die Hypothese
wird angenommen.
II.5.2 Wilcoxon-Vorzeichen-Rrangtest
H: positive Differenzen
haben dieselbe RangzahlVerteilung wie negative.
Der Wilcoxon-Vorzeichen-Rangtest quantifiziert, in wie fern empirische Datenpaare
(Vorher-Nachher-Daten) einem Wachstumstrend unterliegen. Im Vergleich zum
Vorzeichentest, wo nur das Vorzeichen der Differenzen berücksichtigt wurde, wird
in diesem Test zusätzlich der Betrag der Differenz berücksichtigt.
Die Idee des Tests ist, die Differenzen hinsichtlich ihrer absoluten (also bei Weglassen der Vorzeichen) Beträge in einer Rangfolge zu ordnen und die Rangzahl-Summe
aller positiven Differenzen zu bilden. Man erhält eine Maßzahl für die Häufigkeit
des Auftretens und die Stärke des Trends. (Man bedenke den Fall, daß zwar gleich
viele negative wie positive Differenzen auftreten, die positiven Differenzen aber
durchweg die größeren Maßzahlen besitzen.)
Die Hypothese des Test lautet: positive Differenzen sind bei großen und kleinen
Rangzahlen ebenso häufig vertreten wie negative Differenzen.
Je nach Anzahl n der erhobenen Datenpaare werden wieder zwei Vorgehensweisen
unterschieden:
n ≤ 50: exakte Form
n > 50: approximative Form
Berechnung der Zufälligkeit von Werten ober- Berechnung der Zufälligkeit von Werten oberoder unterhalb von T obs mittels T -Verteilung (?) oder unterhalb von T obs mittels Gauß-Verteilung
E(R+ )= n (n4+1) und V(R+ )=
Tobs= R+ −
n( n +1)
4
Hypothese wird verworfen, falls:
Pobs < α
Bsp. (n=10, α=0,05): T obs> 17,5 à H abgelehnt.
n( n +1)( 2 n+ 1)
24
Tobs=
2 R+ −
n ( n +1)
2
n ( n +1)( 2 n +1 )
6
Hypothese wird verworfen, falls:
P{U > Tobs} < α
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 19
II.5.3 Mann-Whitney-Wilcoxon-Rangtest
H: zwei Gruppen unterliegen derselben Ve rteilung.
Der Mann-Whitney-Wilcoxon-Rangtest quantifiziert, in wie weit die Datensätze
genau zweier Gruppen hinsichtlich eines stetigen Merkmals derselben Verteilung
unterliegen. Bei mehr als zwei Gruppen wird der Kruskal-Wallis -Test angewandt
(s.u.).
Die Idee des Testes ist es, eine gemeinsame Verteilung vorauszusetzten (Hypothese)
und anschließend eine Rangordnung der gemeinsamen Daten aufzustellen. Handelt
es sich tatsächlich um dieselbe Verteilung, müßten hohe und niedrige Ränge
gleichmäßig auf beide Gruppen verteilt sein, dh. die Rangsummen beider Gruppen
müßten in etwa gleich sein. Je nach Anzahl der gesammelten Werte n wird wieder
unterschieden:
n 1,n 2 ≤ 20: exakte Form
E(R1.-R2.)= 12 (n1 − n2 )(n1 + n2 + 1)
n 1,n 2 > 20: approximative Form
E(R1.-R2.)= 12 (n1 − n2 )(n1 + n2 + 1)
V(R1.-R2.)= n1 ⋅ n 2
T= R1. − R 2. − 12 (n1 − n2 )(n1 + n2 + 1)
Hypothese wird verworfen, falls:
Tobs > cn 1,n2,α
T=
1
3
( n1 + n2 + 1)
R1. − R2. − E( R1. − R2. )
V ( R1. − R2. )
Hypothese wird verworfen, falls:
Pobs < α
mit Pobs =2⋅P{U>Tobs}=P{U> Tobs }
II.5.4 Kruskal-Wallis-Test
Der Kruskal-Wallis -Test ist prinzipiell eine Ergänzung des Mann-WhitneyWilcoxon-Rangtest. Er quantifiziert, in wie weit die Datensätze mehr als zwei
Gruppen hinsichtlich eines stetigen Merkmals derselben Verteilung unterliegen.
Die Idee ist dieselbe, wie die des Mann-Whitney-Wilcoxon-Rangtests.
Hinsichtlich der Anzahl gesammelter Werte n werden wieder zwei Formen
unterschieden.
k
Anzahl Gruppen (in diesem Test mindestens 3)
ni
Anzahl Werte (Patienten) in Gruppe i
n.
Anzahl aller Werte (Patienten) aller Gruppen
Ri.
Summe aller Rangzahlen in Gruppe i
n 1,n 2,...,n k ≤ 5: exakte Form
n 1,n 2,...,n k >20: approximative Form
chi-Quadrat-Verteilung mit k-1 Freiheitsgraden.
E ( Ri. ) = ni 12 ( n. + 1)
k
 12
Ri2. 
T= 
⋅ ∑  − 3( n. + 1)
 n.( n. + 1) i=1 ni 
Hypothese wird verworfen, falls:
Tobs > cn 1,...,nk,α
Hypothese wird verworfen, falls:
Tobs > χ2 k-1;1-α
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 20
II.5.5 Student-Test
mg/l
Der Student-Test quantifiziert die Ähnlichkeit zweier Datensätze mit derselben
Verteilung. Dabei wird unterschieden, ob es sich um Meßwertpaare an denselben
Individuen (s. Abb. 27) oder um interindividuelle Meßwerte handelt. In beiden Fällen wird die Höhe der Meßwerte in die Untersuchung mit einbezogen.
Jede der Varianten sieht vor, daß alle Daten Gauß-Normal-verteilt sind und beide
Datengruppen dieselben Mittelwerte besitzen. Dies wird allerdings unterschiedlich
ausgedrückt.
P1
P2
Abb. 27 Paarvergleich, z.B.
Gabe zweier Präparate im
Abstand von einer Woche
µ1
µ2
N1
N2
D
Abb. 28 Normalverteilungen
der zwei Datensätze. Die
Mittelwerte sind unterschiedlich, die Varianzen jedoch
gleich.
Tobs
0,25
Untersuchung von Meßwert-Paaren
Die Idee ist, von jedem Paar eine Differenz zu bilden und die GaußNormalverteilung aller Differenzen zu ermitteln. Die gewonnen Daten werden an
der Hypothese gemessen, daß der Erwartungswert E für den Mittelwert dieser Ve rteilung Null sein soll.
Es wird genau eine Verteilung gebildet
Hypothese: µD=0 (Nullhypothese), dh. positive und negative Differenzen ergeben
Null.
Untersuchung interindividueller Daten
Die Idee ist, für jeden Datensatz eine eigene Gauß-Normalverteilung zu ermitteln
und zu prüfen, ob die Differenz beider Mittelwerte noch im Rahmen zufälliger Abweichung liegt (also beide Mittelwerte als gleich angenommen werden können).
Dabei wird davon ausgegangen, daß nur die Mittelwerte verschieden, die Varianzen
jedoch gleich sind.
Es werden genau zwei Verteilungen gebildet (s. Abb. 28)
Hypothese: µ1-µ2 = 0 (Nullhypothese), dh. die gewonnenen Mittelwerte unterliegen
rein zufälligen Schwankungen, die theoretischen ersten Momente sind aber gleich.
Untersuchung von Meßwertpaaren
Untersuchung interindividueller Daten
Hypothese: µD = 0 (Nullhypothese)
Hypothese: µ1 - µ2 =0 (Nullhypothese)
0,25
E ( X 1 − X 2 ) = 0 ; V ( X 1 − X 2 ) = n1 + n2 ⋅σ 2
n1 ⋅ n 2
0
Abb. 29 t-Verteilung; T obs
liegt im Toleranzbereich
zufälliger Schwankungen;
α=0,05
E(D) = 0,
sD =
2
∑ (D
n
1
n −1
j =1
− D)
2
j
s
2
gesamt
si2 =
Tobs =
Falls
Dn
sD
n
(
n1 −1)s12 + (n2 − 1)s22
=
n1 + n2 − 2
∑ (X
ni
1
n i −1
j =1
x1 − x2
Tobs =
2
Tobs > t n−1;1− α ,
Falls
− X j ) , i = 1,2
2
ij
s
Tobs > t n + n − 2;1− α ,
1
2
wird die Nullhypothese verworfen, dh. es
besteht eine signifikante Abweichung
n1 ⋅n 2
n1 + n 2
2
gesamt
2
2
wird die Nullhypothese verworfen, dh. es
besteht eine signifikante Abweichung.
100(1-α)% -Konfidenzintervalle
wahre mittlere Differenz
Differenz der wahren Mittelwerte
s 2D
n
YU = X1 − X 2 − t n
YO = Dn − tn −1;1− α ⋅
s 2D
n
YO = X 1 − X 2 + t n1 + n2 −2;1− α ⋅ s 2ges ⋅ nn11+⋅ nn22
2
2
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
α
1 + n 2 − 2 ;1 − 2
2
⋅ s ges
⋅
n1 + n 2
n1 ⋅ n 2
YU = D n − t n−1;1−α ⋅
2
S. 21
II.5.6 Die einfaktorielle Varianzanalyse ANOVA
Die einfaktorielle Varianzanalyse stellt quasi eine Erweiterung des Student-Tests
dar, indem hier mehr als zwei, nämlich k Datensätze (k Gruppen), auf einen Streich
überprüft werden können.
Und zwar wird impliziert, daß es sich bei den Daten um die zufällige Realisation
genau einer Variablen X handelt, die an insgesamt n Personen (interindividuell)
bzw. in n Fällen (intraindividuell) bemessen wurde.
Die Analyse geht davon aus, daß alle Gruppen zwar empirisch unterschiedliche
Mittelwerte aufweisen, ihre Varianzen jedoch identisch sind. Die Hypothese lautet,
daß die Unterschiede in den Mittelwerten rein zufällig bzw. gleich Null sind.
Das Verfahren zielt nun darauf ab, die Gesamtstreuung der Werte in Unterkategorien aufzuteilen und die Streuungen innerhalb der Kategorien miteinander zu vergleichen. Je mehr Streuungskategorien bemessen werden, desto genauer und komplizierter wird der Test.
Einfaktorieller Parallelgruppenplan; F-Test
Zunächst wird die Gesamtstreuung in zwei Kategorien aufgesplittet – in die Variabilität zwischen den Gruppen (Vergleich der Gruppenmittelwerte mit dem Gesamtmittelwert) und die Variabilität innerhalb der Gruppen (Vergleich der Werte mit ihrem
zugehörigen Gruppenmittelwert) – dargestellt jeweils durch die SummenAbweichungs-Quadrate SAQ (doppelt umrahmt). Diese werden mit ihren jeweiligen
Freiheitsgraden FG relativiert – wodurch die mittleren Abweichungsquadrate MAQ
gebildet werden.
n.
k
i
j
Anzahl der Werte insgesamt
Anzahl Gruppen
Gruppen-Index (zwischen 1 und k)
Wert-Index (zwischen 1 und n.)
Kategorie
gesamt
Abweichung
X ij − X ..
∑ (X
SAQ
FG
MAQ
Gruppe à Gesamtheit
“zwischen”
− X ..)
2
ij
X i. − X ..
=
=
∑( X
n.-1
-
+
− X ..)
2
i.
k-1
SAQ/(k-1)
Wert à Gruppe
„innerhalb“
+
X ij − X i.
∑ (X
− X i. )
2
ij
n.-k
SAQ/(n.-k)
Als Prüfgröße Tobs wird nun der Quotient der beiden MAQ gebildet.
Hypothese: µ1=µ2=...=µk (dh. kein signifikanter Unterschied); die Hypothese wird
verworfen, falls Tobs >F k-1,n.-k;1-α ist.
Tobs =
MAQ zwischen
MAQ innerhalb
Einfaktorieller Blockplan
Hierbei wird eine neue Kategorie eröffnet, indem die letzte Kategorie des Parallelgruppenplanes, das SAQinnerhalb noch weiter aufgesplittet wird.
∑∑ (X
2
n
i =1 j =1
ij − X i . ) =∑∑ ( X . j − X ..) + ∑∑ (X ij − X i . − X . j + X ..)
2
2
n
i =1 j =1
2
2
n
2
i =1 j =1
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 22
II.6.
Diagnostik
[M AU I]:60FF
II.6.1 Sensitivität se, Spezifität sp
a)
b)
Abb. 30 Testrichtige (grün)
und Testfalsche (grau) bei
positivem Testergebnis; in b
ist die Spezifität sp geringer
als in a (mehr Testfalsche).
Zur Diagnose von Krankheiten werden Verfahren angewandt, deren Ergebnisse
Aufschluß über den Zustand eines Patienten geben – beispielsweise die Bestimmung
der Antikörperzahl für die Diagnose AIDS. Läuft so etwas im Rahmen eines Testes
ab, so entscheidet der Test über den Gesundheitszustand anhand eines vorher definierten Schwellenwertes in „krank“ (K+ ) oder „gesund“ (K-).
Nun kann jedoch nicht davon ausgegangen werden, daß ein Test 100%-ig sicher
diese Auswahl zu treffen vermag. Mal liegt der Test in seiner Diagnose richtig (positives Testergebnis bei einem Kranken T+ K+ - negatives bei einem Gesunden T-K-)
mal falsch (Test positiv, Patient aber gesund T+ K+ oder Test negativ, Patient aber
krank T-K+ ).
Die Frage ist nun, wie groß die Wahrscheinlichkeit ist, daß der Test Recht behält –
also wie sensitiv er gegenüber der Krankheit ist und wie groß andererseits die Wahrscheinlichkeit ist, daß der Test nicht anschlägt, wenn der Patient auch tatsächlich
nicht krank ist, dh. wie spezifisch er ist und nicht über das Ziel hinausschießt.
Beide Größen, Sensitivität se und Spezifität sp lassen sich mittels eines Zufallsexp erimentes quantifizieren. Dazu ist es notwendig, zunächst über einen unabhängigen
sicheren Test (golden standard) die tatsächliche Anzahl Kranker und Gesunder in
einem Patientenkollektiv zu ermitteln. Danach wird nun bei jedem Patienten der zu
untersuchende Test angewandt, desse Schwellenwert die Grenze zwischen T+ und Tangibt.
Die Sensitivität ist ein Maß dafür, wie gut der Test die Kranken erfaßt. Sie ist dementsprechend das Verhältnis aus Testrichtigen und Krankheit und sollte möglichst
hoch sein.
Die Spezifität ist ein Maß dafür, wie sehr der Test von den Gesunden abläßt, dh. wie
viele Testfalsche er bemißt. Je höher die Testfalschen-Zahl wird, desto unspezifischer ist der Test, weil er immer weniger zwischen Kranken und Gesunden differenziert (s. Abb. 30 ). Die Spezifität könnte anhand des Verhältnisses der Testfalschen
zu den Gesunden (K-) ermittelt werden. Dann würde sp aber mit abnehmender Spezifität wachsen (didaktisch ungünstig). Daher bemißt sich sp aus dem Komplement.
se = p K+(T+) = Testrichtige/Kranken und sp = p K-(T-) = (1-Testfalsche)/Gesunde
Beispiel HIV-Test:
Durch einen golden-standard-Test ist bekannt, daß 88 Patienten HIV-infiziert und
228 nicht infiziert sind. Diese Patienten werden nun einem speziellen Test unterzogen, bei dem die Serumabsorption eine Aussage über den Gesundheitszustand treffen soll.
Testergebnis
Serumwert
88 HIV+
228 HIV-
> 50
20
0
T+
]50-12] ]12-6]
36
3
]6-5]
]5-4]
T]4-2]
]2-0]
9
4
7
16
2
74
0
128
14
3
Bei Festlegung des Schwellenwertes auf „5“ (schwarzer Balken) ergeben sich folgende Werte:
K+
K-
T+
a
Tc
79
9
b
d
10
218
88
228
se = 79
= 0.897...
88
sp = 218
= 0.956...
228
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 23
II.6.2 Binomiale Verteilung der Testergebnisse
Prinzipiell kann die Anwendung eines diagnostischen Testes als binäres Zufalls experiment verstanden werden. Man nehme m=20 (s.Abb. 31) kranke Patienten,
pS=X
führe an jedem Patienten den Test durch und erhalte 20 Ergebnisse, wovon 14
Patienten einen positiven Test bekommen (X=14 Testpositive à Y=6 TestnegatiT+ ve). Dieses Resultat ist nun rein zufällig. Es hätten auch mehr oder weniger TestpoX=14
sitive dabei sein können, nur ist die Wahrscheinlichkeit für X=14 am größten, wie
Abb. 31 binomiale Testverteilung sich aus der Binomialverteilung des Testes ergibt (Glockenspitze bei X=14).
Glockenform und Glockenmaximum werden von der Wahrscheinlichkeit p bestimmt, daß ein einziger Patient ein positives Testergebnis erziehl. Diese Wahrscheinlichkeit ist nach den Testbedingungen eine bedingte Wahrscheinlichkeit, denn
es war vorausgesetzt, daß alle m=20 Patienten krank sein sollen. Sie hängt nur vom
gewählten Schwellenwert des Testes ab und läßt sich folgendermaßen schätzen:
X
m
+
schätzt
p K (T + ) , mit m Kranken und X Testrichtigen.
Im Beispiel also p{T+}=14/20=0,7. Ebenso kann eine Binomialverteilung für die
Testfalschen bei einem Kollektiv an Gesunden (ohne Abbildung) bestimmt werden.
Dabei gilt dann:
Y
n
−
schätzt
p K (T + ) , mit n Gesunden und Y Testfalschen.
II.6.3 Prädikative Werte
Bisher war nur die Frage untersucht worden, wie gut der Test das Krankheitskollektiv erfaßt, dh. wie oft ein Testergebnis positiv ist, unter der Bedingung, daß ein Patient krank ist. Eines der Resultate war, daß ein positives Testergebnis auch vorliegen
kann, wenn der Patient gesund ist. Die nächste Frage ist also, wie hoch die Wahrscheinlichkeit ist, daß eine Krankheit tatsächlich vorliegt, wenn ein Testergebnis
bekannt ist.
1.
Wie groß ist die Wahrscheinlichkeit, daß der Patient krank ist, wenn ein positives Testergebnis vorliegt p T+(K+), ppW (positiver prädikativer Wert).
richtig positiv
2.
ppW =
se ⋅ pr
se ⋅ pr + (1 − sp )(1 − pr )
Wie groß ist die Wahrscheinlichkeit, daß der Patient gesund ist, wenn ein negatives Testergebnis vorliegt p T-(K-), npW (negativer prädikativer Wert)
richtig negativ
npW =
sp (1 − pr )
sp (1 − pr ) + (1 − se ) pr
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 24
III. Sterblichkeitsanalysen
[M AU II]:26FF.
Sterblichkeitsanalysen beschäftigen sich mit der Auswertung von Sterbealter und
Sterbezeitpunkt von Individuen in einer bestimmten Population. Die Sterblichkeit
der Population wird dann anhand einer empirischen Überlebensfunktion dargestellt
oder mit der Sterblichkeit einer anderer Populationen verglichen, um z.B. Aussagen
über einen Therapieerfolg treffen zu können.
Grundlage der Analyse sind zwei unterschiedliche Herangehensweisen der
Datenerhebung:
-
Die Querschnittsuntersuchung
Die Längsschnittuntersuchung
Beide Methoden ermöglichen die Herleitung einer Überlebensfunktion. Diese gibt
an, wie die Überlebenswahrscheinlichkeit eines Individuums ist, das einer bestimmten Population i angehört, und hat die Form einer Treppe.
n
III.1.1 Die Querschnittuntersuchung
20
Hierbei erfolgt die Datenerhebung zu einem bestimmten Zeitpunkt (beispielsweise
rückblickend auf ein Jahr). Dabei wird die Population in Altersklassen unterteilt und
die jeweilige Sterbezahl in einer Klasse festgehalten. à Ordnung der Gestorbenenanzahl hinsichtlich der Zugehörigkeit zu einer Alters-Klasse.
Um die Sterblichkeiten zweier Populationen (s. Abb. 32) vergleichen zu können,
muß eine Altersadjustierung vorgenommen werden, um den Effekt auszugleichen,
daß verschiedene Altersklassen unterschiedlich stark besetzt sein können, wodurch
die Sterblichkeit statistisch beeinflußt wird.
Dazu wird für beide Populationen in jeder Altersklasse der relative Anteil Gestorbener qi auf eine fiktive Kohorte von beispielsweise 100.000 Individuen bezogen,
wobei sich die Anzahl der unter Risiko stehenden n i sukzessive verringert.
10
0
30
20
10
0
1 2 3 4 5 6
Abb. 32 Gegenüberstellung
der Altersverteilung (hell)
und der jeweiligen Sterbeziffern (dunkel) unter Geistlichen (grün) und Bahnbediensteten (braun)
100
n
95
qi =
di
w
ni − i
2
, d: Anzahl Tote, w: Anzahl Ausgeschiedener (withdrawals )
Die Wahrscheinlichkeit pi,0, eine bestimmte Altersklasse i zu überleben ist eine bedingte Wahrscheinlichkeit, wobei die Bedingung das Überleben der vorherigen (i1)-ten Altersklasse ist. Dh. pi,0 errechnet sich durch sukzessive Multiplikation der
Überlebensanteile pi , wobei pi das Komplement von qi ist (Wer nicht gestorben ist,
lebt folglich).
Damit ergibt sich die empirische Überlebenswahrscheinlichkeit, deren graphische
Auftragung die Form einer Treppe hat (s. Abb. 33).
p0, i = (1 − q1 ) ⋅ (1 − q2 ) ⋅ ... ⋅ (1 − qi ) = ∏
90
j≤ i
pj
und p i=1-q i.
1
2
3
4
5
6
Abb. 33 empirische Überlebensfunktion für Geistliche (grün/durchgezogen)
und Bahnbedienstete
(braun / gestrichelt); die
Daten der Klasse 6 wurden
der Anschaulichkeit wegen
ergänzt
Beispiel (keine Ausscheidende w)
Klasse
25-34
25-44
45-54
55-64
65...
i
1
2
3
4
5
ni
di
17.318 38
23.313 74
23.368 178
18.257 400
-
qi
pi
p i,0
n i (adjustiert)
0,0022
0,0032
0,0076
0,0219
-
0,9978
0,9968
0,9924
0,9781
-
1
0,9978
0,9946
0,9871
0,9654
100.000
99.780
99.460
98.710
96.540
à
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 25
III.1.2 Die Längsschnittuntersuchung
Bei der Längsschnittuntersuchung wird ein Kollektiv aus Individuen bestimmt, eine
sogenannte Kohorte, die für einen längeren Zeitraum hinsichtlich ihres Sterbeverhaltens beobachtet wird. à Ordnung der Gestorbenenanzahl hinsichtlich des Zeitpunktes des Todes.
Beispiel einer Datentabelle für einen Längsschnitt:
i
Überlebensdauer t in Tagen (geordnet)
1 unter Therapie
6 6 6* 7 9* 10 10* 11* 13 16
2 Kontrollgruppe 1 1
2
2
3
4
4
5
5
8
j;x
nj dj
12 3
9 1
8 1
7 2
5 1
4 1
3 1
2 1
1 1
1;6
2;7
3;9
4;10
5;11
6;13
7;16
8;17
9;19
Sj
9
8
7
5
4
3
2
1
0
π
Sx
0,75
0,888
0,875
0,714
0,8
0,75
0,666
0,5
0
0,75
0,666
0,583
0,416
0,333
0,245
0,166
0,083
0
Abb. 34 empirische Funktion des
Überlebens bei Längsschnittuntersuchung nach Kaplan und
Meier
S x(j)
0,5
j
1
5
Abb. 35 empirische Funktion des Überlebens;
grün: Skalen für πj .
19*
8
Es wurden i=2 Patienten-Populationen untersucht mit dem jeweiligen Umfang von
j=12 Patienten. Jede Zahl repräsentiert die Überlebenszeit eines Patienten. Befindet
sich ein Stern (*) hinter einer Zahl, handelt es sich um einen zensierten Wert. In
diesem Fall hat der Patient mit sicherheit bis zu dem angegebenen Zeitpunkt überlebt, entzog sich dann aber der Untersuchung (z.B. aufgrund Krankenhauswechsels).
Solch einen Patienten nennt man auch withdrawal w. Zensierte Werte werden konventionell den unzensierten hintenangestellt, falls beide gleich hoch sein sollten.
Nach dieser ersten Datenerhebung folgt nun für jede Population eine erste Analyse.
Dazu wird zu jedem Zeitpunkt, an dem mindestens ein Patient gestorben ist, die
Anzahl derjenigen festgehalten, die unter Risiko standen nj (zu Anfang 12), die gestorbenen sind dj (deads) und derjenigen, die überlebt haben Sj (survivals)= n j - d j (s.
Abb. 34).
Jetzt soll berechnet werden, wie hoch die Wahrscheinlichkeit ist, den Zeitpunkt xj
noch zu erleben (Produktlimit-Schätzer). Dazu wird zunächst für jedes Intervall ein
Schätzwert πj ermittelt, der angibt, wie hoch die Überlebenswahrscheinlichkeit ist,
das nächste Intervall j zu erleben, wenn das letzte schon erreicht war. In Abb. 35.
Die Schätzwerte werden multiplikativ kumuliert und ergeben den jeweiligen Produktlimit-Schätzer oder Kaplan-Meier-Schätzer Sx . Die graphische Auftragung
ergibt die typische Treppenfunktion (Abb. 35).
πˆ j =
0
17*
8
nj − d j
nj
und
S ( x) = Π x ( j) ≤ xπ̂ j
z.B. S(10)=S(x(4) ) π6⋅π7⋅π9⋅π10=0,75⋅0,888⋅0,875⋅0,714 = 0,416.
Zu lesen: Die Wahrscheinlichkeit für die Patienten unter Therapie (i=1) nach 10
Wochen immer noch zu leben, ist 0,416.
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
S. 26
IV. Anhang A
IV.1.
Abkürzungen
α
1-β
ϕ
µ
σ
Φ
Σ
Π
ν
χ2
Signifikanznieveau
Trennschärfe
Dichtefunktion der Normalverteilung
theoretisches 1. Moment
theoretisches 2. Moment
Integralfunktion
Summenzeichen
Produktzeichen
Variationskoeffizient
chi-quadrat; Dispersionsindex
a
b
B
E
e
f
kW
n
N
npW
p
P
pA(B)
Steigung
Achsenabschnitt
Binomialverteilung
Erwartungswert
Eulersche Zahl; e=2,71828...
Anzahl Freiheitsgrade
kritischer Wert
Anzahl Werte
Normalverteilung
negativer prädikativer Wert
Wahrscheinlichkeit Wkt.
Poissonverteilung
bedingte Wkt.
IV.2.
Pobs
ppW
QA
R
Rg
s
s2
observed probability
positiv prädikativer Wert
Quartilabstand
Spannweite
Rangzahl
Standardabweichung
Stichprobenvarianz
Standardfehler
sx
SAQ
se
sp
t
T
Tobs
V
VK
x 0,5
xh
Summen-Abweichungs-Quadrat
Sensitivität
Spezifität
vertafelter Wert der t-Verteilung
Prüfgröße eines statistischen Tests
observed testvalue
Varianz
Variationskoeffizient
Median
Modalwert
empirischer Mittelwert
x
x
Absolutwert von x;
!
x = − x = x2
Fakultät
Das griechische Alphabet
α
β
χ
δ
ε
ϕ
γ
η
ι
κ
λ
µ
Α
Β
Χ
δ
Ε
Φ
Γ
Η
Ι
Κ
Λ
Μ
['alfa]
['beta]
[¸i]; [¸] wie in ‚ich‘
['½elta]; [½] wie in ‚that‘
['epsilon]
[fi]
['gama]
['ita]
['jota]
['kapa]
['lam½a]; [½] wie in ‚that‘
[mi] [my]; [y] wie in ‚übel‘
ν
Ν
[ni] [ny]; [y] wie in ‚übel‘
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
ο
π
θ
Ο
Π
Θ
ρ
σ, ϖ
τ
υ
ω
ξ
ψ
ζ
Ρ
Σ
Τ
Υ
ς
Ω
Ξ
Ζ
['omikron]
[pi]
['θita] ['teta]; [θ] wie in
‚thing‘
[ro]
['sigma]; [s] wie in ‚Wasser‘
[taf] [tau]
['ipsilon]
['omega]
[ksi]
[psi]; [ps] wie in ‚Psalm]
['zita]; [z] wie in ‚Rose‘
S. 27
Index
Anpassungstest............................14
Binomialkoeffizient ......................8
Binomialverteilung .......................8
Blockplan......................................24
Box-and-whiskers-Plot.................5
chi-Quadrat...................................14
Dezentil...........................................4
Dispersionsindex χ 2 ...................14
Erwartungswert............................11
Fishertest.......................................16
F-Test ............................................24
Gauß-Verteilungsfunktion .........10
Kovarianz....................................... 6
kritischer Wert............................. 13
Kruskal-Wallis -Test................... 21
Längsschnittuntersuchung......... 28
Mann-Whitney-WilcoxonRangtest................................... 21
Median............................................ 4
Mittelwert....................................... 4
Modalwert ...................................... 4
Testniveau α.................................12
Trennschärfe.................................12
Normalverteilung.......................... 9
Unabhängigkeitstest....................15
Parallelgruppenplan.................... 24
Poisson ......................................... 14
prädikativer Wert ........................ 26
Produktlimit-Schätzer................ 28
Punktschätzer.............................. 11
Integralfunktion Φ.......................10
Quantil ............................................ 4
Quartil............................................. 4
Querschnittuntersuchung........... 27
Kaplan-Meier-Schätzer ..............28
Kohorte .........................................28
Konfidenzintervall ................11, 22
Kontingenztafel .............................6
Randhäufigkeit .............................. 6
Rangzahl......................................... 4
Regression...................................... 6
Regressionsgerade........................ 7
Homogenitätstest.........................16
Sensitivität....................................25
Signifikanzniveau Pobs..............12
Spannweite .....................................5
Spezifität.......................................25
Standardabweichung.....................5
Standardfehler................................5
Stichprobenvarianz .......................5
Student-Test.................................22
Skriptum Biomathe V 1.7 © 1999 Axel Ruttmann
Varianz..........................................11
Varianzanalyse.............................24
Variationskoeffizient ....................5
Vierfeldertest................................15
Vorzeichentest.............................18
Wilcoxon-VorzeichenRrangtest...................................20
withdrawals ..................................27
Zentroid...........................................6
S. 28
Herunterladen