methods_deutsch_07 [Schreibgeschützt]

Werbung
Poppers Idealbild einer wissenschaftlichen Aussage bestand in der Möglichkeit
einer eindeutigen experimentellen Falsifikation, doch solche Schwarz-WeißSituationen sind in der Realität äußerst selten. Aus diesem Grund haben
Mathematiker wie Fisher, Neyman und Pearson in der ersten Hälfte des 20.
Jahrhunderts Verfahren entwickelt, mit denen sich zumindest die "Signifikanz"
experimenteller Ergebnisse messen lässt. Ihr Ziel waren objektivierbare Regeln
für die Entscheidung zwischen der Annahme bzw. Ablehnung von Theorien, und
die für diesen Zweck ersonnenen Methoden bilden bis heute eine wesentliche
Grundlage wissenschaftlichen Arbeitens.
Ein zentrales Merkmal statistischer Tests ist die Tatsache, dass sie zu einem
klaren Ergebnis zu führen scheinen. Wenn ein sorgfältig durchgeführtes
Experiment einen hinreichend deutlichen Effekt mit einem p-Wert kleiner als
0.05 nachweist, dann sollte dieses Resultat auf allgemeine Anerkennung stoßen.
Leider ist dies aber nicht die Art und Weise, wie die Wissenschaftswelt auf neue
Forschungsergebnisse reagiert. Deutliche und objektiv signifikante Ergebnisse
werden oft ignoriert, während vernachlässigbare und statistisch nicht signifikante
Effekte einen breiten Eindruck hinterlassen. Dieses zweifache Maß reflektiert die
intuitive Einsicht in einen der wesentlichen Nachteile klassischer
Hypothesentests, nämlich deren Unfähigkeit, die intrinsische Plausibilität von
Hypothesen bei der Entscheidungsfindung mit in Betracht zu ziehen.
Dessen ungeachtet haben Hypothesentests als Mittel der wissenschaftlichen
Qualitätskontrolle bislang gute Dienste geleistet, und solange sich alle Beteiligten
der damit verbundenen Einschränkungen bewusst sind, stellen Hypothesentests
in der Tat einen pragmatischen Weg dar, "die Wahrheit über Alles regieren" zu
lassen.
Universitätsklinikum Schleswig-Holstein ©2012
1
Statistische Tests sind Regeln, anhand derer sich Wissenschaftler auf der
Grundlage von Daten zwischen unvereinbaren Hypothesen über die Population
entscheiden, der diese Daten entstammen. Meistens stehen dabei zwei
Hypothesen zur Debatte: die Nullhypothese H0 und eine Alternativhypothese HA.
Die beiden Hypothesen zu Grunde liegende wissenschaftliche Frage ist meistens
so formuliert, dass eine der beiden Hypothesen wahr sein muss, d.h. H0 und HA
definieren eine erschöpfende Zerlegung des "Universums" aller Möglichkeiten.
Im Prinzip kann jede Hypothese zum Gegenstand eines statistischen Tests
gemacht werden. In der Praxis zielen die meisten wissenschaftlichen
Experimente jedoch auf ein Entscheidungsproblem ab, das einem von zwei
Designs zugeordnet werden kann, nämlich einem gerichteten ("größer, kleiner",
"länger, kürzer") oder einem ungerichteten ("gleich, ungleich", "ja, nein").
Universitätsklinikum Schleswig-Holstein ©2012
2
In der Statistik versteht man unter "Suffizienz" die Möglichkeit, eine Stichprobe
x1,…,xn von Realisierungen von Zufallsvariablen X1,…,Xn durch eine
mathematische Funktion T(x1,...,xn) zu verdichten, z.B. auf eine einzige Zahl,
ohne dabei Information über einen bestimmten Verteilungsparameter θ der
Zufallsvariablen zu verlieren. In diesem Fall heißt T eine "suffiziente" Statistik
bezüglich θ. Sind beispielsweise die X1,…,Xn unabhängig und normalverteilt mit
Erwartungswert µ, dann ist das Stichprobenmittel
T ( x1 ,..., x n ) =
1
n
⋅ ∑i=1 x i
n
suffizient bezüglich µ. Mit anderen Worten trägt die Kenntnis jedes einzelnen
Stichprobenwertes nicht mehr Information über den Erwartungswert bei als der
Mittelwert der Daten. Entscheidungen hinsichtlich µ können demnach auf
T(x1,...,xn) basieren, was oftmals erheblich einfacher ist, als die ganze Stichprobe
x1,...,xn in die Entscheidung einzubeziehen.
Suffiziente Statistiken sind für alle praktisch relevanten Inferenzprobleme
bekannt, obwohl sie nicht generell existieren müssen. Für ganz abstruse
Verteilungen kann die Reduktion der Daten in der Tat einen Informationsverlust
bedeuten, der nur durch die Berücksichtigung jedes einzelnen
Stichprobenwertes vermieden werden kann.
Universitätsklinikum Schleswig-Holstein ©2012
3
Universitätsklinikum Schleswig-Holstein ©2012
4
Universitätsklinikum Schleswig-Holstein ©2012
5
Universitätsklinikum Schleswig-Holstein ©2012
6
Wenn auf Grund von Vorwissen oder theoretischen Überlegungen sicher
erscheint, dass der zur Alternativhypothese gehörige Effekt nur in eine Richtung
weisen kann, dann sollte ein einseitiger Test durchgeführt werden. Sind die
Annahmen über die Richtung von HA korrekt, dann hat ein einseitiger Test
nämlich mehr Power als der entsprechende zweiseitige Test. Wenn jedoch vor
Beginn des Experiments keine stichhaltigen Argumente für oder gegen eine
bestimmte Richtung von HA vorliegen, so sollte (muss) ein zweiseitiger Test
durchgeführt werden.
Universitätsklinikum Schleswig-Holstein ©2012
7
Die häufigste Fehlinterpretation des p-Werts ist die Annahme, es handele sich
dabei um die Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Wenn dem so
wäre, wäre jede Nullhypothese bei einem kleinen p-Wert automatisch
unwahrscheinlich. Genau diese Vorstellung ist aber falsch, da die A-posteriori Wahrscheinlichkeit einer Nullhypothese (gegeben T≥tobs) auch von der A-priori Wahrscheinlichkeit P(H0) abhängt, d.h. der H0 vor Durchführung des
Experiments zugewiesenen Wahrscheinlichkeit, und von der Wahrscheinlichkeit,
dass T≥tobs gilt, wenn HA zutrifft. Mit Hilfe des Bayes-Theorems folgt daraus in
der Tat
P(H0 | T ≥ t obs ) =
P(H0 ) ⋅ p
.
P(H0 ) ⋅ p + [1 − P(H0 )] ⋅ P( T ≥ t obs | HA )
Als die Prinzipien der statistischen Inferenzbildung im frühen 20. Jahrhundert
etabliert wurden, war Wissenschaft ein viel kleineres und kostspieligeres
Unterfangen als heute. Zu jener Zeit wurden vielleicht ein paar Hundert
Hypothesen pro Jahr getestet (und jedes Experiment war wohl durchdacht), so
dass P(H0) klein genug war, um mit dem Kriterium "p≤0.05" hinreichend viele
falsch positive Ergebnisse auszusortieren. Heute jedoch, wo ein Heer von
Zeitschriften jedes Jahr Tausende von Hypothesentests publiziert, dürfte sich der
relative Anteil der sinnvollen Alternativhypothesen deutlich verringert haben, was
in der Folge zu einem Anstieg von P(H0) geführt hat. Als Konsequenz steht zu
vermuten, dass auch der positiv prädiktive Wert kleiner p-Werte ziemlich
gesunken ist.
Universitätsklinikum Schleswig-Holstein ©2012
8
Vergleiche innerhalb von Individuen, wie z.B. zwischen Verum und Placebo,
basieren zwar auf zwei zu unterschiedlichen Zeitpunkten erhobenen Stichproben,
sie repräsentieren aber formal ein Ein-Stichproben Testproblem. Das liegt daran,
dass es für die Beurteilung eines Behandlungseffekts in der Regel ausreicht, statt
der ursprünglichen Messwerte nur die Differenz zwischen individuenspezifischen
Messungen zu betrachten.
Wann immer möglich sollten wissenschaftliche Fragen unter Verwendung eines
verbundenen Designs bearbeitet werden. Dieses Design bietet die effizienteste
Möglichkeit zur Reduzierung des Stichprobenfehlers, da jede
Beobachtungseinheit mit dem denkbar besten Partner der anderen
Behandlungsgruppe gematcht wird, nämlich sich selbst. Ein weiterer Vorteil
verbundener Designs besteht darin, dass Differenzen im Gegensatz zu absoluten
Messwerten oftmals einer Normalverteilung folgen. Das verbundene Design kann
somit häufig von dem Powergewinn profitieren, der sich aus der Normalität der
Daten ergibt.
Universitätsklinikum Schleswig-Holstein ©2012
9
Universitätsklinikum Schleswig-Holstein ©2012
10
Eine Studie wie die auf dieser Folie vorgestellte setzt voraus, dass wenigstens
die Probanden verblindet werden, und dass die Reihenfolge der Verabreichung
von Verum und Placebo zufällig gewählt wird. Darüber hinaus muss es eine so
genannte "Wash-Out"-Phase geben, um mögliche Einflüsse der ersten Gabe auf
die zweite zu vermeiden (im Wesentlichen natürlich von Verum auf Placebo). Die
Daten verdeutlichen noch einmal, dass Messungen von biometrischen
Merkmalen an ein und demselben Individuum stark miteinander korreliert sein
können. So scheinen einige Probanden grundsätzlich gute Schläfer gewesen zu
sein, während andere auch nach Einnahme des Verums keine spürbare
Verbesserung ihrer Schlaflosigkeit erfuhren. Dennoch scheint es unter Verum
einen leichten Anstieg der durchschnittlichen Schlafdauer um eine halbe Stunde
gegeben zu haben. Aber ist der gemessene Unterschied statistisch signifikant?
Diese Frage lässt sich formal durch einen Ein-Stichproben t-Test der
Nullhypothese µD=0 beantworten.
Universitätsklinikum Schleswig-Holstein ©2012
11
Universitätsklinikum Schleswig-Holstein ©2012
12
In einem zweiseitigen Test auf dem 5% Niveau wäre die positive Differenz der
Schlafdauer unter den 15 Probanden nicht statistisch signifikant von null
verschieden, da die beobachtete t-Statistik (1.934) kleiner ist als der zugehörige
kritische Wert t0.975,14=2.145. Ohne Vorwissen über die Schlaf verlängernde
Wirkung der Substanz hätten wir also den Schluss ziehen müssen, dass das
Experiment keine hinreichende Evidenz für einen Einfluss des Medikaments auf
die Schlafdauer liefert (d.h. H0 müsste beibehalten werden).
Universitätsklinikum Schleswig-Holstein ©2012
13
Auf dem 5% Signifikanzniveau beträgt der kritische Wert des einseitigen t-Tests
t0.950,14=1.761. Da dieser Wert von der beobachteten t-Statistik übertroffen wird,
würde ein einseitiger Test zum Verwerfen der H0 führen. Das Experiment weist
also auf eine statistisch signifikante Verlängerung der Schlafdauer hin, aber nur
wenn dies tatsächlich der einzige biologisch plausible Effekt ist, der von der
fraglichen Substanz erwartet werden konnte.
Universitätsklinikum Schleswig-Holstein ©2012
14
Oftmals ist ein verbundenes Design entweder technisch nicht möglich (wie z.B.
eine Wash-Out-Phase bei chirurgischen Eingriffen) oder ethisch problematisch
(z.B. die Messung des Blutdrucks vor und nach dem täglichen Konsum von 20
Zigaretten über einen Zeitraum von 5 Jahren). In diesem Fall muss zur
Bearbeitung der jeweiligen wissenschaftlichen Fragestellung ein unverbundenes
Design verwendet werden.
Universitätsklinikum Schleswig-Holstein ©2012
15
Das Verfahren der Wahl für den Vergleich der Erwartungswerte zweier
normalverteilter Zufallsvariabler mit gleicher Varianz σ2 ist der Zwei-Stichproben
t-Test. Der Standardfehler der Differenz der beiden Stichprobenmittel wird dabei
aus der "gepoolten" empirische Standardabweichung geschätzt, die wie folgt
definiert ist:
s pooled =
(na − 1) ⋅ s 2a + (nb − 1) ⋅ s b2
.
(na − 1) + (nb − 1)
Damit der Zwei-Stichproben t-Test valide ist, d.h. damit T auch tatsächlich einer
t-Verteilung mit der angegebenen Anzahl von Freiheitsgraden folgt, müssen die
Realisierungen in den beiden Stichproben unabhängig voneinander sein. Wenn
die Daten paarweise verbunden sind, d.h. wenn die Zufallsvariablen Xa und Xb
nicht unabhängig sind, dann ist im Allgemeinen unklar, ob der Zwei-Stichproben
t-Test konservativ ist oder nicht, d.h. ob der nominelle p-Wert das wahre
Signifikanzniveau unter- oder überschätzt. Der Ein-Stichproben t-Test ist
demgegenüber bei verbundenen Daten immer valide, hat aber weniger Power
als der Zwei-Stichproben t-Test, wenn die Realisierungen paarweise unabhängig
oder nur "schwach" abhängig voneinander sind. Ist die Abhängigkeit "stark", hat
wiederum der Ein-Stichproben t-Test mehr Power.
Universitätsklinikum Schleswig-Holstein ©2012
16
Den Effekt sportlicher Aktivität auf den HDL-Spiegel mit Hilfe eines verbundenen
Designs untersuchen zu wollen, wäre nicht nur sehr mühsam, die beteiligten
Wissenschaftler hätten dabei auch mit erheblichen Compliance-Problemen zu
kämpfen. Auf der anderen Seite ist die vergleichende Analyse von aktiven und
nicht-aktiven Personen sehr anfällig gegenüber dem so genannten
"Confounding", d.h. dem Bias, der durch unkontrollierte HDL-relevante Faktoren
hervorgerufen wird, die ihrerseits wieder mit dem Ausmaß der sportlichen
Aktivität assoziiert sind. Zur Liste der möglichen Confounder gehören z.B. die
Ernährung, Medikationen und genetische Dispositionen, aber auch
Umwelteinflüsse oder Faktoren der Lebensführung wie etwa das Rauchen.
Universitätsklinikum Schleswig-Holstein ©2012
17
Der Unterschied zwischen zwei Erwartungswerten, der in einer
wissenschaftlichen Studie nachgewiesen werden soll, wird häufig durch ein
Vielfaches der Standardabweichung des Merkmals statt durch die ursprüngliche
Differenz ausgedrückt. Ein Vorteil dieser Darstellung besteht in der
Dimensionslosigkeit des zugehörigen "Effektindexes", was wiederum
Fallzahlplanungen bei normalverteilten Zufallsvariablen unabhängig von der
Natur des zu untersuchenden Merkmals macht. Allerdings ist die Anwendung des
Effektindexes definitionsgemäß auf Merkmale beschränkt, die unter der
Annahme von H0 und HA die gleiche Varianz haben.
Die beiden Formeln auf dieser Folie machen deutlich, dass der
Stichprobenumfang, der bei gegebenem Signifikanzniveau zum Erreichen einer
bestimmten Power erforderlich ist, im umgekehrten Verhältnis zum Effektindex
steht. Je größer der Effekt, umso kleiner der erforderliche Stichprobenumfang.
Da zudem z1-α kleiner ist als z1-α/2, liefern einseitige Tests - gemessen am
Stichprobenumfang - die gleiche Power zu geringeren Kosten.
(Beachten Sie, dass sich n an dieser Stelle auf eine von zwei gleich großen
Teilstichproben bezieht, z.B. Verum und Placebo, so dass der insgesamt
erforderliche Stichprobenumfang 2n beträgt).
Universitätsklinikum Schleswig-Holstein ©2012
18
Pilotstudien sind notwendig, wenn es keine Vorinformation über die
wahrscheinliche Größe von γ gibt. Man könnte sich z.B. vorstellen, dass die auf
einer vorangegangenen Folie gezeigten HDL-Werte von 15 aktiven und 15 nicht
aktiven Personen aus einer Pilotstudie herrührten. Das Ergebnis dieser
Pilotstudie war eine Einschätzung der Effektgröße (γ=0.42), die wiederum für die
Planung einer hinreichend umfangreichen konfirmatorischen Studie genutzt
werden kann. Es zeigt sich, dass ein zweiseitiger Test zum 5% Signifikanzniveau
für die Bestätigung des Effekts mit 90% Power achtmal mehr Probanden
erfordern würde, als in der Pilotstudie untersucht wurden.
Universitätsklinikum Schleswig-Holstein ©2012
19
Universitätsklinikum Schleswig-Holstein ©2012
20
Universitätsklinikum Schleswig-Holstein ©2012
21
Bei vorgegebenem Signifikanzniveau hängt die Power eines statistischen Tests
im Wesentlichen von zwei Dingen ab: der Effektgröße und dem
Stichprobenumfang. Ein statistisch signifikantes Ergebnis lässt sich auch für die
winzigsten Effekte erzielen, wenn nur die zugehörige Stichprobe groß genug ist.
Es kann zwar kein Zweifel daran bestehen, dass die statistische Signifikanz eines
wissenschaftlichen Ergebnisses von Interesse ist, weil sich aus ihr das Vertrauen
in die Schlussfolgerungen nährt, die aus dem Ergebnis gezogen werden.
Statistische Signifikanz sagt aber für sich genommen nichts über die Größe eines
Effekts aus, also über dessen praktische oder klinische "Signifikanz". Daher ist es
wichtig, in einer wissenschaftlichen Publikation nicht nur p-Werte mitzuteilen
oder zur Kenntnis zu nehmen, sondern auch Schätzungen der Effektgrößen
anzugeben, vorzugsweise mit den zugehörigen Konfidenzintervallen.
Universitätsklinikum Schleswig-Holstein ©2012
22
Die nicht-parametrische statistische Inferenzbildung macht jenen Teil der
Testtheorie aus, der keine oder nur schwache Voraussetzungen an die formelle
Gestalt der Verteilung von Zufallsvariablen (z.B. Normalität) knüpft. Nichtparametrische Verfahren werden daher oft auch (etwas irreführend)
"verteilungsfrei" genannt.
Viele wichtige Arbeiten über die Eigenschaften nicht-parametrischer Verfahren
wurden um die Mitte des 20. Jahrhunderts von dem US-amerikanischen
Mathematiker Jacob Wolfowitz publiziert. Wolfowitz, der als einer der
Gründerväter der modernen Statistik gilt, wurde 1910 in Polen geboren, von wo
aus er im Alter von 10 Jahren zusammen mit seinen Eltern in die USA
emigrierte. Während des 2. Weltkriegs schloss sich Wolfowitz der Statistical
Research Group der Columbia University an, einer der vielen wissenschaftlichen
Institutionen, die zur Mitarbeit an kriegswichtigen Projekten verpflichtet worden
waren. Zwischen 1951 und 1970 war Jacob Wolfowitz als Professor an der
Cornell University tätig. In Folge einer Herzattacke starb er am 16. Juli 1981 in
Tampa, Florida.
Universitätsklinikum Schleswig-Holstein ©2012
23
Als Faustregel sind nicht-parametrische Tests in einer von drei Situationen
empfehlenswert:
− Die Stichprobe enthält quantitative Daten, aber die Verteilung in der zugrunde
liegenden Population ist nicht normal. Der Wissenschaftler kann sich dann
überlegen, ob sich seine Daten in ein normalverteiltes Merkmal transformieren
lassen, z.B. durch Bildung des Logarithmus oder des Kehrwerts. Wenn dies
nicht möglich ist, sollte ein nicht-parametrischer Test verwendet werden.
− Die Daten sind ordinal skaliert, d.h. das Ergebnis ist ein Rang oder ein Score,
so dass die Populationsverteilung ebenfalls nicht normal ist und auch nicht in
eine Normalverteilung transformiert werden kann. Beispiele hierfür sind das
Jahrgangsranking von Studenten, der Apgar-Score und die Sterne-Skala zum
Bewerten von Filmen oder Restaurants.
− Einige Daten liegen jenseits der Nachweisgrenzen, d.h. sie sind zu groß oder
zu klein, um gemessen werden zu können. Selbst wenn die
Populationsverteilung normal ist, können die abgeschnittenen Daten nicht mit
einem parametrischen Test ausgewertet werden, da ja nicht alle Daten
bekannt sind. Auf solche Stichproben lässt sich aber problemlos ein nichtparametrischer Test anwenden, indem die nicht messbaren Werte einfach
durch beliebige, sehr große bzw. sehr kleine Werte ersetzt werden.
Universitätsklinikum Schleswig-Holstein ©2012
24
Der Zentrale Grenzwertsatz (siehe Vorlesung 2) stellt sicher, dass parametrische
Tests in großen Stichproben selbst dann gut funktionieren, wenn die
Populationsverteilung der Einzelbeobachtungen nicht normal ist.
Unglücklicherweise lässt sich schwer sagen, wie groß groß genug ist, da dies von
der genauen Gestalt der nicht-normalen Verteilung abhängt. Solange die
Verteilung aber nicht übermäßig "schräg" ist, sollten in der Praxis 20
Beobachtungseinheiten pro Gruppe für eine ausreichende Validität der meisten
parametrischen Tests ausreichen. Nicht-parametrische Tests funktionieren in
großen normalverteilten Stichproben ebenfalls gut, da sie dort nur geringfügig
weniger Power haben als die entsprechenden parametrischen Verfahren.
In kleinen Stichproben greift jedoch der Zentrale Grenzwertsatz nicht, d.h.
parametrische Tests sind nicht valide und die zugehörigen p-Werte sind
ungenau. Nicht-parametrische Tests haben wiederum in kleinen Stichproben nur
sehr wenig Power.
Unterm Strich führt dies zu einer Catch-22-Situation. Auf der einen Seite ist es
sehr einfach zu entscheiden, ob die Daten in einer großen Stichprobe
normalverteilt sind oder nicht. Dort ist es aber letztlich uninteressant, da nichtparametrische Tests genügend Power haben und parametrische Tests in großen
Stichproben robust gegen Verletzungen der Normalitätsannahme sind. Bei
kleinen Stichproben ist es auf der anderen Seite schwer zu sagen, ob die Daten
normalverteilt sind oder nicht. Gerade hier macht es aber einen großen
Unterschied, weil nicht-parametrische Tests nicht viel Power haben und
parametrische Tests nicht sehr robust sind.
Universitätsklinikum Schleswig-Holstein ©2012
25
Bei der Varianzanalyse (engl. analysis of variance, ANOVA) handelt es sich um
ein statistisches Verfahren zum Vergleich der Erwartungswerte einer
normalverteilten Zufallsvariablen in mehreren Teilpopulationen. Hierzu wird bei
der ANOVA die Varianz der Zielgröße in Abhängigkeit von der Definition der
Teilpopulationen in verschiedene Bestandteile zerlegt, und diese Bestandteile
werden anschließend miteinander verglichen. Die Technik der ANOVA wurde in
ihrer ursprünglichen Form erstmals in der ersten Hälfte des 20. Jahrhunderts
von Sir Ronald Fisher angewandt.
ANOVA ist ein nützliches Werkzeug, um die tatsächliche Ursache für die
Variabilität einer Zielgröße unter mehreren möglichen Ursachen, genannt
"Behandlungen" oder "Faktoren", zu identifizieren. Indem die Faktoren in vorher
festgelegter Weise variiert werden und das Resultat entsprechend analysiert
wird, erlaubt die ANOVA eine präzise Beurteilung der Relevanz dieser Faktoren.
Die Methode ist insbesondere in der landwirtschaftlichen Forschung weit
verbreitet (was über viele Jahre Fishers hauptsächliches wissenschaftliches
Interessensgebiet war). Sie dient dort z.B. zur Beurteilung, inwieweit
Unterschiede im Kornertrag auf die Verwendung unterschiedlicher Düngemittel
oder auf unterschiedliche Bodenbedingungen (oder eine Kombination aus
Beidem) zurückzuführen sind.
Universitätsklinikum Schleswig-Holstein ©2012
26
Schon die nähere Betrachtung der beiden Histogramme legt den Schluss nahe,
dass die Glukosedaten normalverteilt sein könnten, während die
Cholesterindaten es mit hoher Wahrscheinlichkeit nicht sind. Die Verteilung des
zweiten Merkmals ist ausgeprägt linkssteil, wobei die Modalklasse der Daten
sogar am unteren Ende des Wertebereichs liegt.
Universitätsklinikum Schleswig-Holstein ©2012
27
Es gibt ein formales statistisches Verfahren, den so genannten "KolmogorovSmirnov-Test", mit dem sich beurteilen lässt, ob die Verteilung einer Stichprobe
signifikant von einer Normalverteilung abweicht. Die zugehörige Teststatistik D
ist der maximale (vertikale) Abstand zwischen der empirischen
Verteilungsfunktion und der Verteilungsfunktion einer Normalverteilung mit
gleichem Erwartungswert und gleicher Varianz. Erinnern Sie sich daran, dass die
Verteilungsfunktion F(x) einer Zufallsvariablen X jeder reellen Zahl x die
Wahrscheinlichkeit zuordnet, dass X kleinere Werte als x annimmt, d.h.
F(x)=P(X≤x).
In der vorliegenden Stichprobe liefern die Cholesterindaten einen p-Wert von
0.082, der dicht an der Grenze zur statistischen Signifikanz liegt. Allerdings sollte
ein Anpassungstest wie der hier vorgestellte die Verwendung eines liberaleren
Signifikanzkriteriums rechtfertigen als normalerweise üblich, da Typ-I-Fehler
weniger wichtig sind (man könnte sogar argumentieren, dass Typ-I-Fehler und
Typ-II-Fehler die Rollen getauscht haben). Außerdem ist es bei kleinen
Stichproben nicht nur per Augenschein schwierig festzustellen, ob Daten
normalverteilt sind oder nicht. Auch der Kolmogorov-Smirnov-Test hat wenig
Power, um zwischen normalverteilten und nicht-normalverteilten Daten zu
unterscheiden. Ein nicht-signifikantes Testergebnis bietet daher wenig Sicherheit
hinsichtlich der Normalität von Daten, wenn die Stichprobe sehr klein ist.
Universitätsklinikum Schleswig-Holstein ©2012
28
Viele nicht-parametrische Testverfahren wie z.B. der Wilcoxon-, Kruskal-Wallisund Friedman-Test verwenden so genannte "Rangstatistiken". Diese Statistiken
verdanken ihren Namen dem Umstand, dass sie nur vom Ranking, d.h. der
Reihenfolge der Daten abhängen, und nicht von den Stichprobenwerten selbst.
Der Mittelwert, der zwar ein guter und einfach zu berechnender Schätzer des
Erwartungswertes ist, stellt keine Rangstatistik dar. Deshalb beziehen sich
Hypothesen über die Lage nicht-normalverteilter Zufallsvariabler auch meistens
nicht auf den Erwartungswert, sondern auf andere Verteilungsparameter (wie
z.B. dem Median).
Universitätsklinikum Schleswig-Holstein ©2012
29
Scores folgen per Definition keiner Normalverteilung, und eine Stichprobe von 10
Werten ist mit Sicherheit für die Anwendbarkeit des Zentralen Grenzwertsatzes
zu klein. Die Frage, ob sich die Depressions-Scores von Patienten unter Verum
und Placebo hinsichtlich ihrer Lage signifikant voneinander unterscheiden, kann
daher nicht mit einem parametrischen Verfahren wie z.B. dem t-Test beantwortet
werden.
Universitätsklinikum Schleswig-Holstein ©2012
30
Wenn die Verteilung der Depressions-Scores in beiden Patientengruppen gleich
wäre (d.h. wenn H0 richtig wäre), dann sollte die vorliegende Stichprobe
eigentlich keinem systematischen Muster folgen. Mit anderen Worten würde man
in den geordneten Daten eine "zufällige" Anordnung von A's und B's erwarten.
Stattdessen ist aber eine klare Häufung von A's unter den hochrangigen Daten
(und von B's unter den niedrigen Rängen) zu beobachten. Aber ist diese
Anhäufung statistisch signifikant?
Es erscheint plausibel, für die Beantwortung der Frage, ob die Anordnung der
Daten mit H0 vereinbar ist oder nicht, die Rangsumme der Gruppe A oder B
(welche man nimmt, ist egal) zu nutzen. Eine sehr große oder kleine
Rangsumme würde offensichtlich gegen H0 sprechen. Für die eigentliche
Berechnung der Wahrscheinlichkeit einer bestimmten Rangsumme ist zu
berücksichtigen, dass bei Zutreffen von H0 jede Reihenfolge der Patienten gleich
wahrscheinlich wäre. Man muss daher nur alle möglichen Permutationen von
5+5=10 Patienten durchlaufen und ermitteln, wie oft dabei die eine Rangsumme
größer oder gleich 38 ist, und die andere kleiner oder gleich 17 (Beachten Sie,
dass die relative Häufigkeit dieser Permutationen dem p-Wert der beobachteten
Daten entspricht).
Wie sich den meisten Statistiklehrbüchern entnehmen lässt, beträgt der kritische
Wert für die Rangsumme im vorliegenden Fall 37, so dass der zugehörige p-Wert
knapp unter 0.05 liegen dürfte. In der Tat lautet der genaue p-Wert 0.03175. Es
gibt auch eine einseitige Version des Wilcoxon-Rangsummen-Tests, dessen
kritischer Wert W0.950,5,5=35 beträgt.
Universitätsklinikum Schleswig-Holstein ©2012
31
Zum Schluss werden noch statistische Tests für Situationen vorgestellt, in denen
keines der beobachteten Merkmale quantitativ ist. Diese Verfahren sind
angebracht, wenn es sich um Fragen hinsichtlich der Zugehörigkeit zu
ungeordneten Gruppen wie z.B. Geschlecht, Nationalität oder
Erkrankungszustand dreht. Die zugehörigen Tests stützen sich also auf Anzahlen
und Häufigkeiten, statt auf Differenzen oder Ränge.
Universitätsklinikum Schleswig-Holstein ©2012
32
In Westeuropa und Nordamerika beträgt die durchschnittliche Mortalität
während eines Krankenhausaufenthalts nach Hüftbruch zwischen 3% und 8%.
Bis zu 85% dieser Todesfälle gehen auf das Konto von Lungenentzündungen,
Lungenembolien und Herzinfarkten.
Universitätsklinikum Schleswig-Holstein ©2012
33
Der χ2 ("Chi-Quadrat")-Test dient dem Vergleich der Verteilung einer nominalen
Zufallsvariablen X zwischen den unterschiedlichen Ausprägungen eines anderen
nominalen Merkmals Y (oftmals die Identität einer Teilstichprobe). Wenn es sich
bei Y selbst um eine Zufallsvariable handelt, so ist dieser Vergleich
gleichbedeutend mit dem Testen der statistischen Unabhängigkeit von X und Y.
Wenn Y nicht zufällig ist, sondern durch den Wissenschaftler vorab festgelegt
wird, dann lautet die Nullhypothese "Die Verteilung von X ist unabhängig von der
Ausprägung von Y".
Ein Wissenschaftler kann z.B. daran interessiert sein, ob Mädchen oder Jungen
in der Schule häufiger Mathematik statt Musik als Lieblingsfach angeben. Die
erste nominale Variable von Interesse ist die entsprechende Vorliebe, X, mit den
Ausprägungen "ja" (lieber Mathematik als Musik) oder "nein" (lieber Musik als
Mathematik). Die zweite Variable, Y, ist das Geschlecht. Das Geschlecht kann
selbst eine Zufallsvariable sein (wenn der Forscher z.B. 100 zufällig ausgewählte
Kinder befragt) oder vorab festgelegt (wenn der Forscher 50 Jungen und 50
Mädchen zufällig auswählt und diese dann nach ihren Vorlieben fragt).
Universitätsklinikum Schleswig-Holstein ©2012
34
Wenn X1, …, Xk unabhängige, standard-normalverteilte Zufallsvariable sind, dann
bezeichnet man die Verteilung der Quadratsumme
k
χ 2 = ∑i=1 X i2
(die natürlich auch eine stetige Zufallsvariable ist) als χ2-Verteilung mit k
Freiheitsgraden.
Universitätsklinikum Schleswig-Holstein ©2012
35
Wie viele männliche Patienten mit einer Pneumonie wären in der Studie zu
erwarten, wenn die Disposition zur Pneumonie unabhängig vom Geschlecht ist,
d.h. wie groß ist e11? Die Wahrscheinlichkeit, dass eine zufällig aus der Studie
ausgewählte Person männlich ist, beträgt 50/150; die Wahrscheinlichkeit, dass
diese Person eine Pneumonie hatte, beträgt 15/150. Unter der Annahme der
Unabhängigkeit von Geschlecht und Pneumonie, d.h. von Zeilen- und
Spaltenzugehörigkeit, ergibt sich für die Wahrscheinlichkeit des gleichzeitigen
Eintretens beider Ereignisse 50/150⋅15/150. Um e11 zu erhalten, muss diese
Einzelwahrscheinlichkeit noch mit der Gesamtzahl der Patienten multipliziert
werden, d.h. e11=150⋅50/150⋅15/150=5.
Da die Zellhäufigkeiten einer zweidimensionalen Tabelle diskret sind, kann eine
χ2-Statistik auch unter H0 nicht exakt, sondern nur angenähert einer χ2Verteilung folgen. Als Faustregel kann die Approximation dann als hinreichend
angesehen werden, wenn die erwartete Zellhäufigkeit eij für jede Zelle
mindestens 5 beträgt. Ist dies nicht der Fall, dann muss ein anderes Verfahren
wie z.B. Fishers exakter Test verwendet werden.
Wenn für mindestens eine Zelle 5≤eij≤ 10 zutrifft, dann wird eine so genannte
"Yates-Korrektur" der χ2-Statistik empfohlen. Diese Korrektur besteht einfach
darin, 0.5 von jeder Zellhäufigkeit oij abzuziehen, die größer als ihre Erwartung
ist (d.h. oij>eij), und 0.5 zu jeder Zellhäufigkeit oij hinzuzuaddieren, die kleiner
als ihre Erwartung ist (d.h. oij<eij). Hierbei handelt es sich um ein konservatives
Verfahren, das der Teststatistik zwar keine χ2-Verteilung verleiht, dafür aber
systematisch die Überschätzung der Signifikanz von Beobachtungen vermeidet.
Im vorliegenden Beispiel hätte eine Yates-Korrektur aber keine Konsequenzen.
Die korrigierte χ2-Statistik lautet 6.750 und ist damit ebenso hochsignifikant wie
Universitätsklinikum Schleswig-Holstein ©2012
36
der unkorrigierte Wert 8.333.
Universitätsklinikum Schleswig-Holstein ©2012
‹Nr.›
Der McNemar-Test eignet sich zur Beurteilung der Signifikanz von Änderungen
bei abhängigen, nominal skalierten Messwerten. Ein klassisches Beispiel hierfür
ist die Klärung der Frage, ob eine Wahlkampagne die Tendenz der Wähler zur
Unterstützung oder Ablehnung eines Kandidaten geändert hat. Obwohl wieder
zwei nominale Variable eine Rolle spielen ("vor" und "nach" der Kampagne,
beide jeweils mit den Ausprägungen "Unterstützung" bzw. "Ablehnung"), sind
die zugehörigen Beobachtungen per Design nicht unabhängig. Darum sieht der
McNemar-Test auch etwas anders aus als der klassische χ2-Test. Mit etwas
Nachdenken wird nämlich rasch klar, dass die Wähler, die bei Ihrer Meinung
geblieben sind (d.h. o11 und o22), keine Information über die Wirksamkeit der
Kampagne liefern. Sie tauchen daher in der McNemar-Statistik auch nicht auf.
Universitätsklinikum Schleswig-Holstein ©2012
37
Universitätsklinikum Schleswig-Holstein ©2012
38
Das hier dargestellte Szenario ist in der wissenschaftlichen Forschung als
"multiples Testproblem" bekannt. Es entsteht, wenn einen Forscher beim
statistischen Testen einer Vielzahl von Hypothesen neben den Einzelergebnissen
auch die so genannte "family-wise error rate (FWER)" interessiert. Die FWER ist
die Wahrscheinlichkeit, mit der mindestens eine richtige Nullhypothese
verworfen wird. Ein Skeptiker gegenüber Naturheilmitteln wäre z.B. nicht daran
interessiert, ob ein BESTIMMTES Mittel fälschlicherweise als wirksam eingestuft
wird, sondern ob dies für IRGENDEINS passiert. Eine solche Person würde also
die FWER kontrollieren wollen.
Universitätsklinikum Schleswig-Holstein ©2012
39
Im schlimmsten Fall, wenn nämlich 20 wahre Nullhypothesen in 20
unabhängigen Stichproben jeweils zum 5% Signifikanzniveau getestet werden
(d.h. αtest=0.05), würde man im Mittel "allein durch Zufall" eine Nullhypothese
ablehnen. Die Wahrscheinlichkeit, mit der mindestens eine der 20 wahren
Nullhypothesen verworfen wird, beträgt 1-0.9520=0.64, oder 64%.
Universitätsklinikum Schleswig-Holstein ©2012
40
Die Bonferroni-Korrektur für multiples Testen besteht in der Wahl des
testspezifischen Signifikanzniveaus αtest als Quotient aus dem multiplen
Signifikanzniveau α und der Anzahl der durchgeführten Tests n. Dabei versteht
man unter "multiplem Signifikanzniveau" die vom Wissenschaftler vor
Durchführung seines Experiments festgelegt Schranke für die FWER. Obwohl
dies eine einfache und nahe liegende Methode zur Kontrolle der FWER ist, bringt
die Bonferroni-Korrektur eine Reihe von Problemen mit sich.
Wenn die Stichproben, an denen die Tests durchgeführt werden, nicht
unabhängig voneinander sind, so ist die bedingte Wahrscheinlichkeit für einen
Typ-I-Fehler in einem bestimmten Test, gegeben dass in keinem anderen Test
ein Typ-I-Fehler passiert ist, in der Regel kleiner als αtest. Die BonferroniKorrektur ist in solchen Fällen sehr konservativ und führt zu einem unnötigen
Powerverlust. Für solche Fälle stehen andere, unglücklicherweise sehr viel
kompliziertere Verfahren zur Verfügung, um bei einer Korrektur für multiples
Testen die Abhängigkeit von Daten in Rechnung zu stellen.
Wenn die Bonferroni-Korrektur zur generellen Voraussetzung für die Akzeptanz
statistisch signifikanter Ergebnisse gemacht würde, wäre zu befürchten, dass
Wissenschaftler die wahre Anzahl der durchgeführten, und dabei insbesondere
der nicht signifikanten Tests verschweigen.
Carlo Bonferroni war ein italienischer Mathematiker, der zuerst in Bari und später
in Florenz einen Lehrstuhl für Finanzmathematik innehatte. Im Laufe seiner
Karriere entwickelte Bonferroni eine ausgeprägt frequentistische Sicht der
Wahrscheinlichkeit und leugnete schon die reine Möglichkeit, dass
subjektivistische Vorstellungen Gegenstand einer mathematischen
Wahrscheinlichkeitstheorie sein könnten.
Universitätsklinikum Schleswig-Holstein ©2012
41
Universitätsklinikum Schleswig-Holstein ©2012
42
Der Stichprobenumfang sollte bei "sauberer" Planung einer wissenschaftlichen
Studie VOR Beginn der Studie feststehen. Zudem wird das Signifikanzniveau nur
dann eingehalten, wenn am Ende der Studie nur EINE statistische Auswertung
wie geplant stattfindet. Werden Zwischenauswertungen vorgenommen, so
"verbrauchen" diese jedes Mal einen Teil des Signifikanzniveaus. Diesem
Umstand muss der Wissenschaftler durch geeignete Anpassung (d.h.
Reduzierung) des Signifikanzniveaus bei der Zwischen- und Endauswertung
Rechnung tragen.
Die Anwendung verschiedener statistischer Tests auf ein und dieselben Daten
kann sinnvoll sein, wenn diese Tests unterschiedliche Aspekte der Daten
beleuchten. Allerdings sieht sich der Wissenschaftler dabei eventuell einem
multiplen Testproblem gegenüber, was wiederum eine Korrektur der
testspezifischen Signifikanzniveaus für die Anzahl der bereits durchgeführten
Tests erfordert.
Das Signifikanzniveau eines statistischen Tests wird grundsätzlich vor dessen
Durchführung festgelegt, d.h. aus einem "signifikanten" Ergebnis kann kein
"hoch signifikantes" werden. Das nachträgliche Anpassen des Signifikanzniveaus
würde dem "Verschieben der Torpfosten" gleichkommen. Sollte das Ergebnis
einer wissenschaftlichen Studie in weitaus deutlicherem Widerspruch zur
Nullhypothese stehen, als durch das Signifikanzniveau zum Ausdruck kommt, so
kann dies durch Mitteilung des p-Wertes dokumentiert werden.
Universitätsklinikum Schleswig-Holstein ©2012
43
Universitätsklinikum Schleswig-Holstein ©2012
44
Herunterladen