Things I have learned (so far)

Werbung
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
Things I have learned (so far)
Jacob Cohen 1990
Abstract
Die Prinzipien „weniger ist mehr“ (weniger variablen – gezieltere Themen, scharfe grenzen),
„einfacher ist besser“ (grafik, gewichtseinheiten) und „einige Dinge welche du lernst sind
nicht so“ sind in der Statistik relevant. Falsche Auffassungen zu Fishers NullhhypothesenTesten, Effektgrößen zu beachten statt Signifikanzwerte, eine kritische Einstellung zur
Induktion, das Urteil des Versuchsleiter bestimmt die Interpretation und gut Ding braucht
Weile seien auch wichtige Einsichten in der Statistik.
1. Einige Dinge sind nicht so, wie du es gelernt hast
Früher beinhalteten alle statistischen Studien 30 Versuchspersonen. Mit der Power Analyse
stellte sich aber heraus, dass die Wahrscheinlichkeit, mit so einer kleinen Stichprobe einen
signifikanten Effekt zu finden, nur 47% betrug, mit 20 Personen nur mehr 33% usw.
2. Weniger ist mehr
Dieses Prinzip gilt für alles, außer die Stichprobengröße. Eine nicht exploratorische
Untersuchung sollte so wenig wie möglich abhängige sowie unabhängige Variablen
untersuchen: Die Anzahl der zu testenden Hypothesen entspricht nämlich mind. dem Produkt
der Variablen (abh.*unabh.). Somit ist die Wahrscheinlichkeit für ein signifikantes Ergebnis
sehr hoch und jene für einen unkontrollierten Alpha Fehler ebenfalls – was auch nicht durch
eine Bonferroni-Korrektur behoben werden kann. Es ist also besser, einer Studie eine
nützliche zentrale Idee zugrunde zu legen, sodass zielgerichtetes Testen von Hypothesen
anhand bestimmter Variablen sehr wahrscheinlich zu signifikanten Ergebnissen führt. Auch
bei multiplen Regressionen ist dem so, indem Redundanz mit der Anzahl von Variablen
steigt. Ein weiterer Anwendungsbereich für dieses Prinzip ist die Anzahl der Dezimalstellen:
Zuviele sind nur verwirrend!
3. Einfacher ist besser
Graphiken sind numerischen Berichten vorzuziehen, da sie eine Verteilung besser anschaulich
machen. Besonders gilt dies für bivariate Korrelationen (Scatterplot), wo zudem ersichtlich
wird, auf wie vielen Punkten eine solche Berechnung beruht. Die Berechnung selbst war
früher zu Bleistift- und Papier-Zeiten äußerst aufwändig, ist aber heute eine Frage von
Computer-Millisekunden. Dabei verliert man aber oft die eigentlichen Daten aus den Augen,
auch da man nicht mehr weiß, welche mathematische Prozedur der Statistik zugrunde liegt.
Die Komposition von Werten aufgrund Standardisierten Z-Scores sei ein Beispiel: Die
Stichprobengröße hat auf units-weighted Korrelationen keinen Einfluss, da keine instabilen
Korrelationskoeffizienten angenommen werden. Cross validated multiple Korrelation anhand
der Beta-weights variiert hingegen mit der Stichprobengröße. Die unit-weights funktionieren
auch außerhalb der multiplen Regression: Da U-W auf standardisierten Werten basieren,
funktionieren sie besser als Faktorwerte aus einem PC Programm. Mehrwertige graduelle
Variablen sollten aber nicht durch einen Cut „vereinfacht“ und z.B. dichotomisiert werden.
4. Die Fishersche Rechtsprechung
Das Null-Hypothesentesten ist die Methode der induktiven Inferenz. Man kann aufgrund der
Ergebnisse klare Entscheidungen treffen. Die 0,05 – p – Grenze führte auch zu zwanghaften
Daten-fehler-suchen, um diesem Urteil gerecht zu werden.
5. Die Null Hypothese testet uns
1
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
Wenn man einen p-Wert erhält, der mit Signifikanz von z.B. .026 zulässt, die 0-Hypothese zu
verwerfen, dann bedeutet das nicht, dass diese 2,6% die Wahrscheinlichkeit für das Zutreffen
der 0-Hypothese sind, sondern es ist die Wahrscheinlichkeit, dass unsere Daten vorliegen,
wenn die 0-Hypothese zutrifft! Dementsprechend sagt dieser Wert auch nichts über die
Wahrscheinlichkeit aus, dass die Alternativhypothese zutrifft. Andererseits bedeutet es nicht,
dass die 0-Hypothese zutrifft, wenn wir sie nicht verwerfen können. Ebenso ist ein Effekt
nicht signifikant oder wichtig aufgrund eines p-Wertes. Eigentlich ist eine (definitionsgemäß
eng in Zahlen konkretisierte) Nullhypothese falsch, egal ob p.03, p.001 oder p.000000001 ist.
In der Realen Welt ist die Nullhypothese immer falsch. Erreicht man ein Signifikanzlevel
nicht, so bedeutet das nicht, dass die Nullhypothese richtig ist, sondern das bedeutet nur, dass
man nicht schlussfolgern kann, dass die Nullhypothese falsch ist. Mit der Einführung der
Effektstärke konnte daraus und der Wahrscheinlichkeit für Alpha- und Beta-Fehler die
notwendige Stichprobengröße berechnet werden: Pearson und Neyman setzten einen Rahmen
für das Hypothesentesten mit 4 Parametern: Die Alpha Signifikanz, die Stichprobengröße, die
Populations-Effektstärke und die Power des Tests. Jeder dieser Parameter ist eine Funktion
der anderen drei. Daraus entwickelte Cohen die Metaanalyse – die er anwandte indem er die
(meist sehr niedrige) Power der damals (bis 1969) publizierten Studien berechnete.
Demgemäß lässt sich auch die Schwerwiegende Annahme der Nullhypothese (wenn die
Studie nicht signifikant ist) kritisch betrachten, wenn die Wahrscheinlichkeit, einen Effekt zu
übersehen (Beta Fehler) größer als .05 ist. Aber für Beta unter so eine Grenze zu kommen,
bedarf enormer Stichprobengrößen! Je kleiner der Effekt ist, den man entdecken möchte,
desto größer muss die Stichprobe sein. Effektstärke aufgrund der Poweranalyse ist jedenfalls
wesentlich aussagekräftiger als ein Signifikanzwert. Trotzdem dauerte es sehr lange, bis sich
diese Ansicht durchgesetzt hatte. Beachtet man die Effektstärke nicht, so kann man auch eine
Korrelation von r=.0278 zwischen Größe und IQ als hochsignifikantes Ergebnis publizieren…
Die Metaanalyse forcierte die Durchsetzung der Überprüfung von Effektstärken. Trotzdem sei
noch einmal darauf hingewiesen, dass wir vergessen haben, woher unsere Zahlen kommen,
z.B. ist die Fehlervarianz auf eine Komponente im F reduziert, anstatt dass sie selbst reduziert
werden würde!
6. Wie Statistik genutzt werden sollte
Die Exploratorische Datenanalyse nach Tukey ist vielfach in Vergessenheit geraten, ist aber
nützlicher als man denkt!
Die Untersuchung selbst sollte auch gut geplant werden – man kann dies anhand Alpha,
Effekt, (Beta bzw. :Power = 1- Beta) Power und Stichprobengröße tun.
Effektstärken werden in Form von Differenzen berechnet – aber zur Verständlichkeit und
Generalisierbarkeit in d-Werte Standardisiert.
Ein Konfidenzintervall ist informativer als ein p-Wert: Es zeigt zwar auch die Signifikanz,
aber zudem die Breite der p-Werte.
Statistiker müssen sich auch immer bewusst sein, dass sie ein informiertes Urteil fällen, das
also die Schlussfolgerung beeinflusst. Sie bestimmen was sie untersuchen, welche Daten sie
brauchen und wie sie diese bekommen.
Ein einziges Ergebnis ist noch keine fertige Forschung sondern nur ein Beleg: Weitere Belege
sind notwendig und machen das Ergebnis nur immer noch ein Stück wahrscheinlicher.
Letztendlich muss auch gesagt sein, dass die Dinge ihre Zeit brauchen. Power berechnet heute
jedes Computerprogramm, aber aktuelle Forschung beschäftigt sich nicht mit dem Thema.
Aber das wird wohl noch kommen…
2
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
The Earth is round (p<.05)
Jacob Cohen, 1994
Noch immer werden 0-Hypothesen mit einem p<.05 Signifikanztest verworfen und die
Theorie bestätigt. Exploratorische Datenanalyse, graphische Methoden, Verbesserung und
Standardisierung der Messung, Effektstärken schätzen, Konfidenzintervalle, und informierte
Nutzung der statistischen Methoden sollte in Zukunft wichtiger werden. Generalisierung
beruht immer noch auf Replikation.
Statistik und der Streit rundum sind schon lange nicht mehr aufregend bzw. originell.
Hypothesentesten (NHST) ist ein Ritual und wurde viel beschimpft. Das Problem mit NHST
ist, dass sie uns sagt: „Wenn H0 wahr ist, was ist die wahrscheinlichkeit von diesen oder
extremeren Daten?“. Aber wir wollen eigentlich wissen: „Wenn es diese Daten gibt, was ist
die Wahrscheinlichkeit, dass H0 wahr ist?“ Und viele glauben, das zu erfahren.
Eine permanente Illusion! Deduktives syllogistisches Schlussfolgern wird falsch angewandt:
Wenn die Null Hypothese korrekt ist, dann kann es diese Daten (D) nicht geben.
Es gibt diese Daten.
Also, die Null Hypothese ist falsch.
Wenn das das Schlussfolgern des H0-testens wäre, dann wäre es formal korrekt, ein Modus
Tollens, wo der antecendent verneint wird und somit auch der consequent. Aber NHST ist ein
probabilistisches Schlussfolgern:
Wenn die Null Hypothese korrekt ist, dann sind diese Daten sehr unwahrscheinlich.
Es gibt diese Daten.
Also, die Null Hypothese ist sehr unwahrscheinlich.
Das stimmt jetzt nicht mehr! Warum nicht?
Wenn eine Person ein Martianer ist, dann ist er kein Mitglied des Kongresses.
Die Person ist Mitglied des Kongress.
Also, sie ist kein Martianer.
Ein Modus Tollens kann unsensibel sein, insofern als dass die Form stimmt aber der
antecedenz falsch ist.
Wenn eine Person Amerikaner ist, dass ist sie kein Mitglied des Kongresses.
(FALSCH!!!)
Die Person ist ein Mitglied des Kongresses.
Die Person ist kein Amerikaner.
Man könnte den antesedens probabilistsisch anstatt absolut formulieren, damit er sensibel ist.
Dann ist aber der syllogismus formal inkorrekt und die konklusion nicht mehr sensibel.
Wenn eine Person Amerikaner ist, dann ist sie wahrscheinlich kein Mitglied des
Kongress (WAHR, RICHTIG?)
Diese Person ist ein Mitglied des Kongress.
Daher ist sie wahrscheinlich kein Amerikaner.
Das entspräche der Formulierung:
Wenn die H0 wahr ist, dann würde dieses Resultat (statistisch Signifikant) nicht
auftreten.
Das Resultat trat auf.
Also, die H0 ist wahrscheinlich nicht wahr und darum formal invalide.
Diese Formulierung ist aber in etwa das, was man in jedem psychologischen Artikel wieder
findet: Die Illusion Unwahrscheinlichkeit zu beschreiben.
Warum P(D|H0) =not P(H0|D).
Beim Testen einer H0 findet man die Wahrscheinlichkeit, dass die Daten D auftreten konnten,
wenn H0 wahr wäre P(D|H0). Bei kleiner Wahrscheinlichkeit sind die Daten
3
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
unwahrscheinlich. Interessant ist aber die inverse Probabilität, nämlich die Wahrscheinlichkeit
für die Richtigkeit von H0 sofern es die Daten gibt P(H0|D). Man will ja die H0 mit einer
bestimmten Wahrscheinlichkeit verwerfen. Dazu müsste man aber zuerst die
Wahrscheinlichkeit für H0 finden – und die wissen wir nicht. Als Beispiel führt Cohen an,
dass ein Schizophrenie-Test von den 2%Prävalenten Schizophrenie-Fällen mit 95%
Sensitivität (richtig positive Diagnose) und 97% Spezifität (richtig negative Diagnose) nicht
mit p<.05 Schizophrenie erfasst sondern mit p=.6, da die Wahrscheinlichkeit der Null
Hypothese nicht berücksichtigt wurde. Natürlich kann aber nicht für jede Wissenschaft
vorausgesetzt werden, dass die Wahrscheinlichkeit der 0Hypothese bekannt sein muss.
(Bayesian prior) Auch Popper testete wissenschaftliche Theorien indem er versuchte, sie zu
falsifizieren. Aber man darf eben nicht behaupten, eine Theorie wäre bestätigt, wenn
eigentlich nur die Null-Hypothese verworfen wurde. Der Fehler inverser Wahrscheinlichkeit
bei der Interpretation der H0 wurde in der Literatur von vielen Forschern begangen.
Man glaubte auch, dass ein signifikanter Befund mit hoher Wahrscheinlichkeit repliziert
werden könnte, was aber in Anbetracht der typischen .50-Power solcher Studien lustig klingt:
Wir hätten eine 50:50 Chance für eine Replikation!
Außerdem, wenn eine H0 verworfen werden kann, so kann dies aufgrund der falschen Theorie
über die Instrumentation oder aufgrund der Natur der Psyche oder aufgrund anderer
Umstände sein und nicht aufgrund der Theorie, welche die Forschung anleitet.
Hypothesentesten ist also nicht einfach eine objektive Angelegenheit, sondern die z.T. nicht
gemessenen oder gar nicht messbaren Rahmenbedingungen spielen eine beträchtliche Rolle
wenn es um die Aussagekraft eines Ergebnisses geht.
Die Nil-Hypothese
Die Null Hypothese ist immer falsch, weil es unmöglich ist, dass genau 0 rauskommt. Man
könnte jede beliebige 0 Hypothese aufstellen: Die Effektstärke ist 0, die Reliabilität ist 0 etc.
und das kann alles ganz einfach sogar durch eine sehr kleine Stichprobe widerlegt werden.
Und egal wie klein der Effekt ist, es lässt sich jeder noch so winzige Effekt nachweislich
signifikant machen, wenn nur die Stichprobe groß genug ist. Meehl führte eine Riesenstudie
durch, wo hoch signifikante Korrelationen zwischen verschiedenen Eigenschaften resultierten
– klar! Aber die Korrelationen waren nicht einmal gar so niedrig – auch klar, wenn man
bedenkt, dass irgendwie alles mit allem anderen zusammenhängt (crud factor). Und nach
einer genaueren Untersuchung zeigte sich, dass aufgrund dieses crud factors eine WK von 1:1
mit einer Power von .75 angenommen werden kann, und dass die Bayesian posterior
probability sowie die prior probability <=.1 ist, kommt man zu dem Schluss, dass die Theorie
9:1 wahrscheinlich doch nicht stimmt...
Meta-Analysen brachten auch eine tiefere Einsicht in das Thema. Schmidt erinnerte die
Forscher, dass, da die 0Hypothese immer falsch ist, keine Beta Fehler mehr gemacht werden
können und nur noch Alpha Fehler gemacht werden, und diese sogar mit 50%
Wahrscheinlichkeit. Weiters ist die für ein signifikantes Ergebnis notwendige Effektgröße
deutlich größer in einer Stichprobe als in der eigentlichen Population und der Mittelwert der
statistisch signifikanten Effektgrößen ist viel größer als die eigentliche Effektgröße. D.h. man
überschätzt Effektgrößen. Eine Bonferronikorrektur (o.a. Sophisticates) würde einen
nichtexistenten Alpha-Fehler korrigieren und – sofern das Resultat dann noch signifikant ist –
die Effektstärke vergrößern – also überschätzen.
Das Ergebnis-Berichten anhand von pWerten bedeutet eine Quantifizierung der Wissenschaft.
Aber auch eine korrekte Interpretation macht nicht alles gut. Meistens wird ein signifikantes
Ergebnis als „Richtung“ (das ist mehr als das) interpretiert, selten aber mit einem
Konfidenzintervall. Tukey wies auch darauf hin, dass Korrelationen (nicht wie Regressionen)
als Funktion der auserwählten Population variieren. Korrelationen sagen nichts über eine
4
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
Kausalität aus. Um eine echte Regression zu erarbeiten, bedarf es einer tieferen Einsicht in die
Einheiten, mit denen auf der Basis operiert wird.
Also was tun?
Erstens, es gibt keine Alternative für NHST.
Zweitens, bevor von Daten aus generalisiert wird, sollten die Forscher diese Daten selbst
verstanden und verbessert haben – man denke auch an die Exploratorische Datenanalyse und
graphische Darstellungen.
Drittens sollten Ergebnisse besser anhand von Konfidenzintervallen berichtet werden, da
diese alle und mehr Informationen enthalten, da sie die nil hypothese blosstellen sowie auch
non-nil null hypothesen und an die Operation mit einem crud-Factor erinnern. So zeigen sie
auch den Zusammenhang zur Power anhand der Stichprobengröße in ihrer Breite.
Inference by Eye: confidence Intervals and How to
read Pictures of Data
G. Cumming and S. Finch, 2005
Einleitung
Konfidenzintervalle werden noch immer kaum von Psychologen verwendet um ihre Resultate
zu berichten. Besonders geeignet für Abbildungen sind Fehler-Balken. Konfidenzintervalle
sind generell die beste Art, empirische Daten zu berichten. Sie sollten graphisch dargestellt
werden. Leider gibt es aber noch keine offiziellen Richtlinien, wie diese Darstellung zu
erfolgen hat.
Konfidenzintervalle und Fehlerbalken: Grundsätzliches
Der Mittelwert einer Stichprobe ist ein punktueller Schätzwert des Mittelwertes der
Population. Das Konfidenzintervall (95%) ist eine Intervall-Schätzung, welche die Präzision
unseres punktuellen Schätzwertes angibt. Die 95% sind das Konfidenzniveau und folgt einer
Konvention. Das Konfidenzintervall ist ein Bereich um den Mittelwert im Zentrum, welches
sich um eine Distanz von w (width, breite) um den Mittelwert erstreckt. Diese Distanz auf
jeder Seite des Mittelwertes nennt sich „margin of error“ bzw. Standardfehler des
Mittelwertes (w= SE*t[(n-1),c] d.h. SE multipliziert mit dem kritischen Wert der Signifikanz,
und SE= SD/√n). Um mit größerer Sicherheit sagen zu können, dass das Konfidenzintervall
den Populationsmittelwert μ enthält, wählen wir ein breiteres Konfidenzintervall, z.B. 99%
statt 95%.
Konfidenzintervalle sind also geschätzte Wertbereiche, die mit einer hohen
Wahrscheinlichkeit den wahren Populationsmittelwert enthalten. Aber Vorsicht: Es ist korrekt
zu sagen, dass die Wahrscheinlichkeit für (M-w≤μ≤M+w)=.95, aber diese oberen und
unteren Grenzen variieren von Stichprobe zu Stichprobe. Man darf also nicht behaupten, ein
bestimmtes, in Zahlen ausgedrücktes Konfidenzintervall (z.B. 55, 98) enthielte mit einer
bestimmten Wahrscheinlichkeit μ, denn das würde bedeuten dass der Populationsmittelwert
variabel ist, hingegen ist μ ein fixer Wert! Auf lange Sicht wird erwartet, dass 95% (bzw.
C%) der Konfidenzintervalle μ enthalten.
Die Vorteile von Konfidenzintervalle sind,
- dass sie eine verständliche punktuelle und Intervallschätzung der Messeinheiten geben
- es gibt einen verständlichen Zusammenhang zwischen Konfidenzintervall, p-Wert und
wohl bekanntem Nullhypothesentesten
5
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
-
Evidenz verschiedener Experimente kann gut kombiniert werden, da
Konfidenzintervalle Metaanalysen und solches Denken für Schätzungen stützen
- es steckt eine gute Information über Präzision in Konfidenzintervallen, die nützlicher
ist, als die Berechnung von Statistischer Power.
Es gibt gewiss auch Studien, wo die Anwendung von Konfidenzintervallen etwas
komplizierter wird, doch für diesen Zweck gibt es entsprechende Literatur.
Auch im klassischen, dichotomen Nullhypothesentesten schlug die APA vor, nicht einfach
eine Ja/Nein Entscheidung mit einem Signifikanzniveau zu berichten sondern den exakten pWert. Dies ist auf jeden Fall ein Fortschritt, zumal es zu einer quantitativeren Theoriebildung
führen sollte.
Graphisch stehen wir vor einem Ambiguitätsproblem, da die Darstellung mit Fehlerbalken des
Konfidenzintervalles (CI) gleich aussieht, wie jene konventionelle für Standardabweichungen
(SD) und Standardfehler (SE). Außerdem sollte der C Wert im Bildtext immer angegeben
werden, da er 95%, 99% oder etwas anderes sein könnte.
Graphisch dargestellt, könnte man für ein klassisches 2-Gruppen-Versuchsdesign ein
zusätzliches Konfidenzintervall darstellen, welches mit einer eigenen Skala versehen, die
Differenz zwischen den beiden Gruppen angibt. Das Konfidenzintervall dieses dritten Balkens
ist deshalb breiter, da es die Messfehler beider Gruppen enthält. Für ein
Messwiederholungsdesign empfiehlt sich die dieselbe Darstellung, mit dem Unterschied, dass
das Differenz-Konfidenzintervall nun schmäler ist, da die Messfehler aus einer Gruppe
stammen. Eine dritte Möglichkeit ist die Darstellung einer Metaanalyse, wo mehr als ein
Experiment in einen gepoolten Mittelwert zusammengefasst werden und wo das
Konfidenzintervall wiederum schmäler ist: Der neue Mittelwert ist eine bessere Schätzung des
Populationsmittelwertes.
Diese drei Versionen sind deshalb besonders Vorteilhaft, weil aus einem Balken direkt die
relevante Information für die Fragestellung (Differenz oder Gesamtmittelwert) abgelesen
werden kann. So können auch Haupteffekte, Interaktionen oder jegliche Kontraste dargestellt
werden.
Regeln zur visuellen Interpretation: “Rules of Eye for Reading Data Pictures with Cis”
1. Identifikation der Bedeutung des Mittelwertes und der Fehlerbalken:
a. Welche ist die abhängige Variable? Ist sie in originalen Einheiten oder
Standardisiert dargestellt?
b. Zeigt das Bild CI, SD oder SE und welcher C-Wert gilt?
c. Welches experimentelle Design liegt vor?
d. Welcher Effekt ist relevant und wie wird er dargestellt?
2. Eine substantielle Interpretation der Mittelwerte vornehmen: Wie wichtig und wie
groß ein Effekt ist, sollte aufgrund praktischer oder klinischer Signifikanz anstatt
Statistischer Signifikanz beurteilt werden.
3. Eine substantielle Interpretation des Konfidenzintervalles vornehmen:
- Dabei sollte der C-Wert und der Wertebereich im Konfidenzintervall
berücksichtigt werden.
- Das Konfidenzintervall ist eine Spannbreite plausibler Werte für den
Populationsmittelwert (Wahrscheinlichkeit p>.05). Jene Werte außerhalbe des
Konfidenzintervalles sind relativ unplausibel (p<.05 im klassischen
Nullhypothesentesten).
- w ist mit der Wahrscheinlichkeit C die geschätzte, größtmögliche
Fehlerabweichung vom Populationsmittelwert und somit ein Präzisionsindex.
4. Für den Vergleich zweier unabhängiger Mittelwerte gilt p≤.05, wenn die Überlappung
der 95% Konfidenzintervalle nicht mehr als ca. die Hälfte des mittleren
Standardfehlers ist (die Proportion der Überschneidung ist .05 oder weniger). p≤.01
6
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
gilt, wenn die zwei Konfidenzintervalle keine Überlappung haben, also die Proportion
der Überschneidung 0 ist oder sogar ein positiver Abstand dazwischen liegt. Diese
Richtlinien gelten, wenn beide Stichproben mind. 10 VPs enthalten und wenn sich die
Standardfehler nicht mehr voneinander unterscheiden als durch einen Faktor von 2.
Natürlich ist diese Schätzmethode etwas konservativ.
5. Für den Vergleich von abhängigen Mittelwerten muss ein zusätzlicher Balken zur
Interpretation der Differenz herangezogen werden – dieser ist für (4) eher nicht zu
empfehlen, hier aber die einzig richtige Möglichkeit. w ist schmäler als die einzelnen
w der Stichprobenmittelwerte, wenn die Korrelation positiv ist, gleich groß, wenn die
Korrelation 0 ist und größer, wenn die Korrelation negativ ist.
p-Werte zu interpretieren ist eine Entscheidung aufgrund der Theorie, die dahinter steckt –
es ist demgemäß ein Leichtsinn den feinen Unterschied zwischen .04 und .07 für eine
schwere Entscheidung relevant zu machen. Daher sind Konfidenzintervalle eher für die
Inferenz eines Ergebnisses, nicht aber für eine Entscheidung oder anstatt eines p-Wertes
zu Interpretieren.
6. SE-Balken bedeuten etwas anderes als CI-Balken: Es ist aber schwieriger, sich die
visuelle Darstellung von SE anhand der Stichprobengröße und C mental multipliziert
vorzustellen. Daher folgende Empfehlung: Wenn n mind. 10 ist, dann können SEBalken in etwa verdoppelt werden um 95% CI zu erhalten. Der SE Balken selbst gibt
in etwa 68% des CI wieder, sodass 2/3 der SE Balken den Populationsmittelwert
enthalten würden. Wenn n kleiner 10 ist, so geben SE-Balken ein Konfidenzintervall
mit weniger als 68% C wider.
7. Für einen Vergleich zweier unabhängiger Mittelwerte von Stichproben mit n=mind.
10 und SE unterscheiden sich nicht mehr als durch einen Faktor von 2, ist p≤.05,
wenn der Abstand zwischen den SE-Balken mindestens die Größe des mittleren SE
beträgt. p≤.01 wenn das Verhältnis des Abstandes zum SE 2:1 oder mehr ist.
Außerdem...
Ein Problem ist die graphische Darstellung eines Designs mit einem between- und einem
within- (Messwiederholungs-) Faktor. Die Konfidenzintervalle können den Between-Effekt
darstellen, für den within-Effekt müssten aber separate Differenz-Konfidenzintervalle gezeigt
werden.
Es gibt inzwischen auch Studien über Statistische Kognition. Das ist die Untersuchung der
mentalen Repräsentation statistischer Methoden. So sollten die Darstellungsweisen verbessert
werden können.
Statistical, Practical and Clinical: How many Kinds
of Significance do counselors need to consider?
Bruce Thompson, 2002
Im Hinblick auf diese 3 Arten der Signifikanz werden ein Konzept für die vielen Praktischen
Effektgrößen, Größenindizes für Therapeuten, die Schätzung korrigierter Interventionseffekte
vorgestellt. Leser sollten also Praktische oder Klinische signifikanz-Berichte erwarten und
lesen können, wobei manche Fachzeitschriften den Bericht solcher Daten sogar von den
Autoren verlangen.
7
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
Kleine Zeittafel und Einführung
1710 Arbuthnot: Statisische Analysen Londoner Geburtsraten
1900 Pearson: Chi-Square
1908 Gossett, Pseudonym „Student“: t-test
1918 Fisher: Varianzanalyse
1934 Snedecor: ANOVA mit F nach Fisher
Kritik gibt es auch seit es Signifikanztests gibt: 1919 Boring „Mathe vs. Wissenschaft“
Praktische und/oder Klinische Signifikanz sind für Therapieforschung wichtig und sollten
daher auch berichtet werden.
Drei Arten der Signifikanz
Statistische Signifikanzschätzungen geben die Wahrscheinlichkeit p an, dass die Daten
auftreten konnten, wenn H0 wahr wäre. Das heißt sie sagen NICHTS über die
Wahrscheinlichkeit der Populationswerte aus. Außerdem sagen sie nichts über die Relevanz
der Ergebnisse aus: Auch wenn ein Ergebnis sehr unwahrscheinlich ist (Zufall?) oder sehr
wahrscheinlich, aber nicht ungewöhnlich und ohnehin erwartet wird, so kann es dennoch
wichtig sein. Außerdem sollte man sich auch immer vor Augen halten, dass die Statistischen
Signifikanztests die Zahlen verrechnen, die man in den Computer getippt hat – und diese
können fehlerhaft sein...
Praktische Signifikanz entfernt sich von dieser ordinalen Denkweise des mehr oder weniger
bzw. des Unterschiedes. Demgemäß haben Fisher den eta squared, Kelley den epsilon squared
u.ä. zur Messung der Effektstärke vorgeschlagen, da damit der Effekt der Stichprobengröße
auf das Signifikanztesten ausgeglichen wird.
Klinische Signifikanz ist die Grundlage für Entscheidungen in Therapie und Medikation. Sie
werden in diagnostischen Kriterien operationalisiert und angewandt. Diese Signifikanz
bezieht sich auf den praktischen oder angewandten Wert oder die Relevanz eines Effektes
einer Intervention. Das heißt, die Frage ist, ob eine Intervention eine wirkliche Veränderung
im Alltag der Klienten bzw. der Angehörigen bzw. damit tätigen Personen ausmacht.
Interventionen können also klinisch Signifikant sein, auch wenn sie keinen „Effekt“
aufweisen, da es hier um Lebensqualität geht, wo jeder Zuwachs relevant ist!
Wie viele Arten der Signifikanz sind notwendig?
Statistische Signifikanz reicht nicht aus, wenn es sich um wirklich wichtige,
lebensnotwendige Interventionen handelt: Effekte, die in z.B. 200 Studien p=.06 erreichen,
seien mit dem Zitat von Rosnow&Rosenthal (1989) bedacht: „surely, God loves the .06 nearly
as much as the .05“. Es sollte also keine Ja/Nein Frage sein, sondern etwas mehr als A ist
besser als B: Wir wollen wissen, um wie viel A besser ist. Außerdem sollten Studien nicht nur
die Effektgrößen berichten, sondern sich auch auf die Konsistenz der Intervention in
verschiedenen Settings beziehen, indem vorangegangene Studien mit dem aktuellen Befund
verglichen werden.
Effektgrößen sollten auch berichtet und interpretiert werden. APA „ermutigte“ Autoren
zunächst nur dazu, doch inzwischen gibt es zahlreiche Zeitschriften, die Effektgrößenberichte
verlangen. Das APA 2001 Pubblication Manual schreibt nun auch dass es fast immer
notwendig ist, Effektstärken zu berichten. Idealerweise enthalten Forschungsartikel also die
praktische und die klinische Signifikanz – wobei anzumerken ist, dass die klinische
Signifikanz Methodisch und Philosophisch viel schwieriger zu bewerten ist. Effektmaße
werden unterteilt in:
8
Summary Articles „Evaluationsmeth.SS06“ ©Kiwi - Disclaimer: [email protected]
Unkorrigiert
Korrigiert
Standardisierte
Differenzen
Glass’s g’
Cohen’s d
Thompson’s
„Corrected“ d*
Relationship VarianceAccounted-For
eta² (η²; auch correlations-ratio
genannt (kein Korrelationskoeffizient!)
Hay’s omega² (ω²)
Adjusted R²
Standardisiert bedeutet, dass die Skalierung einheitlich vorgenommen wird: Ein Wert wird
durch einen anderen dividiert, und schon hat man eine standardisierte Skalierung.
Glass g’ ergibt sich, wenn man die mittlere Differenz durch die Standardabweichung der
Kontrollgruppe dividiert.
Cohen’s d hingegen verlangt eine gepoolte Standardabweichung (aus Interventionsgruppen
und Kontrollgruppe) für diese Division. Er gab auch Richtwerte für die Interpretation an: .2
ist klein, .5 ist mittel und .8 ist groß. Diese Werte sollten allerdings auch nicht blind
angewandt werden.
Man kann jede ANOVA auch als Korrelation berechnen, wie auch aus dem General Linear
Model hervorgeht. R² ergibt sich in der multiplen Regression aus der Division der Summe der
Quadrate durch die Total-Summe der Quadrate. Dieser Effekt sagt aus, welcher Prozentanteil
der Variabilität der individuellen Differenzen durch die Prädiktorvariablen erklärt bzw.
vorausgesagt werden kann.
In der ANOVA ist der analoge Effekt-Messwert eta² (η²) und ergibt sich aus der Division der
Summe der Quadrate between durch die Summe der Quadrate Total.
Da jede Stichprobe im Prinzip irreproduzierbaren Charakter hat (jeder Mensch ist anders…),
wird mit allen GLM-Analysen (ANOVA, Regression…) der wahre Populationseffekt
überschätzt, da diese Variabilität in den gemessenen Effekt mit einfließt. Bei der Berechnung
gibt es drei Design-Faktoren, welche eine größere Fehlervarianz hervorrufen: Kleine Studien
haben einen größeren Messfehler, mehr gemessene Variablen haben einen größeren
Messfehler und der Messfehler ist auch größer, wenn der Populationseffekt kleiner ist.
Da wir den wahren Populations Varianz-gemessen-für-Effektstärke –Wert wissen, wird
nämlich immer der gemessene Effekt als der geschätzte Populationseffekt in den
Korrigierungen verwendet.
Man kann die Effektwerte auch ineinander transponieren (umrechnen), wobei zu beachten ist,
dass die Standardisierten Differenzen nicht quadriert sind, die variance-accounted-for
Effektstärken aber Quadriert-metrisch sind. Zur Umrechnung gibt es entsprechende Formeln.
Z.B. Eine Korrigierte, standardisierte Differenz (d*) kann berechnet werden, indem man d in r
umwandelt und das r quadriert. r² wird mit der Messfehler-Varianz-Korrigierformel korrigiert
und in r* zurückgewandelt und dann in d* zurückgewandelt. Die standardisierte Differenz ist
kleiner, da der originale Effektstärkenwert vom Messfehler bereinigt wurde. So ein Wert ist
zwar konservativer aber dafür leichter replizierbar (und natürlich genauer!).
Zu den Effektstärken empfiehlt die Task Force (APA) auch den Bericht von
Konfidenzintervallen.
Diskussion
p-Werte reichen also nicht aus um eine Studie zu berichten. Wir benötigen dazu die
Effektstärke, um den Einfluss der Stichprobengröße zu berücksichtigen. Außerdem müssen
die Effekt-Indizes den typischen Effekt und einen Bereich klinischer Effekte für alle Studien
bezeichnen. Effektstärken sind nützlich um Voraussagen aufgrund vorliegender Befunde aus
älteren Studien zu treffen und um aktuelle Studien zu interpretieren. Dazu kommt, dass die
Replizierbarkeit dadurch besser beurteilt werden kann. Klinische Signifikanz hängt mit dieser
Praktischen Signifikanz zusammen. Sie beruht aber auch auf einer gewissen Subjektivität.
9
Herunterladen