Allgemeines zu statistischen Tests Lohöfer: Mathematik für

Allgemeines zu statistischen Tests
1
Sicherheit von Testergebnissen:
Im Unterschied zu logisch korrekten Schlüssen der Mathematik, welche immer garantiert („hundertprozentig“)
richtig sind, d.h. in Übereinstimmung mit der Theorie, dafür aber andererseits nicht die Wirklichkeit beschreiben
müssen, sind logisch korrekt gewonnene Schlüsse der Statistik Aussagen mit einer gewissen (hoffentlich hohen)
Wahrscheinlichkeit, mit der Wirklichkeit übereinzustimmen, und zugleich einer (hoffentlich kleinen)
Wahrscheinlichkeit, die Wirklichkeit nicht zu beschreiben.
Ist eine statistische Aussage über die Wirklichkeit mit mindestens 95% Sicherheit richtig, so heißt die Zahl 0,95
Konfidenzzahl = Konfidenzkoeffizient der Aussage. Folgende Formulierungen sind gleichbedeutend:
die Aussage ist mit mindestens 95% Sicherheit richtig
⇔
die Aussage hat eine statistische Sicherheit von 95%
⇔
die Aussage hat eine Irrtumswahrscheinlichkeit von höchstens 5%
⇔
die Aussage ist auf dem Signifikanzniveau von 5% getroffen worden,
⇔
die Aussage ist auf dem statistischen Niveau 5% gesichert.
Merke:
Sicherheit = 1 − Niveau = 1 − Irrtumswahrscheinlichkeit.
Rolle der Nullhypothese im Test:
Statistische Tests gehen immer von einer Nullhypothese H0 aus. Diese besagt, dass zwei statistische Größen sich
nur im Rahmen des Zufälligen unterscheiden (z.B.: Zwei Mittelwerte x1 und x 2 als Näherungswerte für denselben
Erwartungswert µ, eine relative Häufigkeit h und die vermutete zugehörige Wahrscheinlichkeit p). Tatsächlich
sind aber Tests unfähig, Gleichheit zu erkennen (auch ungefähre Gleichheit nicht). Vielmehr erkennen Tests
höchstens Ungleichheit, wenn sie groß genug/auffällig genug/bedeutungsvoll genug ist. Wie groß die
Ungleichheit sein muss, um vom Test erkannt zu werden, hängt vom einzelnen Test ab. Grundsätzlich gilt:
Wenn man einen statistischen Test einsetzt, versucht man damit immer, die Nullhypothese zu widerlegen.
Wenn der Test mit 95% Sicherheit
⇔
mit 5% Irrtumswahrscheinlichkeit
⇔
auf dem Signifikanzniveau 5%
zu dem Ergebnis kommt, „die Nullhypothese H0 ist falsch“,
so sagt man, er „lehnt die Nullhypothese ab“.
Dann besteht aber immer noch ein Restrisiko von 5%, dass die Nullhypothese H0 in Wirklichkeit zutrifft. Wenn
tatsächlich die Nullhypothese richtig ist, obwohl der Test sie ablehnt, so macht der Test einen Fehler 1. Art (d.h.
der Test konstatiert einen bedeutungsvollen Unterschied, wo de facto alle Unterschiede auf bloßem Zufall
beruhen). Das Signifikanzniveau 5% garantiert also, dass Fehler 1. Art (Diagnostizierung de facto nicht
vorhandener Unterschiede) mit höchstens 5% Wahrscheinlichkeit auftreten.
Wenn hingegen der Test auf dem Signifikanzniveau 5% die Nullhypothese nicht ablehnt, sondern annimmt,
so bedeutet das nicht: „H0 ist mit 5% Irrtumswahrscheinlichkeit richtig“, sondern nur: „H0 ist mit weniger als
95% Sicherheit falsch“. Es könnte dann also sein, dass der Test bloß deshalb die Nullhypothese nicht ablehnt,
weil sie „nur“ mit 94% Sicherheit falsch ist. Man sagt daher, statistische Tests sind konservativ, d.h. sie haben
eine sehr starke Tendenz, eher die Nullhypothese anzunehmen, alle Unterschiede auf Zufall zurückzuführen und
keine bedeutungsvollen Unterschiede zu erkennen. Wenn der Test die Nullhypothese nicht ablehnt/nicht
ablehnen darf, (weil ihm die nötige Sicherheit fehlt), obwohl sie in Wirklichkeit falsch ist, macht der Test einen
Fehler 2. Art.
Mit welcher Sicherheit die Nullhypothese richtig ist, wenn sie vom Test NICHT abgelehnt wird, kann man
genau nicht einschätzen, d.h. das Risiko von Fehlern 2. Art (Nichterkennen de facto vorhandener Unterschiede)
ist im konkreten Einzelfall immer unbekannt, im Allgemeinen aber ziemlich hoch. Es hängt einerseits vom
einzelnen Test ab, ist aber grundsätzlich umso höher, je kürzer die Messreihe ist. Durch Verlängerung der
Messreihe wird es also immer reduziert. Es kann aber eventuell sehr arbeitsaufwendig, teuer oder schwierig,
wenn nicht unmöglich sein, mehr Messdaten zu bekommen.
Umgekehrt gilt: Wenn die Nullhypothese auch bei sehr langen Messreihen nicht vom Test abgelehnt wird, ist sie
mit hoher (wie hoher?) Wahrscheinlichkeit tatsächlich richtig. Einfacher ist ein
Leistungsvergleich von Tests:
Wenn der Test A unzutreffende Nullhypothesen schon bei kürzeren Messreihen ablehnt als der Test B das tut, so
nennt man den Test A mächtiger, kräftiger, stärker oder trennschärfer als den Test B. Feine/kleine Unterschiede
werden dann von Test A eher – d.h. bei weniger Datenmaterial – als solche erkannt, als von Test B.
Umgekehrt gilt dann: Hat mein eine gegebene Messreihe mittels Test A geprüft und die Nullhypothese wurde
angenommen, so besteht eine höhere Wahrscheinlichkeit dafür, dass H0 richtig ist, als wenn man Test B benutzt
hätte.
Lohöfer: Mathematik für Humanbiologen und Biologen
2
Allgemeines zu statistischen Tests
Tests zum Vergleich mehrerer Messreihen:
Angesichts von zwei oder mehr gegebenen Messreihen zum selben Fragenkomplex stellt sich immer die Frage,
ob sie zum selben Experiment gehören?
⇔
ob alle Unterschiede zwischen den Messwerten der einen und der anderen Messreihe rein zufällig sind?
⇔
ob sie dieselbe Verteilung haben?
[1]
[2]
Wenn die Antwort positiv ausfällt, so kann man die Daten aller Messreihen zu einer großen (kostbareren)
Messreihe zusammenführen.
Wenn die Messreihen dadurch zustande kamen, dass man in x = f(u1,…, uk; v1, …) die Werte von u2 bis uk
jedesmal auf gleiche konstante Werte setzte und nur den konstanten Wert von u1 pro Messreihe jeweils
verschieden wählte, so folgt,
a) falls die Antwort positiv ausfällt, dass der Wert von x gar nicht oder nur so schwach von u1 abhängt,
dass man u1 aus der Liste der kontrollierten Einflussgrößen entfernen und in die Liste der v1, …
aufnehmen sollte,
b) falls die Antwort negativ ausfällt, dass u1 tatsächlich einen wesentlichen Einfluss auf x hat.
Die Aussage „die Messreihen haben dieselbe Verteilung“ heißt Nullhypothese H0. Die logisch alternative
Hypothese H A lautet: Die Messreihen gehören
• zu verschiedenen Experimenten, mit derselben Messmethode und verschiedenen Ergebnissen, oder
• sie gehören zu verschiedenen Messmethoden, messen also verschiedene Zufallsvariable.
Da man für Normalverteilungen die schärfsten Testverfahren hat, unterscheidet man zwischen zwei Fällen:
1. Fall: Bei allen Messreihen liegt Normalverteilung vor. (Obligate Vorprüfung hierauf mit Schnelltest nach
David und/oder Ausreißertest nach Nalimov oder nach Dixon, bei langen Messreihen mit
χ 2 - Anpassungstest).
Dann erfolgt die Prüfung der Nullhypothese H0 in zwei Schritten mit vorgeschriebener Reihenfolge:
1. Schritt: Gehören die Streuungen (Standardabweichungen) s1, s2, … der Messreihen zum selben
Grenzwert σ? (Prüfung mit F-Test (bei 2 Messreihen) oder Bartlett-Test (bei beliebig
vielen Messreihen).
Wenn nein, handelt es sich um verschiedene Messmethoden/Zufallsvariable, also erst recht
um verschiedene Verteilungen. Fertig!
Nur wenn ja, dann
2. Schritt: Gehören die Mittelwerte x1 , x 2 ,… alle zum selben Erwartungswert µ ? (Prüfung mit t-Test
(bei 2 Messreihen, sehr trennscharf) oder mit Varianzanalyse = „ANOVA“, Sammelname
für verschiedene Verfahren (bei beliebig vielen Messreihen).
Wenn nein, handelt es sich um verschiedene Experimente, mit derselben Messmethode und
verschiedenen Ergebnissen,
wenn ja, gehören alle Messreihen zum selben Experiment und liefern dasselbe Ergebnis.
Inclusive Vorprüfung sind mindestens zwei bis drei Tests erforderlich. Da alle im 1. und 2. Schritt
genannten Tests einen der Parameter σ oder µ überprüfen, heißen sie parametrische Testverfahren.
2. Fall: Normalverteilung ist nicht überprüft oder definitiv nicht bei allen Messreihen gegeben.
Jetzt müssen nichtparametrische Testverfahren verwendet werden. Es können nur 2 Messreihen
verglichen werden. Man berechnet nicht die si und die x i , sondern macht zwischen allen Messwerten
beider Messreihen einen Größenvergleich.
Bei verbundenen Stichproben („paarweise geblockten“ Daten, „abhängigen Stichproben“ s.u.):
Prüfung der Nullhypothese H0 mit dem Vorzeichentest von Dixon oder, besser, dem
Wilcoxon-Test für verbundene Stichproben = Vorzeichen-Rang-Test von Wilcoxon
Bei unverbundenen Stichproben („unabhängigen Stichproben“ s.u.):
Prüfung der Nullhypothese H0 mit dem
Wilcoxon-Test für unverbundene Stichproben = Rangsummen-Test von Wilcoxon =
Mann-Whitney-Test = U-Test
Die nichtparametrischen Tests dürfen auch bei zwei Messreihen mit Normalverteilung verwendet
werden, sind weniger trennscharf, dafür aber erheblich weniger arbeitsaufwendig, da stets nur 1 Test
durchzuführen ist. Bei kurzen Messreihen (n < 15) sind sie eventuell sogar ratsam, da die Normalität
trotz Vorprüfung fraglich bleiben könnte (s.o. zur unsicheren Gültigkeit von H0 = „Normalverteilung
liegt vor“, wenn ein Test diese Nullhypothese bei kurzen (!) Messreihen nicht ablehnt.).
Lohöfer: Mathematik für Humanbiologen und Biologen