GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 10

Werbung
GKC Statistische Grundlagen für die Korpuslinguistik
Kapitel 10: Statistische Tests – Einführung
17. Januar 2005
1
Vertrauensbereich und Irrtumswahrscheinlichkeit
Es liege eine normalverteilte Grundgesamtheit vor. Man entnimmt eine Stichprobe und berechnet den Mittelwert x1 dieser Daten. Entnimmt man eine weitere Stichprobe, und berechnet
wieder den Schätzwert x2 , so werden x1 und x2 höchstwahrscheinlich nicht identisch sein. Die
Werte für x stellen deswegen immer nur eine Annäherung an den tatsächlichen Wert (Parameter) µ der Grundgesamtheit dar (Schätzung).
Es lässt sich aber ein Bereich (Intervall) um x angeben, der den Wert µ wahrscheinlich enthält.
Dieses Intervall um den Schätzwert, in dem auch der Parameter enthalten sein soll, heißt Vertrauensbereich (engl. confidence intervall).
Je größer der Bereich um den Schätzwert gewählt wird, desto wahrscheinlicher ist es, dass der
Parameter der Grundgesamtheit darin enthalten ist. Die Größe des Intervalls wird so gewählt,
dass mit einer Vertrauenswahrscheinlichkeit von z.B. 95% der Parameter im Vertrauensbereich
enthalten ist. Dann wird in 5% aller Fälle die Behauptung, der Vertrauensbereich enthalte den
Parameter, falsch sein. Die Größe des Vertrauensbereichs wird also so gewählt, dass die Irrtumswahrscheinlichkeit α einen bestimmten Wert nicht überschreitet. Im Beispiel soll α ≤ 5% = 0, 05
sein.
Für den Mittelwert µ einer normalverteilten Grundgesamtheit lassen sich die Vertrauensbereiche der folgenden Tabelle entnehmen:
Vertrauensbereich
x ± 1, 645 √σn
x ± 1, 960 √σn
x ± 2, 576 √σn
x ± 3, 291 √σn
x ± 3, 891 √σn
Irrtumswahrscheinlichkeit α
0, 1 = 10%
0, 05 = 5%
0, 01 = 1%
0, 001 = 0, 1%
0, 0001 = 0, 01%
Dabei bezeichnet σ die Standardabweichung und n den Umfang der Stichprobe. Die Größe des
Vertrauensbereichs hängt also von drei Variablen ab:
• der Irrtumswahrscheinlichkeit α: je kleiner α sein soll, desto größer muss der Vertrauensbereich gewählt werden;
1
• der Standardabweichung σ, d.h. der Streuung der Verteilung: je größer die Streuung, desto
größer der Vertrauensbereich;
• dem Umfang der Stichprobe: je größer der Stichprobenumfang, desto enger darf der Vertrauensbereich ausfallen.
Das bedeutet: je sicherer die Aussage – der Vertrauensbereich enthalte den Parameter – sein
soll, desto unschärfer ist sie (größerer Vertrauensbereich) und umgekehrt.
Die Irrtumswahrscheinlichkeit α wird auch als Signifikanzniveau bezeichnet.
Die Wahrscheinlichkeit, dass der Parameter µ im Vertrauensbereich um x̄ liegt, beträgt:
σ
σ
P (x̄ − z √ ≤ µ ≤ x̄ + z √ ) = 1 − α
n
n
Das z steht dabei für den entsprechenden Wert in der obigen Tabelle.
Umgekehrt kann man auch vom bekannten Parameter auf den Schätzwert schließen. Man kann
sagen, mit welcher (vorgegebener) Vertrauenswahrscheinlichkeit die Werte für x̄ in einem bestimmten Bereich liegen werden:
σ
σ
P (µ − z √ ≤ x̄ ≤ µ + z √ ) = 1 − α
n
n
2
Nullhypothese und Alternativhypothese
Angenommen, man vermutet, dass zwei Grundgesamtheiten sich bezüglich eines Parameters
unterscheiden. Das genaue Gegenteil dieser Vermutung (dass der Unterschied der Parameter in
diesem Beispiel Null ist) nennt man Nullhypothese. Die Nullhypothese wird aufgestellt, um
verworfen zu werden. Sie soll zugunsten der eigentlich interessierenden Alternativhypothese
abgelehnt werden.
Ziel eines statistischen Test ist es, die Nullhypothese zu verwerfen, um die Alternativhypothese
akzeptieren zu können.
Im Beispiel können wird die Nullhypothese ablehnen, wenn zwischen den Grundgesamtheiten
ein Unterschied besteht. Wir haben aber keinen direkten Zugang zur Grundgesamtheit, sondern können nur Stichproben untersuchen. Wie wir oben gesehen haben, werden sich aber
schon mehrere Stichproben aus der gleichen Grundgesamtheit unterscheiden, d.h. wir haben
immer Unterschiede zu erwarten. Für die Entscheidung, ob der festgestellte Unterschied nur
zufällig oder aber wesentlich ist, müssen wir eine Grenze festlegen, ab der wir den Unterschied
als zu groß ansehen, um noch durch den Zufall erklärbar zu sein. Wir werden dann auf einen
tatsächlichen Unterschied der Grundgesamtheiten schließen.
Wir verwerfen also die aufgestellte Nullhypothese, wenn die Stichproben ein Ergebnis liefern,
das bei Gültigkeit der Nullhypothese unwahrscheinlich ist. Als Grenzwahrscheinlichkeit wählt
man z.B. 1%= 0, 01.
2
Diese Forderung ist ebenso stark, wie zu sagen, dass man beim dreimaligen Wurf eines Würfels
drei Sechsen hintereinander würfeln muss:
P2x = ( 16 )2 = 0, 0278
P3x = ( 16 )3 = 0, 0046
Ist also eine Hypothese mit einer Irrtumswahrscheinlichkeit von 1% gesichert, heißt dass: ihr
zufälliges Zustandekommen ist ebenso unwahrscheinlich, wie bei drei Würfen jedes Mal eine
Sechs zu erzielen. Die Hypothese ist dann auf dem 1%-Niveau statistisch signifikant.
3
Fehler 1. und 2. Art
Beim Prüfen einer Nullhypothese können zwei Arten von Fehlentscheidungen auftreten:
1. die Nullhypothese wird fälschlicherweise abgelehnt: Fehler 1. Art;
2. die Nullhypothese wird fälschlicherweise beibehalten: Fehler 2. Art.
H0 beibehalten
H0 abgelehnt
H0 wahr
richtig 1 − α
Fehler 1. Art
α-Fehler
H0 falsch
Fehler 2. Art
β-Fehler
richtig 1 − β
Ist H0 fast richtig, wird es normalerweise nicht gelingen, sie zu verwerfen. Das Verwerfen der
Nullhypothese ist eine starke Aussage, das Beibehalten der Nullhypothese ist eine schwache
Aussage. Ziel eines Testes ist es, die Irrtumswahrscheinlichkeit für das Ablehnen der Nullhypothese genau zu bestimmen, da dann mit der Alternativhypothese weitergearbeitet wird. Einen
Fehler 1. Art will man also möglichst vermeiden. Die Wahrscheinlichkeit für einen Fehler 2. Art
wird dagegen nicht kontrolliert.
3
Herunterladen