GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 10: Statistische Tests – Einführung 17. Januar 2005 1 Vertrauensbereich und Irrtumswahrscheinlichkeit Es liege eine normalverteilte Grundgesamtheit vor. Man entnimmt eine Stichprobe und berechnet den Mittelwert x1 dieser Daten. Entnimmt man eine weitere Stichprobe, und berechnet wieder den Schätzwert x2 , so werden x1 und x2 höchstwahrscheinlich nicht identisch sein. Die Werte für x stellen deswegen immer nur eine Annäherung an den tatsächlichen Wert (Parameter) µ der Grundgesamtheit dar (Schätzung). Es lässt sich aber ein Bereich (Intervall) um x angeben, der den Wert µ wahrscheinlich enthält. Dieses Intervall um den Schätzwert, in dem auch der Parameter enthalten sein soll, heißt Vertrauensbereich (engl. confidence intervall). Je größer der Bereich um den Schätzwert gewählt wird, desto wahrscheinlicher ist es, dass der Parameter der Grundgesamtheit darin enthalten ist. Die Größe des Intervalls wird so gewählt, dass mit einer Vertrauenswahrscheinlichkeit von z.B. 95% der Parameter im Vertrauensbereich enthalten ist. Dann wird in 5% aller Fälle die Behauptung, der Vertrauensbereich enthalte den Parameter, falsch sein. Die Größe des Vertrauensbereichs wird also so gewählt, dass die Irrtumswahrscheinlichkeit α einen bestimmten Wert nicht überschreitet. Im Beispiel soll α ≤ 5% = 0, 05 sein. Für den Mittelwert µ einer normalverteilten Grundgesamtheit lassen sich die Vertrauensbereiche der folgenden Tabelle entnehmen: Vertrauensbereich x ± 1, 645 √σn x ± 1, 960 √σn x ± 2, 576 √σn x ± 3, 291 √σn x ± 3, 891 √σn Irrtumswahrscheinlichkeit α 0, 1 = 10% 0, 05 = 5% 0, 01 = 1% 0, 001 = 0, 1% 0, 0001 = 0, 01% Dabei bezeichnet σ die Standardabweichung und n den Umfang der Stichprobe. Die Größe des Vertrauensbereichs hängt also von drei Variablen ab: • der Irrtumswahrscheinlichkeit α: je kleiner α sein soll, desto größer muss der Vertrauensbereich gewählt werden; 1 • der Standardabweichung σ, d.h. der Streuung der Verteilung: je größer die Streuung, desto größer der Vertrauensbereich; • dem Umfang der Stichprobe: je größer der Stichprobenumfang, desto enger darf der Vertrauensbereich ausfallen. Das bedeutet: je sicherer die Aussage – der Vertrauensbereich enthalte den Parameter – sein soll, desto unschärfer ist sie (größerer Vertrauensbereich) und umgekehrt. Die Irrtumswahrscheinlichkeit α wird auch als Signifikanzniveau bezeichnet. Die Wahrscheinlichkeit, dass der Parameter µ im Vertrauensbereich um x̄ liegt, beträgt: σ σ P (x̄ − z √ ≤ µ ≤ x̄ + z √ ) = 1 − α n n Das z steht dabei für den entsprechenden Wert in der obigen Tabelle. Umgekehrt kann man auch vom bekannten Parameter auf den Schätzwert schließen. Man kann sagen, mit welcher (vorgegebener) Vertrauenswahrscheinlichkeit die Werte für x̄ in einem bestimmten Bereich liegen werden: σ σ P (µ − z √ ≤ x̄ ≤ µ + z √ ) = 1 − α n n 2 Nullhypothese und Alternativhypothese Angenommen, man vermutet, dass zwei Grundgesamtheiten sich bezüglich eines Parameters unterscheiden. Das genaue Gegenteil dieser Vermutung (dass der Unterschied der Parameter in diesem Beispiel Null ist) nennt man Nullhypothese. Die Nullhypothese wird aufgestellt, um verworfen zu werden. Sie soll zugunsten der eigentlich interessierenden Alternativhypothese abgelehnt werden. Ziel eines statistischen Test ist es, die Nullhypothese zu verwerfen, um die Alternativhypothese akzeptieren zu können. Im Beispiel können wird die Nullhypothese ablehnen, wenn zwischen den Grundgesamtheiten ein Unterschied besteht. Wir haben aber keinen direkten Zugang zur Grundgesamtheit, sondern können nur Stichproben untersuchen. Wie wir oben gesehen haben, werden sich aber schon mehrere Stichproben aus der gleichen Grundgesamtheit unterscheiden, d.h. wir haben immer Unterschiede zu erwarten. Für die Entscheidung, ob der festgestellte Unterschied nur zufällig oder aber wesentlich ist, müssen wir eine Grenze festlegen, ab der wir den Unterschied als zu groß ansehen, um noch durch den Zufall erklärbar zu sein. Wir werden dann auf einen tatsächlichen Unterschied der Grundgesamtheiten schließen. Wir verwerfen also die aufgestellte Nullhypothese, wenn die Stichproben ein Ergebnis liefern, das bei Gültigkeit der Nullhypothese unwahrscheinlich ist. Als Grenzwahrscheinlichkeit wählt man z.B. 1%= 0, 01. 2 Diese Forderung ist ebenso stark, wie zu sagen, dass man beim dreimaligen Wurf eines Würfels drei Sechsen hintereinander würfeln muss: P2x = ( 16 )2 = 0, 0278 P3x = ( 16 )3 = 0, 0046 Ist also eine Hypothese mit einer Irrtumswahrscheinlichkeit von 1% gesichert, heißt dass: ihr zufälliges Zustandekommen ist ebenso unwahrscheinlich, wie bei drei Würfen jedes Mal eine Sechs zu erzielen. Die Hypothese ist dann auf dem 1%-Niveau statistisch signifikant. 3 Fehler 1. und 2. Art Beim Prüfen einer Nullhypothese können zwei Arten von Fehlentscheidungen auftreten: 1. die Nullhypothese wird fälschlicherweise abgelehnt: Fehler 1. Art; 2. die Nullhypothese wird fälschlicherweise beibehalten: Fehler 2. Art. H0 beibehalten H0 abgelehnt H0 wahr richtig 1 − α Fehler 1. Art α-Fehler H0 falsch Fehler 2. Art β-Fehler richtig 1 − β Ist H0 fast richtig, wird es normalerweise nicht gelingen, sie zu verwerfen. Das Verwerfen der Nullhypothese ist eine starke Aussage, das Beibehalten der Nullhypothese ist eine schwache Aussage. Ziel eines Testes ist es, die Irrtumswahrscheinlichkeit für das Ablehnen der Nullhypothese genau zu bestimmen, da dann mit der Alternativhypothese weitergearbeitet wird. Einen Fehler 1. Art will man also möglichst vermeiden. Die Wahrscheinlichkeit für einen Fehler 2. Art wird dagegen nicht kontrolliert. 3