Die Grundaufgabe der beurteilenden Statistik Zielorientierung: Eine Münze zeigt 6-mal hintereinander „Wappen”. Kann man behaupten, dass die Münze gezinkt ist? Ein Würfel zeigt bei 36-maligem Werfen genau 10-mal die Sechs. Mit welcher Wahrscheinlichkeit ist der Würfel gezinkt (manipuliert)? Kann man aus einer Stichprobe überhaupt Rückschlüsse auf die Gesamtheit ziehen? Definition: Um das Merkmal in der Grundgesamtheit zu untersuchen ist es oft sinnvoll, das Merkmal in einer Teilmenge zu untersuchen. Diese Teilmenge wird Stichprobe genannt. Die Anzahl der Elemente der Stichprobe heißt Stichprobenumfang. Definition 1: In der beurteilenden Statistik versucht man, von der Stichprobe auf die Grundgesamtheit zu schließen. Definition 2: In der beurteilenden Statistik versucht man, aus der mehrmaligen Durchführung eines Zufallsversuches auf die unbekannte zugrundeliegende Wahrscheinlichkeit zu schließen. Beispiel: Eine Münze wird 6-mal geworfen. X beschreibt die Anzahl der Wappen Man führt den Versuch durch und erhält 6-mal Wappen. Zu erwarten wäre also „3-mal Wappen”, wenn es eine ideale Münze wäre. Ist es aber ungewöhnlich, dass 6-mal Wappen fällt? Dazu betrachten wir bestimmte Bereiche. Diese können wir mit Hilfe der Binomialverteilung berechnen. P(3 [ X [ 3 ) = 0, 3125 P(2 [ X [ 4 ) = 0, 78125 P(1 [ X [ 5 ) = 0, 96875 Mit einer Wahrscheinlichkeit von 96,875 % liegt die Zufallsgröße X (Anzahl der Wappen) zwischen 1 und 5. Es ist also doch ungewöhnlich, dass 6-mal Wappen fällt, aber nicht unwahrscheinlich. Die Grundaufgabe der beurteilenden Statistik Begriffe beim Signifikanztest Das Ziel des Hypothesentests besteht darin, aufgrund einer Stichprobe zu prüfen, ob eine vermutete Wahrscheinlichkeit, die Hypothese, als wahr angenommen werden kann oder ob sie verworfen werden muss. Beispiel (Wahl, linksseitiger Signifikanztest): Die Grünen hoffen, dass sie bei der Landtagswahl mindestens 7% der Stimmen erhalten. Bei einer Befragung von 100 zufällig ausgewählten Personen zeigt sich, dass 6 Personen die Partei bevorzugen. Was kann man daraus schlussfolgern? Die Vorgehensweise ist dabei folgendermaßen: Man stellt eine Vermutung oder Hypothese auf. Diese wird Nullhypothese H0 genannt. Die wird in der Form H o : p m p o geschrieben. Falls die Hypothese falsch ist, muss die sogenannte Gegenhypothese wahr sein. Diese nennte man H1. Sie wird in der Form H 1 : p < p o geschrieben. Bemerkung: Es handelt sich jeweils um eine zusammengesetzte Hypothese, da p in einem Intervall liegen kann. Beispiel: H o : p m 0, 07 (Der Stimmenanteil beträgt mindestens 7%.) H 1 : p < 0, 07 (Der Stimmenanteil beträgt weniger als 7%.) Zur Überprüfung von H0 gegen H1 legt man fest, dass eine Stichprobe vom Umfang n untersucht wird. Die Zufallsgröße X sei die Anzahl der Personen, die für den Bürgermeister stimmen. Falls H0 wahr ist, dann wäre die Zufallsgröße X im schlechtesten binomialverteilt mit n und p0. Beispiel: Man untersucht die Binomialverteilung von X mit n = 100 und p = 0,07. Die Prüfvariable kann theoretisch jeden Wert zwischen 0 und n annehmen. Mann sollte jetzt überlegen, in welchem Intervall man die Prüfvarialble erwartet, wenn die Nullhypothese zutrifft. In diesem Fall sprechen „große“ Werte für die Nullhypothese und „kleine“ Werte gegen die Nullhypothese. Im zweiten Fall wird man H0 also ablehnen. Die Wahrscheinlichkeit dafür, die Nullhypothese zu verwerfen, heißt Irrtumswahrscheinlichkeit und wird mit α bezeichnet. Diese Irrtumswahrscheinlichkeit (Signifikanzniveau) wird i.A. vorgegeben. Die Gegenwahrscheinlichkeit heißt statistische Sicherheit. Definition: Die Irrtumswahrscheinlichkeit α gibt an, mit welcher Wahrscheinlichkeit man die Nullhypothese ablehnt, obwohl sie wahr ist. Für α = 5% spricht man von einem signifikanten Ergebnis. Für α = 1% spricht man von einem hoch signifikanten Ergebnis. Beispiel: Kann man mit einer Irrtumswahrscheinlichkeit von 5% schlussfolgern, dass die Partei mindestens 7% der Stimmen erhält? Mit dieser Irrtumswahrscheinlichkeit kann der sogenannte kritische Bereich (Ablehnungsbereich) K angegeben. Es handelt sich um die Werte von X, für die H0 abgelehnt wird. Dazu sucht man eine geeignete Signifikanzgrenze. Die Grundaufgabe der beurteilenden Statistik K = 0; ...; g mit P(0 [ X [ g ) [ ✍ Alle Werte die nicht in K liegen, liegen im Nichtablehnungsbereich oder im Annahmebereich K. Definition: Bei einem linksseitigen Signifikanztest liegen im kritischen Bereich die Wert von 0 bis zur Signifikanzgrenze g. Beispiel: Durch Analyse der Binomialverteilung erhält man den Ablehnungsbereich K = 0; ...; 2 . Dazu muss man einfach ein wenig proieren (GTR). Es gibt sogar Programme, die den Ablehnungsbereich ermitteln. Der Annahmebereich ist übrigens für unser Beispiel A = 3; ...; 100 . Zum Schluss kann man nach der Untersuchung der Stichprobe anhand dieser aufgestellten Entscheidungsregel die Hypothese verwerfen oder auch nicht verwerfen. Da sich 6 Personen für die Partei entschieden haben und die Zahl 6 im Annahmebereich liegt, kann man die Nullhypothese nicht verwerfen. Es ist also nicht unmöglich, dass die Grünen mindestens 7% der Stimmen bekommen. Liegt ein Versuchsergebnis im Annahmebereich, wird dadurch nicht die Hypothese bestätigt, sondern man entscheidet sich durch die vorher festgelegte Entscheidungsregel, sie weiter als richtig anzusehen. (Es kann immer noch die Gegenhypothese zutreffen.)