(c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten Fehlerwahrscheinlichkeiten Worum geht es in diesem Modul? Worum geht es in diesem Modul? Fehlentscheidungen beim Testen Ein statistischer Test wird eingesetzt um anhand einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen. Dabei sind jedoch bei jedem Test Fehlentscheidungen möglich, die aus zufälligen Schwankungen in der Stichprobe resultieren. Im wird gezeigt, dass ein statistischer Test die Nullhypothese ablehnt, wenn der berechnete Prüfgrößenwert aus der Stichprobe extremer als eine vorher festgelegte Grenze, dem so genannten kritischen Wert, ist. Diese Grenze wird so festgelegt, dass unter der Nullhypothese die Wahrscheinlichkeit, diese Grenze zu über- bzw. unterschreiten, höchstens dem vorher festgelegten Signifikanzniveau entspricht. Die Laboraufgabe Fehler ( a14.spf ) berechnet aus 100 Experimenten die Prüfgröße des Wilcoxon-Rangsummen-Tests und zählt aus, wie viel Experimente fälschlich zu einer Ablehnung der Nullhypothese geführt hätten. Page 1 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten Drei Prüfgrößenwerte überschreiten den kritischen Wert, der in der Grafik als roter Strich dargestellt ist. Verwirft der Test aufgrund eines extremen Prüfgrößenwertes die Nullhypothese, obwohl diese wahr ist, wird ein Fehler bei der Testentscheidung begangen. Dieser Fehler wird der Fehler 1. Art genannt. Fehler 1. Art Der Fehler 1. Art tritt auf, wenn abgelehnt wird, obwohl wahr ist. Ein zweiter möglicher Fehler wird begangen, wenn an der Nullhypothese irrtümlich festgehalten wird. Fehler 2. Art Der Fehler 2. Art tritt auf, wenn beibehalten wird, obwohl wahr ist. Damit, wie in der folgenden Tabelle zusammengefasst, kann bei einem statistischen Test einer von vier möglichen Ausgängen eintreten: Nach Durchführung eines statistischen Tests kann jedoch nicht beurteilt werden, ob dieser ein falsches oder ein korrektes Ergebnis geliefert hat. Es müsste daher versucht Page 2 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten werden, zumindest die Wahrscheinlichkeit für ein fehlerhaftes Testergebnis abzuschätzen oder zu begrenzen. Fehler 1. Art Im Beispiel für den Wilcoxon-Test haben wir gesehen, dass ein statistischer Test so konstruiert ist, dass die Nullhypothese verworfen wird, wenn mit einer Wahrscheinlichkeit von höchstens die Prüfgröße den zugehörigen kritischen Wert über- bzw. unterschreitet, also falls Diesem Vorgehen liegt die Idee zugrunde, dass das Eintreten eines Ereignisses, das mit so kleiner Wahrscheinlichkeit unter der Verteilung der Nullhypothese eintritt, eher die Verteilung unter der Alternative verantwortlich ist. Bei der dann zutreffenden Entscheidung für wird gerade diese Wahrscheinlichkeit als Restrisiko für eine Fehlentscheidung in Kauf genommen. Also: Wenn der Fehler 1. Art auftritt, hat man sich für entschieden, obwohl wahr ist. Unter einer wahren Nullhypothese entscheidet sich der Test aber nur mit einer Wahrscheinlichkeit von höchstens fälschlicherweise für die Alternative. Das Signifikanzniveau ist die Wahrscheinlichkeit, die Nullhypothese fälschlich zu verwerfen; wird deswegen auch Irrtumswahrscheinlichkeit genannt. Der Fehler 1. Art wird also durch das Signifikanzniveau kontrolliert, da vor jeder Testdurchführung festgelegt werden muss. Ein statistischer Test, bei dem der Fehler 1. Art kontrolliert wird, heißt Signifikanztest, d.h. falls für gilt: Signifikanztest Wichtig ist dabei, dass diese Wahrscheinlichkeit unter der Annahme berechnet wird, dass zuträfe. D.h. die Daten müssen sich gegen diese Annahme durchsetzen, also sehr deutlich für die Alternative sprechen. In diesem Sinne wird die Rolle der Nullhypothese auch oft mit der eines Advocatus Diaboli verglichen (vgl. Beispiel). Fehler 2. Art Die Wahrscheinlichkeit für den Fehler 2. Art wird mit bezeichnet. Im Gegensatz zum Fehler 1. Art wird der Fehler 2. Art nicht durch eine vorgegebene Schranke kontrolliert. Es ist leider nicht möglich, beide Fehlerarten gleichzeitig zu minimieren. Daher wird versucht, unter allen Signifikanztests (Tests, die den F.1.A. kontrollieren) denjenigen zu finden, der die Fehlerwahrscheinlichkeit minimiert. Unter Umständen kann die Wahrscheinlichkeit für den Fehler 2. Art allerdings sehr groß werden. Für den Fall, dass der statistische Test sich für Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten sprechen oder gar davon, dass sie statistisch bewiesen ist. Man kann lediglich davon ausgehen, dass es nicht gelungen ist, zu widerlegen. Das Prinzip, das hier dem Test zugrunde liegt, findet sich auch in der Philosophie, und zwar im dem Popperschen Falsifizierbarkeitsprinzip (Sir Karl S. Popper, 1902-1994. ). Eng verbunden mit dem Fehler 2. Art ist der Powerbegriff (siehe dazu das ). Wir wollen das statistische Testprinzip in anderen Kontexten veranschaulichen und betrachten dafür die folgenden zwei Beispiele und eine Laborsimulation Beispiel: Entscheidungsproblem eines Richters Betrachten Sie sich noch einmal das Beispiel 4 (Rechtssprechung in einem Mordfall) aus dem In der deutschen Rechtssprechung wird nach dem Vorsatz "in dubio pro reo" (im Zweifel für den Angeklagten) verfahren. Daher kann der judizielle Gedanke folgendermaßen in Hypothesen formuliert werden: Der Angeklagte ist unschuldig gegen Der Angeklagte ist schuldig. D.h. nur bei ausreichender Beweislast wird der Angeklagte für schuldig gesprochen, also die Nullhypothese verworfen. Die Fehlerwahrscheinlichkeiten sind hier folgendermaßen zu interpretieren: Fehler 1. Art Der Richter verurteilt den Angeklagten, obwohl dieser unschuldig ist, d.h. er hat abgelehnt, obwohl wahr ist. Fehler 2. Art Der Richter begeht den Fehler 2. Art, wenn der wirkliche Mörder auf der Anklagebank sitzt, er ihn aber z.B. wegen fehlender Beweise nicht verurteilt. Der Richter hat sich dann für entschieden, obwohl wahr ist. Zusammenfassend können folgende Ereignisse eintreten: Beide Fehlerarten können nur deshalb auftreten, da der Richter die Wirklichkeit nicht kennt. Er muss anhand des vorliegenden "Datenmaterials" (z.B. Zeugenaussagen, Fotos, Rekonstruktionen, ...) das bestmöglichste Urteil fällen. Bei einem statistischen Test ist das ähnlich: Die Grundgesamtheit und auch die wahren Parameterwerte sind unbekannt. Nach einem Testentscheid kann auch nicht beurteilt werden, ob dieser richtig oder falsch ist. Im Gegensatz zu einem richterlichen Urteilsspruch bietet ein statistischer Test jedoch einen entscheidenden Vorteil: Der Fehler 1. Art wird durch das Signifikanzniveau kontrolliert. Beispiel: Produzenten- und Konsumentenrisiko Der Hersteller eines Produkts stellt die Nullhypothese auf, dass der Anteil defekter Page 4 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten Stücke in der Produktionsserie höchstens 4% beträgt (siehe Beispiel im ). Nehmen wir an, auf der Basis einer Stichprobe wird die Nullhypothese abgelehnt, obwohl in der gesamten Produktion der Ausschussanteil wirklich unter 4 % liegt, so haben wir es mit dem Fehler 1. Art zu tun. Er entspricht dem Produzentenrisiko. Nehmen wir andererseits an, dass auf der Basis einer Stichprobe die Hypothese nicht abgelehnt wird, obwohl der Ausschussanteil in der gesamten Produktion über 4% liegt, so haben wir es mit dem Fehler 2. Art zu tun. Er entspricht dem Konsumentenrisiko. Welcher Fehler, der Fehler 1. Art oder der Fehler 2. Art, stärker ins Gewicht fällt, hängt natürlich ganz wesentlich von der Behauptung (Hypothese) und den Folgen der Entscheidung ab. Im Beispiel 2 kann man geteilter Meinung sein, ob das Produzentenrisiko oder das Konsumentenrisiko höher zu bewerten ist. Produzent und Konsument werden wohl jeweils ihr eigenes Risiko für gravierender halten. Im ersten Beispiel ist die Bedeutsamkeit der Fehler unterschiedlich zu bemessen. Um die persönlichen Freiheitsrechte eines jeden Bürgers zu wahren, ist die potenzielle Nichtverurteilung eines Mörders eher zu rechtfertigen (Fehler 2. Art), als dass ein Unschuldiger zu lebenslanger Haft verurteilt wird (Fehler 1. Art). Beispiel: Simulationsbeispiel Starten Sie die Simulation Fehlerwahrscheinlichkeiten ( ae3.spf ) im Statistiklabor. Es sollen die Fehlerwahrscheinlichkeiten an folgendem Testproblem simuliert werden: gegen Dazu generieren wir uns unter wahrer Nullhypothese (die Verteilungen beider Grundgesamtheiten, aus denen die Stichproben gezogen werden, sind gleich) 100 Stichproben mit je 10 Beobachtungen und berechnen mit Hilfe des Wilcoxon-Rangsummen-Tests den Prüfgrößenwert. Simultan werden unter wahrere Alternativhypothese (die Verteilungen der Grundgesamtheiten, aus denen die Stichproben gezogen werden, unterscheiden sich hinsichtlich ihrer Lage) 100 Stichproben mit je 10 Beobachtungen simuliert und der jeweilige Prüfgrößenwert berechnet. Die Prüfgrößenwerte, die unter der wahren Nullhypothese generiert wurden, sind blau dargestellt. Prüfgrößenwerte, die unter der wahren Alternative simuliert wurden, sind rot. Es ist ersichtlich, dass die Verteilung von Null- und Alternativhypothese sich in der Lage unterscheiden. Aber wie groß muss der Prüfwert (x-Achse) sein, damit man sich für einen Lageunterschied entscheidet (d.h. Entscheidung für die Alternative), wenn wir höchstens eine Fehlerwahrscheinlichkeit für den Fehler 1. Art von 5% dulden wollen? Im Kapitel Idee des Testens wurde gezeigt, dass ein statistischer Test sich für das Verwerfen der Nullhypothese entscheidet, wenn der Prüfgrößenwert extremer ist als eine vorher festgelegte Grenze (den oder die kritische(n) Wert(e)). A) Geben Sie sich ein Signifikanzniveau vor, und legen Sie in der Simulationsaufgabe willkürlich eine Grenze fest. Zählen Sie, wie viele Prüfgrößenwerte aus der wahren Nullhypothese und aus der wahren Alternativhypothese extremer sind. Wiederholen Sie die Simulationen mehrere Male, und beobachten Sie, wie sich die Ergebnisse ändern. B) Berechnen Sie, wie viele Prüfwerte unter der wahren Nullhypothese fälschlich abgelehnt werden (Fehler 1. Art) und wie viele Prüfwerte unter der wahren Alternative nicht abgelehnt (Fehler 2. Art) werden. Page 5 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten Interpretieren Sie die Fehlerwahrscheinlichkeiten. C) Verändern Sie den Lageunterschied der Grundgesamtheiten, indem Sie die Mittelwerte (mux oder muy) in folgendem Aufruf verändern. > simul(100,mux=1,muy=1.2) D) Verändern Sie die Anzahl der Beobachtungen innerhalb der gezogenen Stichproben mit dem Argument s: > simul(100,s=100,mux=1,muy=2) Eine Lösung finden Sie hier: Lösungsdatei öffnen ( b03.spf ) Ein neues Medikament zur Blutdrucksenkung soll auf den Markt gebracht werden. Dazu soll nachgewiesen werden, dass es nicht schlechter als ein bereits erhältliches Präparat wirkt. Versuchen Sie das inhaltliche Problem als statistisches Testproblem zu quantifizieren. Was bedeuten hier der Fehler 1. und 2. Art? Quelle: Ein Schokoladenliebhaber hat den Verdacht, dass das Gewicht seiner Lieblingsschokolade weniger geworden ist. Früher hat die Tafel durchschnittlich 100g gewogen. Schreiben Sie das Testproblem auf, und interpretieren Sie den Fehler 1. und 2. Art aus der Sicht des Schokoladenliebhabers. Quelle: Der Schokoladenliebhaber aus Aufgabe "Schokolade (1)" hat empört die Herstellerfirma seiner Lieblingsschokolade angeschrieben. Die Firma möchte den Verdacht, ihre Tafeln wären leichter geworden, nicht auf sich sitzen lassen. Die Firma behauptet sogar, dass genau das Gegenteil der Fall ist: Die Tafeln sind im Laufe der Zeit schwerer geworden! Stellen Sie das Testproblem auf und interpretieren Sie die Fehlerwahrscheinlichkeiten. In einer Produktionsstätte werden Bremsseile mit einer bestimmten Zugkraft produziert, die an Motorradhersteller verkauft werden. Um die Qualität zu gewährleisten, wird in regelmäßigen Abständen eine Stichprobe gezogen und getestet, bei wie viel Belastung die Seile reißen. Gegebenfalls wird die Einstellung an den Maschinen korrigiert. Formulieren Sie den Sachverhalt als Testproblem, und geben Sie inhaltlich den Fehler 1. und 2. Art an. Welche Fehlerart möchte der Produzent und welche Fehlerart möchte der Konsument minimieren? Eine intakte Motorradbremse! Quelle: Lösung Medikamente Page 6 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten = Blutdrucksenkung mit neuem Medikament; = Blutdrucksenkung mit altem Medikament gegen Fehler 1. Art (H0 verwerfen, obwohl wahr) Das neue Medikament wird zugelassen, obwohl es nicht besser wirkt. Fehler 2. Art (H0 beibehalten, obwohl falsch) Obwohl das neue Medikament besser ist als das bereits bestehende Präparat, bekommt es keine Zulassung Lösung Schokolade (1) H0: Gewicht der Tafeln >= 100 H1: Gewicht der Tafeln < 100 Fehler 1. Art (H0 verwerfen, obwohl wahr) Der Verdacht gegen seine Produktionsfirma seiner Lieblingsschokolade wurde bestätigt, obwohl in Wahrheit die Tafeln nicht leichter als 100g sind. Fehler 2. Art (H0 beibehalten, obwohl falsch) Der Verdacht, dass die Schokoladentafeln leichter geworden sind, wurde nicht bestätigt, obwohl die Tafeln in Wahrheit leichter als 100g sind. Lösung Schokolade (2) H0: Gewicht der Tafeln <= 100 H1: Gewicht der Tafeln > 100 Fehler 1. Art (H0 verwerfen, obwohl wahr) Aufgrund der Testentscheidung kann die Firma behaupten, Tafeln mit größerem Gewicht hergestellt zu haben, obwohl die Tafeln in Wahrheit leichter als 100g sind. Fehler 2. Art (H0 beibehalten, obwohl falsch) Aufgrund der Testentscheidung kann die Firma nicht beweisen, dass ihre Tafeln schwerer als 100g sind, obwohl sie es in Wahrheit sind. Lösung Bremsseil gegen Fehler 1. Art (Produzentenrisiko) Das Los wird nicht angenommen, obwohl die Seile in Ordnung sind. Das hat eine zeitund kostenintensive Adjustierung der Maschinen zur Folge. Die Wahrscheinlichkeit für den Fehler 1. Art möchte der Produzent minimieren. Fehler 2. Art (Konsumentenrisiko) Das Los wird angenommen, obwohl die Seile nicht die erforderliche Reißkraft aufweisen. Dies könnte im schlimmsten Fall schwere Unfälle bei den Motorradfahrern verursachen. Page 7 (c) Projekt Neue Statistik 2003 - Lernmodul: Fehlerwahrscheinlichkeiten Falsifizierbarkeitsprinzip ErklärungFehlentscheidung ErklärungFehler 1. Art ErklärungFehler 2. Art ErklärungIrrtumswahrscheinlichkeit ErklärungKonsumentenrisiko ErklärungProduzentenrisiko ErklärungSignifikanztest ErklärungWahrscheinlichkeit für den Fehler 2. Art Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 8