(c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Robustheit Worum geht es in diesem Modul? Von der Binomialverteilung zur Normalverteilung Schätzer für den Parameter My der Normalverteilung Simulation: Verteilung der Schätzer Verteilung des Mittelwerts bei Normalverteilung Weitere Eigenschaften der Schätzer für My Zwischenbilanz Stichproben aus der Praxis und Verteilungsmodelle Ursachen von Modellabweichungen Robustheit bei Schätzern Robustheit von Mittelwert, Median und Spannenmitte Gründe für die unterschiedliche Robustheit von Mittelwert und Median Das alpha-getrimmte Mittel als robuste Alternative zum Mittelwert Worum geht es in diesem Modul? Bisher haben wir Schätzer für den Anteilswert bei endlichen Grundgesamtheiten betrachtet. Wir widmen uns in diesem Kapitel der Normalverteilung und heben gleichzeitig die Beschränkung auf endliche Grundgesamtheiten auf. Dazu werden Schätzer für den Parameter eingeführt und deren Eigenschaften untersucht. Der zweite Teil des Moduls beschäftigt sich mit dem Aspekt der Robustheit, also damit, wie sensibel ein Schätzer auf (in der Praxis häufig auftretende) Modellabweichungen reagiert. Von der Binomialverteilung zur Normalverteilung Alle bisherigen Simulationen basierten auf dem Binomialmodell. Wir wollen unsere bisherigen "Schätz-Erfahrungen" jetzt auf eine andere Verteilung übertragen. Wir wählen diesmal ein stetiges Verteilungsmodell, nämlich die Normalverteilung. Diese Verteilung ist nicht zuletzt auch wegen des Zentralen Grenzwertsatzes (vgl. ) von großer Bedeutung für viele praktische Problemstellungen. Wir wollen bei dieser Gelegenheit auch eine weitere Einschränkung aufheben: Bisher wurde eine endliche Grundgesamtheit betrachtet - unsere Urne enthielt "nur" 10000 Kugeln. Jetzt wollen wir eine unendliche abstrakte Grundgesamtheit verwenden. Schätzen ist bei unendlichen Grundgesamtheiten unerlässlich, weil eine Untersuchung aller Elemente der Grundgesamtheit nicht mehr möglich ist. Page 1 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Wiederholung: Parameter der Normalverteilung Die Binomialverteilung hat bei festgelegtem Stichprobenumfang nur einen Parameter, den Anteilswert . Von diesem hängen Lageparameter und Streuungsparameter direkt ab; sie sind daher miteinander verkoppelt. Die Normalverteilung dagegen hat zwei unabhängige Parameter, den Lageparameter und den Streuungsparameter . Ist normalverteilt, , so gilt und . Das Applet Normalverteilung (a4c.jar) veranschaulicht dies noch einmal. Aus Sicht des Schätzens stellt die Normalverteilung eine "doppelte Herausforderung" dar, denn wir müssen beide Parameter getrennt behandeln, also jeweils Schätzer für und finden und diese anhand der erarbeiteten Kriterien beurteilen. Bei der Binomialverteilung sind Erwartungswert und Varianz über den Parameter p gekoppelt; dagegen sind bei der Normalverteilung Erwartungswert und Varianz unabhängig voneinander. Schätzer für den Parameter My der Normalverteilung In diesem Modul widmen wir uns ausschließlich dem Lageparameter Page 2 der (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit sind Gegenstand des nächsten Moduls. (s. ) Dichte der Standardnormalverteilung N(0,1) Als Schätzer für der Median ist der Mittelwert unmittelbar plausibel. Eine Alternative ist . Wir wollen noch einen dritten Schätzer betrachten, nämlich die Spannenmitte ; diese ist der Mittelwert des kleinsten und des größten Werts der Stichprobe. Beispiel: Benzinverbrauch eines Autos Erinnern wir uns an das Gespräch zwischen Herrn Janssen und Herrn Nielsen über den Benzinverbrauch ihrer Autos (vgl. ). Es ist recht plausibel zu unterstellen, dass sich der gemessene Benzinverbrauch in Litern auf 100 km über eine Normalverteilung modellieren lässt. Herr Nielsen beobachtet den Benzinverbrauch seines Wagens schon eine Weile und hat aus den letzten 10 Tankrechnungen jeweils den Benzinverbrauch bestimmt: Benzinv erbrauch 7.88 in l/100 km 8.92 5.59 7.31 7.48 8.30 10.46 9.55 7.92 7.15 (Datensatz als Excel-Datei ( b19.xls ) zum Import ins Statistiklabor) Die drei Schätzer liefern folgende Schätzwerte: Arithmetisches Mittel: Um Median und Spannenmitte bestimmen zu können, ist es hilfreich, die Stichprobe zu ordnen: Ungeord net Geordne t Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Benzinv erbrauch 5.59 in l/100 km 7.15 7.31 7.48 7.88 7.92 8.30 8.92 9.55 10.46 Median: Spannenmitte: Die drei Schätzer liefern ähnliche - aber keinesfalls identische - Schätzwerte, die bei ca. 8 Liter Benzin auf 100 Kilometern liegen. Ein Industriebetrieb stellt Autoteile her. An einer Station im Produktionsprozess wird stichprobenartig die Zeit erfasst, die die Teile an dieser "Produktionsinsel" verbringen. Es wird davon ausgegangen, dass die Bearbeitungszeit normalverteilt ist. Der Parameter dieser Normalverteilung soll mit Hilfe des Statistiklabors geschätzt werden. Labordatei öffnen ( c06.zmpf ) Simulation: Verteilung der Schätzer Im Falle unseres Urnenmodells kam als Schätzer zum Einsatz. Es gelang uns anhand einiger Simulationen und ergänzender theoretischer Überlegungen, die Verteilung von zu bestimmen (vgl. ). Das wollen wir jetzt auch für unsere Schätzer für den Parameter der Normalverteilung versuchen: Dazu stellen wir eine Simulation an, bei der wir Stichproben vom Umfang aus einer Standardnormalverteilung ziehen. Die sich ergebenden Histogramme sehen folgendermaßen aus: Histogramm für Mittelwert, Median und Spannenmitte; k=1000 Stichproben vom Umfang n=200 aus N(0,1) Anhand der empirischen Verteilungsfunktionen können wird nun über das Verteilungsmodell der Schätzer mutmaßen. Alle drei Schätzer scheinen selbst wieder Page 4 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit dem Normalverteilungsmodell zu folgen. Während alle drei Schätzer anscheinend erwartungstreu sind, unterscheiden sich die Varianzen erheblich. Verteilung des Mittelwerts bei Normalverteilung Wir wollen versuchen, durch theoretische Überlegungen das Verteilungsmodell der Schätzer zu bestimmen. Dabei beschränken wir uns auf den ersten Schätzer (Mittelwert), da bei den beiden auf geordeneten Stichproben basierenden Schätzern die Überlegungen zu kompliziert sind. Wir berechnen den Mittelwert nach folgender Formel: , für sind alle . Die seien normalverteilt, , ferner unabhängig voneinander. Die Summe normalverteilter Zufallsvariablen ist dann wieder normalverteilt (vgl. ). Unsere aus der Grafik abgeleitete Vermutung bestätigt sich also zumindest im Falle des ersten Schätzers. Wir können unsere Aussage sogar noch weiter präzisieren, indem wir Erwartungswert und Varianz des Schätzers bestimmen (vgl. ): Somit gilt: . Weiterhin können wir festhalten, dass erwartungstreu ist, weil gilt. Auch die Frage nach der Konsistenz lässt sich schnell beantworten: Da wir die Erwartungstreue bereits nachgewiesen haben, müssen wir noch prüfen, ob die Varianz des Schätzers mit wachsendem Stichprobenumfang gegen null konvergiert. Das ist Page 5 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit bei leicht erkennbar, weil im Nenner des Bruches steht. ist also ein konsistenter Schätzer für bei Normalverteilung. Weitere Eigenschaften der Schätzer für My Wir haben die Verteilung des arithmetischen Mittels unter Normalverteilung theoretisch hergeleitet. Außerdem haben wir festgestellt, dass der Mittelwert als Schätzer für bei Normalverteilung erwartungstreu und konsistent ist. Bei Median und Spannenmitte sind die entsprechenden Überlegungen leider deutlich komplizierter. Im Falle des Medians und der Spannenmitte können wir noch feststellen, dass bzw. gilt, weil die Normalverteilung eine symmetrische Verteilung ist. Median und Spannenmitte sind also ebenfalls erwartungstreu. Ob sie auch konsistente Schätzer für den Parameter der Normalverteilung sind, können wir nicht sagen, weil wir die Varianz des Medians und die der Spannenmitte nicht kennen. Um sie zu bestimmen, reichen unsere Kenntnisse nicht aus. Dazu müssten wir mehr über , die sog. Ordnungsstatistiken (engl.: "order statistics"), wissen (vgl. Exkurs ). Dennoch sind wir in Bezug auf den Median und die Spannenmitte nicht gänzlich hilflos. Auch wenn uns theoretisch fundierte Einblicke hier verwehrt sind, bleibt uns der Umweg über die Empirie, den wir nun beschreiten wollen. Simulation zur Bestimmung der Eigenschaften der Schätzer für My Wir wollen eine Simulation anstellen, um den Eigenschaften der Schätzer insbesondere denen des Medians und der Spannenmitte - auf die Spur zu kommen. Gleichzeitig können wir in Bezug auf den Mittelwert die Ergebnisse der Simulation mit unseren Erwartungen vergleichen. Um eine möglichst gute Näherung zu erhalten, ziehen wir Stichproben vom Umfang aus der Standardnormalverteilung . Schätzer Mittelwert Median Spannenmitte Mittelwert über Schätzwerte 0.00078(erwartet: 0) -0.00030(erwartet: 0) 0.00241(erwartet: 0) 0.01544 0.09004 0.00988 Varianz der Schätzwerte (erwartet: ) Wir sehen, dass alle Schätzer den wahren Wert von recht genau treffen. Die empirisch ermittelte Varianz für stimmt mit der theoretischen ebenfalls gut überein. Die Varianzen der Schätzer scheinen sich zu unterscheiden. In der Simulation hat die geringste Varianz, darauf folgt und mit einigem Abstand die Spannenmitte. In diesem Exkurs soll kurz erläutert werden, warum die Bestimmung von Erwartungswert, Varianz und Verteilung für Schätzer, die - wie Median oder Page 6 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Spannenmitte - auf Rängen basieren, so kompliziert ist. Das arithmetische Mittel, welches wir als Schätzer für den Parameter der Normalverteilung kennengelernt haben, basiert unmittelbar auf - also auf unserer ungeordneten Stichprobe. sind unabhängig und identisch verteilte Zufallsvariablen, was unsere Rechnungen (hier am Beispiel der Varianz) deutlich vereinfacht. (1) An dieser Stelle greift die Unabhängigkeit: gilt nur, wenn alle unabhängig sind, ansonsten gilt: . Bei einer Stichprobe vom Umfang müsste man also bei abhängigen Variablen neben den Varianzen auch noch Kovarianzen kennen. (2) Dies gilt nur, wenn alle identisch verteilt sind, denn nur dann ist sicher, dass (für alle ) gilt. Median und Spannenmitte basieren auf , nur über die geordnete Stichprobe . Obwohl diese aus einer leicht nachvollziehbaren Transformation (dem "Ordnen") aus hervorgeht, können wir an einem einfachen Beispiel zeigen, dass nicht unabhängig voneinander sind: Betrachten wir der Einfachheit halber nur die ersten drei Messungen unserer Benzin-Stichprobe . 7.88 8.92 5.59 Es ergeben sich folgende Ordnungsstatistiken: 5.59 7.88 8.92 Fügen wir jetzt die vierte Beobachtung aus der Stichprobe, , hinzu, ändern sich die Ordnungsstatistiken: 5.59 Page 7 7.31 7.88 8.92 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Das Hinzufügen einer neuen Beobachtung kann die Position der bisherigen Beobachtungen in der geordneten Stichprobe verändern (in der Tabelle fett hervorgehoben) - die Ränge und damit sind also nicht unabhängig! Dass überdies die (im Gegensatz zu den ) nicht identisch verteilt sind, ist leicht einzusehen: der größte Wert einer Stichprobe hat eine Verteilung, die tendenziell weiter rechts auf der x-Achse liegt als die des zweitgrößten usw. sind also abhängige und nicht identisch verteilte Zufallsvariablen. Aus diesem Grunde ist es wesentlich komplizierter, die Verteilung von Schätzern wie Median oder Spannenmitte zu bestimmen, die auf den Ordnungsstatistiken beruhen. Die Verteilung von mit können wir nicht herleiten - unsere Kenntnisse sind dazu nicht ausreichend. Wir können jedoch eine Simulation anstellen und uns mit Hilfe eines Histogramms ein Bild von der Verteilung verschaffen. Erzeugen Sie im Statisftiklabor mithilfe des Zufallszahlengenerators Stichproben vom Umfang aus einer Normalverteilung mit und . Berechnen Sie jeweils , sowie und stellen Sie die Häufigkeitsverteilungen dieser Stichprobenfunktionen graphisch dar. Benzin-Beispiel anschauen Labordatei öffnen ( e45.zmpf ) Wir haben anhand von Simulationen festgestellt, dass die Varianz des Medians vermutlich etwa 54% größer ist als die des arithmetischen Mittels. Wir wollen nun eine weitere Simulation anstellen, um zu prüfen, ob der Median auch konsistent ist. Erzeugen Sie im Statistiklabor mithilfe des Zufallszahlengenerators jeweils Stichproben Page 8 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit vom Umfang , und und bestimmen Sie für jeden Stichprobenumfang die empirische Varianz. Stellen Sie eine Vermutung bzgl. der Konsistenz des Medians auf. Labordatei öffnen ( e5f.zmpf ) Zwischenbilanz Wir haben drei Schätzer für den Parameter der Normalverteilung untersucht. Im Falle von konnten wir anhand theoretischer Überlegungen feststellen, dass selbst normalverteilt ist mit . Der Schätzer ist außerdem erwartungstreu und konsistent. Der Median basiert auf Ordnungstatistiken. Als Schätzer für den Parameter der Normalverteilung ist er ebenfalls erwartungstreu. Wir vermuten, dass der Median (bei gleichem Stichprobenumfang ) allerdings eine größere Varianz hat als der Mittelwert. Die Spannenmitte kann als Schätzer nach den bisherigen Untersuchungen mit Mittelwert und Median nicht mithalten. Obowohl die Spannenmitte ebenfalls ein erwartungstreuer Schätzer für bei Normalverteilung ist, ist die gemessene empirische Varianz jedoch im Vergleich sehr groß. Mittelwert Verteilung Median ? Spannenmitte ? Erwartungstreu Varianz Konsistent ? Stichproben aus der Praxis und Verteilungsmodelle ist erwartungstreu und hat anscheinend auch die geringste Varianz unter unseren drei betrachteten Schätzern für bei Normalverteilung (mit absoluter Sicherheit können wir das aber nicht sagen, weil wir die Varianzen von Median und Spannenmitte nur empirisch - nicht aber theoretisch - bestimmt haben). Es lässt sich aber nachweisen, dass der Schätzer ist, der den Parameter der Normalverteilung mit kleinster Varianz schätzt. Macht es unter diesen Umständen überhaupt Sinn, andere Schätzer - wie z.B. den Median - für dieses Schätzproblem zu verwenden? Für unsere bisher angestellten Simulationen haben wir computergenerierte Zufallszahlen verwendet, die aus einer definierten Verteilung stammen. Page 9 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Wir wollen nun eine Stichprobe betrachten, die nicht aus dem Computer stammt: Es handelt sich um Wasserstandsmessungen gegen den Normalpegel, die in Crescent City (Kalifornien, USA) im Jahre 1997 vorgenommen wurden. Auf den ersten Blick erinnert das Histogramm an die Glockenkurve der Normalverteilung. Die Normalverteilungsannahme scheint für Wasserstandsmessungen auch prinzipiell plausibel. Allerdings fällt bei genauerer Betrachtung eine größere Anzahl von Werten auf der rechten Flanke der Glockenkurve auf (vgl. QQ-Diagramm ( f1f.spf ) in Statistiklabor). In der Praxis treten solche Situationen sehr häufig auf; an den Flanken der Häufigkeitsverteilungen tauchen Werte auf, die nicht zum unterstellten Verteilungsmodell passen. Die Datensätze lassen sich dann nicht mehr perfekt durch unsere Verteilungsmodelle beschreiben. Die uns bisher bekannten Schätzer unterstellen jedoch ein Verteilungsmodell. Inwiefern sich Abweichungen von diesem Modell auf die Genauigkeit der Schätzungen auswirken, soll im Folgenden untersucht werden. Ursachen von Modellabweichungen Was verursacht die Modellabweichungen? Einige mögliche Gründe seien im folgenden kurz dargestellt: - Nur in sehr wenigen Fällen lässt sich ein Modell finden, das den kompletten Datensatz perfekt abbilden kann. Häufig lässt sich ein empirischer Datensatz nur näherungsweise durch ein theoretisches Modell beschreiben (s. Wasserstands-Datensatz ( f2e.xls ) ); evtl. kann auch ein Teil der Daten einem anderen Verteilungsmodell folgen. - Übertragungs-, Tipp- oder Rechenfehler: Die statistische Auswertung erfolgt heutzutage fast ausschließlich mit dem Computer. Daten, die nicht unmittelbar mit dem Computer erhoben wurden (z.B. durch persönliche und telefonische Interviews oder durch postalische Befragungen erhobene Daten), müssen vor der Auswertung digitalisiert werden. Dies kann automatisch, z.B. durch Scanner, die Befragungsbögen einlesen, oder manuell, z.B. durch das Eintippen der Antworten bei telefonischen Interviews, erfolgen. Diese sog. "Medienbrüche" stellen potenzielle Fehlerquellen dar. Sie können zu extrem abweichenden Werten führen, die oft als Ausreißer bezeichnet werden. - In der Praxis ist die Messgenauigkeit bzw. die Verarbeitungsgenauigkeit immer begrenzt. Außerdem werden Daten oft nachträglich gruppiert bzw. sind (für die Sekundärforschung) nur in gruppierter Form zugänglich. Streng genommen muss das zumindest im Fall stetiger Modelle - zur Verletzung der Modellannahmen führen. Die Auswirkungen dieses Effektes sind in der Praxis jedoch eher begrenzt. - Oft werden, um die Rechnungen zu vereinfachen, bereits "ungenaue Modelle" eingesetzt. So haben wir zum Beispiel die Ziehung ohne Zurücklegen durch das Binomialverteilungsmodell approximiert, obwohl dies eigentlich die Ziehung mit Zurücklegen abbildet. Ein weiteres Beispiel ist der Einsatz des Zentralen Grenzwertsatzes (vgl. ) zur Approximation von Verteilungen. - In vielen Fällen ist die Unabhängigkeitsvoraussetzung in der Praxis nur teilweise gegeben. Z.B. haben wir die Unabhängigkeit der Wahlentscheidungen in unserem Wahl-Beispiel unterstellt (s. ). Tatsächlich wird in vielen Fällen die eigene Wahlentscheidung durch das soziale Umfeld (z.B. Eltern, Freunde, Kollegen) beeinflusst. Eine ausführliche Diskussion der Ursachen und Auswirkungen dieser Effekte kann an Page 10 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit dieser Stelle nicht gegeben werden. Dazu sei auf die Literatur zum Thema Robustheit verwiesen. Beispiel: Eingabe- und Übertragungsfehler Während in Deutschland erst in letzter Zeit in einzelnen Pilotprojekten der Einsatz automatisierter Erhebungsverfahren bei Wahlen und staatlichen Befragungen erprobt wird, ist in den USA eine Vielzahl automatisierter Systeme im Einsatz - einige dieser Syteme, z.B. Lochkarten-Leser sind jedoch technisch bereits überholt. Zwei Beispiele sollen mögliche Fehlerquellen im Auswertungsprozess identifizieren: Bei dem US Bevölkerungs-Zensus von 1950 ergaben sich u.a. folgende - im Vergleich zur Erhebung von 1940 - erstaunliche Ergebnisse: Alter 14 Jahre 15 Jahre 1950 Erhebung 6195 6400 1940 Erhebung 1765 2465 1950 Erhebung 1600 1355 1940 Erhebung 85 85 1950 Erhebung 1240 930 1940 Erhebung 85 135 Verheiratet Verwitwet Geschieden Diese und noch einige andere Unstimmigkeiten, die in den Zeitreihen in Form von Ausreißern sichtbar wurden, fielen bei der Prüfung der Daten auf. Eine Untersuchung zur Feststellung der Ursachen ergab, dass die Fehler auf Lochkarten zurückzuführen waren, die beim Einlesen verrutscht waren. Ein prominentes Beispiel für Eingabefehler aus dem Jahr 2000 liefern die US Präsidentschaftswahlen. Bei den Präsidentschaftswahlen in den USA werden derzeit fünf verschiedene Systeme zur Stimmenabgabe bzw. -zählung eingesetzt (Wahlzettel, mechanische Hebelmaschinen, Lochkarten, "Marksense"-Systeme und elektronische Wahlsysteme, vgl. , ). Im Jahre 2000 kam es zu einem Kopf-an-Kopf Rennen zwischen George W. Bush und Al Gore. Florida avancierte bei der Wahl zum Zünglein an der Waage - der Vorsprung für Bush lag hier nur bei einigen hundert Stimmen. Dann stellte sich heraus, dass die Wahlzettel im Bezirk Palm Beach missverständlich waren und Al Page 11 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Gore dadurch einige Stimmen verloren hat. Wahlzettel für die 2000er US Präsidentschaftswahlen aus dem Bezirk Palm Beach, Florida Quelle: http://www.si.umich.edu/~presnick/BallotConfusion/ Einige Wähler, die für Al Gore stimmen wollten, haben durch die versetzte Anordnung der Felder versehentlich für Pat Buchanan gestimmt. Im Folgenden lässt sich die Stimmenabgabe interaktiv nachvollziehen: Interaktiver Wahlzettel zum Probieren ( : fdf.swf ) Beide Beispiele demonstrieren, wie fehlerhafte Daten zustande kommen können. Robustheit bei Schätzern Wir wissen nun, dass Datensätze unseren theoretischen Modellen in den seltensten Fällen exakt entsprechen. Gängige Arten von Modellabweichungen wurden kurz aufgezählt. Im Folgenden wollen wir im wesentlichen untersuchen, wie sich extrem abweichende Werte (Ausreißer) auf die Genauigkeit unserer Schätzungen auswirken. Im werden ergänzend die Auswirkungen einer Verletzung der Verteilungsannahme thematisiert. Schätzer, die gegenüber Verletzungen der Modellannahmen wenig sensibel sind, wollen wir im Folgenden "robuste Schätzer" nennen. Die Robustheit eines Schätzers ist eine in der Praxis wesentliche Eigenschaft, die auch bei der Beurteilung des Schätzers relevant ist. Beispiel: Eine "verschmutze" Stichprobe Bevor wir weitere Simulationen anstellen, wollen wir eine verschmutze Stichprobe genauer betrachten. Um einen Vergleich zu ermöglichen, wird zunächst eine computergenerierte "saubere" Stichprobe vom Umfang gezogen. Die Stichprobe bezieht sich auf das Benzin-Verbrauch-Beispiel und wurde aus einer Normalverteilung [] gezogen. Im zweiten Schritt wählen wir 10% der Werte der Stichprobe zufällig aus und ersetzen sie durch Werte, die um ca. größer sind als die in der Stichprobe vorhandenen Werte. Wir erhalten eine computersimulierte Stichprobe, die die Eigenschaften einer verschmutzen empirischen Stichprobe nachbildet. Vergleich einer sauberen Stichprobe (oben) mit einer künstlich verschmutzten Stichprobe (mittlere Graphik); n=200, Verschmutzungsgrad ca. 10% Die Histogramme und die Boxplots zeigen, dass sich die Stichproben weitgehend ähneln, durch die "Verschmutzung" weichen aber einige wenige Werte z.T. massiv von den restlichen Realisationen ab. Die Ausreißer sind im Boxplot besonders gut identifizierbar. Anhand der Graphik ist zu vermuten, dass Mittelwert, Median und Spannenmitte unterschiedlich auf diese extremen Werte reagieren. Im Falle der Spannenmitte ist die Reaktion besonders extrem. Wir wollen dies im Folgenden genauer untersuchen! Robustheit von Mittelwert, Median und Spannenmitte Wir wollen nun eine umfangreiche Simulation anstellen, um festzustellen, wie unsere Schätzer für den Parameter der Normalverteilung auf Verunreinigungen in der Stichprobe reagieren. Wir orientieren uns weiterhin am Beispiel "Benzin-Verbrauch". Variation des Anteils der Verschmutzung in der Stichprobe Page 12 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Wir ziehen Stichproben vom Umfang nach dem Schema der vorherigen Simulation , steigern den Anteil der "Verschmutzung" dabei schrittweise von 0% auf 30% und beobachten dabei die Reaktion von Mittelwert, Median und Spannenmitte. Reaktion von Mittelwert (blau), Median (grün) und Spannenmitte (orange) auf eine Variation des Anteils von Ausreißern in der Stichprobe (k=100, n=200, Anteil der Ausreißer zwischen 0% und 30%) Die Graphik zeigt, dass der Mittelwert (blau) deutlich stärker auf die Ausreißer reagiert als der Median (grün). Die Spannenmitte (orange) ist am empfindlichsten und liefert bereits bei kleinsten Mengen an Ausreißern verzerrte Ergebnisse. Variation der Abweichung der Ausreißer vom Datenkörper Neben dem Anteil der Ausreißer in der Stichprobe spielt auch die Stärke der Ausreißer also die Abweichung vom restlichen Datenkörper - eine Rolle. Wir wollen die vorherige Simulation daher wiederholen; diesmal aber halten wir den Anteil der Ausreißer in der Stichprobe konstant bei ca. 10% und erhöhen den Grad der Abweichung der eingestreuten Ausreißer systematisch. Es ergibt sich folgende Graphik: Reaktion von Mittelwert (blau), Median (grün) und Spannenmitte (orange) auf eine Variation der Abweichung d. Ausreißern vom Datenkörper (k=100, n=200, Anteil der Ausreißer 10%) Es zeigt sich, dass die Spannenmitte nicht nur auf den Anteil der Ausreißer in der Stichprobe, sondern auch auf den Grad der Abweichung der Ausreißer vom Datenkörper extrem sensibel reagiert. Der Mittelwert reagiert mit einer zur Abweichung der Ausreißer proportionalen Verzerrung - er ist also insbesondere bei extremeren Ausreißern für unser Schätzproblem wenig geeignet. Interessant ist die Reaktion des Medians, der nach einer Anstiegsphase (deren Länge vom Anteil der Ausreißer in der Stichprobe abhängt) scheinbar beliebig extreme Ausreißer zu verkraften vermag. Fazit der Simulationen Es kann also - obwohl der Mittelwert für unser Schätzproblem theoretisch optimal ist durchaus sinnvoll sein, stattdessen den Median als Schätzer zu verwenden, wenn die Annahme der Normalverteilung verletzt ist. Gründe für die unterschiedliche Robustheit von Mittelwert und Median Der Median ist ein robuster Schätzer im Vergleich zum Mittelwert. Woran liegt das? Betrachten wir die Berechnungsvorschriften von Median und Mittelwert, so stellen wir fest, dass der Median nur einen Wert bzw. zwei Werte aus der Stichprobe ausnutzt, während der Mittelwert alle vorhandenen Informationen verarbeitet. Wird der Median als Schätzer für bei Normalverteilung gewählt, werden also Informationen "verschenkt". Was unter optimalen Bedingungen ein Nachteil ist (dies ist nämlich der Grund für die höhere Varianz des Medians im Vergleich zum Mittelwert), macht aber gleichzeitig die Robustheit des Medians aus: Theoretisch kann man bei einer Stichprobe vom Umfang ( sei ungerade) jeweils die kleinsten Beobachtungen beliebig weit nach links und die größten Beobachtungen beliebig weit nach rechts verschieben, ohne dass der Median sich verändert. Dagegen kann bereits das Verschieben einer einzigen Beobachtung den Mittelwert über alle Grenzen wachsen lassen. Die Reaktion von Mittelwert und Median auf Aufreißer kann im Folgenden interaktiv erprobt werden: Applet Robustheit (I105c.jar) öffnen. Page 13 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit Das alpha-getrimmte Mittel als robuste Alternative zum Mittelwert Wir wollen versuchen, für unser konkretes Schätzproblem (Schätzer für den Lageparameter der Normalverteilung) einen weiteren Schätzer zu konstruieren, der die Informationen aus der Stichprobe besser ausnutzt als der Median, aber gleichzeitig robuster ist als das arithmetische Mittel. Die Idee dabei ist folgende: Der Mittelwert wird insbesondere durch die extremen Werte in der Stichprobe beeinflusst, die weit vom Datenkörper entfernt liegen. Diese Realisationen lassen sich (wie die angestellten Simulationen zeigen) aufgrund ihrer Lage recht leicht identifizieren. Wir wollen versuchen, einen modifizierten "Mittelwert" so zu berechnen, dass wir diese extremen Werte bei der Berechnung "übergehen". Dazu ordnen wir die Stichprobe entsprechend der Größe der Realisationen und schneiden auf beiden Seiten jeweils den Anteil der extremsten Werte ab. Anschließend berechnen wir den Mittelwert basierend auf den verbleibenden Anteil der Werte in der "Mitte" der geordneten Stichprobe. Formal schreibt sich das so: wobei die größte ganze Zahl ist, die die Relation erfüllt, ist der . Wert in der geordneten Stichprobe. Die etwas komplizierte Formel ergibt sich nur dadurch, dass es insbesondere bei kleinen Stichprobenumfängen - nicht immer möglich ist, so zu wählen, dass es exakt entspricht ( ist schließlich ganzzahlig) - in diesen Fällen verfahren wir "konservativ", schneiden also weniger Werte ab. Den auf diese Weise konstruierten Schätzer nennt man -getrimmtes Mittel. Es sei angemerkt, dass das -getrimmte Mittel nur bei symmetrischen Verteilungen angewendet werden sollte, weil das gleichmäßige Abschneiden der Werte an beiden Rändern ansonsten zu Verzerrungen führt. Beispiel: Berechnung des alpha-getrimmten Mittels Anhand des Beispiels Benzin-Verbrauch soll die Berechnung des -getrimmten Mittels erläutert werden. Eine Stichprobe vom Umfang hat zu folgenden Realisationen geführt: Benzinv erbrauch 7.88 in l/100 km 8.92 5.59 7.31 7.48 8.30 10.46 9.55 7.92 7.15 7.92 8.30 8.92 9.55 10.46 Wir bilden zunächst die geordnete Stichprobe: Ungeord net Geordne t Benzinv 5.59 Page 14 7.15 7.31 7.48 7.88 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit erbrauch in l/100 km Jetzt können wir die Anzahl der Werte bestimmen, die wir auf jeder Seite bei der Berechnung des -getrimmten Mittels ausschließen. Nach der Formel kommen wir für auf und wählen . Wir erhalten . Die Graphik verdeutlich die Berechnung von Mittelwert, Median und Spannenmitte die zur Berechnung herangezogenen Werte sind jeweils farbig markiert. Berechnung von Mittelwert, Median und alpha-getrimmtem Mittel ((=0.15) anhand des Beispieldatensatzes "Benzin-Verbrauch" (n=10) Im Folgenden kann die Sensibilität unserer Schätzer bzgl. Ausreißern interaktiv erforscht werden. Versuchen Sie folgende Fragen zu klären: 1.Wie reagiert das -getrimmte Mittel auf einseitige Ausreißer bzw. auf nicht symmetrische Verteilungen? 2.Wie ist (bei Ausreißern auf beiden Seiten bzw. symmetrischen Verteilungen) der der Abschneideanteil des -getrimmten Mittels in Abhängigkeit vom Anteil der Ausreißer in der Stichprobe sinnvoll zu wählen? 3.Reagiert das -getrimmte Mittel (so wie der Mittelwert) auf die Entfernung der Ausreißer vom Datenkörper oder verkraftet es beliebig extreme Ausreißer (so wie der Median)? Zur Veranschaulichung können Sie die Übung Robustheit (I1257.jar) verwenden. In diesem Modul wurden unsere bisherigen Ergebnisse zum Thema "Schätzen" auf ein stetiges Verteilungsmodell übertragen. Wir haben Schätzer für den Parameter der Normalverteilung kennengelernt und deren Verteilung - soweit möglich - bestimmt. Anschließend haben wir anhand der bekannten Eigenschaften (Erwartungstreue, Konsistenz etc.) eine Beurteilung der Schätzer vorgenommen. Der Mittelwert hat als Schätzer für bei Normalverteilung von allen erwartungstreuen Schätzern die geringste Varianz - ist also bester Schätzer für dieses Schätzproblem. Die Robustheitsbetrachtung zeigt jedoch, dass der Mittelwert insbesondere im Vergleich zum Median sehr sensibel auf Ausreißer reagiert. Als weitere Alternative Page 15 (c) Projekt Neue Statistik 2003 - Lernmodul: Robustheit wurde das -getrimmte Mittel eingeführt. Es ist robuster als der Mittelwert und nutzt gleichzeitig die gegebenen Stichprobeninformationen besser aus als der Median. Auch wenn das Thema Robustheit hier nur tangiert wurde, sollte zumindest klar geworden sein, dass die Einhaltung der - insbesondere bei parametrischen Modellen oft sehr rigiden - Modellvoraussetzungen in der Empirie alles andere als selbstverständlich ist. Vor der Auswertung sollte also zumindest ein kurzer Blick auf Histogramm und Boxplot zur groben Überprüfung der Verteilungsannahme eine Selbstverständlichkeit sein. alpha-getrimmtes Mittel ErklärungAusreißer ErklärungMedienbruch ErklärungRobustheit Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 16