3 Beschreibung von Verteilungen von numerischen Merkmalen 79 3.3 Das arithmetische Mittel Definition 3.4 Arithmetisches Mittel X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Wir bezeichnen das arithmetix + x + … + xn . sche Mittel als aMittel ( X ) oder x . Es wird definiert als x := 1 2 n Wir wollen uns jetzt mit Eigenschaften des arithmetischen Mittels beschäftigen, insbesondere mit der Frage, ob bzw. inwiefern das arithmetische Mittel in der „Mitte“ der Verteilung einer Variablen liegt. Wir betrachten das Extrembeispiel einer Variablen X mit n = 100 Fällen, da99 ⋅1 + 400 von haben 99 den Wert 1 und einer den Wert 100, dann ist x = = 4,99 , das heißt 100 99% der Werte von X sind kleiner als der arithmetische Mittelwert. Das arithmetische Mittel wäre hier keine besonders gute Zusammenfassung der Daten. Wenn man also mal in den Medien liest, „80% sind schlechter als der Durchschnitt“ dann ist das oft nicht falsch, denn unter dem Durchschnitt wird i.d.R. das arithmetische Mittel verstanden. Beim Median kann dies nicht zutreffen, denn es sind nach Satz 3.2 höchstens 50 % kleiner als der Median. Mathematisch kann man über das arithmetische Mittel nur sagen, dass es immer zwischen dem Minimum und dem Maximum einer Verteilung liegt. Das ist inhaltlich plausibel. Man könnte die Aussage durch Argumentieren mit Ungleichungen begründen. Es gilt: x1 ≤ max ( X ) , x2 ≤ max ( X ) , xn ≤ max ( X ) . „Summiert“ man diese Ungleichungen, so er- hält man x1 + x2 + … xn ≤ n ⋅ max ( X ) , also x ≤ max ( X ) . Mit einem analogen Argument erhält man x ≥ min ( X ) . Satz 3.5 Lage-Eigenschaft des arithmetischen Mittels X sei eine numerische Variable, dann gilt min ( X ) ≤ x ≤ max ( X ) . Falls mindestens zwei Werte verschieden sind gilt „sogar“ min ( X ) < x < max ( X ) . Wir können weitere Eigenschaften des arithmetischen Mittels herleiten, indem wir die Abweichungen der Daten von x untersuchen und Eigenschaften für sie herleiten. Definition 3.5 Residuen bezüglich des arithm. Mittelwerts X sei eine numerische Variable mit Werten x1 , x2 ,… xn Die Residuen bezüglich des arithmetischen Mittels sind dann ri ( x ) := xi − x . Man kann sie als Werte des transformierten Merkmals Rx = X − aMittel ( X ) auffassen. Wir betrachten ein Beispiel. Elementare Stochastik Rolf Biehler WS 2006/2007 80 Collection 1 X Res_aMittel Res_Median X − aMittel ( X ) X − Median ( X ) = 1 3 -1,73 -2,3 2 5,5 0,77 0,2 3 6 1,27 0,7 4 3 -1,73 -2,3 5 2 -2,73 -3,3 6 5,7 0,97 0,4 7 6 1,27 0,7 8 1 -3,73 -4,3 9 10 5,27 4,7 10 5,1 0,37 -0,2 Punktdiagramm Collection 1 0 2 4 6 X 8 10 12 aMittel ( ) = 4,73 Median ( ) = 5,3 Die Tabelle zeigt, wie man die Residuen errechnen kann. Wir schauen uns die Verteilung der Residuen an und zeichnen das arithmetische Mittel und den Median ein. Die rechten (blauen) Linien stellen jeweils den Median dar. Wir entdecken: Der arithmetische Mittelwert der Residuen bezüglich des arithmetischen Mittels der Ausgangsdaten ist 0, der Median der Residuen bezüglich des Medians ist 0 (siehe Satz 3.4). Anschaulich heißt das: Der (passende) „Mittelwert“ der Residuen ist immer gleich 0. Im Mittel sind die Abweichungen vom Mittelwert 0. Wir können diese wesentliche Eigenschaft der Residuen durch Nachrechnen begründen: r1 ( x ) + r2 ( x ) + … rn ( x ) ( x1 − x ) + ( x2 − x ) + … ( xn − x ) = n n x + x + … xn − n ⋅ x n ⋅ x − n ⋅ x = 1 2 = =0 n n aMittel ( Res_aMittel ) = Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen 81 Satz 3.6 Eigenschaften des arithmetischen Mittels X sei eine numerische Variable. Wir bezeichnen die Residuen bezüglich x mit ri , dann gilt: n (a) n ∑( x − x ) = ∑ r = 0 i =1 i i =1 i 1 n 1 n ( xi − x ) = ∑ ri = r = 0 , dabei bezeichnet r das arithmetische Mittel der Re∑ n i =1 n i =1 siduen. (b) (c) ∑ (x − x) =− ∑(x − x) = ∑(x − x ) i xi > x (d) xi < x i xi < x i ∑ x −x = ∑ x −x xi > x i xi < x i (e ) n ⋅ x = x1 + x2 + … + xn Beweis: Wir haben in der Vorüberlegung die Aussage (b) algebraisch nachgewiesen. Daraus folgt die Aussage (a) unmittelbar. Bei (c) und (d) wurden die Gleichung so umgeformt, dass die positiven und die negativen Terme getrennt werden. (e) ist eine einfache Umformung der Definition des arithmetischen Mittels. Obwohl alle Aussagen nur leichte Umformungen der Definition des arithmetischen Mittels sind, lassen sie unterschiedliche anschauliche Interpretationen zu. Interpretationen (e) Gleichverteilungseigenschaft x ist der Wert, den man erhält, wenn man die Summe aller Werte zu gleichen Anteilen auf alle Fälle verteilen würde. Kennt man x und die Anzahl der Fälle n, so kann man immer die Summe ermitteln. In zahlreichen Veröffentlichungen in den Medien, in denen man das arithmetische Mittel einer Variable angegeben bekommt, wurde diese aus der Summe ermittelt und nicht als Durchschnitt aus einzelnen vorliegenden Rohdaten. Das gilt z.B. für den durchschnittlichen Bierkonsum pro Jahr deutscher Bürger, welcher auf einer Schätzung oder Ermittlung des Gesamtkonsums beruht. (a), (b) Ausgleichseigenschaft x wurde so gewählt, dass „die Residuen sich gegenseitig aufheben“: Genauer die Summe aller Abweichungen ist 0, bzw. die durchschnittliche Abweichung von x ist 0. (c) (d) Schwerpunkteigenschaft Die Summe der Abweichungen nach oben (absolut genommen) ist gleich der Summe der Abweichungen nach unten (absolut genommen). Man nennt dies aus folgendem Grund die Schwerpunkteigenschaft. Elementare Stochastik Rolf Biehler WS 2006/2007 82 Collection 1 5.7 6 10 Bar Chart 5.5 Würde man die Datenpunkte durch ein Gewicht der Masse 1 entlang einer Skala, einem „Balken“, anordnen, dann wäre dieser Balken genau dann im Gleichgewicht, wenn er im Schwerpunkt, d. h. im arithmetischen Mittelwert unterstützt würde. Dies beruht auf dem Hebelgesetz: Lastarm*Last = Kraftarm*Kraft. 1 2 3 5.1 X Wir betrachten dazu folgende Visualisierung, die auf demselben artifiziellen Beispiel beruht, das wir bereits oben benutzt haben. Wir haben die 8 vorkommenden Werte auf der Hochachse aufgetragen (nicht äquidistant). Die Balken repräsentieren die Residuen bezüglich a. Wir haben a = 11 als Startwert gewählt und alle Residuen sind negativ, also auch deren -10 -8 -6 -4 -2 0 2 4 6 8 10 X −a Summe. Wählen wir z. B. a = 0, dann sind alle Residuen also auch deren Summe positiv. Wenn wir a von 11 in Richtung 0 verschieben, dann kommen wir irgendwann an einen Punkt, an dem die Abweichungen sich gegenseitig aufheben, d. h. die Summe der Residuen 0 ist. Diese Stelle ist bei a = x = 4, 73 (linke Grafik unten) erreicht. Bei a = x = 5,3 ist erreicht, dass der Median der Residuen 0 ist, d. h. wir haben gleich viele positive wie negative Residuen (rechte Grafik unten). Collection 1 Collection 1 Bar Chart 1 1 2 2 3 3 5.1 5.1 X X 5.5 5.5 5.7 5.7 6 6 10 10 Bar Chart -10 -8 -6 -4 X −a -2 0 2 4 6 8 10 -10 -8 -6 -4 -2 0 2 4 6 8 10 X −a Wir wollen jetzt überlegen, wie sich das arithmetische Mittel verhält, wenn man Daten transformiert, also überall eine Zahl addiert oder multipliziert. Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen 83 Satz 3.7 Arithmetisches Mittel bei Transformationen Es sei X ein numerisches Merkmal und seien a, b reelle Zahlen. Dann kann man neue Merkmale folgendermaßen definieren: Y = X + a und Z = b ⋅ X in dem man die entsprechenden Rechenoperationen auf die einzelnen Werte des Merkmals X anwenden. Es gilt dann y = x + a und z = b ⋅ x oder in alternativer Notation a) aMittel ( X + a ) = aMittel ( X ) + a b) aMittel ( b ⋅ X ) = aMittel ( X ) ⋅ b Beweis: a) y + y + … + yn ( x1 + a ) + … + ( xn + a ) x1 + … + xn + n ⋅ a x1 + … + xn y= 1 2 = = = +a= x +a n n n n b) beweist man durch eine ähnliche Umrechnung. 3.4 Median und arithmetisches Mittel: Robustheit des Medians Wir wollen in diesem Abschnitt einige Eigenschaften der Mittelwerte in Beziehung setzen. Wie ändern sich Median und arithmetisches Mittel, wenn sich einzelne Datenwerte ändern? Wir betrachten ein künstliches Beispiel, bei dem wir den ersten Datenwert der Variablen var1 abhängig von einer Variablen a gemacht haben. Der Median von var1 ist 4,75 und teilt den Datensatz exakt in zwei Hälften. Es ist aMittel (var1) > Median(var1) bei a = 0. Was passiert, wenn wir a erhöhen? Beim Experimentieren sehen wir, dass (1) das arithmetische Mittel sich erhöht, (2) der Median sich nicht verändert, (3) bei einer Regleranimation sehen wir, dass sich das arithmetische Mittel schneller verändert, als der sich verändernde Datenpunkt. Punktdia Collection 1 Collection 1 var var1 wenn ( Index = 1 ) ⎧⎨ var + a ⎩ var = 2 4 6 8 aMittel ( ) = 5,41667 Median ( ) = 4,75 10 var 12 14 1 10 10 2 6 6 3 4 4 4 3 3 5 4,5 4,5 6 5 5 Es ist zunächst a = 0. a=0 Elementare Stochastik Rolf Biehler WS 2006/2007 84 Punktdiagramm Collection 1 2 4 6 8 10 var1 aMittel ( ) = 6,08333 Median ( ) = 4,75 12 14 16 Punktdiagramm Collection 1 2 18 4 6 8 10 var1 12 14 16 18 aMittel ( ) = 6,75 Median ( ) = 4,75 a=8 a=4 Wie können wir diese Beobachtungen erklären? (1) Der Median ändert sich nicht, weil weiterhin auf beiden Seiten von 4,75 drei Werte liegen. Erst wenn 10 + a < 4,75 wird, würde sich auch der Median verändern, also bei a < - 5,25. (2) Ändert man x1 zu x1 + a mit positivem a, so wird anschaulich gesprochen die bei 5,41667 unterstützte Balkenwaage aus dem Gleichgewicht gebracht, sie neigt sich zur rechten Seite, da sich der Lastarm verlängert. Um sie wieder ins Gleichgewicht zu bringen, muss man den Unterstützungspunkt nach rechts verlagern, d. h. der arithm. Mittelwert wird größer. Diese qualitative geometrisch-physikalische Überlegung kann man auch durch Algebra untermauern und quantitativ präzisieren: ( x1 + a ) + x2 + … xn = x1 + x2 + … xn + a , d. h. der neue Mittelwert ist um den n-ten n n n Teil der Änderung größer. Das erklärt auch die langsamere Änderungsgeschwindigkeit bei der Animation. Wenn also in einem Datensatz weit entfernt liegende Werte vorkommen, sog. Ausreißer, dann wird dies im arithmetischen Mittel berücksichtigt, der Median ist genauso groß, wie wenn die „Ausreißer“ näher am Zentrum liegen würden. Der Effekt auf das arithmetische Mittel ist relativ geringer je größer der Datenumfang n ist. Man sagt kurz: Robustheit des Medians Das arithmetische Mittel ist empfindlich gegenüber Ausreißern (nicht-robust), der Median ist robust gegenüber Ausreißern. Beim Vorkommen von Ausreißern ist deshalb die Angabe des arithmetischen Mittels oft nicht informativ, bzw. kann zu Missverständnissen Anlass geben. 3.5 Arithmetisches Mittel, Median und Schiefe der Verteilung Wir haben schon beim Eingangsbeispiel gesehen, dass bei den meist linkssteilen (rechtsschiefen) Verteilungen der Freizeitvariablen gilt x > x . Wir sehen uns noch mal Beispiele an. Dabei bedeutet in nahe liegender Weise mean = arithmetisches Mittel. Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen Histogram Freizeit 250 200 Count Count Histogram Freizeit 400 350 300 250 200 150 100 50 300 150 100 50 0 5 10 15 20 25 Zeit_Jobben 30 35 0 mean ( ) = 3.50763 median ( ) = 1 5 10 15 Zeit_Instr 20 2 mean ( ) = 1.50942 median ( ) = 0 Histogram Freizeit 140 Histogram Freizeit 120 120 100 Count 100 Count 85 80 60 80 60 40 40 20 20 0 5 10 15 Zeit_HA 20 mean ( ) = 6.03893 median ( ) = 5 2 0 2 4 6 8 10 12 14 16 18 Zeit_Lesen mean ( ) = 3.14719 median ( ) = 3 Wie kann man sich das erklären, dass hier immer gilt x > x ? Wir betrachten ein einfaches Beispiel: ein symmetrischer Datensatz aus 6 Punkten. aMittel und Median sind gleich. Das gilt für jede exakt symmetrische Verteilung, denn jedem positiven Residuum entspricht genau ein negatives Residuum und umgekehrt, d.h. der Schwerpunkt ist mit dem Median identisch, aMittel und Median führen zur gleichen Stelle. Das gilt angenähert auch für die Variable „Nettozeit“ aus den Muffins-Daten. Dot Plot Histogram Freizeit 90 80 70 60 50 40 30 20 10 Count Collection 1 2 4 6 8 10 X mean ( ) = 5 median ( ) = 5 40 50 60 Nettozeit 70 80 mean ( ) = 55.6386 median ( ) = 55.5 Aus einer symmetrischen Verteilung macht man eine linkssteile (rechtsschiefe) prinzipiell dadurch, dass man links vom Median die Punkte näher an den Median heranrückt und die Punkte rechts vom Median weiter von ihm wegzieht. Während dabei der Median gleich bleibt, führen beide Aktionen dazu, dass sich der Schwerpunkt ( x ) zu höheren Werten verschiebt. Elementare Stochastik Rolf Biehler WS 2006/2007 86 Dot Plot Collection 1 2 4 6 8 Dot Plot Collection 1 10 2 X = 5.62409 mean ( ) median ( ) = 5 4 6 8 10 X mean ( ) = 6.18479 median ( ) = 5 Im linken Plot haben wir nur die Punkte links herangerückt, im rechten Plot die Punkte rechts zusätzlich noch vom Median entfernt, so dass die Differenz zwischen Median und aMittel noch größer wird. Eine rechssteile (linksschiefe) Verteilung bekommt man dadurch, dass man entsprechende Operationen auf der jeweils anderen Seite vornimmt. Bei unseren Freizeitdaten sind linksschiefe Verteilungen selten. Beispiele für leicht linksschiefe Verteilungen auf der Basis der Muffins-Daten sind die folgenden. Histogram Freizeit 100 90 80 70 60 50 40 30 20 10 Histogram Freizeit 120 Count Count 100 80 60 40 20 0 20 40 Netto_Comp 60 mean ( ) = 36.6468 median ( ) = 37.375 Netto_Comp := Nettozeit - Zeit_TV-Zeit_Comp Zeit_Musik 80 2 4 mean ( ) = 8.39299 median ( ) = 8.5 6 8 DoFreizeit 10 12 Manchmal wird die Differenz x − x als Schiefemaß interpretiert, jestärker die Abweichung von Null desto „schiefer“ bzw. desto unsymmetrischer ist die Verteilung: x−x≈0 Symmetrie x−x>0 Linkssteil (Rechtsschief) x−x<0 Rechtssteil (Linksschief) Man muss vorsichtig mit diesem Maß umgehen und darf es nur in Verbindung mit graphischen Darstellungen verwenden. Man kann nämlich Verteilungen konstruieren, bei denen das Schiefemaß etwas anderes sagt als der optische Eindruck. Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen Histogram Freizeit 120 100 80 Count Die rechtsstehende Verteilung ist aus den Originaldaten entstanden, indem man die Säule bei 10 nach 14 verschoben hat. Dadurch wird das arithmetische Mittel größer als der Median, also x − x > 0 und wäre somit nach obiger Regel die Verteilung linkssteil. Sie sieht aber eher wie rechtssteil aus, mit einigen Ausreißern. 87 60 40 20 2 4 6 8 DoFreizeit 10 12 14 mean ( ) = 8.68383 median ( ) = 8.5 3.6 Minimalitätseigenschaften des arithmetischen Mittels und des Medians Die Mittelwerte haben weitere relevante Eigenschaften, sie erzeugen in gewissem Sinne minimal Abweichungen von ihnen. Zur Erläuterung starten wir mit einer eingekleideten Aufgabe. Der optimale Standort Auf einer geraden Straße sind n Häuser angeordnet. Die Entfernungen der Häuser zum linken Randpunkt der Straße betragen x1 , x2 ,… xn . Es soll ein Supermarkt dort gebaut werden, wo die Entfernungen, die jeweils zu ihm zurückzulegen sind, irgendwie minimal werden. Wir haben eine Skizze angefertigt und einen möglichen Standort durch die Variable a gekennzeichnet. Collection 1 X 1 1 2 2 3 4 4 6 5 8 6 10 7 12 Collection 1 0 2 Dot Plot 4 6 8 10 12 X a =5 Optimalitätskriterien könnten sein: Die maximale Entfernung soll möglichst klein sein. Oder, die Summe aller Entfernungen soll möglichst klein sein. Wir entscheiden uns, die Summe der Abstände H(a) zum Standort a des Supermarktes minimieren zu wollen. Wir suchen das Minimum empirisch. Mit der unten abgebildeten Arbeitsumgebung finden wir das Minimum bei a = 6. H(6) hat den Wert 23. Als Formel haben wir n H (a) := ∑ xi − a = 1 − a + 2 − a + 4 − a + 6 − a + 8 − a + 10 − a + 12 − a i =1 Elementare Stochastik Rolf Biehler WS 2006/2007 88 Wir variieren a solange mit Fathom bis die Summe der absoluten Abweichungen minimal wird, wir erreichen den Minimalwert H(a) = 23 für a = 6. Der Minimalwert fällt mit dem Median x = 6 zusammen. Können wir das verstehen? Wenn wir von a = 0 ausgehend a um Δa erhöhen, dann verkürzen sich die Abstände zu allen 7 Punkten. Wenn man a um Δa erhöht, so verringert sich H(a) also um Δa ⋅ 7 . Hat man den Punkt x1 = 1 überschritten, so verkürzen sich die Abstände zu 6 Punkten, zu einem verlängert sich der Abstand, d. h. einer Veränderung um Δa entspricht eine Verringerung von H(a) um Δa ⋅ 5 bis zum Erreichen von x1 = 2 . Danach Verlängerung zu 2 Punkten, Verkürzung zu 5 Punkten, also Nettoverringerung von H(a) um Δa ⋅ 3 für jeden Zuwachs Δa . Nach x3 = 4 wird die Nettoverringerung Δa ⋅ 1 für jeden Zuwachs von Δa . Hat man den Punkt x4 = 6 überschritten, so führt eine Zunahme um Δa nun zu einer Erhöhung von H(a) um Δa ! Das Minimum muss also bei x4 = 6 liegen, dem Punkt, der links und rechts die gleiche Anzahl von Punkten lässt, das ist aber laut Definition genau der Median. Dies gilt jedenfalls in dem hier vorliegenden Fall, dass n ungerade ist. Über diese Analyse können wir bereits sehr gute Aussagen über die Funktion H(a) machen; das anschließende Plotten bestätigt diese Analyse. Bereich Eigenschaften Bereich Eigenschaften a < x1 Linear fallend mit Steigung -7 x4 < a < x5 Linear steigend mit Steigung +1 x1 < a < x2 Linear fallend mit Steigung -5 x5 < a < x6 Linear steigend mit Steigung +3 x2 < a < x3 Linear fallend mit Steigung -3 x6 < a < x7 Linear steigend mit Steigung +5 x3 < a < x4 Linear fallend mit Steigung -1 x7 < a Linear steigend mit Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen 89 Steigung +7 Man kann die Funktion H(a) auch plotten, um das zu verifizieren. Function Plot no data 50 45 y 40 35 30 25 0 2 4 6 8 10 12 x y = a − 1 + a − 2 + a − 4 + a − 6 + a − 8 + a − 10 + a − 12 Das Minimum der stückweise linearen Funktion kann nicht durch Differentialrechnung ermittelt werden, da die Funktion an den Knickpunkten nicht differenzierbar ist. Wir betrachten kurz den Fall, dass n gerade ist, indem wir den Punkt x7 = 12 aus den Beispieldaten heraus nehmen. Function Plot no data 40 35 y 30 25 20 0 2 4 6 8 10 12 x y = a − 1 + a − 2 + a − 4 + a − 6 + a − 8 + a − 10 Es gibt in diesem Fall nicht nur ein Minimum, sondern der Minimalwert wird im ganzen Intervall ⎡⎣ x( 3) ; x( 4) ⎤⎦ = [ 4;6] angenommen. Im Zentrum des Intervalls liegt der Median x(3) + x( 4) . Aus der Sache heraus ist plausibel, dass sich H(a) in diesem Intervall nicht verän2 dert, wenn man a erhöht: die höher werdende Entfernung zu den 3 linken Punkten wird komElementare Stochastik Rolf Biehler WS 2006/2007 90 pensiert durch die geringer werdende Entfernung zu den drei rechten Punkten. Ganz allgemein gilt für gerades n, dass die Funktion H(a) in einem ganzen Intervall, in dessen Mitte der Median liegt, konstant ist und dort auch minimal. Im Fall, das Bindungen auftreten, muss man etwas feiner argumentieren, im Prinzip gilt aber immer folgende Aussage: Satz 3.8 Minimalitäts- Eigenschaft des Medians X sei eine numerische Variable mit Werten x1 , x2 ,… xn und a ∈ R . Dann sei defin n i =1 i =1 niert H ( a ) := ∑ xi − a = ∑ ri (a) . Dann ist H ( a ) minimal für a = x (u. U. sogar in einem Intervall um a = x konstant und dort minimal. H (a) 1 n = ∑ xi − a bezeichnet die mittlere absolute Abwein n i =1 * chung von a. Auch H ( a ) ist im Median minimal. Man kann den Satz 3.8 jetzt so deuten: Bem.: Die Funktion H * ( a ) := Als Statistiker wollen wir einen Datensatz durch eine Zahl zusammenfassend beschreiben. Die Zahl soll so gewählt werden, dass die realen Daten möglichst wenig von ihr abweichen, dass diese Zahl optimal an die Daten angepasst ist. Wenn wir als „Abweichungsmaß“ die mittlere absolute Abweichung nehmen, dann ist genau der Median unsere beste Wahl. Wir formulieren den Satz 3.8 anschaulich um. Satz 3.9 Der Median als optimaler Anpassungswert X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Dann ist x ein Wert, zu dem die mittlere absolute Abweichung der Daten minimal ist. Minimalitätseigenschaft des arithmetischen Mittels Das arithmetische Mittel ist die Lösung eines anderen Minimalitätsprinzips. Wenn wir die quadratischen Abweichungen betrachten, minimiert das arithmetische Mittel die durchschnittlichen quadratischen Abweichungen. Wir nehmen dasselbe Beispiel und ermitteln das Minimum der quadratischen Abweichungen empirisch. Es ergibt sich zu a = 6,14 (wenn man auf 2 Kommastellen Genauigkeit arbeitet). Das arithmetische Mittel ist x = 6,14286 ! Wie kann man diese Eigenschaft verstehen? Wir betrachten im Beispiel n G (a) := ∑ ( xi − a ) = (1 − a ) + ( 2 − a ) + ( 4 − a ) + ( 6 − a ) + ( 8 − a ) + (10 − a ) + (12 − a ) 2 2 2 2 2 2 2 2 i =1 An welcher Stelle hat diese Funktion ein Minimum? Auch wenn der Term kompliziert aussieht, so ist er doch eine quadratische Funktion in. Eine Parabel nimmt ihr Minimum im Scheitelpunkt an, man könnte natürlich ihr Minimum auch durch Ableitung ermitteln. Es ist Elementare Stochastik Rolf Biehler WS 2006/2007 3 Beschreibung von Verteilungen von numerischen Merkmalen 91 G ' (a) = −2 ⋅ {(1 − a ) + ( 2 − a ) + ( 4 − a ) + ( 6 − a ) + ( 8 − a ) + (10 − a ) + (12 − a )} = −2 ⋅ {1 + 2 + 4 + 6 + 8 + 10 + 12 − 7 ⋅ a} ⎛ 1 + 2 + 4 + 6 + 8 + 10 + 12 ⎞ = −2 ⋅ 7 ⋅ ⎜ − a⎟ 7 ⎝ ⎠ = −2 ⋅ 7 ⋅ ( x − a ) Die Ableitung ist 0 genau für a = x . Eine elementarere Argumentation benutzt die quadratische Ergänzung. Wir argumentieren hierfür gleich mit allgemeinen Daten. G (a) := ∑ ( xi − a ) = ∑ ( xi 2 − 2axi + a 2 ) = ∑ xi 2 − 2a ∑ xi + n ⋅ a 2 n n 2 i =1 i =1 n n i =1 i =1 1 1 1 n ⎛ ⎞ ⎛ ⎞ = n ⋅ ⎜ a 2 − 2a ∑ xi + ∑ xi 2 ⎟ = n ⋅ ⎜ a 2 − 2ax + x 2 + ∑ xi 2 − x 2 ⎟ n i =1 n i =1 ⎠ n i =1 ⎝ ⎝ ⎠ n 1 ⎛ ⎞ 2 = n ⋅ ⎜ ( a − x ) + ∑ xi 2 − x 2 ⎟ n i =1 ⎝ ⎠ n n Wir haben den Term so umgeformt, dass eine quadratische Funktion in a deutlich wird. Die vorletzte Umformung folgt dem Prinzip der quadratischen Ergänzung. Der Scheitelpunkt der Parabel G(a) liegt also bei a = x . G(a) wird für a = x minimal. Satz 3.10 Minimalitäts-Eigenschaft des arithmetischen Mittels X sei eine numerische Variable mit Werten x1 , x2 ,… xn und a ∈ R . Dann sei defin n niert G ( a ) := ∑ ( xi − a ) = ∑ ri (a) 2 . Dann ist G ( a ) minimal für a = x . 2 i =1 i =1 Wir können dies auch so formulieren, dass das arithmetische Mittel der optimale nach der „Methode der kleinsten Quadrate“ ermittelte Anpassungswert ist. Satz 3.11 Das arithmetische Mittel als optimaler Anpassungswert (nach der „Methode der kleinsten Quadrate“) X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Dann ist x der Wert, zu dem die mittlere quadratische Abweichung der Daten minimal ist. G (a) 1 n 2 = ∑ ( xi − a ) . Sie n n i =1 ist offensichtlich genau in dem Punkt minimal, in dem auch die Funktion G ( a ) minimal ist. Die mittlere quadratische Abweichung wird definiert als G* ( a ) := Die Suche nach einem optimalen Anpassungswert kann man auch so formulieren. Gesucht ist eine Zerlegung Daten = Modellwert + Residuen xi = a + ri (a ) = a + ( xi − a ) Elementare Stochastik Rolf Biehler WS 2006/2007 92 wobei die Größe der Residuen möglichst klein sein soll. Präzisiert man dies Kriterium dahingehend, dass die Summe der absoluten Residuen minimal sein soll, so erhält man den Median, präzisiert man das Kriterium dahingehend, dass die Summe der quadrierten Residuen minimal sein soll, so erhält man das arithmetische Mittel. Diese Denkweise ist auch leitend, wenn man Funktionen sucht, die optimal zu einer Punktwolke passen. 3.7 Streuungsmaße als mittlere Abweichungen von einem Mittelwert Um die „Ausdehnung“ der Verteilung einer statistischen Variable zu messen, gibt es verschiedene intuitive Grundideen. Grundidee 1: Wir „messen“, wie stark die Daten vom Zentrum, von einem Mittelwert abweichen. Grundidee 2: Wir „messen“, wie breit sich die Daten ausdehnen, und zwar insgesamt, oder für die mittleren 90%, die mittleren 75% oder die mittleren 50% etc. Wir wollen zunächst die erste Idee weiter verfolgen. Definition 3.6 Streuungsmaße als mittlere Abweichung von x X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Folgende Streuungsmaße sind als Abweichungen vom arithmetischen Mittel denkbar: 1 n ∑ ( xi − x ) . Dieser Wert ist immer gleich 0 (Satz n i =1 3.6). Dieses Streuungsmaß ist deshalb unbrauchbar. (i) Mittlere Abweichung von x : (ii) Mittlere absolute Abweichung von x : 1 n ∑ xi − x := MADmean ( X ) (mean absolute n i =1 deviation) (iii) Mittlere quadratische Abweichung von x : 1 n 2 ( xi − x ) := var ( X ) (Varianz von ∑ n i =1 X) (iv) Standardabweichung s ( X ) := 1 n 2 ( xi − x ) = var ( X ) ∑ n i =1 Man kann diese Maße in Fathom ausrechnen lassen: 1 n ∑ xi − x := MADmean ( X ) n i =1 1 n 2 ( xi − x ) := var ( X ) ∑ n i =1 Elementare Stochastik Summe ( X − aMittel ( X ) ) Anzahl ( X ) ( Summe ( X − aMittel ( X ) ) Anzahl ( X ) Rolf Biehler = aMittel ( X − aMittel ( X ) ) 2 ) oder PopVar (X) WS 2006/2007