79-92

Werbung
3 Beschreibung von Verteilungen von numerischen Merkmalen
79
3.3 Das arithmetische Mittel
Definition 3.4 Arithmetisches Mittel
X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Wir bezeichnen das arithmetix + x + … + xn
.
sche Mittel als aMittel ( X ) oder x . Es wird definiert als x := 1 2
n
Wir wollen uns jetzt mit Eigenschaften des arithmetischen Mittels beschäftigen, insbesondere
mit der Frage, ob bzw. inwiefern das arithmetische Mittel in der „Mitte“ der Verteilung einer
Variablen liegt. Wir betrachten das Extrembeispiel einer Variablen X mit n = 100 Fällen, da99 ⋅1 + 400
von haben 99 den Wert 1 und einer den Wert 100, dann ist x =
= 4,99 , das heißt
100
99% der Werte von X sind kleiner als der arithmetische Mittelwert.
Das arithmetische Mittel wäre hier keine besonders gute Zusammenfassung der Daten. Wenn
man also mal in den Medien liest, „80% sind schlechter als der Durchschnitt“ dann ist das oft
nicht falsch, denn unter dem Durchschnitt wird i.d.R. das arithmetische Mittel verstanden.
Beim Median kann dies nicht zutreffen, denn es sind nach Satz 3.2 höchstens 50 % kleiner als
der Median. Mathematisch kann man über das arithmetische Mittel nur sagen, dass es immer
zwischen dem Minimum und dem Maximum einer Verteilung liegt. Das ist inhaltlich plausibel. Man könnte die Aussage durch Argumentieren mit Ungleichungen begründen. Es gilt:
x1 ≤ max ( X ) , x2 ≤ max ( X )
, xn ≤ max ( X ) . „Summiert“ man diese Ungleichungen, so er-
hält man x1 + x2 + … xn ≤ n ⋅ max ( X ) , also x ≤ max ( X ) . Mit einem analogen Argument erhält
man x ≥ min ( X ) .
Satz 3.5 Lage-Eigenschaft des arithmetischen Mittels
X sei eine numerische Variable, dann gilt min ( X ) ≤ x ≤ max ( X ) . Falls mindestens
zwei Werte verschieden sind gilt „sogar“ min ( X ) < x < max ( X ) .
Wir können weitere Eigenschaften des arithmetischen Mittels herleiten, indem wir die Abweichungen der Daten von x untersuchen und Eigenschaften für sie herleiten.
Definition 3.5 Residuen bezüglich des arithm. Mittelwerts
X sei eine numerische Variable mit Werten x1 , x2 ,… xn
Die Residuen bezüglich des arithmetischen Mittels sind dann ri ( x ) := xi − x . Man
kann sie als Werte des transformierten Merkmals Rx = X − aMittel ( X ) auffassen.
Wir betrachten ein Beispiel.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
80
Collection 1
X
Res_aMittel
Res_Median
X − aMittel ( X ) X − Median ( X )
=
1
3
-1,73
-2,3
2
5,5
0,77
0,2
3
6
1,27
0,7
4
3
-1,73
-2,3
5
2
-2,73
-3,3
6
5,7
0,97
0,4
7
6
1,27
0,7
8
1
-3,73
-4,3
9
10
5,27
4,7
10
5,1
0,37
-0,2
Punktdiagramm
Collection 1
0
2
4
6
X
8
10
12
aMittel ( ) = 4,73
Median ( ) = 5,3
Die Tabelle zeigt, wie man die Residuen errechnen kann. Wir schauen uns die Verteilung der
Residuen an und zeichnen das arithmetische Mittel und den Median ein.
Die rechten (blauen) Linien stellen jeweils den Median dar.
Wir entdecken: Der arithmetische Mittelwert der Residuen bezüglich des arithmetischen Mittels der Ausgangsdaten ist 0, der Median der Residuen bezüglich des Medians ist 0 (siehe Satz
3.4).
Anschaulich heißt das: Der (passende) „Mittelwert“ der Residuen ist immer gleich 0. Im Mittel sind die Abweichungen vom Mittelwert 0.
Wir können diese wesentliche Eigenschaft der Residuen durch Nachrechnen begründen:
r1 ( x ) + r2 ( x ) + … rn ( x ) ( x1 − x ) + ( x2 − x ) + … ( xn − x )
=
n
n
x + x + … xn − n ⋅ x n ⋅ x − n ⋅ x
= 1 2
=
=0
n
n
aMittel ( Res_aMittel ) =
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
81
Satz 3.6 Eigenschaften des arithmetischen Mittels
X sei eine numerische Variable. Wir bezeichnen die Residuen bezüglich x mit ri , dann
gilt:
n
(a)
n
∑( x − x ) = ∑ r = 0
i =1
i
i =1
i
1 n
1 n
( xi − x ) = ∑ ri = r = 0 , dabei bezeichnet r das arithmetische Mittel der Re∑
n i =1
n i =1
siduen.
(b)
(c)
∑ (x − x) =− ∑(x − x) = ∑(x − x )
i
xi > x
(d)
xi < x
i
xi < x
i
∑ x −x = ∑ x −x
xi > x
i
xi < x
i
(e ) n ⋅ x = x1 + x2 + … + xn
Beweis: Wir haben in der Vorüberlegung die Aussage (b) algebraisch nachgewiesen. Daraus
folgt die Aussage (a) unmittelbar. Bei (c) und (d) wurden die Gleichung so umgeformt, dass
die positiven und die negativen Terme getrennt werden. (e) ist eine einfache Umformung der
Definition des arithmetischen Mittels.
Obwohl alle Aussagen nur leichte Umformungen der Definition des arithmetischen Mittels
sind, lassen sie unterschiedliche anschauliche Interpretationen zu.
Interpretationen
(e) Gleichverteilungseigenschaft
x ist der Wert, den man erhält, wenn man die Summe aller Werte zu gleichen Anteilen auf alle Fälle verteilen würde. Kennt man x und die Anzahl der Fälle n, so kann man immer die
Summe ermitteln.
In zahlreichen Veröffentlichungen in den Medien, in denen man das arithmetische Mittel einer Variable angegeben bekommt, wurde diese aus der Summe ermittelt und nicht als Durchschnitt aus einzelnen vorliegenden Rohdaten. Das gilt z.B. für den durchschnittlichen Bierkonsum pro Jahr deutscher Bürger, welcher auf einer Schätzung oder Ermittlung des Gesamtkonsums beruht.
(a), (b) Ausgleichseigenschaft
x wurde so gewählt, dass „die Residuen sich gegenseitig aufheben“: Genauer die Summe aller Abweichungen ist 0, bzw. die durchschnittliche Abweichung von x ist 0.
(c) (d) Schwerpunkteigenschaft
Die Summe der Abweichungen nach oben (absolut genommen) ist gleich der Summe der
Abweichungen nach unten (absolut genommen). Man nennt dies aus folgendem Grund die
Schwerpunkteigenschaft.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
82
Collection 1
5.7
6
10
Bar Chart
5.5
Würde man die Datenpunkte durch ein
Gewicht der Masse 1 entlang einer Skala,
einem „Balken“, anordnen, dann wäre dieser
Balken genau dann im Gleichgewicht, wenn
er im Schwerpunkt, d. h. im arithmetischen
Mittelwert unterstützt würde. Dies beruht
auf dem Hebelgesetz: Lastarm*Last =
Kraftarm*Kraft.
1
2
3
5.1
X
Wir betrachten dazu folgende
Visualisierung, die auf demselben
artifiziellen Beispiel beruht, das wir bereits
oben benutzt haben. Wir haben die 8
vorkommenden Werte auf der Hochachse
aufgetragen (nicht äquidistant). Die Balken
repräsentieren die Residuen bezüglich a.
Wir haben a = 11 als Startwert gewählt und
alle Residuen sind negativ, also auch deren
-10 -8 -6 -4 -2 0
2
4
6
8 10
X −a
Summe. Wählen wir z. B. a = 0, dann sind
alle Residuen also auch deren Summe positiv. Wenn wir a von 11 in Richtung 0 verschieben,
dann kommen wir irgendwann an einen Punkt, an dem die Abweichungen sich gegenseitig
aufheben, d. h. die Summe der Residuen 0 ist. Diese Stelle ist bei a = x = 4, 73 (linke Grafik
unten) erreicht. Bei a = x = 5,3 ist erreicht, dass der Median der Residuen 0 ist, d. h. wir haben gleich viele positive wie negative Residuen (rechte Grafik unten).
Collection 1
Collection 1
Bar Chart
1
1
2
2
3
3
5.1
5.1
X
X
5.5
5.5
5.7
5.7
6
6
10
10
Bar Chart
-10 -8
-6
-4
X −a
-2
0
2
4
6
8
10
-10 -8
-6
-4
-2
0
2
4
6
8
10
X −a
Wir wollen jetzt überlegen, wie sich das arithmetische Mittel verhält, wenn man Daten transformiert, also überall eine Zahl addiert oder multipliziert.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
83
Satz 3.7 Arithmetisches Mittel bei Transformationen
Es sei X ein numerisches Merkmal und seien a, b reelle Zahlen. Dann kann man neue
Merkmale folgendermaßen definieren: Y = X + a und Z = b ⋅ X in dem man die entsprechenden Rechenoperationen auf die einzelnen Werte des Merkmals X anwenden.
Es gilt dann
y = x + a und z = b ⋅ x oder in alternativer Notation
a) aMittel ( X + a ) = aMittel ( X ) + a
b) aMittel ( b ⋅ X ) = aMittel ( X ) ⋅ b
Beweis: a)
y + y + … + yn ( x1 + a ) + … + ( xn + a ) x1 + … + xn + n ⋅ a x1 + … + xn
y= 1 2
=
=
=
+a= x +a
n
n
n
n
b) beweist man durch eine ähnliche Umrechnung.
3.4 Median und arithmetisches Mittel: Robustheit des Medians
Wir wollen in diesem Abschnitt einige Eigenschaften der Mittelwerte in Beziehung setzen.
Wie ändern sich Median und arithmetisches Mittel, wenn sich einzelne Datenwerte ändern?
Wir betrachten ein künstliches Beispiel, bei dem wir den ersten Datenwert der Variablen var1
abhängig von einer Variablen a gemacht haben. Der Median von var1 ist 4,75 und teilt den
Datensatz exakt in zwei Hälften. Es ist aMittel (var1) > Median(var1) bei a = 0. Was passiert,
wenn wir a erhöhen? Beim Experimentieren sehen wir, dass (1) das arithmetische Mittel sich
erhöht, (2) der Median sich nicht verändert, (3) bei einer Regleranimation sehen wir, dass sich
das arithmetische Mittel schneller verändert, als der sich verändernde Datenpunkt.
Punktdia Collection 1
Collection 1
var
var1
wenn ( Index = 1 ) ⎧⎨ var + a
⎩ var
=
2
4
6
8
aMittel ( ) = 5,41667
Median ( ) = 4,75
10
var
12
14
1
10
10
2
6
6
3
4
4
4
3
3
5
4,5
4,5
6
5
5
Es ist zunächst a = 0.
a=0
Elementare Stochastik
Rolf Biehler
WS 2006/2007
84
Punktdiagramm
Collection 1
2
4
6
8
10
var1
aMittel ( ) = 6,08333
Median ( ) = 4,75
12
14
16
Punktdiagramm
Collection 1
2
18
4
6
8
10
var1
12
14
16
18
aMittel ( ) = 6,75
Median ( ) = 4,75
a=8
a=4
Wie können wir diese Beobachtungen erklären?
(1) Der Median ändert sich nicht, weil weiterhin auf beiden Seiten von 4,75 drei Werte
liegen. Erst wenn 10 + a < 4,75 wird, würde sich auch der Median verändern, also bei
a < - 5,25.
(2) Ändert man x1 zu x1 + a mit positivem a, so wird anschaulich gesprochen die bei
5,41667 unterstützte Balkenwaage aus dem Gleichgewicht gebracht, sie neigt sich zur
rechten Seite, da sich der Lastarm verlängert. Um sie wieder ins Gleichgewicht zu
bringen, muss man den Unterstützungspunkt nach rechts verlagern, d. h. der arithm.
Mittelwert wird größer. Diese qualitative geometrisch-physikalische Überlegung kann
man auch durch Algebra untermauern und quantitativ präzisieren:
( x1 + a ) + x2 + … xn = x1 + x2 + … xn + a , d. h. der neue Mittelwert ist um den n-ten
n
n
n
Teil der Änderung größer. Das erklärt auch die langsamere Änderungsgeschwindigkeit
bei der Animation.
Wenn also in einem Datensatz weit entfernt liegende Werte vorkommen, sog. Ausreißer, dann
wird dies im arithmetischen Mittel berücksichtigt, der Median ist genauso groß, wie wenn die
„Ausreißer“ näher am Zentrum liegen würden. Der Effekt auf das arithmetische Mittel ist relativ geringer je größer der Datenumfang n ist. Man sagt kurz:
Robustheit des Medians
Das arithmetische Mittel ist empfindlich gegenüber Ausreißern (nicht-robust), der Median ist
robust gegenüber Ausreißern.
Beim Vorkommen von Ausreißern ist deshalb die Angabe des arithmetischen Mittels oft nicht
informativ, bzw. kann zu Missverständnissen Anlass geben.
3.5 Arithmetisches Mittel, Median und Schiefe der Verteilung
Wir haben schon beim Eingangsbeispiel gesehen, dass bei den meist linkssteilen (rechtsschiefen) Verteilungen der Freizeitvariablen gilt x > x . Wir sehen uns noch mal Beispiele an. Dabei bedeutet in nahe liegender Weise mean = arithmetisches Mittel.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
Histogram
Freizeit
250
200
Count
Count
Histogram
Freizeit
400
350
300
250
200
150
100
50
300
150
100
50
0
5
10
15 20 25
Zeit_Jobben
30
35
0
mean ( ) = 3.50763
median ( ) = 1
5
10
15
Zeit_Instr
20
2
mean ( ) = 1.50942
median ( ) = 0
Histogram
Freizeit
140
Histogram
Freizeit
120
120
100
Count
100
Count
85
80
60
80
60
40
40
20
20
0
5
10
15
Zeit_HA
20
mean ( ) = 6.03893
median ( ) = 5
2
0
2
4
6
8 10 12 14 16 18
Zeit_Lesen
mean ( ) = 3.14719
median ( ) = 3
Wie kann man sich das erklären, dass hier immer gilt x > x ? Wir betrachten ein einfaches
Beispiel: ein symmetrischer Datensatz aus 6 Punkten. aMittel und Median sind gleich. Das
gilt für jede exakt symmetrische Verteilung, denn jedem positiven Residuum entspricht genau
ein negatives Residuum und umgekehrt, d.h. der Schwerpunkt ist mit dem Median identisch,
aMittel und Median führen zur gleichen Stelle. Das gilt angenähert auch für die Variable
„Nettozeit“ aus den Muffins-Daten.
Dot Plot
Histogram
Freizeit
90
80
70
60
50
40
30
20
10
Count
Collection 1
2
4
6
8
10
X
mean ( ) = 5
median ( ) = 5
40
50
60
Nettozeit
70
80
mean ( ) = 55.6386
median ( ) = 55.5
Aus einer symmetrischen Verteilung macht man eine linkssteile (rechtsschiefe) prinzipiell dadurch, dass man links vom Median die Punkte näher an den Median heranrückt und die Punkte rechts vom Median weiter von ihm wegzieht. Während dabei der Median gleich bleibt, führen beide Aktionen dazu, dass sich der Schwerpunkt ( x ) zu höheren Werten verschiebt.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
86
Dot Plot
Collection 1
2
4
6
8
Dot Plot
Collection 1
10
2
X
=
5.62409
mean ( )
median ( ) = 5
4
6
8
10
X
mean ( ) = 6.18479
median ( ) = 5
Im linken Plot haben wir nur die Punkte links herangerückt, im rechten Plot die Punkte rechts
zusätzlich noch vom Median entfernt, so dass die Differenz zwischen Median und aMittel
noch größer wird. Eine rechssteile (linksschiefe) Verteilung bekommt man dadurch, dass man
entsprechende Operationen auf der jeweils anderen Seite vornimmt. Bei unseren Freizeitdaten
sind linksschiefe Verteilungen selten. Beispiele für leicht linksschiefe Verteilungen auf der
Basis der Muffins-Daten sind die folgenden.
Histogram
Freizeit
100
90
80
70
60
50
40
30
20
10
Histogram
Freizeit
120
Count
Count
100
80
60
40
20
0
20
40
Netto_Comp
60
mean ( ) = 36.6468
median ( ) = 37.375
Netto_Comp := Nettozeit - Zeit_TV-Zeit_Comp Zeit_Musik
80
2
4
mean ( ) = 8.39299
median ( ) = 8.5
6
8
DoFreizeit
10
12
Manchmal wird die Differenz x − x als Schiefemaß interpretiert, jestärker die Abweichung
von Null desto „schiefer“ bzw. desto unsymmetrischer ist die Verteilung:
x−x≈0
Symmetrie
x−x>0
Linkssteil (Rechtsschief)
x−x<0
Rechtssteil (Linksschief)
Man muss vorsichtig mit diesem Maß umgehen und darf es nur in Verbindung mit graphischen Darstellungen verwenden. Man kann nämlich Verteilungen konstruieren, bei denen das
Schiefemaß etwas anderes sagt als der optische Eindruck.
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
Histogram
Freizeit
120
100
80
Count
Die rechtsstehende Verteilung ist aus den Originaldaten entstanden, indem man
die Säule bei 10 nach 14
verschoben hat. Dadurch
wird das arithmetische Mittel größer als der Median,
also x − x > 0 und wäre somit nach obiger Regel die
Verteilung linkssteil. Sie
sieht aber eher wie rechtssteil aus, mit einigen Ausreißern.
87
60
40
20
2
4
6
8
DoFreizeit
10
12
14
mean ( ) = 8.68383
median ( ) = 8.5
3.6 Minimalitätseigenschaften des arithmetischen Mittels und
des Medians
Die Mittelwerte haben weitere relevante Eigenschaften, sie erzeugen in gewissem Sinne minimal Abweichungen von ihnen. Zur Erläuterung starten wir mit einer eingekleideten Aufgabe.
Der optimale Standort
Auf einer geraden Straße sind n Häuser angeordnet. Die Entfernungen der Häuser zum linken
Randpunkt der Straße betragen x1 , x2 ,… xn . Es soll ein Supermarkt dort gebaut werden, wo
die Entfernungen, die jeweils zu ihm zurückzulegen sind, irgendwie minimal werden.
Wir haben eine Skizze angefertigt und einen möglichen Standort durch die Variable a gekennzeichnet.
Collection 1
X
1 1
2 2
3 4
4 6
5 8
6 10
7 12
Collection 1
0
2
Dot Plot
4
6
8
10
12
X
a =5
Optimalitätskriterien könnten sein: Die maximale Entfernung soll möglichst klein sein. Oder,
die Summe aller Entfernungen soll möglichst klein sein.
Wir entscheiden uns, die Summe der Abstände H(a) zum Standort a des Supermarktes minimieren zu wollen. Wir suchen das Minimum empirisch. Mit der unten abgebildeten Arbeitsumgebung finden wir das Minimum bei a = 6. H(6) hat den Wert 23. Als Formel haben wir
n
H (a) := ∑ xi − a = 1 − a + 2 − a + 4 − a + 6 − a + 8 − a + 10 − a + 12 − a
i =1
Elementare Stochastik
Rolf Biehler
WS 2006/2007
88
Wir variieren a solange mit Fathom bis die Summe der absoluten Abweichungen minimal
wird, wir erreichen den Minimalwert H(a) = 23 für a = 6. Der Minimalwert fällt mit dem
Median x = 6 zusammen. Können wir das verstehen?
Wenn wir von a = 0 ausgehend a um Δa erhöhen, dann verkürzen sich die Abstände zu allen
7 Punkten. Wenn man a um Δa erhöht, so verringert sich H(a) also um Δa ⋅ 7 . Hat man den
Punkt x1 = 1 überschritten, so verkürzen sich die Abstände zu 6 Punkten, zu einem verlängert
sich der Abstand, d. h. einer Veränderung um Δa entspricht eine Verringerung von H(a) um
Δa ⋅ 5 bis zum Erreichen von x1 = 2 . Danach Verlängerung zu 2 Punkten, Verkürzung zu 5
Punkten, also Nettoverringerung von H(a) um Δa ⋅ 3 für jeden Zuwachs Δa . Nach x3 = 4 wird
die Nettoverringerung Δa ⋅ 1 für jeden Zuwachs von Δa . Hat man den Punkt x4 = 6 überschritten, so führt eine Zunahme um Δa nun zu einer Erhöhung von H(a) um Δa ! Das Minimum muss also bei x4 = 6 liegen, dem Punkt, der links und rechts die gleiche Anzahl von
Punkten lässt, das ist aber laut Definition genau der Median. Dies gilt jedenfalls in dem hier
vorliegenden Fall, dass n ungerade ist.
Über diese Analyse können wir bereits sehr gute Aussagen über die Funktion H(a) machen;
das anschließende Plotten bestätigt diese Analyse.
Bereich
Eigenschaften
Bereich
Eigenschaften
a < x1
Linear fallend mit Steigung -7
x4 < a < x5
Linear steigend mit
Steigung +1
x1 < a < x2
Linear fallend mit Steigung -5
x5 < a < x6
Linear steigend mit
Steigung +3
x2 < a < x3
Linear fallend mit Steigung -3
x6 < a < x7
Linear steigend mit
Steigung +5
x3 < a < x4
Linear fallend mit Steigung -1
x7 < a
Linear steigend mit
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
89
Steigung +7
Man kann die Funktion H(a) auch plotten, um das zu verifizieren.
Function Plot
no data
50
45
y
40
35
30
25
0
2
4
6
8
10
12
x
y = a − 1 + a − 2 + a − 4 + a − 6 + a − 8 + a − 10 + a − 12
Das Minimum der stückweise linearen Funktion kann nicht durch Differentialrechnung ermittelt werden, da die Funktion an den Knickpunkten nicht differenzierbar ist.
Wir betrachten kurz den Fall, dass n gerade ist, indem wir den Punkt x7 = 12 aus den Beispieldaten heraus nehmen.
Function Plot
no data
40
35
y
30
25
20
0
2
4
6
8
10
12
x
y = a − 1 + a − 2 + a − 4 + a − 6 + a − 8 + a − 10
Es gibt in diesem Fall nicht nur ein Minimum, sondern der Minimalwert wird im ganzen Intervall ⎡⎣ x( 3) ; x( 4) ⎤⎦ = [ 4;6] angenommen. Im Zentrum des Intervalls liegt der Median
x(3) + x( 4)
. Aus der Sache heraus ist plausibel, dass sich H(a) in diesem Intervall nicht verän2
dert, wenn man a erhöht: die höher werdende Entfernung zu den 3 linken Punkten wird komElementare Stochastik
Rolf Biehler
WS 2006/2007
90
pensiert durch die geringer werdende Entfernung zu den drei rechten Punkten. Ganz allgemein gilt für gerades n, dass die Funktion H(a) in einem ganzen Intervall, in dessen Mitte der
Median liegt, konstant ist und dort auch minimal.
Im Fall, das Bindungen auftreten, muss man etwas feiner argumentieren, im Prinzip gilt aber
immer folgende Aussage:
Satz 3.8 Minimalitäts- Eigenschaft des Medians
X sei eine numerische Variable mit Werten x1 , x2 ,… xn und a ∈ R . Dann sei defin
n
i =1
i =1
niert H ( a ) := ∑ xi − a = ∑ ri (a) . Dann ist H ( a ) minimal für a = x (u. U. sogar in
einem Intervall um a = x konstant und dort minimal.
H (a) 1 n
= ∑ xi − a bezeichnet die mittlere absolute Abwein
n i =1
*
chung von a. Auch H ( a ) ist im Median minimal. Man kann den Satz 3.8 jetzt so deuten:
Bem.: Die Funktion H * ( a ) :=
Als Statistiker wollen wir einen Datensatz durch eine Zahl zusammenfassend beschreiben.
Die Zahl soll so gewählt werden, dass die realen Daten möglichst wenig von ihr abweichen,
dass diese Zahl optimal an die Daten angepasst ist. Wenn wir als „Abweichungsmaß“ die
mittlere absolute Abweichung nehmen, dann ist genau der Median unsere beste Wahl. Wir
formulieren den Satz 3.8 anschaulich um.
Satz 3.9 Der Median als optimaler Anpassungswert
X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Dann ist x ein Wert, zu dem
die mittlere absolute Abweichung der Daten minimal ist.
Minimalitätseigenschaft des arithmetischen Mittels
Das arithmetische Mittel ist die Lösung eines anderen Minimalitätsprinzips. Wenn wir die
quadratischen Abweichungen betrachten, minimiert das arithmetische Mittel die durchschnittlichen quadratischen Abweichungen. Wir nehmen dasselbe Beispiel und ermitteln das Minimum der quadratischen Abweichungen empirisch. Es ergibt sich zu a = 6,14 (wenn man auf 2
Kommastellen Genauigkeit arbeitet). Das arithmetische Mittel ist x = 6,14286 !
Wie kann man diese Eigenschaft verstehen?
Wir betrachten im Beispiel
n
G (a) := ∑ ( xi − a ) = (1 − a ) + ( 2 − a ) + ( 4 − a ) + ( 6 − a ) + ( 8 − a ) + (10 − a ) + (12 − a )
2
2
2
2
2
2
2
2
i =1
An welcher Stelle hat diese Funktion ein Minimum?
Auch wenn der Term kompliziert aussieht, so ist er doch eine quadratische Funktion in. Eine
Parabel nimmt ihr Minimum im Scheitelpunkt an, man könnte natürlich ihr Minimum auch
durch Ableitung ermitteln. Es ist
Elementare Stochastik
Rolf Biehler
WS 2006/2007
3 Beschreibung von Verteilungen von numerischen Merkmalen
91
G ' (a) = −2 ⋅ {(1 − a ) + ( 2 − a ) + ( 4 − a ) + ( 6 − a ) + ( 8 − a ) + (10 − a ) + (12 − a )}
= −2 ⋅ {1 + 2 + 4 + 6 + 8 + 10 + 12 − 7 ⋅ a}
⎛ 1 + 2 + 4 + 6 + 8 + 10 + 12
⎞
= −2 ⋅ 7 ⋅ ⎜
− a⎟
7
⎝
⎠
= −2 ⋅ 7 ⋅ ( x − a )
Die Ableitung ist 0 genau für a = x . Eine elementarere Argumentation benutzt die quadratische Ergänzung. Wir argumentieren hierfür gleich mit allgemeinen Daten.
G (a) := ∑ ( xi − a ) = ∑ ( xi 2 − 2axi + a 2 ) = ∑ xi 2 − 2a ∑ xi + n ⋅ a 2
n
n
2
i =1
i =1
n
n
i =1
i =1
1
1
1 n
⎛
⎞
⎛
⎞
= n ⋅ ⎜ a 2 − 2a ∑ xi + ∑ xi 2 ⎟ = n ⋅ ⎜ a 2 − 2ax + x 2 + ∑ xi 2 − x 2 ⎟
n i =1
n i =1 ⎠
n i =1
⎝
⎝
⎠
n
1
⎛
⎞
2
= n ⋅ ⎜ ( a − x ) + ∑ xi 2 − x 2 ⎟
n i =1
⎝
⎠
n
n
Wir haben den Term so umgeformt, dass eine quadratische Funktion in a deutlich wird. Die
vorletzte Umformung folgt dem Prinzip der quadratischen Ergänzung.
Der Scheitelpunkt der Parabel G(a) liegt also bei a = x . G(a) wird für a = x minimal.
Satz 3.10 Minimalitäts-Eigenschaft des arithmetischen Mittels
X sei eine numerische Variable mit Werten x1 , x2 ,… xn und a ∈ R . Dann sei defin
n
niert G ( a ) := ∑ ( xi − a ) = ∑ ri (a) 2 . Dann ist G ( a ) minimal für a = x .
2
i =1
i =1
Wir können dies auch so formulieren, dass das arithmetische Mittel der optimale nach der
„Methode der kleinsten Quadrate“ ermittelte Anpassungswert ist.
Satz 3.11 Das arithmetische Mittel als optimaler Anpassungswert (nach der „Methode der kleinsten Quadrate“)
X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Dann ist x der Wert, zu dem
die mittlere quadratische Abweichung der Daten minimal ist.
G (a) 1 n
2
= ∑ ( xi − a ) . Sie
n
n i =1
ist offensichtlich genau in dem Punkt minimal, in dem auch die Funktion G ( a ) minimal ist.
Die mittlere quadratische Abweichung wird definiert als G* ( a ) :=
Die Suche nach einem optimalen Anpassungswert kann man auch so formulieren. Gesucht ist
eine Zerlegung
Daten = Modellwert + Residuen
xi = a + ri (a )
= a + ( xi − a )
Elementare Stochastik
Rolf Biehler
WS 2006/2007
92
wobei die Größe der Residuen möglichst klein sein soll. Präzisiert man dies Kriterium dahingehend, dass die Summe der absoluten Residuen minimal sein soll, so erhält man den Median,
präzisiert man das Kriterium dahingehend, dass die Summe der quadrierten Residuen minimal
sein soll, so erhält man das arithmetische Mittel. Diese Denkweise ist auch leitend, wenn man
Funktionen sucht, die optimal zu einer Punktwolke passen.
3.7 Streuungsmaße als mittlere Abweichungen von einem Mittelwert
Um die „Ausdehnung“ der Verteilung einer statistischen Variable zu messen, gibt es verschiedene intuitive Grundideen.
Grundidee 1: Wir „messen“, wie stark die Daten vom Zentrum, von einem Mittelwert abweichen.
Grundidee 2: Wir „messen“, wie breit sich die Daten ausdehnen, und zwar insgesamt, oder
für die mittleren 90%, die mittleren 75% oder die mittleren 50% etc.
Wir wollen zunächst die erste Idee weiter verfolgen.
Definition 3.6 Streuungsmaße als mittlere Abweichung von x
X sei eine numerische Variable mit Werten x1 , x2 ,… xn . Folgende Streuungsmaße sind
als Abweichungen vom arithmetischen Mittel denkbar:
1 n
∑ ( xi − x ) . Dieser Wert ist immer gleich 0 (Satz
n i =1
3.6). Dieses Streuungsmaß ist deshalb unbrauchbar.
(i) Mittlere Abweichung von x :
(ii) Mittlere absolute Abweichung von x :
1 n
∑ xi − x := MADmean ( X ) (mean absolute
n i =1
deviation)
(iii) Mittlere quadratische Abweichung von x :
1 n
2
( xi − x ) := var ( X ) (Varianz von
∑
n i =1
X)
(iv) Standardabweichung s ( X ) :=
1 n
2
( xi − x ) = var ( X )
∑
n i =1
Man kann diese Maße in Fathom ausrechnen lassen:
1 n
∑ xi − x := MADmean ( X )
n i =1
1 n
2
( xi − x ) := var ( X )
∑
n i =1
Elementare Stochastik
Summe ( X − aMittel ( X ) )
Anzahl ( X )
(
Summe ( X − aMittel ( X ) )
Anzahl ( X )
Rolf Biehler
= aMittel ( X − aMittel ( X ) )
2
) oder PopVar (X)
WS 2006/2007
Herunterladen