1 Ergänzungen zu Statistik I

Werbung
QM1 17
1
1
Ergänzungen zu Statistik I
1.1
Kombinatorik
Pascalsches Dreieck.
Die Binomialkoeffizienten kann man in übersichtlicher Weise in Form eines Dreiecks anordnen; das entstehende Schema nennt man auch das Pascalsche Dreieck.
Von einem ‚Dreieck‘ zu sprechen ist allerdings streng genommen nicht korrekt,
da das entstehende Gebilde nach unten offen ist.
n:
k:
0
.
0
1
2
3
4
5
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
1
.
.
.
.
1
.
.
.
1
.
.
1
.
1
1
5
6
15
. . . .
.
2
4
10
20
.
.
.
.
1
.
.
1
.
.
.
5
.
.
.
1
4
.
.
.
5
3
.
.
4
10
.
.
3
2
.
1
6
.
.
1
3
1
6
.
.
.
.
.
.
.
15
6
1
. . . . . .
Die Anordnung ist so, dass der Binomialkoeffizient
n
k
in der Zeile mit der Nummer n und der schräg nach rechts oben zeigenden Reihe
mit der Nummer k steht.
Interessanterweise scheint hier jede Zahl außer den Einsem am Rand gerade die
Summe der beiden darüberstehenden Zahlen zu sein. Dies ist tatsächlich überall
so, wie nun gezeigt werden soll.
Betrachtet man allgemein zwei nebeneinander stehende Koeffizienten in der Zeile
mit der Nummer n und den darunter stehenden Koeffizienten in der Zeile mit der
Nummer n + 1, wobei der erste Koeffizient in der ersten Zeile zu der schrägen
1.1
Kombinatorik
QM1 17
2
Reihe mit der Nummer k gehören soll, so hat man gerade folgende Situation:
k
.
.
.
n
. . . .
n+1 . . . .
n
k
k+1
.
n
k+1
n+1
k+1
Die Zahl k liegt dabei zwischen 0 und n − 1, durch ein geeignetes k werden also
alle Koeffizienten in der Zeile mit der Nummer n + 1 erfasst außer den beiden
Einsen am Rande.
Die Behauptung, dass jede Zahl im Dreieck die Summe der beiden darüber stehenden Zahlen ist, ist also gleichbedeutend damit, dass für alle k = 0, . . . , n − 1
die Gleichung
n
n
n+1
+
=
k
k+1
k+1
gilt. Schreibt man die linke Seite der Gleichung aus, so erhält man
n!
n!
+
,
k! (n − k)! (k + 1)! (n − (k + 1))!
was nach Ausklammern gemeinsamer Faktoren gleich
n!
1
1
+
k! (n − (k + 1))! (n − k) (k + 1)
ist (man beachtet hier (n − k)! = (n − (k + 1))! (n − k)). Die Summe in den
Klammern berechnet man zu
1
1
(k + 1) + (n − k)
(n + 1)
+
=
=
.
(n − k) (k + 1)
(k + 1) (n − k)
(k + 1) (n − k)
Schreibt man nun für (n − (k + 1)) alternativ ((n + 1) − (k + 2)) und für (n − k)
alternativ ((n + 1) − (k + 1)), so erhält man für die ursprüngliche Summe den
Ausdruck
n!
(n + 1)
·
,
k! ((n + 1) − (k + 2))! (k + 1) ((n + 1) − (k + 1))
der durch Umgruppieren der Faktoren nun tatsächlich zu
n+1
(n + 1)!
=
(k + 1)! ((n + 1) − (k + 1))!
k+1
1.1
Kombinatorik
QM1 17
3
wird, womit die Richtigkeit der untersuchten Gleichung gezeigt ist.
Damit ist auch nachgewiesen, dass tatsächlich überall im Pascalschen Dreieck die
genannte Gesetzmäßigkeit gilt.
Da sich durch die Summationsregel alle Zahlen im Innern des Dreiecks aus den
darüber stehenden Zahlen bestimmen lassen, sieht man, dass man diese Zahlen
auch dadurch findet, dass man die Einsen an den Rändern des Dreiecks aufschreibt und das Innere dann von oben beginnend mit Hilfe dieser Summenregel
auffüllt. Man hat auf diese Weise eine Alternativmöglichkeit, die Binomialkoeffizienten sukzessive zu bestimmen, die ohne die in der Definition geforderten
Multiplikationen auskommt.
Vierte Elementaraufgabe.
Die vierte Elementaraufgabe in der Kombinatorik betrifft das Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge.
Gegeben ist eine Urne mit n Kugeln, aus der k Mal mit Zurücklegen gezogen
werden soll. Die Aufgabe besteht darin, die Anzahl der möglichen Ergebnisse zu
bestimmen, wenn die Reihenfolge der Ziehung keine Rolle spielt.
Ein Ergebnis in diesem Sinne ist also vollständig beschrieben, wenn für jede der
Kugeln angegeben wird, wie oft sie gezogen wurde, wobei es keine Rolle spielt, in
welcher Reihenfolge die Ziehungen stattfanden.
Das Ergebnis kann dann dadurch angegeben werden, dass für alle Kugeln gesagt
wird, wie oft sie gezogen wurden, wobei nun für die Kugeln eine einheitliche
Reihenfolge festgelegt sei.
Fasst man dann die Häufigkeiten, in der die einzelnen Kugeln gezogen wurden, in
der festgelegten Reihenfolge der Kugeln zu einem n-Tupel zusammen, so erhält
man ein n-Tupel, dessen Komponenten nichtnegative ganze Zahlen sind, wobei
die Summe der Komponenten gerade k ergeben muss.
Beispielsweise kann sich in der Situation mit n = 7 Kugeln und k = 11 Ziehungen
das Ergebnis
(0, 2, 5, 3, 0, 1, 0)
ergeben, das bedeutet, dass die erste Kugel nie gezogen wurde, die zweite zwei
Mal, die dritte fünf Mal, die vierte drei Mal und so fort. Man beachte, dass die
Summe der Zahlen in diesem 7-Tupel gerade 11, also die Anzahl k der Ziehungen
1.1
Kombinatorik
QM1 17
4
ist.
Offenbar entsprechen sich nun die n-Tupel aus nichtnegativen ganzen Zahlen, bei
denen die Summe der Kompontenten gleich k ist, und die Möglichkeiten, k Mal
mit Zurücklegen ohne Berücksichtigung der Reihenfolge zu ziehen, genau. Daher
kann man die gegebene Aufgabe auch dadurch lösen, dass man die Anzahl solcher
n-Tupel bestimmt.
Zu diesem Zweck sollen die n-Tupel in einer etwas primitiveren Schreibweise notiert werden. Statt der Zahlzeichen werden dabei die entsprechenden Strichfolgen
verwendet; so bedeutet beispielsweise |||| die Zahl 4. Die Kommata werden übernommen, während die Klammern wegfallen können. Aus dem eben betrachteten
7-Tupel wird so die folgende Zeichenfolge:
, ||, |||||, |||, , |,
Die Zahl Null wird dabei natürlich durch eine leere Strichfolge ausgedrückt. An
dem Komma am Anfang erkennt man also, dass davor eigentlich eine Strichfolge
stehen müsste, die aber leer ist, was insgesamt bedeutet, dass die erste Zahl des
7-Tupels eine Null ist. Entsprechendes gilt für die fünfte und die siebte Zahl.
Durch diese Umformulierung entstehen aus den n-Tupeln also Zeichenfolgen aus
Strichen und Kommata, wobei die Anzahl der Striche gleich k ist, während die
Anzahl der Kommata gleich n − 1 ist (in der schriftlichen Darstellung eines nTupels sind ja genau n − 1 trennende Kommata vorhanden).
Die Anzahl der Zeichen in diesen Zeichenfolgen ist damit stets gleich n + k − 1.
Da offenbar jede Zeichenfolge aus k Strichen und n − 1 Kommata genau eines der
untersuchten n-Tupel codiert, ist die gesuchte Anzahl der n-Tupel nun gleich der
Anzahl der möglichen Zeichenfolgen.
Die Anzahl der möglichen Zeichenfolgen lässt sich nun jedoch leicht ermitteln.
Da insgesamt n + k − 1 Zeichen vorhanden sind, ist die Folge vollständig durch
die Angabe bestimmt, an welchen Stellen die k Striche stehen sollen; dabei ist
jede Auswahl der n + k − 1 Stellen in der Zeichenfolge möglich. Die Antwort auf
die Frage nach der Anzahl der möglichen Zeichenfolgen ist also gleichzeitig die
Antwort auf die Frage, auf wieviele Arten man aus einer Menge von n + k − 1
Stellen k Stellen auswählen kann, also
n+k−1
.
k
1.1
Kombinatorik
QM1 17
5
Die vierte Elementaraufgabe ist damit gelöst – man beachte übrigens die Alternativdarstellung
n+k−1
n+k−1
=
,
k
n−1
die anschaulich auch dadurch begründet werden kann, dass jetzt die n − 1 Stellen
für die Kommata auszuwählen sind.
Zusammenfassend ist also die Anzahl der Möglichkeiten, k Mal aus einer Urne mit
n Kugeln mit Zurücklegen und ohne Berücksichtung der Reihenfolge zu ziehen,
gerade
n+k−1
n+k−1
=
.
k
n−1
Nahe verwandt ist die Aufgabe, die Anzahl der Darstellungen einer Zahl k durch
n ganzzahlige nichtnegative Summanden anzugeben, bei denen es auf die Reihenfolge ankommt.
So sind beispielsweise
1+2+0+2,
0+2+3+0,
0+3+2+0
drei Darstellungen der Zahl k = 5 durch n = 4 Summanden; die beiden letzten
Darstellungen zählen dabei als verschiedene, da die Reihenfolge der Summanden
nicht die gleiche ist.
Ersetzt man die Pluszeichen durch Kommata und schließt die entstehenden Zeichenfolgen durch Klammern ein, so erhält man genau die n-Tupel nichtnegativer
ganzer Zahlen mit Summe k. Die gesuchte Anzahl der Summendarstellungen von
k durch n Summanden ist demnach wieder
n+k−1
n+k−1
=
.
k
n−1
Will man diese Aussage auch direkt begründen, so schreibt man ganz analog wie
oben die Summen mit Hilfe von Strich-Zahlzeichen; die drei genannten Darstellungen sind dann
| + || + +| ,
+|| + |||+ ,
+||| + ||+ ,
wobei zu beachten ist, dass die Pluszeichen am Anfang der zweiten und dritten Summe beispielsweise darauf hinweisen, dass zuerst einmal der Summand 0
auftritt. Die weitere Argumentation geht dann genau wie oben.
1.1
Kombinatorik
QM1 17
6
Eine ähnliche Aufgabe ist die, die Anzahl der Darstellungen einer Zahl m als
Summe von n positiven ganzen Zahlen zu ermitteln – hier darf die Null also nicht
als Summand auftreten. Die Reihenfolge ist dabei wieder zu berücksichtigen. Die
Zahl m muss dabei natürlich mindestens gleich n sein.
Die Aufgabe führt man auf die letzte zurück, indem man sich klar macht, dass
die gesuchten Darstellungen genau den Darstellungen der Zahl m − n durch n
nichtnegative ganze Summanden entsprechen. Die bijektive Beziehung stellt man
einfach dadurch her, dass man bei einer Darstellung der ersten Art von m von
jedem der Summanden 1 abzieht, womit man gerade eine Darstellung der zweiten
Art von m − n erhält.
Die gesuchte Anzahl der Darstellungen der Zahl m durch n positive ganze Zahlen
ist demnach
n + (m − n) − 1
m−1
m−1
=
=
.
(m − n)
m−n
n−1
Als Beispiel sollen noch die Darstellungen von 7 mit Hilfe von drei positiven
Summanden folgen; die Anzahl der Darstellungen ist nach den gerade angestellten
Überlegungen gleich
7−1
6
=
= 15 ,
3−1
2
und die Darstellungen in lexikographischer Reihenfolge (zeilenweise) sind
1+1+5
2+1+4
3+1+3
4+1+2
5+1+1
1+2+4
2+2+3
3+2+2
4+2+1
1+3+3
2+3+2
3+3+1
1+4+2
2+4+1
1+5+1
Multinomialkoeffizienten.
Die Multinomialkoeffizienten sind direkte Verallgemeinerungen der Binomialkoeffizienten.
Gegeben sei eine Menge G mit n Elementen. Es geht nun um die Frage nach der
Anzahl der Möglichkeiten, diese Menge zu zerlegen in m disjunkte Teilmengen
Gi , wobei Gi gerade die Mächtigkeit ki besitzen soll. Es geht also um die Frage
der Anzahl der disjunkten Zerlegungen von G in m Mengen der gegebenen Mächtigkeiten ki . Die Reihenfolge der Teilmengen ist dabei von Bedeutung, was man
auch an ihrer Nummerierung sieht.
1.1
Kombinatorik
QM1 17
7
Die Zahlen ki müssen dabei natürlich nichtnegativ sein, und ihre Summe muss
gerade n sein.
Es ist übrigens nicht vorausgesetzt, dass die ki positiv sind; ist ein ki gleich 0, so
ist die entsprechende Teilmenge Gi immer die leere Menge.
Beispielsweise kann es darum gehen, die Menge der Zahlen von 1 bis 5 in drei
Teilmengen zu zerlegen, die die Mächtigkeiten 2, 1 und 2 besitzen sollen. Diese
Aufgabe kann man noch durch systematisches Aufzählen lösen; wenn der Kürze halber die Aufteilung in Teilmengen durch Striche angegeben wird, so dass
beispielsweise 13|4|25 die Zerlegung in die drei Teilmengen {1, 3}, {4}, {2, 5}
bedeutet, so erhält man die folgenden 30 Möglichkeiten:
12|3|45
13|2|45
14|2|35
15|2|34
23|1|45
24|1|35
25|1|34
34|1|25
35|1|24
45|1|23
12|4|35
13|4|25
14|3|25
15|3|24
23|4|15
24|3|15
25|3|14
34|2|15
35|2|14
45|2|13
12|5|34
13|5|24
14|5|23
15|4|23
23|5|14
24|5|13
25|4|13
34|5|12
35|4|12
45|3|12
Dabei ist zu beachten, dass beispielsweise die beiden Möglichkeiten 12|3|45 und
45|3|12 verschieden sind – zwar handelt es sich um Aufteilungen in die gleichen
Mengen, jedoch steht die Menge {1, 2} einmal an erster und einmal an dritter
Stelle, und die Reihenfolge sollte hier eine Rolle spielen.
Man sieht, dass nun in der Tat die Aufgabe, die zur Definition der Binomialkoeffizienten führte, ein Spezialfall dieser Aufgabe ist. Die Aufgabe, aus einer Menge
von n Elementen k auszuwählen, ist nämlich gleichbedeutend damit, diese Menge in zwei Teilmengen zu zerlegen, von denen die eine (die der ausgewählten
Elemente) die Mächtigkeit k besitzt und die andere (die der nicht ausgewählten
Elemente) die Mächtigkeit n−k. Hier ist dann also m = 2, k1 = k und k2 = n−k.
Die Zerlegung im allgemeinen Fall kann nun so vor sich gehen, dass man nacheinander die Teilmengen G1 , . . . , Gm bestimmt. Der erste Schritt ist dann der, dass
man die erste Teilmenge G1 von k1 Elementen aus den gegebenen n Elementen
auswählt. Nach dieser Auswahl ist die Anzahl der verbliebenen Elemente gleich
1.1
Kombinatorik
QM1 17
8
n − k1 , wofür kurz n2 geschrieben werden soll. Die Anzahl der Möglichkeiten für
diesen ersten Auswahlschritt ist bekanntlich
n
.
k1
Dann wählt man aus den verbliebenen n2 Elementen die nächste Teilmenge G2
mit k2 Elementen aus, wonach noch n2 − k2 =: n3 Elemente übrigbleiben. Die
Anzahl der Möglichkeiten für diesen zweiten Schritt ist
n2
,
k2
wobei noch zu berücksichtigen ist, dass diese Anzahl von Möglichkeiten für jede
der Auswahlen von G1 besteht, so dass die Anzahl der Möglichkeiten, die ersten
beiden Teilmengen auszuwählen, gerade gleich
n
n2
k1
k2
ist.
So fährt man nun fort, wobei man die Zahlen ni der bei der Auswahl der von
Gi noch zur Verfügung stehenden Elemente jeweils als ni−1 − ki−1 ermittelt. Die
Anzahl der Möglichkeiten, bei einer festen Auswahl der ersten i − 1 Teilmengen
die i-te Teilmenge Gi zu wählen, ist dann
ni
,
ki
wobei diese Anzahl unabhängig von der Wahl der vorangehenden Teilmengen
immer die gleiche ist. Die Anzahl der Möglichkeiten, die ersten i Teilmengen
auszuwählen, erhält man daher als Produkt
n
n2
ni
...
.
k1
k2
ki
Hat man schließlich die ersten m−1 Teilmengen gewählt, so bleiben nach Voraussetzung gerade noch km Elemente übrig, die dann die Menge Gm bilden müssen.
Die Anzahl der möglichen Zerlegungen ist daher gleich
n
n2
n3
nm−1
...
.
k1
k2
k3
km−1
1.1
Kombinatorik
QM1 17
9
Nach der Definition der Binomialkoeffizienten ist dies gleich
n!
n2 !
n3 !
nm−1 !
...
,
k1 ! n2 ! k2 ! n3 ! k3 ! n4 !
km−1 ! km !
wobei die Beziehungen ni − ki = ni+1 berücksichtigt sind, ebenso die Beziehung
nm−1 − km−1 = kn , die daraus folgt, dass nm−1 − km−1 die Anzahl der Elemente
ist, die nach der Auswahl von Gm−1 noch übrig bleiben, und dies ist nach Voraussetzung ja gerade km . In dem Produkt lassen sich nun die Faktoren n2 !, . . . , nm−1 !
kürzen, so dass das Ergebnis
n!
k1 ! k2 ! . . . km !
übrig bleibt.
Zusammenfassend ist also die Anzahl der Möglichkeiten, eine n-elementige Menge
G in m disjunkte Teilmengen Gi der Mächtigkeiten ki zu zerlegen, gleich
n!
.
k1 ! k2 ! . . . km !
Die so definierten Anzahlen heißen nun auch Multinomialkoeffizienten.
Offenbar sind die Binomialkoeffizienten Spezialfälle der Multinomialkoeffizienten
für den Fall m = 2; setzt man nämlich wie oben besprochen k1 = k und k2 = n−k,
so gilt
n
n!
=
.
k
k1 ! k2 !
Die Anzahl der Möglichkeiten, eine fünfelementige Menge in drei Teilmengen mit
den Mächtigkeiten 2, 1 und 2 zu zerlegen, ergibt sich nun als
5!
120
=
= 30
2! 1! 2!
2·1·2
in Übereinstimmung mit der oben durchgeführten systematischen Aufzählung.
Geht es beispielsweise um die Anzahl der Möglichkeiten, eine Gruppe von 12
Personen in 4 Teilgruppen von 3 Personen aufzuteilen, die vielleicht in einem
Experiment unterschiedliche Behandlungen bekommen sollen (so dass die Reihenfolge der Teilgruppen eine Rolle spielt), so erhält man
12!
2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10 · 11 · 12
=
= 4 · 5 · 7 · 8 · 3 · 10 · 11 = 369600 .
3! 3! 3! 3!
2·3·2·3·2·3·2·3
1.1
Kombinatorik
QM1 17
10
Als ein Anwendungsbeispiel soll nun der Fall betrachtet werden, dass man aus
einer Urne mit m Elementen n Mal mit Zurücklegen und mit Berücksichtigung
der Reihenfolge zieht. Es geht jetzt allerdings nicht um die Möglichkeiten, die man
insgesamt besitzt (deren Anzahl ist bekanntlich mn ), sondern um die Anzahl der
Möglichkeiten, in denen die erste Kugel k1 Mal gezogen wird, die zweite k2 Mal
und so fort, die m-te schließlich km Mal. Dabei muss die Summe der ki natürlich
gleich der Anzahl n der Ziehungen sein.
Die Lösung dieses Problems besteht wie so oft in einer geeigneten Übersetzung
in ein bereits bekanntes Problem. Die Kugeln der Urne seien der Einfachheit
halber mit den Zahlen von 1 bis m bezeichnet. Das Ergebnis einer Ziehung wird
dann wie üblich durch ein n-Tupel angegeben, dessen Komponenten die Nummern
bei den einzelnen Ziehungen sind. Alternativ kann man jedoch ein Ergebnis auch
beschreiben, indem man angibt, bei welchen Zügen die erste Kugel gezogen wurde,
bei welchen die zweite und so fort, bis schließlich bei welchen die m-te. Auf
diese Weise erhält man eine Zerlegung der Menge der Stellen des n-Tupels in m
Teilmengen, die den einzelnen Kugeln entsprechen.
Sind beispielsweise m = 5 Kugeln in der Urne und wird 7 Mal gezogen, so könnte
ein Ergebnis in der bekannten Notation das folgende 7-Tupel sein:
(2, 4, 1, 5, 1, 1, 5) .
Beim ersten Mal wird hier also die Kugel 2 gezogen, beim zweiten Mal die Kugel
4 und so fort. Die Alternativbeschreibung dieser Ziehung ist nun
{3, 5, 6}, {1}, ∅, {2}, {4, 7} ,
was bedeutet, dass die erste Kugel beim dritten, fünften und sechsten Zug auftrat, die zweite beim ersten, die dritte gar nicht und so fort. Die Mengen der
Alternativbeschreibung bilden offenbar eine disjunkte Zerlegung der Zahlen von
1 bis 7 (der Nummern der Züge) in 5 Teilmengen, die den Kugeln entsprechen.
Offenbar ist die Beziehung zwischen den beiden Beschreibungen eine bijektive,
denn verschiedene Ziehungsergebnisse führen zu verschiedenen Zerlegungen, und
jede Zerlegung der zweiten Art lässt sich in ein mögliches Ziehungsergebnis der
ersten Art übersetzen, das dann genau zu dieser Zerlegung führt.
Die Aufgabenstellung war die Frage nach der Anzahl der möglichen Ziehungen,
bei denen die i-te Kugel gerade ki Mal auftritt für i = 1 . . . , m. Diesen Ziehungen
entsprechen nun offenbar gerade diejenigen disjunkten Zerlegungen der Menge
1.1
Kombinatorik
QM1 17
11
der Stellen von 1 bis n, bei denen die i-te Teilmenge ki Elemente umfasst (man
beachte hierbei übrigens, dass keineswegs ausgeschlossen ist, dass ein oder mehrere ki gleich 0 sind, was bedeutet, dass einerseits die Kugel mit der Nummer
i nie gezogen wurde und dass andererseits die entsprechende Teilmenge Gi die
leere Menge ist).
Die Anzahl der möglichen n-maligen Ziehungen aus m Elementen mit Zurücklegen
und Berücksichtigung der Reihenfolge, bei denen das i-te Element gerade ki Mal
auftritt, ist damit der Multinomialkoeffizient
n!
.
k1 ! k2 ! . . . , km !
Die Anzahl möglicher 7-maliger Ziehungen aus einer Urne mit 4 Kugeln, bei denen
die erste Kugel insgesamt 3 Mal, die zweite 2 Mal, die dritte gar nicht und die
vierte 2 Mal gezogen wird ist also beispielsweise gleich
7!
2·3·4·5·6·7
=
= 5 · 6 · 7 = 210 .
3! 2! 0! 2!
2·3·2·1·2
Es liegt nahe, die Frage zu stellen, wieviele Multinomialkoeffizienten zu vorgegebenen Werten von n und m es insgesamt gibt. Vereinbart man, was für viele
Anwendungen sinnvoll ist, Multinomialkoeffizienten als verschieden zu behandeln,
wenn die Zahlenfolgen k1 , . . . , km verschieden sind, so entsprechen die möglichen
Multinomialkoeffizienten genau den Zerlegungen von n in Summen von m nichtnegativen ganzen Zahlen. Die Anzahl der Multinomialkoeffizienten bei gegebenem
n und m in diesem Sinne ist dann folglich
n+m−1
.
m
Bei dieser Vereinbarung ist zu beachten, dass beispielsweise die Koeffizienten
5!
2! 1! 2!
und
5!
1! 2! 2!
als verschieden gelten, obwohl sie numerisch gleich sind.
Ihren Namen haben die Multinomialkoeffizienten ähnlich wie die Binomialkoeffizienten daher, dass man mit ihrer Hilfe ganzzahlige Potenzen von Summen nun
auch von mehr als zwei Summanden umformen kann. Geht es nämlich darum,
!n
m
X
ai
i=1
1.1
Kombinatorik
QM1 17
12
als Summe zu schreiben, so überlegt man analog zu der entsprechenden Situation
für m = 2 beim Binomialkoeffizienten, dass man beim Ausmultiplizieren dieser
Potenz eine Summe aus lauter Produkten bekommt, die die Form
ak11 ak22 . . . akmm
besitzen, wobei die Summe der ki gerade n ist. Diese Produkte kommen dadurch
zustande, dass man aus jedem der n Faktoren der Potenz einen Summanden ai
auswählt und dann die ausgewählten Summanden miteinander multipliziert, wobei sie gleich noch so umgeordnet werden, dass gleiche ai zusammenkommen.
Die Anzahl des Vorkommens eines solchen Produkts ist dann gleich der Anzahl
der Möglichkeiten, aus der Menge der n Faktoren der Potenz für jedes i diejenigen Faktoren auszuwählen, die ai zum Produkt beisteuern sollen. Jede derartige
Möglichkeit entspricht dann genau einer disjunkten Zerlegung der Menge der n
Faktoren in die Teilmengen derjenigen Faktoren, die jeweils ein bestimmtes ai liefern sollen. Die Mächtigkeiten dieser Teilmengen müssen dann natürlich gerade
die ki sein.
Als Ergebnis erhält man damit analog zu der Formel für zwei Summanden die
Gleichung
!n
m
X
X
n!
ai
=
ak11 ak22 . . . akmm ,
k1 ! k2 ! . . . km !
i=1
(k1 ,...,km )
in der über alle m-Tupel (k1 , . . . , km ) summiert wird, die aus nichtnegativen ganzen Zahlen bestehen, deren Summe n ist.
Will man beispielsweise
(a + b + c)4
bestimmen, so benötigt man dazu die Multinomialkoeffizienten mit n = 4 und
m = 3. Von diesen Koeffizienten sind alle die jeweils gleich, bei denen die drei
ki bis auf die Reihenfolge übereinstimmen. Zur Berechnung der benötigten Koeffizienten reicht es also, von den jeweils gleichen nur einen zu bestimmen. Man
erhält so die folgenden Koeffizienten:
k1 , k2 , k3 Multinomialkoeffizient
0, 0, 4
1
0, 1, 3
4
0, 2, 2
6
12
1, 1, 2
1.1
Kombinatorik
QM1 17
13
Die Anzahl der Summanden in dem ausmultiplizierten Produkt ist gleich der der
im obigen Sinn verschiedenen Multinomialkoeffizienten zu n = 4 und m = 3, also
gleich
3+4−1
6
=
= 15 .
4
4
Die Alternativdarstellung von (a + b + c)4 ist daher
a0 b0 c4 + a0 b4 c0 + a4 b0 c0 + 4 a0 b1 c3 + 4 a1 b0 c3 + 4 a1 b3 c0 + 4 a0 b3 c1 + 4 a3 b0 c1
+4 a4 b1 c0 + 6 a0 b2 c2 + 6 a2 b0 c2 + 6 a2 b2 c0 + 12 a1 b1 c2 + 12 a1 b2 c1 + 12 a2 b1 c1
oder vereinfacht und umgruppiert
a4 + b4 + c4 + 4 (a3 b + a3 c + b3 c + ab3 + ac3 + bc3 )
+ 6 (a2 b2 + a2 c2 + b2 c2 ) + 12 (a2 bc + ab2 c + abc2 )
Wie bei den Binomialkoeffizienten kann man als Ergänzung noch eine Kontrollrechnung durchführen zur Beantwortung der Frage, auf wieviele Arten man aus
einer Urne mit m Kugeln mit Zurücklegen und mit Berücksichtigung der Reihenfolge n Mal ziehen kann. Die Antwort ist bekannt (mn ), kann aber auch noch
einmal mit den neuen Hilfsmitteln gewonnen werden. Man kann nämlich zunächst
nach den Möglichkeiten fragen, bei denen die einzelnen Kugeln mit vorgegebenen
Häufigkeiten k1 , . . . , km gezogen werden (wobei die Summe der ki natürlich gleich
n sein muss). Hier ist das Ergebnis gleich dem zugehörigen Multinomialkoeffizienten. Danach sind nur noch die schon gefundenen Zahlen zu addieren, womit
man das Ergebnis
X
n!
k1 ! k2 ! . . . , km !
(k1 ,...km )
erhält, bei dem über alle m-Tupel (k1 , . . . , km ) aus nichtnegativen ganzen Zahlen
mit Summe n summiert wird. Dies kann man aber auch schreiben als
X
(k1 ,...km )
n!
1k1 1k2 . . . 1km = (1 + 1 + . . . + 1)n = mn ,
k1 ! k2 ! . . . , km !
womit in der Tat das erwartete Ergebnis herauskommt.
1.2
1.2
W-Theorie
QM1 17
14
W-Theorie
Bildmaß.
In diesem Abschnitt soll gezeigt werden, dass die Definition des Bildmaßes tatsächlich zu einem W-Maß führt.
Zu diesem Zweck werden einige Tatsachen im Zusammenhang mit Urbildern benötigt.
Gegeben sei dazu eine Abbildung X : Ω → Ω0 . Im Moment müssen weder Ω noch
Ω0 endlich sein.
Das Urbild X −1 (A) einer Teilmenge A ⊆ Ω0 ist bekanntlich die Menge aller
Elemente von Ω, deren Bild unter X in der Menge A liegt, formal:
X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} .
Als erstes gilt nun
X −1 (∅) = ∅
und
X −1 (Ω0 ) = Ω .
Diese Behauptungen folgen direkt aus der Definition. Einerseits kann für kein ω ∈
Ω die Beziehung X(ω) ∈ ∅ gelten, da ∅ ja keine Elemente enthält. Andererseits
liegt nach Definition einer Abbildung für jedes ω ∈ Ω der Funktionswert X(ω) in
Ω0 . Etwas komplizierter ist die nächste Behauptung: Für beliebige Teilmengen A und
B von Ω0 gilt
X −1 (A ∩ B) = X −1 (A) ∩ X −1 (B) .
Hier ist also die Gleichheit von zwei Mengen zu zeigen, nämlich die der Mengen
X −1 (A ∩ B) und X −1 (A) ∩ X −1 (B).
Hat man allgemein die Gleichheit zweiter Mengen C und D zu zeigen, so geht
man häufig so vor, dass man die Gleichheitsaussage C = D in die beiden Teilaussagen C ⊆ D und C ⊇ D zerlegt und diese einzeln nachweist, denn zusammen
implizieren diese beiden Aussagen gerade die Gleichheit.
Die Schreibweise C ⊇ D ist dabei gleichbedeutend mit D ⊆ C und kann dann
verwendet werden, wenn man in den beiden Teilaussagen die gleiche Reihenfolge
der Symbole C und D verwenden will, was für Abkürzungen praktisch sein kann.
1.2
W-Theorie
QM1 17
15
Dass eine Menge C Teilmenge einer Menge D ist, bedeutet definitionsgemäß, dass
jedes Element von C auch ein Element von D ist. Will man also nachweisen, dass
C ⊆ D gilt, so kann man das dadurch tun, dass man diese Behauptung über die
Elemente von C nachweist.
Nun soll die zu untersuchende Aussage begründet werden, indem zunächst die
Teilaussage X −1 (A ∩ B) ⊆ X −1 (A) ∩ X −1 (B) begründet wird und dann die
Teilaussage X −1 (A ∩ B) ⊇ X −1 (A) ∩ X −1 (B). Verkürzt schreibt man auch, dass
zunächst „⊆“ und dann „⊇“ gezeigt wird (hier erweist sich die Einführung des
Symbols ‚⊇‘ als praktisch).
Als erstes geht es also um die Aussage X −1 (A ∩ B) ⊆ X −1 (A) ∩ X −1 (B), kurz
um „⊆“. Diese Aussage soll dadurch begründet werden, dass gezeigt wird, dass
jedes Element in der linken Menge auch in der rechten Menge enthalten ist. Zu
diesem Zweck wird ein beliebiges ω aus der ersten Menge ausgewählt, und dann
werden Schlussfolgerungen aus der Tatsache gezogen, dass dieses Element in der
ersten Menge liegt. Die Kette der Schlussfolgerungen ist dabei die folgende:
ω ∈ X −1 (A ∩ B) ⇒ X(ω) ∈ A ∩ B
⇒ X(ω) ∈ A und X(ω) ∈ B
⇒ ω ∈ X −1 (A) und ω ∈ X −1 (B)
⇒ ω ∈ X −1 (A) ∩ X −1 (B) .
Hier sind offenbar nur die Definitionen des Urbilds und des Durchschnitts benutzt
worden.
Es fehlt noch die Begründung der umgekehrten Behauptung „⊇“, die ganz genauso
geht:
ω ∈ X −1 (A) ∩ X −1 (B) ⇒ ω ∈ X −1 (A) und ω ∈ X −1 (B)
⇒ X(ω) ∈ A und X(ω) ∈ B
⇒ X(ω) ∈ A ∩ B
⇒ ω ∈ X −1 (A ∩ B) .
Bei genauem Hinsehen fällt auf, dass die beiden Folgerungsketten die gleichen Teile in umgekehrter Reihenfolge enthalten. Man kann daher alternativ auch sofort
die Gleichheit zeigen, indem man alle Pfeile durch Doppelpfeile ersetzt. Wichtig
ist bei einem solchen Vorgehen nur, dass man sich bei jedem Doppelpfeil klar
macht, dass wirklich beide Pfeilrichtungen gültig sind.
1.2
W-Theorie
QM1 17
16
Zur Verdeutlichung hier die verkürzte Begründung von „=“, die nun in der Tat
die beiden Teilbegründungen oben ersetzen kann:
ω ∈ X −1 (A ∩ B) ⇔ X(ω) ∈ A ∩ B
⇔ X(ω) ∈ A und X(ω) ∈ B
⇔ ω ∈ X −1 (A) und ω ∈ X −1 (B)
⇔ ω ∈ X −1 (A) ∩ X −1 (B) . Was für Durchschnitte gilt, gilt auch für Vereinigungen: Sind A und B zwei
Teilmengen von Ω0 , so gilt
X −1 (A ∪ B) = X −1 (A) ∪ X −1 (B) .
Die Begründung dieser Aussage geht praktisch genauso wie die der vorangehenden; man hat nur alle ∩-Symbole durch ∪-Symbole zu ersetzen und alle „und“
durch „oder“ (wobei daran erinnert sei, dass mit diesem „oder“ das nicht ausschließende Oder gemeint ist, für das manchmal auch die Bezeichnung „und/oder“
verwendet wird). Nun können die Eigenschaften eines W-Maßes für das Bildmaß leicht nachgewiesen werden.
Zu diesem Zweck sei X : Ω → Ω0 eine Zufallsvariable auf einem endlichen WRaum < Ω, P > mit Werten in einer endlichen Menge Ω0 .
Das Bildmaß PX ist dann für beliebige Teilmengen A von Ω0 definiert als
PX (A) = P(X −1 (A)) .
Nachzuweisen ist, dass die so definierte Funktion PX : P(Ω0 ) → R die drei Eigenschaften eines W-Maßes erfüllt.
Zunächst ist für jedes A ⊆ Ω0 der Wert PX (A) die Wahrscheinlichkeit von X −1 (A)
und daher nichtnegativ. Für A = Ω0 erhält man
PX (Ω0 ) = P(X −1 (Ω0 )) = P(Ω) = 1 ,
so dass die ersten beiden Eigenschaften eines W-Maßes trivialerweise erfüllt sind.
Es bleibt noch die dritte Eigenschaft. Gegeben seien also zwei disjunkte Teilmengen A und B von Ω0 . Man erhält dann
PX (A ∪ B) = P(X −1 (A ∪ B)) = P(X −1 (A) ∪ X −1 (B))
= P(X −1 (A)) + P(X −1 (B)) = PX (A) + PX (B)
1.3
Deskriptive Statistik
QM1 17
17
wegen der gerade behandelten Eigenschaften des Urbilds. Das dritte Gleichheitszeichen ist korrekt, da die beiden Mengen X −1 (A) und X −1 (B) disjunkt sind,
wie man folgendermaßen sieht:
X −1 (A) ∩ X −1 (B) = X −1 (A ∩ B) = X −1 (∅) = ∅ .
Damit sind die drei Eigenschaften eines W-Maßes für PX nachgewiesen. Häufig betrachtet man (aus unterschiedlichen Gründen) auch Zufallsvariablen
mit Werten in nicht endlichen Mengen Ω0 , und dies auch dann, wenn Ω selbst
endlich ist. Es liegt natürlich die Frage nahe, ob das analog definierte PX auch in
diesem Fall ein W-Maß ist. Die Schwierigkeit besteht im Moment darin, dass für
unendliche Grundgesamtheiten der Begriff des W-Maßes noch nicht definiert ist,
so dass die Frage eigentlich sinnlos ist. Die Definition für W-Maße auf unendlichen
Grundgesamtheiten ist jedoch so, dass PX tatsächlich ein W-Maß wird, wobei die
hier gegebene Begründung nur unwesentlich zu modifizieren ist.
1.3
Deskriptive Statistik
Werte des ϕ2 -Koeffizienten.
Es soll untersucht werden, welche Werte der ϕ2 -Koeffizient einer Kontigenztafel
annehmen kann und unter welchen Bedingungen er minimal und maximal wird.
Dabei soll auch an einige wichtige Prinzipien beim Formulieren und Begründen
von Behauptungen erinnert werden. Die einzelnen Argumente sollen zur Verdeutlichung sehr ausführlich formuliert werden, weit ausführlicher als dies normalerweise der Fall wäre. Beispielsweise würde man wohl die unten formulierten
Hilfsbehauptungen als so klar erachten (Mathematiker sagen dazu ‚trivial‘), dass
man sie womöglich gar nicht explizit erwähnen würde.
Gegeben ist also eine Kontingenztafel relativer Häufigkeiten hij , bei der die beiden
Variablen I bzw. J mögliche Werte haben. Die Bezeichnungen für die Randhäufigkeiten sind wie üblich hi. und h.j .
Die Kontingenztafel mit Randhäufigkeiten hat damit folgende Gestalt:
1.3
Deskriptive Statistik
QM1 17
h11 h12 . . . h1J
h21 h22 . . . h2J
..
..
..
.
.
.
hI1 hI2 . . . hIJ
hI .
h.1 h.2 . . . h.J
1
18
h1.
h2.
..
.
Der ϕ2 -Koeffizient dieser Tafel ist definiert als
I X
J
X
(hij − eij )2
,
ϕ =
eij
i=1 j=1
2
wobei die (unter Unabhängigkeit) ‚erwarteten‘ relativen Häufigkeiten eij definiert
sind als
eij = hi. h.j .
Es ist dabei grundsätzlich vorausgesetzt, dass alle eij von 0 verschieden sind
(sonst wäre ja der zu i und j gehörende Summand gar nicht definiert). Diese
Forderung ist offenbar äquivalent damit, dass sowohl alle hi. als auch alle h.j von
0 verschieden sind.
Die letzte Forderung wiederum bedeutet gerade, dass in jeder Zeile und in jeder
Spalte der Kontingenztafel mindestens ein hij von 0 verschieden sein muss.
Diese jetzt immer gemachte Zusatzvoraussetzung soll abkürzend mit Z bezeichnet
werden.
Gezeigt werden soll nun der folgende Sachverhalt:
S: Ist L das Minimum der Zahlen I und J, so gilt immer
0 ≤ ϕ2 ≤ L − 1 ,
wobei ϕ2 den (minimalen) Wert 0 genau bei Unabhängigkeit (in der Stichprobe)
annimmt und den maximalen Wert L − 1 genau bei vollständiger Abhängigkeit
(in der Stichprobe).
Es ist vielleicht nicht überflüssig, auf den Gebrauch der Formulierung ‚genau
dann wenn‘ und ähnlicher Formulierungen genauer einzugehen. Sind A und B
Aussagen, so bedeutet ‚A genau dann wenn B‘, dass aus A die Aussage B folgt
und dass aus B die Aussage A folgt.
1.3
Deskriptive Statistik
QM1 17
19
So bedeutet also die Formulierung ‚ϕ2 ist genau dann 0, wenn Unabhängigkeit
vorliegt‘, dass einerseits in einer Tafel mit ϕ2 = 0 Unabhängigkeit vorliegt und
dass andererseits eine Tafel mit Unabhängigkeit den ϕ2 -Koeffizienten 0 besitzt.
Bei der Begründung der Behauptungen über den ϕ2 -Koeffizienten werden drei einfache Sachverhalte benutzt werden, deren Begründung den weiteren Überlegungen vorangestellt werden werden soll.
Um später auf diese Sachverhalte einfach Bezug nehmen zu können, sollen sie
kurz mit H1, H2 und H3 bezeichnet werden (der Buchstabe H steht dabei für
‚Hilfsbehauptung‘).
H1: Sind die Zahlen a1 , . . . an alle nichtnegativ, so gilt
n
X
ai ≥ 0 ,
i=1
wobei die Summe genau dann 0 ist, wenn alle ai gleich 0 sind.
Eine Zahl a heißt dabei nichtnegativ, wenn a ≥ 0 gilt. Eine solche Zahl a kann
also nur positiv sein (a > 0) oder gleich 0.
Ohne weiteres klar ist die erste Teilbehauptung: Wenn alle ai ≥ 0 sind, so kann
natürlich auch ihre Summe nicht negativ sein.
Zu beachten ist nun die Formulierung ‚genau dann wenn‘ im zweiten Teil der
Hilfsbehauptung; um diesen Teil zu zeigen, müssen also beide ‚Richtungen‘ gezeigt
werden.
Die Richtung von rechts nach links ist unmittelbar einsichtig: Sind alle ai gleich
0, so ist offenbar auch ihre Summe 0.
Für die Richtung von links nach rechts ist zu zeigen, dass daraus, dass die Summe
gleich 0 ist, folgt, dass auch alle ai gleich 0 sind.
Wäre ein ai nicht 0, also nach Voraussetzung > 0, so wäre die Gesamtsumme
mindestens so groß wie dieses ai , da ja durch Addieren der anderen aj zu ai die
Summe höchstens größer, keinesfalls aber kleiner als ai werden kann, weil ja die
anderen aj alle nichtnegativ sind. Die Summe wäre also mindestens gleich ai und
damit größer als 0.
Die Summe kann also nur dann 0 sein, wenn alle ai gleich 0 sind. Anders ausgedrückt folgt daraus, dass die Summe gleich 0 ist, dass auch alle ai gleich 0 sein
1.3
Deskriptive Statistik
QM1 17
20
müssen.
Die erste Hilfsbehauptung ist damit vollständig gezeigt. Es ist vielleicht nicht überflüssig, noch einmal etwas allgemeiner darauf einzugehen, wie die zweite Richtung begründet wurde. Abstrakt formuliert war eine
Behauptung der Form ‚Aus A folgt B‘ zu zeigen; dabei war A die Aussage ‚Die
Summe ist 0‘und B die Aussage ‚Alle ai sind 0‘.
Hier wurde an Stelle der Aussage ‚Aus A folgt B‘ jedoch die Aussage ‚Aus NichtB folgt Nicht-A‘ gezeigt (‚Wenn mindestens eine Zahl nicht 0 ist, so ist auch die
Summe nicht 0‘). Dies ist aber ausreichend, da nun, wenn A gilt, auch B gelten
muss, denn würde B nicht gelten, so wäre Nicht-B richtig, woraus Nicht-A folgen
würde, was jedoch nicht sein kann, da dann A und Nicht-A gleichzeitig gelten
würden.
Man sieht, dass man allgemein eine Aussage der Form ‚Aus A folgt B‘ dadurch
zeigen kann, dass man die Aussage ‚Aus Nicht-B folgt Nicht-A‘ beweist.
Am Rande sei auch darauf hingewiesen, dass das Gegenteil der Aussage ‚Alle ai
sind gleich 0‘ die Aussage ‚Mindestens ein ai ist ungleich 0‘ ist und nicht etwa
die Aussage ‚Alle ai sind ungleich 0‘.
Die Aussage der Hilfsbehauptung wird unmittelbar einsichtig, wenn man sie sich
in geeigneter Weise veranschaulicht: Die Geldsumme, die mehrere Personen insgesamt bei sich tragen, kann nicht negativ sein, wobei diese Gesamtsumme genau
dann Null ist, wenn keine der Personen Geld dabei hat (die Möglichkeit von
Schulden wird dabei ausgeschlossen).
Mit H1 zeigt man nun leicht die nächste Hilfsbehauptung H2.
H2: Gilt für gegebene Zahlen a1 , . . . , an und b1 , . . . , bn für alle i = 1, . . . n die
Beziehung ai ≤ bi , so gilt auch
n
X
i=1
ai ≤
n
X
bi .
i=1
Dabei sind die Summen genau dann gleich, wenn für alle i sogar ai = bi gilt.
Zur Begründung betrachtet man
X
X
X
(bi − ai ) =
bi −
ai .
Da nach Voraussetzung für alle i die Beziehung ai ≤ bi gilt, sind alle Summanden
1.3
Deskriptive Statistik
QM1 17
21
bi − ai der Summe auf der linken Seite nichtnegativ. Wegen H1 ist daher auch
P
P
die Summe links ≥ 0, woraus folgt, dass auch die rechte Seite
bi − ai nicht
negativ sein kann. Aus
X
X
bi −
ai ≥ 0
P
folgt jedoch durch Addieren von
ai sofort
X
X
bi ≥
ai ,
was auch schon die erste Behauptung ist, wenn man diese Ungleichung von rechts
nach links liest.
P
Ebenfalls wegen H1 ist (bi − ai ) genau dann gleich 0, wenn alle Summanden
P
P
P
(bi − ai ) gleich 0 sind. Wegen (bi − ai ) = bi − ai folgt
X
X
X
X
bi =
ai ⇔
bi −
ai = 0
X
⇔
(bi − ai ) = 0
⇔ b i − ai = 0
⇔ bi = ai
für alle i
für alle i .
Das Symbol ‚⇔‘ steht dabei für ‚genau dann, wenn‘. Beim Nachvollziehen der
Begründung muss man sich also an allen Stellen, wo dieses Symbol steht, klar
machen, dass aus der Behauptung vor dem Symbol die Behauptung danach folgt
und umgekehrt (der Doppelpfeil hat zwei Spitzen).
Damit ist auch die zweite Hilfsbehauptung gezeigt. Auch diese Hilfsbehauptung wird durch ein geeignetes Beispiel sofort einsichtig.
Wenn man n Paare hat, die aus einem Mann und einer Frau bestehen, und wenn in
jedem dieser Paare der Mann mindestens so viel wiegt wie die Frau, so ist auch das
Gesamtgewicht der Männer offenbar mindestens so groß wie das Gesamtgewicht
der Frauen. Die beiden Gesamtgewichte können nur dann gleich sein, wenn jeder
Mann genauso viel wiegt wie die zugehörige Frau, und sind es in diesem Fall auch.
Die dritte Hilfsbehauptung ist die folgende:
H3: Sind die Zahlen a1 , . . . an alle nichtnegativ, so gilt für jedes k = 1, . . . , n die
Beziehung
n
X
ak ≤
ai .
i=1
Gleichheit gilt dabei genau dann, wenn die ai mit i 6= k alle gleich 0 sind.
1.3
Deskriptive Statistik
QM1 17
22
Die Summe von n nichtnegativen Zahlen ist also mindestens so groß wie jede
einzelne dieser Zahlen, und sie ist genau dann so groß wie eine der Zahlen, wenn
alle anderen gleich 0 sind.
Man kann für ein festes k die Gesamtsumme aller ai auch schreiben als
X
X
ai = ak +
ai ,
i
i6=k
man erhält die Gesamtsumme also, indem man zu ak die restlichen ai hinzuaddiert. Hier sind alle Summanden in der Teilsumme
X
ai
i6=k
nichtnegativ, weshalb wegen H1 diese Teilsumme ≥ 0 ist und genau dann 0, wenn
alle ihre Summanden gleich 0 sind, also alle ai mit i 6= k. Es gilt also
X
X
ak ≤ ak +
ai =
ai ,
i6=k
i
und Gleichheit gilt genau dann wenn, alle ai mit i 6= k gleich 0 sind. Auch dieser Sachverhalt leuchtet mit einem Beispiel unmittelbar ein. Der Geldbetrag, den mehrere Personen zusammen mit sich tragen, ist mindestens so groß
wie der, den jeder einzelne besitzt (Schulden sind wieder ausgeschlossen). Der
Fall, dass einer soviel besitzt wie alle (er eingeschlossen) zusammen, kann nur
dann vorkommen, wenn alle anderen gar kein Geld bei sich haben.
Nun soll das eigentliche Ziel dieses Abschnitts in Angriff genommen werden.
Zunächst geht es um den kleinsten möglichen Wert von ϕ2 . Die Summanden auf
der rechten Seite von
I X
J
X
(hij − eij )2
2
ϕ =
eij
i=1 j=1
sind alle ≥ 0, so dass nach H1 auch die Summe, also ϕ2 , nie negativ werden
kann. Außerdem wird diese Summe, ebenfalls wegen H1, genau dann 0, wenn alle
Summanden gleich 0 sind, wenn also für alle i und j die Beziehung
(hij − eij )2
=0
eij
gilt. Für ein festes i und j ist der Bruch links jedoch genau dann 0, wenn der
Zähler gleich 0 ist, und dies ist wiederum genau dann der Fall, wenn hij = eij
1.3
Deskriptive Statistik
QM1 17
23
gilt, nach Definition von eij also
hij = hi. h.j .
Insgesamt ist ϕ2 also ≥ 0 und nimmt den Wert 0 genau dann an, wenn für
alle i und j die Beziehung hij = hi. h.j gilt, mit anderen Worten: wenn (in der
Stichprobe) Unabhängigkeit vorliegt.
Die Behauptung über den kleinsten möglichen Wert von ϕ2 ist damit gezeigt.
Die Begründung für den größten möglichen Wert ist etwas schwieriger. Es soll
oBdA vorausgesetzt werden, dass I ≤ J gilt, dass die Kontingenztafel also entweder genauso viele Zeilen wie Spalten hat oder dass die Zahl der Spalten größer
ist als die der Zeilen.
Die Abkürzung oBdA bedeutet dabei ‚ohne Beschränkung der Allgemeinheit‘,
was nun erläutert werden soll. Unmittelbar betrachtet liegt in dieser zusätzlichen
Voraussetzung I ≤ J sehr wohl eine Einschränkung vor. Allerdings macht man
sich leicht klar, dass man, hat man erst einmal die Behauptung mit dieser Einschränkung gezeigt, ohne große Mühe darauf aufbauend auch die allgemeine Form
der Behauptung zeigen kann (also den Fall, in dem nicht unbedingt I ≤ J gelten
muss). Die Einschränkung der Allgemeinheit ist also nur eine unwesentliche, und
die Formulierung oBdA damit gerechtfertigt.
Hier soll nun zunächst der ‚eingeschränkte‘ Fall I ≤ J behandelt werden. Die
Zusatzargumente, die zeigen, dass die Behauptung auch allgemein gilt, werden
danach dargelegt.
Die vorliegende Tafel hat also mindestens so viele Spalten wie Zeilen. Sie kann
demnach quadratisch sein, oder die Zahl der Spalten ist echt größer als die der
Zeilen. Schematisch kommen also folgende beiden Formen für die Tafel in Betracht:
...........................................................................
...
...
...
...
...
....
...
...
...
...
...
...
...
...
...
...
...
.....
...
...
...
...
...
....
..
...
...........................................................................
............................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.....
...
..
...
................................................................................................
Als erstes soll untersucht werden, was vollständige Abhängigkeit (in der Stichprobe) im Fall I ≤ J bedeutet.
Nach Definition liegt vollständige Abhängigkeit allgemein genau dann vor, wenn
1.3
Deskriptive Statistik
QM1 17
24
in jeder Zeile höchstens eine Zahl 6= 0 steht oder wenn in jeder Spalte höchstens
eine Zahl 6= 0 steht.
Unter der jetzt immer gemachten Zusatzvoraussetzung Z, dass in jeder Zeile und
in jeder Spalte mindestens eine Zahl 6= 0 stehen muss, liegt vollständige Abhängigkeit dann vor, wenn in jeder Zeile genau eine Zahl 6= 0 steht oder wenn in
jeder Spalte genau eine Zahl 6= 0 steht.
Als weitere Voraussetzung sollte nun I ≤ J gelten. Hier sind zwei Fälle zu unterscheiden, nämlich I < J und I = J, die getrennt betrachtet werden sollen.
Als erstes gelte I < J. Hier ist es nicht möglich, dass in jeder Zeile genau eine
Zahl 6= 0 steht, denn wäre dies der Fall, so stünden in der ganzen Tabelle genau I
Zahlen 6= 0, weshalb es eine Spalte geben müsste, in der nur Nullen stehen, denn
die Zahl der Spalten ist größer als I. Dass in einer Spalte nur Nullen stehen, ist
aber wegen Z nicht möglich.
Liegt also im Fall I < J vollständige Abhängigkeit vor, so folgt, dass in jeder
Spalte genau eine Zahl 6= 0 steht. Umgekehrt folgt daraus natürlich auch die
vollständige Abhängigkeit.
Es ist als zweite Möglichkeit der Fall I = J zu untersuchen. Wenn hier in jeder
Zeile genau eine Zahl 6= 0 steht, so enthält die Tabelle genau I Zahlen 6= 0. Da
wegen Z auch in jeder Spalte mindestens eine Zahl 6= 0 stehen muss, muss wegen
I = J sogar in jeder Spalte genau eine Zahl 6= 0 stehen.
Liegt also im Fall I = J vollständige Abhängigkeit vor, so implizieren beide
Alternativen in der Definition der vollständigen Abhängigkeit, dass in jeder Spalte
genau eine Zahl 6= 0 steht. Aus dieser Bedingung folgt natürlich auch umgekehrt
sofort die vollständige Abhängigkeit.
Sowohl im Fall I < J als auch im Fall I = J liegt also vollständige Abhängigkeit
genau dann vor, wenn in jeder Spalte genau eine Zahl 6= 0 steht.
In der hier betrachteten Situation I ≤ J, die ja diese beiden Fälle zusammenfasst,
ist damit schließlich die vollständige Abhängigkeit äquivalent mit der Bedingung,
dass in jeder Spalte genau eine Zahl 6= 0 steht. Damit ist eine Beschreibung der
vollständigen Abhängigkeit gefunden, die für die folgenden Argumente passend
ist.
Im Falle I ≤ J ist das Minimum L der Zahlen I und J gleich I. Die noch zu
zeigende Behauptung lässt sich damit so formulieren:
1.3
Deskriptive Statistik
QM1 17
25
Der ϕ2 -Koeffizient ist ≤ I − 1, wobei der Wert I − 1 genau dann auftritt, wenn
in jeder Spalte genau eine Zahl 6= 0 steht.
Bekanntlich lässt sich ϕ2 auch so schreiben:
ϕ2 =
I X
J
X
h2ij
i=1 j=1
eij
!
−1.
Nachdem man jeweils 1 addiert hat, lässt sich die zu zeigende Behauptung nun
auch so formulieren:
B: Es gilt (im Fall I ≤ J)
I X
J
X
h2ij
i=1 j=1
eij
≤I,
(1)
wobei Gleichheit genau dann herrscht, wenn in jeder Spalte der Kontingenztafel
genau eine Zahl 6= 0 steht.
Zur Begründung wird zunächst die linke Seite der Gleichung abgeschätzt:
I X
J
X
h2ij
i=1 j=1
eij
I X
J
I X
J
X
X
h2ij
hij hij
=
=
h h
h h
i=1 j=1 i. .j
i=1 j=1 i. .j
!
I X
J
I
J
X
hij X X hij
≤
=
h
h
i=1 j=1 i.
i=1
j=1 i.
!
I
J
I X
X
1 X
1
hi.
=
hij =
h
h
i
.
i
.
i=1
j=1
i=1
=
I
X
1 = I
(2)
(3)
(4)
(5)
i=1
Die in dieser Abschätzung nicht unmittelbar einsichtigen Schritte sollen nun begründet werden. In der ersten Zeile (2) wird nur eij entsprechend der Definition
ersetzt.
Entscheidend ist der Übergang von (2) nach (3), der daher jetzt genauer analysiert
werden soll.
Der allgemeine Summand (hij /hi. )(hij /h.j ) am Ende von (2) ist das Produkt von
zwei Faktoren, die ≥ 0 sind. Der zweite Faktor hij /h.j ist auch ≤ 1; es gilt ja
X
hij = h.j ,
i
1.3
Deskriptive Statistik
QM1 17
26
und da alle Summanden auf der linken Seite ≥ 0 sind, ist (vgl. H3) die Summe
mindestens so groß wie jeder einzelne Summand, woraus
hij ≤ h.j
und mit Division durch h.j die behauptete Ungleichheit (hij /h.j ) ≤ 1 folgt. (Auch
der erste Faktor ist natürlich ≤ 1, was aber hier ohne Interesse ist).
Aus der Ungleichung (hij /h.j ) ≤ 1 folgt durch Multiplikation mit (hij /hi. ) die
angestrebte Ungleichung
hij hij
hij
hij
≤
· 1=
.
hi. h.j
hi.
hi.
(Man beachte übrigens, dass dabei wesentlich ist, dass (hij /hi. ) ≥ 0 gilt – wäre
dieser Faktor negativ gewesen, so hätte sich das Ungleichheitszeichen umgekehrt.)
Vergleicht man nun die letzte Doppelsumme in (2) mit der ersten in (3), so hat
sich gerade gezeigt, dass alle Summanden in der ersteren kleiner oder gleich den
entsprechenden Summanden in der zweiten sind, weshalb wegen H2 das Ungleichheitszeichen beim Übergang von (2) zu (3) richtig ist (H2 gilt natürlich auch für
Doppelsummen).
Die weiteren Umformungen folgen unmittelbar aus den bekannten Summenregeln,
wobei zur Verdeutlichung zusätzliche Klammern gesetzt sind.
Damit ist die Ungleichung (1) begründet, also der erste Teil der Behauptung B.
Im zweiten Teil dieser Behauptung geht es darum, wann der maximale Wert I in
(1) erreicht wird.
Betrachtet man noch einmal die Gleichungen und Ungleichungen von (2) bis
(5), so ist klar, dass der maximale Wert I genau dann erreicht wird, wenn das
Ungleichheitszeichen beim Übergang von (2) nach (3) in Wahrheit ein Gleichheitszeichen ist, denn dieses ist ja das einzige Ungleichheitszeichen in der ganzen
Kette.
Wegen der Hilfsbehauptung H2 (die natürlich auch für Doppelsummen gilt) liegt
an der kritischen Stelle Gleichheit jedoch genau dann vor, wenn alle Summanden
der letzten Doppelsumme von (2) gleich den entsprechenden Summanden der
ersten Doppelsumme von (3) sind, wenn also für alle i und j die Beziehung
hij hij
hij
=
hi. h.j
hi.
(6)
1.3
Deskriptive Statistik
QM1 17
27
gilt.
Es sind hier wieder zwei Fälle zu unterscheiden, nämlich die, ob hij /hi. ungleich
0 ist oder gleich 0. Im ersten Fall ist (6) genau dann richtig, wenn hij /h.j gleich
1 ist, wie man sieht, wenn man durch hij /hi. dividiert, während im zweiten Fall
(6) immer richtig ist.
Zusammenfassend ist also (6) für ein festes i und j genau dann richtig, wenn
hij
hij
=0
oder
=1
hi.
h.j
gilt, was offenbar genau dann der Fall ist, wenn
hij = 0
oder
hij = h.j
(7)
gilt.
Damit wird herrscht Gleichheit in (1) genau dann, wenn für alle i und j die
Bedingung (7) gilt. Dies kann man wieder umformulieren:
(7) gilt für alle i und j genau dann, wenn für alle j Bedingung (7) für alle i gilt,
denn in beiden Formulierungen werden ja insgesamt alle möglichen Paare für i
und j erfasst.
Nun soll für ein festes j untersucht werden, wann (7) für alle i gilt. Hier geht es
um die hij , die in der Spalte j stehen. Es soll nun gezeigt werden, dass (7) für
alle i genau dann gilt, wenn in der j-ten Spalte genau eine Zahl 6= 0 steht.
Um die eine Richtung dieser Behauptung zu zeigen, sei also angenommen, dass
(7) für alle i gültig ist. In der j-ten Spalte muss wegen Z mindestens eine Zahl
6= 0 stehen; diese Zahl sei hkj . Da hkj 6= 0 ist und (7) gilt, muss hkj = hj . gelten.
Nun ist aber hj . die Summe aller hij , die ihrerseits nichtnegativ sind. Wegen H3
müssen dann alle hij mit i 6= k gleich 0 sein. Es folgt also, dass in der j-ten Spalte
genau eine Zahl 6= 0 steht.
Nun möge umgekehrt in der j-ten Spalte genau eine Zahl 6= 0 sein, nämlich
die an k-ter Stelle. Dann ist also hkj 6= 0, während alle anderen hij mit i 6=
k gleich 0 sind. Die Summe h.j aller hij in der Spalte j ist dann gleich hkj .
Offenbar gilt damit nun für alle hij eine der beiden Bedingungen in (7). Die
Zwischenbehauptung ist damit gezeigt.
Damit gilt die Bedingung (7) für alle i und j also genau dann, wenn in jeder
Spalte genau eine Zahl 6= 0 steht.
1.3
Deskriptive Statistik
QM1 17
28
Fasst man nun alle Schritte zusammen, so ergibt sich, dass in (1) Gleichheit
genau dann vorliegt, wenn in jeder Spalte der Kontingenztafel genau eine Zahl
6= 0 steht. Die Behauptung B ist damit bewiesen und damit auch die eigentliche
Behauptung, dass ϕ2 genau dann den maximalen Wert I − 1 annimmt, wenn in
der Kontingenztafel vollständige Abhängigkeit vorliegt.
Damit ist schließlich auch S fast vollständig begründet. Es fehlt nur noch das
Argument, dass oBdA I ≤ J vorausgesetzt werden konnte.
Es sei also nun eine Tafel gegeben, für die die Bedingung, dass die Zahl der
Zeilen höchstens so groß ist wie die der Spalten, nicht erfüllt ist. Zur besseren
Unterscheidung sei die Zahl der Zeilen M und die der Spalten N , wobei folglich
M > N gilt.
Man kann nun die Reihenfolge der Variablen vertauschen und erhält dann aus
den Daten eine Kontingenztafel der relativen Häufigkeiten mit N Zeilen und M
Spalten, die natürlich die gleichen Zahlen enthält wie die ursprüngliche Kontingenztafel, wobei nur die Zahlen anders angeordnet sind – aus Zeilen werden
Spalten und umgekehrt.
Beispielsweise erhält man so aus der ursprünglichen Kontingenztafel
.2 .1
.1 .1
.3 .2
.3
.2
.5
.6 .4
1
nach Vertauschung der Reihenfolge der Variablen die folgende:
.2 .1 .3
.1 .1 .2
.6
.4
.3 .2 .5
1
Entscheidend ist nun die Beobachtung, dass die ϕ2 -Werte der beiden Tafeln übereinstimmen.
Zur Begründung bemerkt man zunächst, dass bei der neuen Kontingenztafel die
Zeilensummen mit den Spaltensummen der alten übereinstimmen und die Spaltensummen mit den Zeilensummen der alten (wie es auch im Beispiel der Fall
ist).
1.3
Deskriptive Statistik
QM1 17
29
Berechnet man für beide Tafeln dann den ϕ2 -Koeffizienten, so sind zunächst die
eij für beide Tafeln die gleichen, wenn auch in entsprechender unterschiedlicher
Anordnung. Damit sind aber auch die Summanden bei der Bildung von ϕ2 bis auf
die Anordnung die gleichen. Da die Reihenfolge der Summierung bei der Bildung
der Gesamtsumme gleichgültig ist, erhält man in der Tat für beide Tafeln den
gleichen ϕ2 -Wert.
Es sollte auch unmittelbar klar sein, dass in der neuen Tafel Unabhängigkeit
genau dann vorliegt, wenn dies bei der alten Tafel der Fall war, dasselbe gilt
natürlich auch für vollständige Abhängigkeit.
Bei der neuen Tafel ist nun aber die Zeilenzahl (N ) kleiner als die Spaltenzahl
(M ), so dass die oben angestellten Überlegungen gültig sind, wenn man I = N
und J = M setzt. Es folgt, dass ϕ2 zwischen 0 und I − 1 = N − 1 liegt, wobei die
Werte 0 und N − 1 genau bei Unabhängigkeit bzw. vollständiger Abhängigkeit
angenommen werden. Da das Mininum L von M und N hier gleich N ist, sieht
man schließlich, dass alle Aussagen von S auch für die alte Tafel gelten (man
muss nur I und J entsprechend ersetzen).
Damit ist S vollständig bewiesen. 1.3
Deskriptive Statistik
QM1 17
30
Lineare Interpolation, Prozentränge bei klassifizierten Daten.
In diesem Abschnitt geht es einerseits um die Technik der linearen Interpolation, andererseits um eine Möglichkeit, Prozentränge zu bilden, wenn man, wie
beim Erstellen von Histogrammen, die Daten schon zu Klassen zusammengefasst hat und nur noch die Häufigkeiten der Klassen kennt, nicht aber mehr die
Originaldaten. Wegen des bei einer solchen Klassenbildung auftretenden Informationsverlusts ist mit einer Diskrepanz zu den Prozenträngen zu rechnen, die
man für die Originaldaten erhalten würde. Wenn man so will, handelt es sich
hier also eher um eine neue Definition des Ausdrucks ‚Prozentrang‘ für eine
neue Datensituation als um die Ermittlung von Prozenträngen im alten Sinn.
Der Vorteil dieses Vorgehens liegt darin, dass man im ‚Normalfall‘ jetzt für alle
sinnvollen Werte Prozentränge bilden kann, und dass man für jeden Prozentrang
einen Wert angeben kann, der diesen Prozentrang besitzt. Gelegentlich benutzt
man die Interpolation analog auch bei den Originaldaten, um so auch den zu
einem vorgegebenen Prozentrang gehörenden Wert zu ‚bestimmen‘, wenn dieser
Prozentrang bei den Originaldaten gar nicht auftritt.
Lineare Interpolation wird dann verwendet, wenn man eine Funktion an zwei
(meist nahe benachbarten) Stellen kennt und sie dazwischen sinnvoll ergänzen
möchte.
Beispielweise könnten Funktionswerte einer Funktion (wie Sinus oder Logarithmus) in einer Tabelle für viele X-Werte gegeben sein (beispielsweise für die Werte
x = . . . .99, 1.00, 1.01, 1.02, 1.03 . . .). Bei der Frage nach dem Funktionswert
für einen nicht vertafelten X-Wert (beispielsweise 1.023) muss man eine geeignete
Näherung finden; die einfachste Methode ist dabei die der linearen Interpolation.
Ob die Methode zu einem sinnvollen Ergebnis führt, hängt von mehreren Bedingungen ab, beispielsweise, ob das ‚Netz‘ der vertafelten X-Werte dicht genug
ist.
Bei der linearen Interpolation tut man so, als wäre der Graph der Funktion zwischen zwei Stellen, an denen die Funktion bekannt ist, ein Geradenstück. Unter
dieser Voraussetzung, die oft näherungsweise richtig ist, bestimmt man dann den
gesuchten Funktionswert.
Genauer sollen nun für zwei benachbarte X-Werte xu und xo die Funktionswerte
yu und yo bekannt sein (die Indizes stehen für ‚unten‘ und ‚oben‘, was auf die
obere und untere Grenze bei der Variablen X bezogen ist; die Y -Werte erhalten
denselben Index wie die X-Werte, zu denen sie gehören – bei Y muss also nicht
1.3
Deskriptive Statistik
QM1 17
31
immer yo größer sein als yu ).
Die lineare Interpolation tut dann so, als wäre der Graph zwischen diesen bekannten Werten ein Geradenstück:
Y
yo
y
yu
r
.....................................................................................................
...... ...
.......
...
.......
..
.......
.......
...
.....................................................................................
.
.
.
.
.
...
.
..... ...
.
.
..
.
.
.
.
.
.....
.
.
.
.
...
.
.
.
.
.....
.
.
.
.
.
.
...
.
.
.
.....
.
.
.
..
.
.
.
.
..
.....
.
.
.
.
...
.
.
.
.
.....
.
.
.
.
.
.
...
.
.
.
.....
.
.
.
..
.
.
.
.
.
.
.....
.
.
.
.
...
.
.
.
.
...
...
...
..........................
...
...
...
..
..
..
...
...
...
...
...
...
..
..
..
...
...
...
..
..
..
r
xu
xo
x
X
In der Zeichnung ist schon ein weiterer X-Wert x eingezeichnet samt dem Y -Wert
y, den man für ihn mit Hilfe der linearen Interpolation bestimmt.
Zur Herleitung einer Formel für die rechnerische Bestimmung von y wird zunächst
die Zeichnung um einige Hilfslinien ergänzt. Es entstehen dabei zwei Dreiecke,
von denen je zwei Seiten mit A und B bzw. a und b bezeichnet sind (die großen
Buchstaben gehören zu den Seiten des größeren Dreiecks, die kleinen zu denen
des kleineren).
Y
yo ...............................................................................................r
...
.......
.......
...
...
y ...........................................................................................
...
.
.
..
.......
....
.......
...
...
.......
...
.......
...
.......
...
.
.
.
.
.
.
.
.
.
.....
.
..
.
.
.
.
.
.
.
.
.....
..
.
.
.
.
.
.
.
.
.
.....
..
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
..................................................................................................................................................................
...
...
...
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
b
yu
r
B
a
A
xu
x
xo
X
Da die beiden Dreiecke ähnlich sind, sind die Verhältnisse entsprechender Seiten
gleich (Strahlensatz):
B
b
=
.
a
A
In dieser Gleichung drückt man nun die Seitenlängen durch die Koordinaten aus
1.3
Deskriptive Statistik
QM1 17
und erhält
(y − yu )
(yo − yu )
=
(x − xu )
(xo − xu )
32
(1)
Löst man diese Gleichung nach y auf (Multiplikation mit (x − xu ) und Addition
von yu ), so erhält man die gewünschte Formel für den y-Wert:
y=
(yo − yu )
(x − xu ) + yu .
(xo − xu )
(2)
Es gibt auch Situationen, in denen man einen Y -Wert y gegeben hat und fragt, zu
welchem X-Wert x er gehört (wenn man wieder den unbekannten Graphen durch
ein Geradenstück ersetzt). Hier ist die Formel (1) nach x aufzulösen. Man bildet
dazu zunächst den Kehrwert auf beiden Seiten, multipliziert dann mit (y − yu )
und addiert schließlich xu . Das Ergebnis ist
x=
(xo − xu )
(y − yu ) + xu .
(yo − yu )
(3)
Damit ist auch die Formel zum Auffinden des X-Werts bei gegebenem Y -Wert
gefunden. Es folgen nun konkrete Beispiele. Grundlage ist eine Tabelle von klassifizierten
Daten; die Daten sind dabei in drei Klassen eingeteilt.
Klasse wahre KG Mitte abs. H.
1 − 3
.5 , 3.5
2
3
4 − 6 3.5 , 6.5
5
5
7 − 9 6.5 , 9.5
8
2
rel. H.
.3
.5
.2
kum. rel. H.
.3
.8
1
Das Schaubild der kumulierten relativen Häufigkeiten sieht dann so aus:
1.3
Deskriptive Statistik
QM1 17
33
k.r.H.
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
q
..
..........
..........
..........
..........
..........
.
.
.
.
.
.
.
.
.
....
..........
..........
..........
..........
........
.
.
.
.
.
.....
.....
.....
.....
.....
.
.
.
.
..
.....
.....
.....
.....
.....
.
.
.
.
.
.....
.....
.....
.....
.....
.
.
.
.
..
.....
.....
.....
.....
.....
.
.
.
.
..
.....
.......
.......
.......
.......
.
.
.
.
.
.
...
.......
.......
.......
.......
.......
.
.
.
.
.
.
....
.......
.......
.......
.......
.......
q
q
q
1
2
3
4
5
6
7
8
9
10
X
Schon bei diesem Schaubild wurde linear interpoliert. Die genaue Verteilung der
Werte innerhalb der Klassen ist hier unbekannt, bekannt sind nur die kumulierten
relativen Häufigkeiten an den Klassengrenzen. Als Ergänzung der Funktion der
kumulierten relativen Häufigkeiten lag es daher nahe, die unbekannten Teile durch
Geradenstücke zu ersetzen; gewissermaßen tut man so, als wäre der Zuwachs
innerhalb der Klassen gleichmäßig.
Es soll nun der Prozentrang von 5 ermittelt werden. Da 5 keine wahre Klassengrenze ist, muss interpoliert werden (der ermittelte Prozentrang stimmt dann
auch nicht notwendigerweise mit dem überein, den man auf Grund der Originaldaten erhalten würde, die ja hier auch nicht mehr zur Verfügung stehen).
Zunächst ist die zuständige Klasse zu bestimmen; offenbar ist es die zweite. Die
bekannten Werte sind nun die kumulierten relativen Häufigkeiten an der Untergrenze und der Obergrenze. Wählt man als Bezeichnung für die kumulierten
relativen Häufigkeiten Y (die Variable selbst ist X), so sind die bekannten Werte
am Rand also
xu = 3.5
yu = .3
xo = 6.5
yo = .8 ,
wenn man die Bezeichnungen so wählt, dass sie zu den hergeleiteten Formeln
passen.
Zu bestimmen ist der Y -Wert, der zu x = 5 gehört. Die Formel (2) liefert durch
Einsetzen den Wert
(.8 − .3)
.5
(yo − yu )
(x − xu ) + yu =
(5 − 3.5) + .3 = (1.5) + .3 = .55
y=
(xo − xu )
(6.5 − 3.5)
3
1.3
Deskriptive Statistik
QM1 17
34
Der gesuchte interpolierte Prozentrang von 5 ist also 55.
Als weiteres Beispiel soll gefragt werden, welcher X-Wert zu einem Prozentrang
von 90 führt. Hier ist also Y gegeben, umgerechnet der Wert y = .9, und es
soll der zugehörige X-Wert bestimmt werden. Offenbar ist jetzt die dritte Klasse
relevant. Die bekannten Werte sind hier (wieder in der geeigneten Bezeichnung
für die Formeln)
xu = 6.5
yu = .8
xo = 9.5
yo = 1 .
Diesmal ist die Formel (3) zu benutzen; sie liefert
x=
(xo − xu )
(9.5 − 6.5)
3
(y − yu ) + xu =
(.9 − .8) + x6.5 = (.1) + 6.5 = 8 .
(yo − yu )
(1 − .8)
.2
Der gesuchte X-Wert mit einem Prozentrang von 90 ist also 8. Wieder ist darauf hinzuweisen, dass dies nicht mit dem Wert übereinstimmen muss, den man
erhalten hätte, wenn die Originaldaten noch zur Verfügung gestanden hätten.
Streuung und mittlere absolute Abweichung.
Hier geht es darum, ob es Beziehungen zwischen der Streuung und dem anschaulicheren Maß der mittleren absoluten Abweichung gibt.
Ist für eine Variable X eine Datenreihe x1 , . . . , xn von Daten von n Versuchspersonen gegeben, deren Mittelwert M ist, so ist die mittlere absolute Abweichung
vom Mittelwert definiert als
n
AX =
1X
|xi − M | .
n i=1
Die Bezeichnung AX ist sonst nicht gebräuchlich und dient hier lediglich als Abkürzung zur bequemeren Formulierung.
Offenbar handelt es sich bei AX um den Durchschnitt der absoluten Abweichungen vom Mittelwert M . Mit ‚absoluter Abweichung‘ ist dabei natürlich der Betrag
der Differenz (des Datums und des Mittelwerts) gemeint.
Anzumerken ist, dass man analog auch eine mittlere absolute Abweichung vom
Median (statt vom Mittelwert) bilden kann, was womöglich sogar sinnvoller ist.
1.3
Deskriptive Statistik
QM1 17
35
Hier wird jedoch immer die mittlere absolute Abweichung vom Mittelwert betrachtet.
Diese mittlere absolute Abweichung AX ist zunächst von der Anschauung her ein
viel einleuchtenderes Maß für die Datenvariabilität als die Streuung SX . Allerdings wird dies Maß selten benutzt (die Vorteile der Streuung als Maß zeigen sich
erst im Zusammenhang mit der Kovarianz).
Es soll nun geklärt werden, ob zwischen den beiden Maßen Zusammenhänge bestehen, die es womöglich gestatten, Abschätzungen des einen Maßes zu geben,
wenn man das andere kennt.
Zu diesem Zweck definiert man eine neue Variable Y als Y = |X − M |. Diese
Definition soll genauer bedeuten, dass der Wert der Versuchsperson i in dieser
neuen Variable gerade yi = |xi − M | ist.
Vielleicht ist ein Beispiel nützlich: Sind für die Variable X die Werte 2, 5, 3, 1, 4
erhoben worden, so ergibt sich als Mittelwert 3. Die neue Variable Y hat dann
bei der ersten Versuchsperson den Wert |2 − 3| = | − 1| = 1. Die Werte von
Y bei allen Versuchspersonen sind (in der Reihenfolge der X-Werte) die Zahlen
1, 2, 0, 2, 1.
Die mittlere absolute Abweichung AX von X ist dann der Durchschnitt der einzelnen absoluten Abweichungen der xi von M , und da dies gerade die Werte
der Variable Y sind, ist die mittlere absolute Abweichung von X gleichzeitig der
Mittelwert von Y ; es gilt also AX = MY .
Betrachtet man die Werte von Y 2 , so sind dies gerade die quadrierten absoluten
Abweichungen der xi von M , die dann mit den quadrierten Abweichungen der xi
von M übereinstimmen. (Das Quadrat des Betrages einer Zahl und das Quadrat
dieser Zahl sind gleich; so gilt |2|2 = 4 = 22 ebenso wie | − 2|2 = 22 = 4 = (−2)2 .
Daher gilt insbesondere |xi − M |2 = (xi − M )2 .)
Die Varianz von X ist die mittlere quadrierte Abweichung vom Mittelwert, und
dies ist nach den gerade angestellten Überlegungen gleichzeitig der Mittelwert
der Werte von Y 2 . Es gilt folglich
2
= MY 2 .
SX
Für MY 2 gilt jedoch
MY 2 ≥ (MY )2 ,
1.3
Deskriptive Statistik
QM1 17
36
da diese Beziehung für alle Variablen Gültigkeit besitzt. Zusammen folgt
2
≥ (MY )2 ,
SX
und zieht man auf beiden Seiten die Wurzel, so erhält man
SX ≥ MY
(man beachte, dass die Wurzel aus (MY )2 gleich MY ist, da ja MY nichtnegativ
ist).
Da aber MY die mittlere absolute Abweichung von X war, folgt nun insgesamt
dass die mittlere absolute Abweichung von X höchstens so groß ist wie SX , kurz
AX ≤ SX .
Damit ist eine Beziehung zwischen diesen beiden Maßen der Datenvariabilität gefunden: Die mittlere absolute Abweichung ist höchstens so groß wie die Streuung.
p
√
In dem Beispiel ist die Streuung gleich 10/5 = 2 = 1.41..., während die
mittlere absolute Abweichung gleich 6/5 = 1.2 ist; die Ungleichung stimmt hier
also (muss sie auch, da sie ja allgemein richtig ist).
Naheliegend ist die Frage, unter welchen Bedingungen die beiden Maße sogar
gleich sind; dies ist eine etwas fortgeschrittene fakultative Übungsaufgabe (es
ergibt sich dabei übrigens, dass bei einer ungeraden Anzahl von Daten Gleichheit
nur in dem uninteressanten Fall gilt, dass alle Daten gleich sind – beide Maße
sind dann 0).
Weiterführend ist auch die Frage interessant, ob eine Abschätzung in der anderen
Richtung gilt, ob also womöglich die Streuung nicht größer werden kann als ein
geeignetes Vielfaches der mittleren absoluten Abweichung. Hier kann man sich
klar machen, dass die folgende Ungleichung gilt:
p
SX ≤ n/2 AX ,
p
bei der jedoch der Faktor n/2 von der Stichprobengröße abhängt. Dass man
mindestens diesen Faktor braucht, sieht man an den möglichen Daten, bei denen
die ersten beiden Werte n/2 und −n/2 sind und die anderen 0. Dieses Beispiel
zeigt dann auch, dass es eine allgemeine Abschätzung der Form
SX ≤ K AX ,
1.3
Deskriptive Statistik
QM1 17
37
bei der die Zahl K für alle Stichprobengrößen gleich ist, nicht geben kann.
Eine Eigenschaft der Streuungsbalken.
Bekanntlich charakterisiert man Daten gelegentlich dadurch, dass man den Mittelwert in ein Diagramm einzeichnet und rechts und links davon eine Streuungseinheit abträgt.
Sind beispielsweise von X die Daten 3, 6, 4, 5, 9, 5, 7, 3, 2, 6 gegeben, so errechnet
man sofort, dass der Mittelwert 5 ist und die Streuung 2.
Im folgenden Diagramm sind die Daten zu sehen, darüber zum Vergleich der
Mittelwert mit Streuungsbalken:
MX
s
...
..
....................................................................................................................................................
...
...
SX
0
1
SX
r
r
r
r
r
r
r
r
r
2
3
4
5
6
7
r
8
9
10
X
Inwieweit sind diese Streuungsbalken für die Daten charakteristisch? Kann man
etwas über die Daten schließen, wenn man nur die Streuungsbalken kennt?
Offenbar ist es hier nicht so, dass die Streuungsbalken alle Daten einschließen;
dies ist folglich erst recht keine allgemeine Eigenschaft der Streuungsbalken.
Eine erste Aussage kann man jedoch machen: Entweder liegen alle Daten auf dem
Rand der Balken oder es befindet sich sowohl innerhalb als auch außerhalb des
markierten Bereichs mindestens ein Datum.
Diese Aussage soll gleich gezeigt werden, zuvor soll sie für die konkreten Daten
verdeutlicht werden. Der Rand des markierten Bereichs sind die Zahlen 3 und 7;
offenbar liegen nicht alle Daten auf diesem Rand. Daher muss, wenn die angegebene Aussage richtig ist, sowohl innerhalb des markierten Bereichs mindestens
ein Datum liegen als auch außerhalb. In der Tat liegen hier die Werte 4, 5 und 6
innerhalb und die Werte 2 und 9 außerhalb des Bereichs.
1.3
Deskriptive Statistik
QM1 17
38
Bei den Formulierungen ‚innerhalb‘ und ‚außerhalb‘ sind die Grenzen (im Beispiel
3 und 7) nicht mit eingeschlossen (wie auch die Erläuterung des Beispiels zeigt).
Man kann die Aussage auch so verstehen: Wenn Daten innerhalb des markierten
Bereichs liegen, so muss auch mindestens ein Datum außerhalb liegen, und wenn
Daten außerhalb liegen, so muss auch mindestens ein Datum innerhalb liegen.
Bezeichnet kurz M den Mittelwert und ist x ein Datenpunkt, so liegt x genau
dann auf dem Rand, wenn |x − M | = SX gilt, entsprechend liegt x innerhalb bzw.
außerhalb des markierten Bereichs, wenn |x − M | < SX bzw. |x − M | > SX gilt.
Damit lässt sich die zu begründende Aussage auch so formulieren: Entweder gilt
für alle xi die Beziehung |xi − M | = SX , oder es gilt für mindestens ein xi
die Beziehung |xi − M | < SX und für mindestens ein anderes die Beziehung
|xi − M | > SX .
Gleichbedeutend damit ist die Behauptung, dass weder der Fall eintreten kann,
dass für alle xi die Beziehung |xi − M | ≤ SX gilt und für mindestens eines sogar
die Beziehung |xi − M | < SX , noch der Fall, dass für alle xi die Beziehung
|xi − M | ≥ SX gilt und für mindestens eines sogar |xi − M | > SX .
Es soll nun gezeigt werden, dass der erste dieser Fälle unmöglich ist. Würde nämlich der erste Fall vorliegen, so erhielte man für die Varianz von X die Ungleichung
n
2
SX
n
1X
1X 2
2
=
(xi − M )2 <
S = SX
,
n i=1
n i=1 X
2
2
insgesamt also SX
< SX
. Da dies unmöglich ist, ist auch der erste Fall unmöglich.
Vielleicht ist das Ungleichheitszeichen hier erläuterungsbedürftig. Ersetzt man in
P
2
der ersten Summe (xi − M )2 jeden der Summanden (xi − M )2 durch SX
, so
P 2
erhält man gerade die zweite Summe
SX . Bei dieser Ersetzung werden jedoch
alle Summanden durch eine Zahl ersetzt, die nach Voraussetzung mindestens so
groß ist wie diese Summanden, und mindestens einer durch eine, die echt größer
ist. Daher muss auch die Summe echt größer werden. Die Division durch n ändert
dann an der Ungleichung nichts mehr.
Bisher hat sich gezeigt, dass der erste der beiden angegebenen Fälle unmöglich
ist; genauso zeigt man auch, dass der zweite nicht eintreten kann. Damit ist die
Behauptung insgesamt begründet. Dass übrigens auch der Fall eintreten kann, dass alle Datenpunkte auf dem Rand
1.4
Ergänzungen zur W-Theorie
QM1 17
39
liegen, sieht man an der Datenreihe 3, 7, 3, 7, 3, 7, 3, 7, 3, 7, die ebenfalls Mittelwert
5 und Streuung 2 besitzt. Zur Übung kann man auch noch zeigen, dass dieser Fall
nur für eine gerade Anzahl von Daten möglich ist; bei einer ungeraden Anzahl
von Daten liegen also stets mindestens ein Datenpunkt innerhalb der Streubalken
und mindestens einer außerhalb.
1.4
Ergänzungen zur W-Theorie
Markoffsche Ungleichung.
Ist X eine reelle Zva mit X ≥ 0, so gilt für jedes k > 0 die Markoffsche Ungleichung
E(X)
P(X ≥ k) ≤
.
k
Zur Begründung definiert man eine neue Zva Y durch die Vorschrift
(
k falls X(ω) ≥ k
Y (ω) =
0 sonst .
Die neue Zufallsvariable Y ensteht also dadurch, dass man X abändert, indem
man Werte ≥ k durch den Wert k ersetzt und alle anderen Werte durch 0. Offenbar gilt dann X ≥ Y , woraus E(X) ≥ E(Y ) folgt.
Der Erwartungswert von Y ist leicht zu berechnen, da Y nur die Werte 0 und k
annimmt:
E(Y ) = 0 · P(Y = 0) + k · P(Y = k) = k · P(X ≥ k) ,
denn Y ist ja genau dann gleich k, wenn X ≥ k gilt. Insgesamt gilt also
k · P(X ≥ k) ≤ E(Y ) ≤ E(X) ,
woraus mit Division durch k sofort die Behauptung folgt. Tschebyscheffsche Ungleichung.
Ist X eine relle Zva mit E(X) = µ und V(X) = σ 2 > 0, so gilt für jedes k > 0
die Tschebyscheffsche Ungleichung:
P(|X − µ| ≥ kσ) ≤
1
.
k2
1.4
Ergänzungen zur W-Theorie
QM1 17
40
Zur Begründung untersucht man Y = (X − µ)2 . Offenbar gilt dann Y ≥ 0 und
E(Y ) = σ 2 . Setzt man c = k 2 σ 2 , so gilt auch c > 0. Aus der Markoffschen
Ungleichung folgt nun (wenn man in der Formulierung dieser Ungleichung X
durch Y und k durch c ersetzt)
P(Y ≥ c) ≤
σ2
1
E(Y )
= 2 2 = 2 .
c
k σ
k
Nun gilt aber
Y ≥ c ⇔ (X − µ)2 ≥ k 2 σ 2 ⇔ |X − µ| ≥ kσ ,
woraus
P(Y ≥ c) = P(|X − µ| ≥ kσ)
und damit insgesamt die Behauptung folgt. Misst man die Abweichungen vom Erwartungswert nicht in Einheiten der Streuung σ, sondern absolut, so erhält man die folgende Alternativversion:
Ist X eine relle Zva mit E(X) = µ und V(X) = σ 2 , so gilt für jedes K > 0 die
Ungleichung:
σ2
P(|X − µ| ≥ K) ≤ 2 .
K
Man benutzt zur Begründung einfach die Tschebyscheffsche Ungleichung für k =
Kσ und erhält
P(|X − µ| ≥ K)) = P(|X − µ| ≥ kσ) ≤
1
σ2
1
=
=
.
k2
K 2 /σ 2
K2
Dies gilt auch für den Sonderfall σ = 0, da dann die untersuchten Wahrscheinlichkeiten immer 0 sind (dann gilt ja X = µ fast sicher). Natürlich kann man in der Alternativversion nun das Symbol K durch k ersetzen
– es wurde ja nur zur bequemeren Formulierung der Begründung gebraucht.
Wie üblich erhält man Abschätzungen für die komplementären Ereignisse; unter
den jeweiligen Voraussetzungen gilt nämlich
P(|X − µ| < kσ) ≥ 1 −
bzw.
P(|X − µ| < k) ≥ 1 −
1
k2
σ2
.
K2
1.5
Ergänzungen zur Regression
QM1 17
41
Beispielsweise sind ja die Ereignisse |X − µ| ≥ kσ und |X − µ| < kσ Gegenereignisse, weshalb sich ihre Wahrscheinlichkeiten zu 1 addieren. Es gilt also
P(|X − µ| < kσ) = 1 − P(|X − µ| ≥ kσ) ≥ 1 −
1
.
k2
Für die zweite Version argumentiert man ganz analog. 1.5
Ergänzungen zur Regression
Lösen linearer Gleichungssysteme.
Im Zusammenhang mit der multiplen Regression tauchen lineare Gleichungssysteme mit mehreren Unbekannten auf. Hier soll eine Möglichkeit behandelt werden,
solche Gleichungssysteme zu lösen. Diese Möglichkeit ist keineswegs die einzige
und vielleicht in vielen Fällen auch nicht die praktischste. Ein Vorteil ist aber der,
dass dieses Verfahren auch später wichtige Anwendungen hat (in den Methoden
der multivariaten Statistik).
Zur Illustration sei zunächst das Gleichungssystem
2x +
x −
x +
y − z
y
y − z
=
1
= −1
=
0
betrachtet; es handelt sich um ein System von drei Gleichungen mit drei Unbekannten x, y und z. Gesucht ist eine Lösung dieses Gleichungssystems, also eine
Angabe von Zahlen, durch die x, y und z ersetzt werden können, so dass dann
alle drei Gleichungen erfüllt sind. Eine Lösung besteht also hier immer aus drei
Angaben, die man dann ganz kurz zu einem Tripel von Zahlen (in der Reihenfolge
x, y, z) zusammenfassen kann.
Dieses Gleichungssystem soll in mehreren Schritten gelöst werden. Zunächst geht
es nur darum, einzusehen, dass der Lösungsweg korrekt ist; später soll auch die
Reihenfolge der Operationen motiviert werden. Diese Reihenfolge von Umformungen ist dabei nicht die einzig mögliche, jede ähnliche muss jedoch zum gleichen
Endergebnis führen. Zur besseren Orientierung soll das Ausgangssystem kurz als
System (1) oder noch kürzer als (1) bezeichnet werden.
1.5
Ergänzungen zur Regression
QM1 17
42
An den Lösungen des Gleichungssystems ändert sich sicher nichts, wenn man die
Reihenfolge der Gleichungen ändert; hier könnte man beispielsweise die ersten
beiden Gleichungen vertauschen, womit man das Gleichungssystem
x − y
2x + y − z
x + y − z
= −1
=
1
=
0
erhält, das mit (2) bezeichnet werden soll.
Der nächste Schritt besteht darin, dass man in (2) von der zweiten Gleichung das
Doppelte der ersten abzieht; die anderen Gleichungen bleiben so, wie sie sind:
x −
y
3y − z
x + y − z
= −1
=
3
=
0
Dies neue System soll mit (3) bezeichnet werden.
Wesentlich ist, dass man erkennt, dass sich durch diese Umformungen nichts an
der Lösungsmenge des Gleichungssystems geändert hat. Erfüllen nämlich gewisse
Zahlen x, y und z alle Gleichungen von (2), so erfüllen sie insbesondere auch
die Gleichung, die sich ergibt, wenn man das Doppelte der ersten von der zweiten abzieht (also die zweite Gleichung von (3)). Zahlentripel, die eine Lösung
des Systems (2) waren, sind also auch eine Lösung von (3); Lösungen bleiben
bei der Umformung des Systems also erhalten. Es besteht allerdings die Gefahr,
dass bei der Umformung neue Lösungen hinzukommen. Hier erkennt man jedoch, dass man von (3) zu (2) dadurch zurückgelangt, dass man eine umgekehrte
Umformung vornimmt, die aber von derselben Art ist: Man addiert das 2-fache
der ersten Gleichung zur zweiten. Auch hierbei bleiben Lösungen erhalten, jede
Lösung von (3) ist also auch eine solche von (2). Dies bedeutet aber, dass bei
der Umformung von (2) nach (3) nicht, wie befürchtet, neue Lösungen hinzugekommen sein können. Zusammengefasst sind die Lösungen von (2) also genau
dieselben wie die von (3).
Etwas allgemeiner formuliert ändert sich die Lösungsmenge eines Gleichungssystems nicht, wenn man zu einer Gleichung ein Vielfaches einer anderen Gleichung
hinzuaddiert und alle anderen so lässt, wie sie sind.
Man beachte, dass das Subtrahieren des a-fachen einer Gleichung dasselbe ist wie
das Addieren des (−a)-fachen, so dass in der allgmeinen Formulierung auch die
Möglichkeit des Subtrahierens mit berücksichtigt ist.
1.5
Ergänzungen zur Regression
QM1 17
Die nächste Umformung besteht darin, dass
dritten abzieht:
x − y
3y − z
2y − z
43
man die erste Gleichung von der
= −1
=
3
=
1
Das Ergebnis sei mit (4) bezeichnet. Die Rechtfertigung für den Übergang von
(3) nach (4) ist die gleiche wie bei der vorhergehenden.
Als nächstes kann die dritte Gleichung von der zweiten abgezogen werden; es
ergibt sich das System (5):
x −
y
y
2y − z
= −1
=
2
=
1
Als nächstes wird die zweite Gleichung zur ersten addiert, was zum System (6)
führt:
x
= 1
y
= 2
2y − z = 1
Danach wird von der dritten Gleichung das
(7) liefert:
x
y
−z
2-fache der zweiten abgezogen, was
=
1
=
2
= −3
Nun wird noch die dritte Gleichung mit (−1) multipliziert, was zu einem Gleichungssystem (8) führt, das bereits die Lösung darstellt:
x
y
z
= 1
= 2
= 3
Der letzte Schritt muss noch gerechtfertigt werden. Offenbar erfüllt aber eine Lösung, die die dritte Gleichung erfüllt, auch das (−1)-fache der dritten Gleichung,
Lösungen bleiben also bei der Umformung erhalten. Dass keine neue Lösung hinzukommen kann, sieht man wieder daran, dass die Umformung durch eine der
gleichen Art rückgängig gemacht werden kann, nämlich dadurch dass die dritte
1.5
Ergänzungen zur Regression
QM1 17
44
Gleichung von (8) mit 1/(−1) = (−1) multipliziert wird. Wie oben folgt, dass die
Lösungen von (7) und (8) genau die gleichen sind.
Allgemein formuliert kann man also eine Gleichung mit einer beliebigen Zahl
multiplizieren, ohne dass sich die Lösungen ändern, sofern, und das ist wesentlich,
diese Zahl nicht gleich 0 ist (denn dann ließe sich die Operation nicht mehr
rückgängig machen).
Zusammenfassend ist es also gelungen, in mehreren Schritten das System (1) zum
System (8) umzuformen, wobei die Lösungen jeweils erhalten blieben (es kamen
also weder neue Lösungen hinzu, noch gingen alte Lösungen verloren). Damit
sind die Lösungen von (8) genau die gleichen wie die Lösungen von (1). Beim
System (8) erkennt man die Lösungen jedoch unmittelbar.
Bei den Umformungen wurden nur drei Typen von Operationen benutzt: Vertauschen zweier Gleichungen, Addition des Vielfachen einer Gleichung zu einer
anderen und Multiplikation einer Gleichung mit einer Zahl ungleich 0. Subtraktionen müssen nicht eigens erwähnt werden, da sie als Addition des (−1)-fachen
aufgefasst werden können.
Das Verfahren zur Lösung des Gleichungssystems bestand also darin, dass in mehr
oder weniger geschickter Weise die genannten Operationen solange angewendet
wurden, bis das schließlich entstehende Gleichungssystem die Lösung unmittelbar
zeigte.
Es soll gleich kurz besprochen werden, auf welche Art dies Ziel erreichbar ist,
vorher soll jedoch eine abkürzende Notation eingeführt werden, mit der man sich
einige Schreibarbeit ersparen kann.
Redundant sind die Namen der Unbekannten, wenn sie immer in der gleichen
Reihenfolge auftreten, und das Gleichheitszeichen. Man kann so das Gleichungssystem auf seine Koeffizienten und die rechte Seite reduzieren. Aus dem Gleichungssystem
2x + y − z =
1
x − y
= −1
x + y − z =
0
wird so kurz
2 1 −1 1
1 −1 0 −1 .
1 1 −1 0
Es ist dabei zu beachten, dass Minuszeichen mit den Koeffizienten verrechnet
1.5
Ergänzungen zur Regression
QM1 17
45
werden, und dass auch Unbekannte, die in einer Gleichung nicht vorkommen,
hinterher durch eine Null vertreten werden. Das Ergebnis dieser Umformung soll
kurz Koeffizientenschema heißen.
Es dürfte klar sein, dass sich auf diese Weise das Gleichungssystem eindeutig in ein
Koeffizientenschema übersetzen lässt, wobei auch die Rückübersetzung eindeutig
möglich ist. Das betrifft natürlich nicht nur das erste Gleichungssystem, sondern
auch die folgenden umgeformten Systeme.
Wie drücken sich nun die Umformungsoperationen im Koeffizientenschema aus?
Offenbar entspricht dem Vertauschen zweier Gleichungen das Vertauschen der
entsprechenden Zeilen, dem Addieren eines Vielfachen einer Gleichung zu einer
anderen die (koeffizientenweise) Addition des Vielfachen der der einen Gleichung
entsprechenden Zeile zu der Zeile, die der anderen Gleichung entspricht, und der
Multiplikation einer Gleichung mit einer Zahl ungleich 0 die (koeffizientenweise)
Multiplikation der entsprechenden Zeile mit dieser Zahl.
Man kann nun die Umformungen auch nur am Koeffizientenschema vornehmen,
um nur am Ende die Rückübersetzung vorzunehmen und die Lösung abzulesen. Dies soll gleich mit dem untersuchten Gleichungssystem geschehen, wobei
die Schritte genau parallel zu den oben gemachten sind. Zuvor sollen noch die
Operationen eine geeignete Abkürzung erhalten, damit in knapper Form deutlich
gemacht werden kann, welche Operation vorgenommen wurde.
Die Operation des Vertauschens von Zeile i und j soll als zi : j geschrieben
werden, das Addieren des a-fachen von Zeile j zu Zeile i als zi + a zj und die
Multiplikation der Zeile i mit der Zahl a als zi ∗ a. Statt zi + (−a)zj (Addieren
des (−a) fachen der j-ten Zeile zur i-ten) soll anschaulich auch kürzer zi − a zj
(Subtrahieren des a-fachen der j-ten Zeile von der i-ten) geschrieben werden.
Die erste Operation oben bestand darin, die ersten beiden Gleichungen zu vertauschen, was jetzt für das Koeffizientenschema kurz als z1 : 2 notiert wird; die
Operation sieht so aus:
2 1 −1 1
1 −1 0 −1
1 1 −1 0
z1 : 2
−→
1 −1 0 −1
2 1 −1 1
1 1 −1 0
Man überzeugt sich leicht davon, dass dies in der Tat nichts anderes ist als eine
verkürzte Darstellung der oben mit dem Originalgleichungssystem vorgenommenen ersten Operation, in der sich diese Operation auch vollständig wiederfindet.
1.5
Ergänzungen zur Regression
QM1 17
46
Auch die weiteren Operationen werden nun, ausgehend von (2), in der verkürzten
Form zum Vergleich noch einmal aufgelistet:
1 −1 0 −1
2 1 −1 1
1 1 −1 0
1 −1 0 −1
0 3 −1 3
0 2 −1 1
1 0 0 1
0 1 0 2
0 2 −1 1
z3 − 2z2
−→
z2 − 2z1
−→
z2−z3
−→
1 −1 0 −1
0 3 −1 3
1 1 −1 0
1 −1 0 −1
0 1
0
2
0 2 −1 1
1 0 0
1
0 1 0
2
0 0 −1 −3
z1 ∗ (−1)
−→
z3−z1
−→
z1+z2
−→
1 0 0 1
0 1 0 2
0 0 1 3
Das letzte Schema übersetzt man nun wieder in Gleichungen und bekommt so
aus der ersten Zeile 1 x + 0 y + 0 z = 1, also x = 1, entsprechend mit den übrigen
Zeilen.
Man sieht nun deutlicher, mit welcher Strategie das Ziel erreicht wurde: Es ging
darum, auf der linken Seite mehr oder weniger systematisch Nullen zu erzeugen,
wobei dafür zu sorgen war, dass diese Nullen beim weiteren Fortgang erhalten
blieben. Dies wurde so lange durchgeführt, bis die Lösung offensichtlich war.
Es ist nun auch klar, dass man auch auf andere Weise hätte zum Ziel gelangen
können (auch systematischer). Bei der Auswahl des Weges achtet man sinnvollerweise darauf, die Gefahr von Rechenfehlern möglichst gering zu halten. Dies
kann bedeuten, dass man beispielsweise Brüche eher vermeidet, dies auch, weil
die Rechnungen sonst komplizierter werden. Die Umwandlung von Brüchen in
Dezimalzahlen ist wegen Rundungsfehlern oft problematisch.
Insgesamt wird man also Divisionen, die zu Brüchen führen, möglichst auf das
Ende der Rechnungen verschieben.
Um Schreibarbeit zu vermeiden, kann man natürlich auch mehrere Schritte auf
einmal durchführen – das Beispiel oben ist unangemessen ausführlich. Dabei ist
nur darauf zu achten, dass man nicht Zeilen benutzt, die man eigentlich schon
geändert hat, da dann die Gefahr besteht, aus Versehen mit der ursprünglichen
Zeile zu rechnen. Beispielsweise ist es nicht sinnvoll, auf einmal die erste Zeile zur
zweiten und dann die zweite zur dritten zu addieren, da man die bereits erfolgten
1.5
Ergänzungen zur Regression
QM1 17
47
Modifikationen der zweiten sonst immer deutlich vor Augen haben muss, was zur
Gefahr von Fehlern führt.
In vielen Fällen wird man beispielsweise die Operationen, eine Zeile zu vervielfachen und dann ein Vielfaches einer anderen Zeile zu addieren, zu einem Schritt
zusammenfassen. Als Abkürzung soll bzi + azj bedeuten, dass man die i-te Zeile
zunächst mit b multipliziert und zum Ergebnis dann das a-fache der j-ten Zeile
hinzuaddiert.
Es folgt ein weiteres Beispiel:
x + 2y + 4z
2x + y + z
x + 2y − 2z
=
2
=
1
= −1
Die Umwandlung zum Koeffizientenschema liefert
1 2 4
2
2 1 1
1
1 2 −2 −1
Hier ist es leicht möglich, in der ersten Spalte außer an der Stelle links oben
Nullen zu erzeugen mit z2 − 2z1 und z3−z1; beide Operationen können gefahrlos
auf einmal durchgeführt werden:
1 2
4
2
0 −3 −7 −3
0 0 −6 −3
Hier kann die dritte Zeile durch (−3) dividiert werden (z3 ∗ −(1/3)) und zur
Erzeugung einer Null an der zweiten Stelle der ersten Zeile kann das Doppelte der
zweiten Zeile zum 3-fachen der ersten addiert werden (3z1 + 2z2 zur Vermeidung
von Brüchen):
3 0 −2 0
0 −3 −7 −3
0 0
2
1
Mit z1+z3 und 2z2 + 7z3 bekommt man die letzten beiden erstrebten Nullen:
3 0 0 1
0 −6 0 1
0 0 2 1
1.5
Ergänzungen zur Regression
QM1 17
48
Nun lassen sich beim letzten Schritt Brüche nicht mehr vermeiden, aber mit
z1 ∗ (1/3), z2 ∗ −(1/6) und z3 ∗ (1/2) hat man ja auch schon das Ergebnis
1 0 0 1/3
0 1 0 −1/6
0 0 1 1/2
Die Lösung lautet also x = 1/3, y = −1/6, z = 1/2.
Lösungen der Normalengleichungen lösen das Minimierungsproblem.
In diesem Abschnitt geht es darum, zu zeigen, dass eine Lösung der Normalengleichungen auch eine Lösung des Minimierungsproblems ist. Gezeigt wurde bisher
ja nur, dass die Koeffizienten einer optimalen Lösung des Regressionsproblems
die Normalengleichungen erfüllen müssen. Daraus folgt keineswegs automatisch,
dass jede Lösung der Normalengleichungen auch das Minimierungsproblem löst
(es könnte beispielsweise sein, dass das Minimierungsproblem gar keine Lösung
besitzt).
Man kann den bisherigen Kenntnisstand auch so ausdrücken: Dass gewisse Koeffizienten bj die Normalengleichungen erfüllen, ist eine notwendige Bedingung dafür,
dass sie auch ein Minimum liefern. Ob dies auch eine hinreichende Bedingung ist,
ist noch offen.
Zur Verwendungsweise der gelegentlich auftretenden Ausdrücke ‚notwendig‘ und
‚hinreichend‘: Wenn eine Implikation A → B (aus A folgt B) gilt, so ist B eine
notwendige Bedingung für A (wenn B nicht gilt, kann auch A nicht gelten, denn
sonst müsste ja B gelten!, oder: A kann nur gelten, wenn auch B gilt, oder:
die Gültigkeit von B ist notwendig für die Gültigkeit von A) und A ist eine
hinreichende Bedingung für B.
Um ein Standardbeispiel zu zitieren: Die Aussage „Wenn es regnet, ist die Straße
nass“ sei als richtig vorausgesetzt (überdachte Straßen sind hier ausgeschlossen).
Der Regen ist dann eine hinreichende Bedingung für die Nässe auf der Straße,
während die Nässe eine notwendige Bedingung für Regen ist. Hier ist die Nässe
keine hinreichende Bedingung für Regen (und der Regen keine notwendige für
Nässe), da die Straße auch aus anderen Gründen nass sein kann, beispielsweise, weil sie jemand gerade zur Begründung dieser Bemerkung mit dem Gartenschlauch nass gespritzt hat.
Hier ist noch anzumerken, dass die Aussage A → B auch dann als wahr gilt, wenn
1.5
Ergänzungen zur Regression
QM1 17
49
sowohl A als auch B falsch sind (die Aussage „Wenn es regnet, ist die Straße nass“
bleibt auch dann richtig, wenn die Sonne scheint und die Straße trocken ist, oder,
ein weiteres verbreitetes Beispiel, die Aussage „Wenn die Erde eine Scheibe ist,
besteht der Mond aus Schweizer Käse“ gilt als richtig). Allgemein ist vereinbart,
dass A → B nur dann als falsch gilt, wenn A richtig ist und B falsch und sonst
als richtig.
Diese (in manchen Beispielen etwas seltsam wirkende) Festlegung ist für mathematische Aussagen natürlich und sinnvoll, denn man braucht dann beispielsweise
bei der Aussage „Wenn eine ganze Zahl n durch 6 teilbar ist, so ist sie auch durch
2 teilbar“ nicht darüber nachgrübeln, ob dies im Falle n = 7 richtig ist oder nicht.
Nun soll also gezeigt werden, dass die Erfüllung der Normalengleichungen auch
hinreichend für eine Lösung des Minimierungsproblems ist. Dazu seien b1 , . . . , bm
Koeffizienten, die die Normalengleichungen
X
KovXi , Xj bj = KovXi , Y (i = 1, . . . , m)
j
erfüllen. Die Normalengleichungen waren ihrerseits nur eine Umformulierung der
Forderung, dass die Kovarianzen des Vorhersagefehler mit allen Prädiktoren alle
0 sein sollten.
Die Zahlen b01 , . . . , b0m seien irgendwelche Koeffizienten. Es ist dann zu zeigen,
dass die Vorhersage mit Hilfe der b0j jedenfalls nicht besser ist als die mit Hilfe
der bj . Da die additive Konstante a zu gegebenen Koeffizienten immer so gewählt
werden kann, dass der Mittelwert des Vorhersagefehlers zu 0 wird und die mittlere
quadrierte Abweichung für die gegebenen Koeffizienten dadurch minimal wird und
mit der Varianz des Fehlers übereinstimmt, braucht diese additive Konstante hier
nicht berücksichtigt zu werden. Es reicht vielmehr, zu zeigen, dass die Varianz
des Fehlers bei der Verwendung von b01 , . . . , b0m jedenfalls nicht größer ist als die
bei Verwendung von b1 , . . . , bm .
P
Die beiden konkurrierenden Vorhersagen sind nun Ŷ =
bj Xj + a und Ŷ 0 =
P 0
bj Xj + a0 . Die zugehörigen Fehler sind E = Y − Ŷ und E 0 = Y − Ŷ 0 . Der
Fehler E 0 kann daher auch geschrieben werden als
E 0 = Y − Ŷ + Ŷ − Ŷ 0 = E + (Ŷ − Ŷ 0 ) .
Die Berechnung von Ŷ − Ŷ 0 ergibt
X
X
X
Ŷ − Ŷ 0 =
bj X j + a −
b0j Xj − a0 =
(bj − b0j )Xj + (a − a0 ) .
1.5
Ergänzungen zur Regression
QM1 17
50
Für die Kovarianz von E mit Ŷ − Ŷ 0 erhält man daher
X
KovE, (Ŷ −Ŷ 0 ) =
(bj − b0j )KovE, Xj = 0 ,
da die Kovarianzen von E mit den Xj alle gleich 0 sind – dies ist ja gerade die
Aussage der Normalengleichungen.
Die Varianz von E 0 berechnet sich daher folgendermaßen:
SE2 0 = SE2 + SŶ2 −Ŷ 0 + 2 KovE, (Ŷ −Ŷ 0 ) = SE2 + SŶ2 −Ŷ 0 .
Da die Varianz von Ŷ − Ŷ 0 nichtnegativ ist, folgt die angestrebte Aussage
SE2 0 ≥ SE2 .
Herunterladen