QM1 17 1 1 Ergänzungen zu Statistik I 1.1 Kombinatorik Pascalsches Dreieck. Die Binomialkoeffizienten kann man in übersichtlicher Weise in Form eines Dreiecks anordnen; das entstehende Schema nennt man auch das Pascalsche Dreieck. Von einem ‚Dreieck‘ zu sprechen ist allerdings streng genommen nicht korrekt, da das entstehende Gebilde nach unten offen ist. n: k: 0 . 0 1 2 3 4 5 6 . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . 1 . . . . 1 . . . 1 . . 1 . 1 1 5 6 15 . . . . . 2 4 10 20 . . . . 1 . . 1 . . . 5 . . . 1 4 . . . 5 3 . . 4 10 . . 3 2 . 1 6 . . 1 3 1 6 . . . . . . . 15 6 1 . . . . . . Die Anordnung ist so, dass der Binomialkoeffizient n k in der Zeile mit der Nummer n und der schräg nach rechts oben zeigenden Reihe mit der Nummer k steht. Interessanterweise scheint hier jede Zahl außer den Einsem am Rand gerade die Summe der beiden darüberstehenden Zahlen zu sein. Dies ist tatsächlich überall so, wie nun gezeigt werden soll. Betrachtet man allgemein zwei nebeneinander stehende Koeffizienten in der Zeile mit der Nummer n und den darunter stehenden Koeffizienten in der Zeile mit der Nummer n + 1, wobei der erste Koeffizient in der ersten Zeile zu der schrägen 1.1 Kombinatorik QM1 17 2 Reihe mit der Nummer k gehören soll, so hat man gerade folgende Situation: k . . . n . . . . n+1 . . . . n k k+1 . n k+1 n+1 k+1 Die Zahl k liegt dabei zwischen 0 und n − 1, durch ein geeignetes k werden also alle Koeffizienten in der Zeile mit der Nummer n + 1 erfasst außer den beiden Einsen am Rande. Die Behauptung, dass jede Zahl im Dreieck die Summe der beiden darüber stehenden Zahlen ist, ist also gleichbedeutend damit, dass für alle k = 0, . . . , n − 1 die Gleichung n n n+1 + = k k+1 k+1 gilt. Schreibt man die linke Seite der Gleichung aus, so erhält man n! n! + , k! (n − k)! (k + 1)! (n − (k + 1))! was nach Ausklammern gemeinsamer Faktoren gleich n! 1 1 + k! (n − (k + 1))! (n − k) (k + 1) ist (man beachtet hier (n − k)! = (n − (k + 1))! (n − k)). Die Summe in den Klammern berechnet man zu 1 1 (k + 1) + (n − k) (n + 1) + = = . (n − k) (k + 1) (k + 1) (n − k) (k + 1) (n − k) Schreibt man nun für (n − (k + 1)) alternativ ((n + 1) − (k + 2)) und für (n − k) alternativ ((n + 1) − (k + 1)), so erhält man für die ursprüngliche Summe den Ausdruck n! (n + 1) · , k! ((n + 1) − (k + 2))! (k + 1) ((n + 1) − (k + 1)) der durch Umgruppieren der Faktoren nun tatsächlich zu n+1 (n + 1)! = (k + 1)! ((n + 1) − (k + 1))! k+1 1.1 Kombinatorik QM1 17 3 wird, womit die Richtigkeit der untersuchten Gleichung gezeigt ist. Damit ist auch nachgewiesen, dass tatsächlich überall im Pascalschen Dreieck die genannte Gesetzmäßigkeit gilt. Da sich durch die Summationsregel alle Zahlen im Innern des Dreiecks aus den darüber stehenden Zahlen bestimmen lassen, sieht man, dass man diese Zahlen auch dadurch findet, dass man die Einsen an den Rändern des Dreiecks aufschreibt und das Innere dann von oben beginnend mit Hilfe dieser Summenregel auffüllt. Man hat auf diese Weise eine Alternativmöglichkeit, die Binomialkoeffizienten sukzessive zu bestimmen, die ohne die in der Definition geforderten Multiplikationen auskommt. Vierte Elementaraufgabe. Die vierte Elementaraufgabe in der Kombinatorik betrifft das Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge. Gegeben ist eine Urne mit n Kugeln, aus der k Mal mit Zurücklegen gezogen werden soll. Die Aufgabe besteht darin, die Anzahl der möglichen Ergebnisse zu bestimmen, wenn die Reihenfolge der Ziehung keine Rolle spielt. Ein Ergebnis in diesem Sinne ist also vollständig beschrieben, wenn für jede der Kugeln angegeben wird, wie oft sie gezogen wurde, wobei es keine Rolle spielt, in welcher Reihenfolge die Ziehungen stattfanden. Das Ergebnis kann dann dadurch angegeben werden, dass für alle Kugeln gesagt wird, wie oft sie gezogen wurden, wobei nun für die Kugeln eine einheitliche Reihenfolge festgelegt sei. Fasst man dann die Häufigkeiten, in der die einzelnen Kugeln gezogen wurden, in der festgelegten Reihenfolge der Kugeln zu einem n-Tupel zusammen, so erhält man ein n-Tupel, dessen Komponenten nichtnegative ganze Zahlen sind, wobei die Summe der Komponenten gerade k ergeben muss. Beispielsweise kann sich in der Situation mit n = 7 Kugeln und k = 11 Ziehungen das Ergebnis (0, 2, 5, 3, 0, 1, 0) ergeben, das bedeutet, dass die erste Kugel nie gezogen wurde, die zweite zwei Mal, die dritte fünf Mal, die vierte drei Mal und so fort. Man beachte, dass die Summe der Zahlen in diesem 7-Tupel gerade 11, also die Anzahl k der Ziehungen 1.1 Kombinatorik QM1 17 4 ist. Offenbar entsprechen sich nun die n-Tupel aus nichtnegativen ganzen Zahlen, bei denen die Summe der Kompontenten gleich k ist, und die Möglichkeiten, k Mal mit Zurücklegen ohne Berücksichtigung der Reihenfolge zu ziehen, genau. Daher kann man die gegebene Aufgabe auch dadurch lösen, dass man die Anzahl solcher n-Tupel bestimmt. Zu diesem Zweck sollen die n-Tupel in einer etwas primitiveren Schreibweise notiert werden. Statt der Zahlzeichen werden dabei die entsprechenden Strichfolgen verwendet; so bedeutet beispielsweise |||| die Zahl 4. Die Kommata werden übernommen, während die Klammern wegfallen können. Aus dem eben betrachteten 7-Tupel wird so die folgende Zeichenfolge: , ||, |||||, |||, , |, Die Zahl Null wird dabei natürlich durch eine leere Strichfolge ausgedrückt. An dem Komma am Anfang erkennt man also, dass davor eigentlich eine Strichfolge stehen müsste, die aber leer ist, was insgesamt bedeutet, dass die erste Zahl des 7-Tupels eine Null ist. Entsprechendes gilt für die fünfte und die siebte Zahl. Durch diese Umformulierung entstehen aus den n-Tupeln also Zeichenfolgen aus Strichen und Kommata, wobei die Anzahl der Striche gleich k ist, während die Anzahl der Kommata gleich n − 1 ist (in der schriftlichen Darstellung eines nTupels sind ja genau n − 1 trennende Kommata vorhanden). Die Anzahl der Zeichen in diesen Zeichenfolgen ist damit stets gleich n + k − 1. Da offenbar jede Zeichenfolge aus k Strichen und n − 1 Kommata genau eines der untersuchten n-Tupel codiert, ist die gesuchte Anzahl der n-Tupel nun gleich der Anzahl der möglichen Zeichenfolgen. Die Anzahl der möglichen Zeichenfolgen lässt sich nun jedoch leicht ermitteln. Da insgesamt n + k − 1 Zeichen vorhanden sind, ist die Folge vollständig durch die Angabe bestimmt, an welchen Stellen die k Striche stehen sollen; dabei ist jede Auswahl der n + k − 1 Stellen in der Zeichenfolge möglich. Die Antwort auf die Frage nach der Anzahl der möglichen Zeichenfolgen ist also gleichzeitig die Antwort auf die Frage, auf wieviele Arten man aus einer Menge von n + k − 1 Stellen k Stellen auswählen kann, also n+k−1 . k 1.1 Kombinatorik QM1 17 5 Die vierte Elementaraufgabe ist damit gelöst – man beachte übrigens die Alternativdarstellung n+k−1 n+k−1 = , k n−1 die anschaulich auch dadurch begründet werden kann, dass jetzt die n − 1 Stellen für die Kommata auszuwählen sind. Zusammenfassend ist also die Anzahl der Möglichkeiten, k Mal aus einer Urne mit n Kugeln mit Zurücklegen und ohne Berücksichtung der Reihenfolge zu ziehen, gerade n+k−1 n+k−1 = . k n−1 Nahe verwandt ist die Aufgabe, die Anzahl der Darstellungen einer Zahl k durch n ganzzahlige nichtnegative Summanden anzugeben, bei denen es auf die Reihenfolge ankommt. So sind beispielsweise 1+2+0+2, 0+2+3+0, 0+3+2+0 drei Darstellungen der Zahl k = 5 durch n = 4 Summanden; die beiden letzten Darstellungen zählen dabei als verschiedene, da die Reihenfolge der Summanden nicht die gleiche ist. Ersetzt man die Pluszeichen durch Kommata und schließt die entstehenden Zeichenfolgen durch Klammern ein, so erhält man genau die n-Tupel nichtnegativer ganzer Zahlen mit Summe k. Die gesuchte Anzahl der Summendarstellungen von k durch n Summanden ist demnach wieder n+k−1 n+k−1 = . k n−1 Will man diese Aussage auch direkt begründen, so schreibt man ganz analog wie oben die Summen mit Hilfe von Strich-Zahlzeichen; die drei genannten Darstellungen sind dann | + || + +| , +|| + |||+ , +||| + ||+ , wobei zu beachten ist, dass die Pluszeichen am Anfang der zweiten und dritten Summe beispielsweise darauf hinweisen, dass zuerst einmal der Summand 0 auftritt. Die weitere Argumentation geht dann genau wie oben. 1.1 Kombinatorik QM1 17 6 Eine ähnliche Aufgabe ist die, die Anzahl der Darstellungen einer Zahl m als Summe von n positiven ganzen Zahlen zu ermitteln – hier darf die Null also nicht als Summand auftreten. Die Reihenfolge ist dabei wieder zu berücksichtigen. Die Zahl m muss dabei natürlich mindestens gleich n sein. Die Aufgabe führt man auf die letzte zurück, indem man sich klar macht, dass die gesuchten Darstellungen genau den Darstellungen der Zahl m − n durch n nichtnegative ganze Summanden entsprechen. Die bijektive Beziehung stellt man einfach dadurch her, dass man bei einer Darstellung der ersten Art von m von jedem der Summanden 1 abzieht, womit man gerade eine Darstellung der zweiten Art von m − n erhält. Die gesuchte Anzahl der Darstellungen der Zahl m durch n positive ganze Zahlen ist demnach n + (m − n) − 1 m−1 m−1 = = . (m − n) m−n n−1 Als Beispiel sollen noch die Darstellungen von 7 mit Hilfe von drei positiven Summanden folgen; die Anzahl der Darstellungen ist nach den gerade angestellten Überlegungen gleich 7−1 6 = = 15 , 3−1 2 und die Darstellungen in lexikographischer Reihenfolge (zeilenweise) sind 1+1+5 2+1+4 3+1+3 4+1+2 5+1+1 1+2+4 2+2+3 3+2+2 4+2+1 1+3+3 2+3+2 3+3+1 1+4+2 2+4+1 1+5+1 Multinomialkoeffizienten. Die Multinomialkoeffizienten sind direkte Verallgemeinerungen der Binomialkoeffizienten. Gegeben sei eine Menge G mit n Elementen. Es geht nun um die Frage nach der Anzahl der Möglichkeiten, diese Menge zu zerlegen in m disjunkte Teilmengen Gi , wobei Gi gerade die Mächtigkeit ki besitzen soll. Es geht also um die Frage der Anzahl der disjunkten Zerlegungen von G in m Mengen der gegebenen Mächtigkeiten ki . Die Reihenfolge der Teilmengen ist dabei von Bedeutung, was man auch an ihrer Nummerierung sieht. 1.1 Kombinatorik QM1 17 7 Die Zahlen ki müssen dabei natürlich nichtnegativ sein, und ihre Summe muss gerade n sein. Es ist übrigens nicht vorausgesetzt, dass die ki positiv sind; ist ein ki gleich 0, so ist die entsprechende Teilmenge Gi immer die leere Menge. Beispielsweise kann es darum gehen, die Menge der Zahlen von 1 bis 5 in drei Teilmengen zu zerlegen, die die Mächtigkeiten 2, 1 und 2 besitzen sollen. Diese Aufgabe kann man noch durch systematisches Aufzählen lösen; wenn der Kürze halber die Aufteilung in Teilmengen durch Striche angegeben wird, so dass beispielsweise 13|4|25 die Zerlegung in die drei Teilmengen {1, 3}, {4}, {2, 5} bedeutet, so erhält man die folgenden 30 Möglichkeiten: 12|3|45 13|2|45 14|2|35 15|2|34 23|1|45 24|1|35 25|1|34 34|1|25 35|1|24 45|1|23 12|4|35 13|4|25 14|3|25 15|3|24 23|4|15 24|3|15 25|3|14 34|2|15 35|2|14 45|2|13 12|5|34 13|5|24 14|5|23 15|4|23 23|5|14 24|5|13 25|4|13 34|5|12 35|4|12 45|3|12 Dabei ist zu beachten, dass beispielsweise die beiden Möglichkeiten 12|3|45 und 45|3|12 verschieden sind – zwar handelt es sich um Aufteilungen in die gleichen Mengen, jedoch steht die Menge {1, 2} einmal an erster und einmal an dritter Stelle, und die Reihenfolge sollte hier eine Rolle spielen. Man sieht, dass nun in der Tat die Aufgabe, die zur Definition der Binomialkoeffizienten führte, ein Spezialfall dieser Aufgabe ist. Die Aufgabe, aus einer Menge von n Elementen k auszuwählen, ist nämlich gleichbedeutend damit, diese Menge in zwei Teilmengen zu zerlegen, von denen die eine (die der ausgewählten Elemente) die Mächtigkeit k besitzt und die andere (die der nicht ausgewählten Elemente) die Mächtigkeit n−k. Hier ist dann also m = 2, k1 = k und k2 = n−k. Die Zerlegung im allgemeinen Fall kann nun so vor sich gehen, dass man nacheinander die Teilmengen G1 , . . . , Gm bestimmt. Der erste Schritt ist dann der, dass man die erste Teilmenge G1 von k1 Elementen aus den gegebenen n Elementen auswählt. Nach dieser Auswahl ist die Anzahl der verbliebenen Elemente gleich 1.1 Kombinatorik QM1 17 8 n − k1 , wofür kurz n2 geschrieben werden soll. Die Anzahl der Möglichkeiten für diesen ersten Auswahlschritt ist bekanntlich n . k1 Dann wählt man aus den verbliebenen n2 Elementen die nächste Teilmenge G2 mit k2 Elementen aus, wonach noch n2 − k2 =: n3 Elemente übrigbleiben. Die Anzahl der Möglichkeiten für diesen zweiten Schritt ist n2 , k2 wobei noch zu berücksichtigen ist, dass diese Anzahl von Möglichkeiten für jede der Auswahlen von G1 besteht, so dass die Anzahl der Möglichkeiten, die ersten beiden Teilmengen auszuwählen, gerade gleich n n2 k1 k2 ist. So fährt man nun fort, wobei man die Zahlen ni der bei der Auswahl der von Gi noch zur Verfügung stehenden Elemente jeweils als ni−1 − ki−1 ermittelt. Die Anzahl der Möglichkeiten, bei einer festen Auswahl der ersten i − 1 Teilmengen die i-te Teilmenge Gi zu wählen, ist dann ni , ki wobei diese Anzahl unabhängig von der Wahl der vorangehenden Teilmengen immer die gleiche ist. Die Anzahl der Möglichkeiten, die ersten i Teilmengen auszuwählen, erhält man daher als Produkt n n2 ni ... . k1 k2 ki Hat man schließlich die ersten m−1 Teilmengen gewählt, so bleiben nach Voraussetzung gerade noch km Elemente übrig, die dann die Menge Gm bilden müssen. Die Anzahl der möglichen Zerlegungen ist daher gleich n n2 n3 nm−1 ... . k1 k2 k3 km−1 1.1 Kombinatorik QM1 17 9 Nach der Definition der Binomialkoeffizienten ist dies gleich n! n2 ! n3 ! nm−1 ! ... , k1 ! n2 ! k2 ! n3 ! k3 ! n4 ! km−1 ! km ! wobei die Beziehungen ni − ki = ni+1 berücksichtigt sind, ebenso die Beziehung nm−1 − km−1 = kn , die daraus folgt, dass nm−1 − km−1 die Anzahl der Elemente ist, die nach der Auswahl von Gm−1 noch übrig bleiben, und dies ist nach Voraussetzung ja gerade km . In dem Produkt lassen sich nun die Faktoren n2 !, . . . , nm−1 ! kürzen, so dass das Ergebnis n! k1 ! k2 ! . . . km ! übrig bleibt. Zusammenfassend ist also die Anzahl der Möglichkeiten, eine n-elementige Menge G in m disjunkte Teilmengen Gi der Mächtigkeiten ki zu zerlegen, gleich n! . k1 ! k2 ! . . . km ! Die so definierten Anzahlen heißen nun auch Multinomialkoeffizienten. Offenbar sind die Binomialkoeffizienten Spezialfälle der Multinomialkoeffizienten für den Fall m = 2; setzt man nämlich wie oben besprochen k1 = k und k2 = n−k, so gilt n n! = . k k1 ! k2 ! Die Anzahl der Möglichkeiten, eine fünfelementige Menge in drei Teilmengen mit den Mächtigkeiten 2, 1 und 2 zu zerlegen, ergibt sich nun als 5! 120 = = 30 2! 1! 2! 2·1·2 in Übereinstimmung mit der oben durchgeführten systematischen Aufzählung. Geht es beispielsweise um die Anzahl der Möglichkeiten, eine Gruppe von 12 Personen in 4 Teilgruppen von 3 Personen aufzuteilen, die vielleicht in einem Experiment unterschiedliche Behandlungen bekommen sollen (so dass die Reihenfolge der Teilgruppen eine Rolle spielt), so erhält man 12! 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10 · 11 · 12 = = 4 · 5 · 7 · 8 · 3 · 10 · 11 = 369600 . 3! 3! 3! 3! 2·3·2·3·2·3·2·3 1.1 Kombinatorik QM1 17 10 Als ein Anwendungsbeispiel soll nun der Fall betrachtet werden, dass man aus einer Urne mit m Elementen n Mal mit Zurücklegen und mit Berücksichtigung der Reihenfolge zieht. Es geht jetzt allerdings nicht um die Möglichkeiten, die man insgesamt besitzt (deren Anzahl ist bekanntlich mn ), sondern um die Anzahl der Möglichkeiten, in denen die erste Kugel k1 Mal gezogen wird, die zweite k2 Mal und so fort, die m-te schließlich km Mal. Dabei muss die Summe der ki natürlich gleich der Anzahl n der Ziehungen sein. Die Lösung dieses Problems besteht wie so oft in einer geeigneten Übersetzung in ein bereits bekanntes Problem. Die Kugeln der Urne seien der Einfachheit halber mit den Zahlen von 1 bis m bezeichnet. Das Ergebnis einer Ziehung wird dann wie üblich durch ein n-Tupel angegeben, dessen Komponenten die Nummern bei den einzelnen Ziehungen sind. Alternativ kann man jedoch ein Ergebnis auch beschreiben, indem man angibt, bei welchen Zügen die erste Kugel gezogen wurde, bei welchen die zweite und so fort, bis schließlich bei welchen die m-te. Auf diese Weise erhält man eine Zerlegung der Menge der Stellen des n-Tupels in m Teilmengen, die den einzelnen Kugeln entsprechen. Sind beispielsweise m = 5 Kugeln in der Urne und wird 7 Mal gezogen, so könnte ein Ergebnis in der bekannten Notation das folgende 7-Tupel sein: (2, 4, 1, 5, 1, 1, 5) . Beim ersten Mal wird hier also die Kugel 2 gezogen, beim zweiten Mal die Kugel 4 und so fort. Die Alternativbeschreibung dieser Ziehung ist nun {3, 5, 6}, {1}, ∅, {2}, {4, 7} , was bedeutet, dass die erste Kugel beim dritten, fünften und sechsten Zug auftrat, die zweite beim ersten, die dritte gar nicht und so fort. Die Mengen der Alternativbeschreibung bilden offenbar eine disjunkte Zerlegung der Zahlen von 1 bis 7 (der Nummern der Züge) in 5 Teilmengen, die den Kugeln entsprechen. Offenbar ist die Beziehung zwischen den beiden Beschreibungen eine bijektive, denn verschiedene Ziehungsergebnisse führen zu verschiedenen Zerlegungen, und jede Zerlegung der zweiten Art lässt sich in ein mögliches Ziehungsergebnis der ersten Art übersetzen, das dann genau zu dieser Zerlegung führt. Die Aufgabenstellung war die Frage nach der Anzahl der möglichen Ziehungen, bei denen die i-te Kugel gerade ki Mal auftritt für i = 1 . . . , m. Diesen Ziehungen entsprechen nun offenbar gerade diejenigen disjunkten Zerlegungen der Menge 1.1 Kombinatorik QM1 17 11 der Stellen von 1 bis n, bei denen die i-te Teilmenge ki Elemente umfasst (man beachte hierbei übrigens, dass keineswegs ausgeschlossen ist, dass ein oder mehrere ki gleich 0 sind, was bedeutet, dass einerseits die Kugel mit der Nummer i nie gezogen wurde und dass andererseits die entsprechende Teilmenge Gi die leere Menge ist). Die Anzahl der möglichen n-maligen Ziehungen aus m Elementen mit Zurücklegen und Berücksichtigung der Reihenfolge, bei denen das i-te Element gerade ki Mal auftritt, ist damit der Multinomialkoeffizient n! . k1 ! k2 ! . . . , km ! Die Anzahl möglicher 7-maliger Ziehungen aus einer Urne mit 4 Kugeln, bei denen die erste Kugel insgesamt 3 Mal, die zweite 2 Mal, die dritte gar nicht und die vierte 2 Mal gezogen wird ist also beispielsweise gleich 7! 2·3·4·5·6·7 = = 5 · 6 · 7 = 210 . 3! 2! 0! 2! 2·3·2·1·2 Es liegt nahe, die Frage zu stellen, wieviele Multinomialkoeffizienten zu vorgegebenen Werten von n und m es insgesamt gibt. Vereinbart man, was für viele Anwendungen sinnvoll ist, Multinomialkoeffizienten als verschieden zu behandeln, wenn die Zahlenfolgen k1 , . . . , km verschieden sind, so entsprechen die möglichen Multinomialkoeffizienten genau den Zerlegungen von n in Summen von m nichtnegativen ganzen Zahlen. Die Anzahl der Multinomialkoeffizienten bei gegebenem n und m in diesem Sinne ist dann folglich n+m−1 . m Bei dieser Vereinbarung ist zu beachten, dass beispielsweise die Koeffizienten 5! 2! 1! 2! und 5! 1! 2! 2! als verschieden gelten, obwohl sie numerisch gleich sind. Ihren Namen haben die Multinomialkoeffizienten ähnlich wie die Binomialkoeffizienten daher, dass man mit ihrer Hilfe ganzzahlige Potenzen von Summen nun auch von mehr als zwei Summanden umformen kann. Geht es nämlich darum, !n m X ai i=1 1.1 Kombinatorik QM1 17 12 als Summe zu schreiben, so überlegt man analog zu der entsprechenden Situation für m = 2 beim Binomialkoeffizienten, dass man beim Ausmultiplizieren dieser Potenz eine Summe aus lauter Produkten bekommt, die die Form ak11 ak22 . . . akmm besitzen, wobei die Summe der ki gerade n ist. Diese Produkte kommen dadurch zustande, dass man aus jedem der n Faktoren der Potenz einen Summanden ai auswählt und dann die ausgewählten Summanden miteinander multipliziert, wobei sie gleich noch so umgeordnet werden, dass gleiche ai zusammenkommen. Die Anzahl des Vorkommens eines solchen Produkts ist dann gleich der Anzahl der Möglichkeiten, aus der Menge der n Faktoren der Potenz für jedes i diejenigen Faktoren auszuwählen, die ai zum Produkt beisteuern sollen. Jede derartige Möglichkeit entspricht dann genau einer disjunkten Zerlegung der Menge der n Faktoren in die Teilmengen derjenigen Faktoren, die jeweils ein bestimmtes ai liefern sollen. Die Mächtigkeiten dieser Teilmengen müssen dann natürlich gerade die ki sein. Als Ergebnis erhält man damit analog zu der Formel für zwei Summanden die Gleichung !n m X X n! ai = ak11 ak22 . . . akmm , k1 ! k2 ! . . . km ! i=1 (k1 ,...,km ) in der über alle m-Tupel (k1 , . . . , km ) summiert wird, die aus nichtnegativen ganzen Zahlen bestehen, deren Summe n ist. Will man beispielsweise (a + b + c)4 bestimmen, so benötigt man dazu die Multinomialkoeffizienten mit n = 4 und m = 3. Von diesen Koeffizienten sind alle die jeweils gleich, bei denen die drei ki bis auf die Reihenfolge übereinstimmen. Zur Berechnung der benötigten Koeffizienten reicht es also, von den jeweils gleichen nur einen zu bestimmen. Man erhält so die folgenden Koeffizienten: k1 , k2 , k3 Multinomialkoeffizient 0, 0, 4 1 0, 1, 3 4 0, 2, 2 6 12 1, 1, 2 1.1 Kombinatorik QM1 17 13 Die Anzahl der Summanden in dem ausmultiplizierten Produkt ist gleich der der im obigen Sinn verschiedenen Multinomialkoeffizienten zu n = 4 und m = 3, also gleich 3+4−1 6 = = 15 . 4 4 Die Alternativdarstellung von (a + b + c)4 ist daher a0 b0 c4 + a0 b4 c0 + a4 b0 c0 + 4 a0 b1 c3 + 4 a1 b0 c3 + 4 a1 b3 c0 + 4 a0 b3 c1 + 4 a3 b0 c1 +4 a4 b1 c0 + 6 a0 b2 c2 + 6 a2 b0 c2 + 6 a2 b2 c0 + 12 a1 b1 c2 + 12 a1 b2 c1 + 12 a2 b1 c1 oder vereinfacht und umgruppiert a4 + b4 + c4 + 4 (a3 b + a3 c + b3 c + ab3 + ac3 + bc3 ) + 6 (a2 b2 + a2 c2 + b2 c2 ) + 12 (a2 bc + ab2 c + abc2 ) Wie bei den Binomialkoeffizienten kann man als Ergänzung noch eine Kontrollrechnung durchführen zur Beantwortung der Frage, auf wieviele Arten man aus einer Urne mit m Kugeln mit Zurücklegen und mit Berücksichtigung der Reihenfolge n Mal ziehen kann. Die Antwort ist bekannt (mn ), kann aber auch noch einmal mit den neuen Hilfsmitteln gewonnen werden. Man kann nämlich zunächst nach den Möglichkeiten fragen, bei denen die einzelnen Kugeln mit vorgegebenen Häufigkeiten k1 , . . . , km gezogen werden (wobei die Summe der ki natürlich gleich n sein muss). Hier ist das Ergebnis gleich dem zugehörigen Multinomialkoeffizienten. Danach sind nur noch die schon gefundenen Zahlen zu addieren, womit man das Ergebnis X n! k1 ! k2 ! . . . , km ! (k1 ,...km ) erhält, bei dem über alle m-Tupel (k1 , . . . , km ) aus nichtnegativen ganzen Zahlen mit Summe n summiert wird. Dies kann man aber auch schreiben als X (k1 ,...km ) n! 1k1 1k2 . . . 1km = (1 + 1 + . . . + 1)n = mn , k1 ! k2 ! . . . , km ! womit in der Tat das erwartete Ergebnis herauskommt. 1.2 1.2 W-Theorie QM1 17 14 W-Theorie Bildmaß. In diesem Abschnitt soll gezeigt werden, dass die Definition des Bildmaßes tatsächlich zu einem W-Maß führt. Zu diesem Zweck werden einige Tatsachen im Zusammenhang mit Urbildern benötigt. Gegeben sei dazu eine Abbildung X : Ω → Ω0 . Im Moment müssen weder Ω noch Ω0 endlich sein. Das Urbild X −1 (A) einer Teilmenge A ⊆ Ω0 ist bekanntlich die Menge aller Elemente von Ω, deren Bild unter X in der Menge A liegt, formal: X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} . Als erstes gilt nun X −1 (∅) = ∅ und X −1 (Ω0 ) = Ω . Diese Behauptungen folgen direkt aus der Definition. Einerseits kann für kein ω ∈ Ω die Beziehung X(ω) ∈ ∅ gelten, da ∅ ja keine Elemente enthält. Andererseits liegt nach Definition einer Abbildung für jedes ω ∈ Ω der Funktionswert X(ω) in Ω0 . Etwas komplizierter ist die nächste Behauptung: Für beliebige Teilmengen A und B von Ω0 gilt X −1 (A ∩ B) = X −1 (A) ∩ X −1 (B) . Hier ist also die Gleichheit von zwei Mengen zu zeigen, nämlich die der Mengen X −1 (A ∩ B) und X −1 (A) ∩ X −1 (B). Hat man allgemein die Gleichheit zweiter Mengen C und D zu zeigen, so geht man häufig so vor, dass man die Gleichheitsaussage C = D in die beiden Teilaussagen C ⊆ D und C ⊇ D zerlegt und diese einzeln nachweist, denn zusammen implizieren diese beiden Aussagen gerade die Gleichheit. Die Schreibweise C ⊇ D ist dabei gleichbedeutend mit D ⊆ C und kann dann verwendet werden, wenn man in den beiden Teilaussagen die gleiche Reihenfolge der Symbole C und D verwenden will, was für Abkürzungen praktisch sein kann. 1.2 W-Theorie QM1 17 15 Dass eine Menge C Teilmenge einer Menge D ist, bedeutet definitionsgemäß, dass jedes Element von C auch ein Element von D ist. Will man also nachweisen, dass C ⊆ D gilt, so kann man das dadurch tun, dass man diese Behauptung über die Elemente von C nachweist. Nun soll die zu untersuchende Aussage begründet werden, indem zunächst die Teilaussage X −1 (A ∩ B) ⊆ X −1 (A) ∩ X −1 (B) begründet wird und dann die Teilaussage X −1 (A ∩ B) ⊇ X −1 (A) ∩ X −1 (B). Verkürzt schreibt man auch, dass zunächst „⊆“ und dann „⊇“ gezeigt wird (hier erweist sich die Einführung des Symbols ‚⊇‘ als praktisch). Als erstes geht es also um die Aussage X −1 (A ∩ B) ⊆ X −1 (A) ∩ X −1 (B), kurz um „⊆“. Diese Aussage soll dadurch begründet werden, dass gezeigt wird, dass jedes Element in der linken Menge auch in der rechten Menge enthalten ist. Zu diesem Zweck wird ein beliebiges ω aus der ersten Menge ausgewählt, und dann werden Schlussfolgerungen aus der Tatsache gezogen, dass dieses Element in der ersten Menge liegt. Die Kette der Schlussfolgerungen ist dabei die folgende: ω ∈ X −1 (A ∩ B) ⇒ X(ω) ∈ A ∩ B ⇒ X(ω) ∈ A und X(ω) ∈ B ⇒ ω ∈ X −1 (A) und ω ∈ X −1 (B) ⇒ ω ∈ X −1 (A) ∩ X −1 (B) . Hier sind offenbar nur die Definitionen des Urbilds und des Durchschnitts benutzt worden. Es fehlt noch die Begründung der umgekehrten Behauptung „⊇“, die ganz genauso geht: ω ∈ X −1 (A) ∩ X −1 (B) ⇒ ω ∈ X −1 (A) und ω ∈ X −1 (B) ⇒ X(ω) ∈ A und X(ω) ∈ B ⇒ X(ω) ∈ A ∩ B ⇒ ω ∈ X −1 (A ∩ B) . Bei genauem Hinsehen fällt auf, dass die beiden Folgerungsketten die gleichen Teile in umgekehrter Reihenfolge enthalten. Man kann daher alternativ auch sofort die Gleichheit zeigen, indem man alle Pfeile durch Doppelpfeile ersetzt. Wichtig ist bei einem solchen Vorgehen nur, dass man sich bei jedem Doppelpfeil klar macht, dass wirklich beide Pfeilrichtungen gültig sind. 1.2 W-Theorie QM1 17 16 Zur Verdeutlichung hier die verkürzte Begründung von „=“, die nun in der Tat die beiden Teilbegründungen oben ersetzen kann: ω ∈ X −1 (A ∩ B) ⇔ X(ω) ∈ A ∩ B ⇔ X(ω) ∈ A und X(ω) ∈ B ⇔ ω ∈ X −1 (A) und ω ∈ X −1 (B) ⇔ ω ∈ X −1 (A) ∩ X −1 (B) . Was für Durchschnitte gilt, gilt auch für Vereinigungen: Sind A und B zwei Teilmengen von Ω0 , so gilt X −1 (A ∪ B) = X −1 (A) ∪ X −1 (B) . Die Begründung dieser Aussage geht praktisch genauso wie die der vorangehenden; man hat nur alle ∩-Symbole durch ∪-Symbole zu ersetzen und alle „und“ durch „oder“ (wobei daran erinnert sei, dass mit diesem „oder“ das nicht ausschließende Oder gemeint ist, für das manchmal auch die Bezeichnung „und/oder“ verwendet wird). Nun können die Eigenschaften eines W-Maßes für das Bildmaß leicht nachgewiesen werden. Zu diesem Zweck sei X : Ω → Ω0 eine Zufallsvariable auf einem endlichen WRaum < Ω, P > mit Werten in einer endlichen Menge Ω0 . Das Bildmaß PX ist dann für beliebige Teilmengen A von Ω0 definiert als PX (A) = P(X −1 (A)) . Nachzuweisen ist, dass die so definierte Funktion PX : P(Ω0 ) → R die drei Eigenschaften eines W-Maßes erfüllt. Zunächst ist für jedes A ⊆ Ω0 der Wert PX (A) die Wahrscheinlichkeit von X −1 (A) und daher nichtnegativ. Für A = Ω0 erhält man PX (Ω0 ) = P(X −1 (Ω0 )) = P(Ω) = 1 , so dass die ersten beiden Eigenschaften eines W-Maßes trivialerweise erfüllt sind. Es bleibt noch die dritte Eigenschaft. Gegeben seien also zwei disjunkte Teilmengen A und B von Ω0 . Man erhält dann PX (A ∪ B) = P(X −1 (A ∪ B)) = P(X −1 (A) ∪ X −1 (B)) = P(X −1 (A)) + P(X −1 (B)) = PX (A) + PX (B) 1.3 Deskriptive Statistik QM1 17 17 wegen der gerade behandelten Eigenschaften des Urbilds. Das dritte Gleichheitszeichen ist korrekt, da die beiden Mengen X −1 (A) und X −1 (B) disjunkt sind, wie man folgendermaßen sieht: X −1 (A) ∩ X −1 (B) = X −1 (A ∩ B) = X −1 (∅) = ∅ . Damit sind die drei Eigenschaften eines W-Maßes für PX nachgewiesen. Häufig betrachtet man (aus unterschiedlichen Gründen) auch Zufallsvariablen mit Werten in nicht endlichen Mengen Ω0 , und dies auch dann, wenn Ω selbst endlich ist. Es liegt natürlich die Frage nahe, ob das analog definierte PX auch in diesem Fall ein W-Maß ist. Die Schwierigkeit besteht im Moment darin, dass für unendliche Grundgesamtheiten der Begriff des W-Maßes noch nicht definiert ist, so dass die Frage eigentlich sinnlos ist. Die Definition für W-Maße auf unendlichen Grundgesamtheiten ist jedoch so, dass PX tatsächlich ein W-Maß wird, wobei die hier gegebene Begründung nur unwesentlich zu modifizieren ist. 1.3 Deskriptive Statistik Werte des ϕ2 -Koeffizienten. Es soll untersucht werden, welche Werte der ϕ2 -Koeffizient einer Kontigenztafel annehmen kann und unter welchen Bedingungen er minimal und maximal wird. Dabei soll auch an einige wichtige Prinzipien beim Formulieren und Begründen von Behauptungen erinnert werden. Die einzelnen Argumente sollen zur Verdeutlichung sehr ausführlich formuliert werden, weit ausführlicher als dies normalerweise der Fall wäre. Beispielsweise würde man wohl die unten formulierten Hilfsbehauptungen als so klar erachten (Mathematiker sagen dazu ‚trivial‘), dass man sie womöglich gar nicht explizit erwähnen würde. Gegeben ist also eine Kontingenztafel relativer Häufigkeiten hij , bei der die beiden Variablen I bzw. J mögliche Werte haben. Die Bezeichnungen für die Randhäufigkeiten sind wie üblich hi. und h.j . Die Kontingenztafel mit Randhäufigkeiten hat damit folgende Gestalt: 1.3 Deskriptive Statistik QM1 17 h11 h12 . . . h1J h21 h22 . . . h2J .. .. .. . . . hI1 hI2 . . . hIJ hI . h.1 h.2 . . . h.J 1 18 h1. h2. .. . Der ϕ2 -Koeffizient dieser Tafel ist definiert als I X J X (hij − eij )2 , ϕ = eij i=1 j=1 2 wobei die (unter Unabhängigkeit) ‚erwarteten‘ relativen Häufigkeiten eij definiert sind als eij = hi. h.j . Es ist dabei grundsätzlich vorausgesetzt, dass alle eij von 0 verschieden sind (sonst wäre ja der zu i und j gehörende Summand gar nicht definiert). Diese Forderung ist offenbar äquivalent damit, dass sowohl alle hi. als auch alle h.j von 0 verschieden sind. Die letzte Forderung wiederum bedeutet gerade, dass in jeder Zeile und in jeder Spalte der Kontingenztafel mindestens ein hij von 0 verschieden sein muss. Diese jetzt immer gemachte Zusatzvoraussetzung soll abkürzend mit Z bezeichnet werden. Gezeigt werden soll nun der folgende Sachverhalt: S: Ist L das Minimum der Zahlen I und J, so gilt immer 0 ≤ ϕ2 ≤ L − 1 , wobei ϕ2 den (minimalen) Wert 0 genau bei Unabhängigkeit (in der Stichprobe) annimmt und den maximalen Wert L − 1 genau bei vollständiger Abhängigkeit (in der Stichprobe). Es ist vielleicht nicht überflüssig, auf den Gebrauch der Formulierung ‚genau dann wenn‘ und ähnlicher Formulierungen genauer einzugehen. Sind A und B Aussagen, so bedeutet ‚A genau dann wenn B‘, dass aus A die Aussage B folgt und dass aus B die Aussage A folgt. 1.3 Deskriptive Statistik QM1 17 19 So bedeutet also die Formulierung ‚ϕ2 ist genau dann 0, wenn Unabhängigkeit vorliegt‘, dass einerseits in einer Tafel mit ϕ2 = 0 Unabhängigkeit vorliegt und dass andererseits eine Tafel mit Unabhängigkeit den ϕ2 -Koeffizienten 0 besitzt. Bei der Begründung der Behauptungen über den ϕ2 -Koeffizienten werden drei einfache Sachverhalte benutzt werden, deren Begründung den weiteren Überlegungen vorangestellt werden werden soll. Um später auf diese Sachverhalte einfach Bezug nehmen zu können, sollen sie kurz mit H1, H2 und H3 bezeichnet werden (der Buchstabe H steht dabei für ‚Hilfsbehauptung‘). H1: Sind die Zahlen a1 , . . . an alle nichtnegativ, so gilt n X ai ≥ 0 , i=1 wobei die Summe genau dann 0 ist, wenn alle ai gleich 0 sind. Eine Zahl a heißt dabei nichtnegativ, wenn a ≥ 0 gilt. Eine solche Zahl a kann also nur positiv sein (a > 0) oder gleich 0. Ohne weiteres klar ist die erste Teilbehauptung: Wenn alle ai ≥ 0 sind, so kann natürlich auch ihre Summe nicht negativ sein. Zu beachten ist nun die Formulierung ‚genau dann wenn‘ im zweiten Teil der Hilfsbehauptung; um diesen Teil zu zeigen, müssen also beide ‚Richtungen‘ gezeigt werden. Die Richtung von rechts nach links ist unmittelbar einsichtig: Sind alle ai gleich 0, so ist offenbar auch ihre Summe 0. Für die Richtung von links nach rechts ist zu zeigen, dass daraus, dass die Summe gleich 0 ist, folgt, dass auch alle ai gleich 0 sind. Wäre ein ai nicht 0, also nach Voraussetzung > 0, so wäre die Gesamtsumme mindestens so groß wie dieses ai , da ja durch Addieren der anderen aj zu ai die Summe höchstens größer, keinesfalls aber kleiner als ai werden kann, weil ja die anderen aj alle nichtnegativ sind. Die Summe wäre also mindestens gleich ai und damit größer als 0. Die Summe kann also nur dann 0 sein, wenn alle ai gleich 0 sind. Anders ausgedrückt folgt daraus, dass die Summe gleich 0 ist, dass auch alle ai gleich 0 sein 1.3 Deskriptive Statistik QM1 17 20 müssen. Die erste Hilfsbehauptung ist damit vollständig gezeigt. Es ist vielleicht nicht überflüssig, noch einmal etwas allgemeiner darauf einzugehen, wie die zweite Richtung begründet wurde. Abstrakt formuliert war eine Behauptung der Form ‚Aus A folgt B‘ zu zeigen; dabei war A die Aussage ‚Die Summe ist 0‘und B die Aussage ‚Alle ai sind 0‘. Hier wurde an Stelle der Aussage ‚Aus A folgt B‘ jedoch die Aussage ‚Aus NichtB folgt Nicht-A‘ gezeigt (‚Wenn mindestens eine Zahl nicht 0 ist, so ist auch die Summe nicht 0‘). Dies ist aber ausreichend, da nun, wenn A gilt, auch B gelten muss, denn würde B nicht gelten, so wäre Nicht-B richtig, woraus Nicht-A folgen würde, was jedoch nicht sein kann, da dann A und Nicht-A gleichzeitig gelten würden. Man sieht, dass man allgemein eine Aussage der Form ‚Aus A folgt B‘ dadurch zeigen kann, dass man die Aussage ‚Aus Nicht-B folgt Nicht-A‘ beweist. Am Rande sei auch darauf hingewiesen, dass das Gegenteil der Aussage ‚Alle ai sind gleich 0‘ die Aussage ‚Mindestens ein ai ist ungleich 0‘ ist und nicht etwa die Aussage ‚Alle ai sind ungleich 0‘. Die Aussage der Hilfsbehauptung wird unmittelbar einsichtig, wenn man sie sich in geeigneter Weise veranschaulicht: Die Geldsumme, die mehrere Personen insgesamt bei sich tragen, kann nicht negativ sein, wobei diese Gesamtsumme genau dann Null ist, wenn keine der Personen Geld dabei hat (die Möglichkeit von Schulden wird dabei ausgeschlossen). Mit H1 zeigt man nun leicht die nächste Hilfsbehauptung H2. H2: Gilt für gegebene Zahlen a1 , . . . , an und b1 , . . . , bn für alle i = 1, . . . n die Beziehung ai ≤ bi , so gilt auch n X i=1 ai ≤ n X bi . i=1 Dabei sind die Summen genau dann gleich, wenn für alle i sogar ai = bi gilt. Zur Begründung betrachtet man X X X (bi − ai ) = bi − ai . Da nach Voraussetzung für alle i die Beziehung ai ≤ bi gilt, sind alle Summanden 1.3 Deskriptive Statistik QM1 17 21 bi − ai der Summe auf der linken Seite nichtnegativ. Wegen H1 ist daher auch P P die Summe links ≥ 0, woraus folgt, dass auch die rechte Seite bi − ai nicht negativ sein kann. Aus X X bi − ai ≥ 0 P folgt jedoch durch Addieren von ai sofort X X bi ≥ ai , was auch schon die erste Behauptung ist, wenn man diese Ungleichung von rechts nach links liest. P Ebenfalls wegen H1 ist (bi − ai ) genau dann gleich 0, wenn alle Summanden P P P (bi − ai ) gleich 0 sind. Wegen (bi − ai ) = bi − ai folgt X X X X bi = ai ⇔ bi − ai = 0 X ⇔ (bi − ai ) = 0 ⇔ b i − ai = 0 ⇔ bi = ai für alle i für alle i . Das Symbol ‚⇔‘ steht dabei für ‚genau dann, wenn‘. Beim Nachvollziehen der Begründung muss man sich also an allen Stellen, wo dieses Symbol steht, klar machen, dass aus der Behauptung vor dem Symbol die Behauptung danach folgt und umgekehrt (der Doppelpfeil hat zwei Spitzen). Damit ist auch die zweite Hilfsbehauptung gezeigt. Auch diese Hilfsbehauptung wird durch ein geeignetes Beispiel sofort einsichtig. Wenn man n Paare hat, die aus einem Mann und einer Frau bestehen, und wenn in jedem dieser Paare der Mann mindestens so viel wiegt wie die Frau, so ist auch das Gesamtgewicht der Männer offenbar mindestens so groß wie das Gesamtgewicht der Frauen. Die beiden Gesamtgewichte können nur dann gleich sein, wenn jeder Mann genauso viel wiegt wie die zugehörige Frau, und sind es in diesem Fall auch. Die dritte Hilfsbehauptung ist die folgende: H3: Sind die Zahlen a1 , . . . an alle nichtnegativ, so gilt für jedes k = 1, . . . , n die Beziehung n X ak ≤ ai . i=1 Gleichheit gilt dabei genau dann, wenn die ai mit i 6= k alle gleich 0 sind. 1.3 Deskriptive Statistik QM1 17 22 Die Summe von n nichtnegativen Zahlen ist also mindestens so groß wie jede einzelne dieser Zahlen, und sie ist genau dann so groß wie eine der Zahlen, wenn alle anderen gleich 0 sind. Man kann für ein festes k die Gesamtsumme aller ai auch schreiben als X X ai = ak + ai , i i6=k man erhält die Gesamtsumme also, indem man zu ak die restlichen ai hinzuaddiert. Hier sind alle Summanden in der Teilsumme X ai i6=k nichtnegativ, weshalb wegen H1 diese Teilsumme ≥ 0 ist und genau dann 0, wenn alle ihre Summanden gleich 0 sind, also alle ai mit i 6= k. Es gilt also X X ak ≤ ak + ai = ai , i6=k i und Gleichheit gilt genau dann wenn, alle ai mit i 6= k gleich 0 sind. Auch dieser Sachverhalt leuchtet mit einem Beispiel unmittelbar ein. Der Geldbetrag, den mehrere Personen zusammen mit sich tragen, ist mindestens so groß wie der, den jeder einzelne besitzt (Schulden sind wieder ausgeschlossen). Der Fall, dass einer soviel besitzt wie alle (er eingeschlossen) zusammen, kann nur dann vorkommen, wenn alle anderen gar kein Geld bei sich haben. Nun soll das eigentliche Ziel dieses Abschnitts in Angriff genommen werden. Zunächst geht es um den kleinsten möglichen Wert von ϕ2 . Die Summanden auf der rechten Seite von I X J X (hij − eij )2 2 ϕ = eij i=1 j=1 sind alle ≥ 0, so dass nach H1 auch die Summe, also ϕ2 , nie negativ werden kann. Außerdem wird diese Summe, ebenfalls wegen H1, genau dann 0, wenn alle Summanden gleich 0 sind, wenn also für alle i und j die Beziehung (hij − eij )2 =0 eij gilt. Für ein festes i und j ist der Bruch links jedoch genau dann 0, wenn der Zähler gleich 0 ist, und dies ist wiederum genau dann der Fall, wenn hij = eij 1.3 Deskriptive Statistik QM1 17 23 gilt, nach Definition von eij also hij = hi. h.j . Insgesamt ist ϕ2 also ≥ 0 und nimmt den Wert 0 genau dann an, wenn für alle i und j die Beziehung hij = hi. h.j gilt, mit anderen Worten: wenn (in der Stichprobe) Unabhängigkeit vorliegt. Die Behauptung über den kleinsten möglichen Wert von ϕ2 ist damit gezeigt. Die Begründung für den größten möglichen Wert ist etwas schwieriger. Es soll oBdA vorausgesetzt werden, dass I ≤ J gilt, dass die Kontingenztafel also entweder genauso viele Zeilen wie Spalten hat oder dass die Zahl der Spalten größer ist als die der Zeilen. Die Abkürzung oBdA bedeutet dabei ‚ohne Beschränkung der Allgemeinheit‘, was nun erläutert werden soll. Unmittelbar betrachtet liegt in dieser zusätzlichen Voraussetzung I ≤ J sehr wohl eine Einschränkung vor. Allerdings macht man sich leicht klar, dass man, hat man erst einmal die Behauptung mit dieser Einschränkung gezeigt, ohne große Mühe darauf aufbauend auch die allgemeine Form der Behauptung zeigen kann (also den Fall, in dem nicht unbedingt I ≤ J gelten muss). Die Einschränkung der Allgemeinheit ist also nur eine unwesentliche, und die Formulierung oBdA damit gerechtfertigt. Hier soll nun zunächst der ‚eingeschränkte‘ Fall I ≤ J behandelt werden. Die Zusatzargumente, die zeigen, dass die Behauptung auch allgemein gilt, werden danach dargelegt. Die vorliegende Tafel hat also mindestens so viele Spalten wie Zeilen. Sie kann demnach quadratisch sein, oder die Zahl der Spalten ist echt größer als die der Zeilen. Schematisch kommen also folgende beiden Formen für die Tafel in Betracht: ........................................................................... ... ... ... ... ... .... ... ... ... ... ... ... ... ... ... ... ... ..... ... ... ... ... ... .... .. ... ........................................................................... ............................................................................................ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..... ... .. ... ................................................................................................ Als erstes soll untersucht werden, was vollständige Abhängigkeit (in der Stichprobe) im Fall I ≤ J bedeutet. Nach Definition liegt vollständige Abhängigkeit allgemein genau dann vor, wenn 1.3 Deskriptive Statistik QM1 17 24 in jeder Zeile höchstens eine Zahl 6= 0 steht oder wenn in jeder Spalte höchstens eine Zahl 6= 0 steht. Unter der jetzt immer gemachten Zusatzvoraussetzung Z, dass in jeder Zeile und in jeder Spalte mindestens eine Zahl 6= 0 stehen muss, liegt vollständige Abhängigkeit dann vor, wenn in jeder Zeile genau eine Zahl 6= 0 steht oder wenn in jeder Spalte genau eine Zahl 6= 0 steht. Als weitere Voraussetzung sollte nun I ≤ J gelten. Hier sind zwei Fälle zu unterscheiden, nämlich I < J und I = J, die getrennt betrachtet werden sollen. Als erstes gelte I < J. Hier ist es nicht möglich, dass in jeder Zeile genau eine Zahl 6= 0 steht, denn wäre dies der Fall, so stünden in der ganzen Tabelle genau I Zahlen 6= 0, weshalb es eine Spalte geben müsste, in der nur Nullen stehen, denn die Zahl der Spalten ist größer als I. Dass in einer Spalte nur Nullen stehen, ist aber wegen Z nicht möglich. Liegt also im Fall I < J vollständige Abhängigkeit vor, so folgt, dass in jeder Spalte genau eine Zahl 6= 0 steht. Umgekehrt folgt daraus natürlich auch die vollständige Abhängigkeit. Es ist als zweite Möglichkeit der Fall I = J zu untersuchen. Wenn hier in jeder Zeile genau eine Zahl 6= 0 steht, so enthält die Tabelle genau I Zahlen 6= 0. Da wegen Z auch in jeder Spalte mindestens eine Zahl 6= 0 stehen muss, muss wegen I = J sogar in jeder Spalte genau eine Zahl 6= 0 stehen. Liegt also im Fall I = J vollständige Abhängigkeit vor, so implizieren beide Alternativen in der Definition der vollständigen Abhängigkeit, dass in jeder Spalte genau eine Zahl 6= 0 steht. Aus dieser Bedingung folgt natürlich auch umgekehrt sofort die vollständige Abhängigkeit. Sowohl im Fall I < J als auch im Fall I = J liegt also vollständige Abhängigkeit genau dann vor, wenn in jeder Spalte genau eine Zahl 6= 0 steht. In der hier betrachteten Situation I ≤ J, die ja diese beiden Fälle zusammenfasst, ist damit schließlich die vollständige Abhängigkeit äquivalent mit der Bedingung, dass in jeder Spalte genau eine Zahl 6= 0 steht. Damit ist eine Beschreibung der vollständigen Abhängigkeit gefunden, die für die folgenden Argumente passend ist. Im Falle I ≤ J ist das Minimum L der Zahlen I und J gleich I. Die noch zu zeigende Behauptung lässt sich damit so formulieren: 1.3 Deskriptive Statistik QM1 17 25 Der ϕ2 -Koeffizient ist ≤ I − 1, wobei der Wert I − 1 genau dann auftritt, wenn in jeder Spalte genau eine Zahl 6= 0 steht. Bekanntlich lässt sich ϕ2 auch so schreiben: ϕ2 = I X J X h2ij i=1 j=1 eij ! −1. Nachdem man jeweils 1 addiert hat, lässt sich die zu zeigende Behauptung nun auch so formulieren: B: Es gilt (im Fall I ≤ J) I X J X h2ij i=1 j=1 eij ≤I, (1) wobei Gleichheit genau dann herrscht, wenn in jeder Spalte der Kontingenztafel genau eine Zahl 6= 0 steht. Zur Begründung wird zunächst die linke Seite der Gleichung abgeschätzt: I X J X h2ij i=1 j=1 eij I X J I X J X X h2ij hij hij = = h h h h i=1 j=1 i. .j i=1 j=1 i. .j ! I X J I J X hij X X hij ≤ = h h i=1 j=1 i. i=1 j=1 i. ! I J I X X 1 X 1 hi. = hij = h h i . i . i=1 j=1 i=1 = I X 1 = I (2) (3) (4) (5) i=1 Die in dieser Abschätzung nicht unmittelbar einsichtigen Schritte sollen nun begründet werden. In der ersten Zeile (2) wird nur eij entsprechend der Definition ersetzt. Entscheidend ist der Übergang von (2) nach (3), der daher jetzt genauer analysiert werden soll. Der allgemeine Summand (hij /hi. )(hij /h.j ) am Ende von (2) ist das Produkt von zwei Faktoren, die ≥ 0 sind. Der zweite Faktor hij /h.j ist auch ≤ 1; es gilt ja X hij = h.j , i 1.3 Deskriptive Statistik QM1 17 26 und da alle Summanden auf der linken Seite ≥ 0 sind, ist (vgl. H3) die Summe mindestens so groß wie jeder einzelne Summand, woraus hij ≤ h.j und mit Division durch h.j die behauptete Ungleichheit (hij /h.j ) ≤ 1 folgt. (Auch der erste Faktor ist natürlich ≤ 1, was aber hier ohne Interesse ist). Aus der Ungleichung (hij /h.j ) ≤ 1 folgt durch Multiplikation mit (hij /hi. ) die angestrebte Ungleichung hij hij hij hij ≤ · 1= . hi. h.j hi. hi. (Man beachte übrigens, dass dabei wesentlich ist, dass (hij /hi. ) ≥ 0 gilt – wäre dieser Faktor negativ gewesen, so hätte sich das Ungleichheitszeichen umgekehrt.) Vergleicht man nun die letzte Doppelsumme in (2) mit der ersten in (3), so hat sich gerade gezeigt, dass alle Summanden in der ersteren kleiner oder gleich den entsprechenden Summanden in der zweiten sind, weshalb wegen H2 das Ungleichheitszeichen beim Übergang von (2) zu (3) richtig ist (H2 gilt natürlich auch für Doppelsummen). Die weiteren Umformungen folgen unmittelbar aus den bekannten Summenregeln, wobei zur Verdeutlichung zusätzliche Klammern gesetzt sind. Damit ist die Ungleichung (1) begründet, also der erste Teil der Behauptung B. Im zweiten Teil dieser Behauptung geht es darum, wann der maximale Wert I in (1) erreicht wird. Betrachtet man noch einmal die Gleichungen und Ungleichungen von (2) bis (5), so ist klar, dass der maximale Wert I genau dann erreicht wird, wenn das Ungleichheitszeichen beim Übergang von (2) nach (3) in Wahrheit ein Gleichheitszeichen ist, denn dieses ist ja das einzige Ungleichheitszeichen in der ganzen Kette. Wegen der Hilfsbehauptung H2 (die natürlich auch für Doppelsummen gilt) liegt an der kritischen Stelle Gleichheit jedoch genau dann vor, wenn alle Summanden der letzten Doppelsumme von (2) gleich den entsprechenden Summanden der ersten Doppelsumme von (3) sind, wenn also für alle i und j die Beziehung hij hij hij = hi. h.j hi. (6) 1.3 Deskriptive Statistik QM1 17 27 gilt. Es sind hier wieder zwei Fälle zu unterscheiden, nämlich die, ob hij /hi. ungleich 0 ist oder gleich 0. Im ersten Fall ist (6) genau dann richtig, wenn hij /h.j gleich 1 ist, wie man sieht, wenn man durch hij /hi. dividiert, während im zweiten Fall (6) immer richtig ist. Zusammenfassend ist also (6) für ein festes i und j genau dann richtig, wenn hij hij =0 oder =1 hi. h.j gilt, was offenbar genau dann der Fall ist, wenn hij = 0 oder hij = h.j (7) gilt. Damit wird herrscht Gleichheit in (1) genau dann, wenn für alle i und j die Bedingung (7) gilt. Dies kann man wieder umformulieren: (7) gilt für alle i und j genau dann, wenn für alle j Bedingung (7) für alle i gilt, denn in beiden Formulierungen werden ja insgesamt alle möglichen Paare für i und j erfasst. Nun soll für ein festes j untersucht werden, wann (7) für alle i gilt. Hier geht es um die hij , die in der Spalte j stehen. Es soll nun gezeigt werden, dass (7) für alle i genau dann gilt, wenn in der j-ten Spalte genau eine Zahl 6= 0 steht. Um die eine Richtung dieser Behauptung zu zeigen, sei also angenommen, dass (7) für alle i gültig ist. In der j-ten Spalte muss wegen Z mindestens eine Zahl 6= 0 stehen; diese Zahl sei hkj . Da hkj 6= 0 ist und (7) gilt, muss hkj = hj . gelten. Nun ist aber hj . die Summe aller hij , die ihrerseits nichtnegativ sind. Wegen H3 müssen dann alle hij mit i 6= k gleich 0 sein. Es folgt also, dass in der j-ten Spalte genau eine Zahl 6= 0 steht. Nun möge umgekehrt in der j-ten Spalte genau eine Zahl 6= 0 sein, nämlich die an k-ter Stelle. Dann ist also hkj 6= 0, während alle anderen hij mit i 6= k gleich 0 sind. Die Summe h.j aller hij in der Spalte j ist dann gleich hkj . Offenbar gilt damit nun für alle hij eine der beiden Bedingungen in (7). Die Zwischenbehauptung ist damit gezeigt. Damit gilt die Bedingung (7) für alle i und j also genau dann, wenn in jeder Spalte genau eine Zahl 6= 0 steht. 1.3 Deskriptive Statistik QM1 17 28 Fasst man nun alle Schritte zusammen, so ergibt sich, dass in (1) Gleichheit genau dann vorliegt, wenn in jeder Spalte der Kontingenztafel genau eine Zahl 6= 0 steht. Die Behauptung B ist damit bewiesen und damit auch die eigentliche Behauptung, dass ϕ2 genau dann den maximalen Wert I − 1 annimmt, wenn in der Kontingenztafel vollständige Abhängigkeit vorliegt. Damit ist schließlich auch S fast vollständig begründet. Es fehlt nur noch das Argument, dass oBdA I ≤ J vorausgesetzt werden konnte. Es sei also nun eine Tafel gegeben, für die die Bedingung, dass die Zahl der Zeilen höchstens so groß ist wie die der Spalten, nicht erfüllt ist. Zur besseren Unterscheidung sei die Zahl der Zeilen M und die der Spalten N , wobei folglich M > N gilt. Man kann nun die Reihenfolge der Variablen vertauschen und erhält dann aus den Daten eine Kontingenztafel der relativen Häufigkeiten mit N Zeilen und M Spalten, die natürlich die gleichen Zahlen enthält wie die ursprüngliche Kontingenztafel, wobei nur die Zahlen anders angeordnet sind – aus Zeilen werden Spalten und umgekehrt. Beispielsweise erhält man so aus der ursprünglichen Kontingenztafel .2 .1 .1 .1 .3 .2 .3 .2 .5 .6 .4 1 nach Vertauschung der Reihenfolge der Variablen die folgende: .2 .1 .3 .1 .1 .2 .6 .4 .3 .2 .5 1 Entscheidend ist nun die Beobachtung, dass die ϕ2 -Werte der beiden Tafeln übereinstimmen. Zur Begründung bemerkt man zunächst, dass bei der neuen Kontingenztafel die Zeilensummen mit den Spaltensummen der alten übereinstimmen und die Spaltensummen mit den Zeilensummen der alten (wie es auch im Beispiel der Fall ist). 1.3 Deskriptive Statistik QM1 17 29 Berechnet man für beide Tafeln dann den ϕ2 -Koeffizienten, so sind zunächst die eij für beide Tafeln die gleichen, wenn auch in entsprechender unterschiedlicher Anordnung. Damit sind aber auch die Summanden bei der Bildung von ϕ2 bis auf die Anordnung die gleichen. Da die Reihenfolge der Summierung bei der Bildung der Gesamtsumme gleichgültig ist, erhält man in der Tat für beide Tafeln den gleichen ϕ2 -Wert. Es sollte auch unmittelbar klar sein, dass in der neuen Tafel Unabhängigkeit genau dann vorliegt, wenn dies bei der alten Tafel der Fall war, dasselbe gilt natürlich auch für vollständige Abhängigkeit. Bei der neuen Tafel ist nun aber die Zeilenzahl (N ) kleiner als die Spaltenzahl (M ), so dass die oben angestellten Überlegungen gültig sind, wenn man I = N und J = M setzt. Es folgt, dass ϕ2 zwischen 0 und I − 1 = N − 1 liegt, wobei die Werte 0 und N − 1 genau bei Unabhängigkeit bzw. vollständiger Abhängigkeit angenommen werden. Da das Mininum L von M und N hier gleich N ist, sieht man schließlich, dass alle Aussagen von S auch für die alte Tafel gelten (man muss nur I und J entsprechend ersetzen). Damit ist S vollständig bewiesen. 1.3 Deskriptive Statistik QM1 17 30 Lineare Interpolation, Prozentränge bei klassifizierten Daten. In diesem Abschnitt geht es einerseits um die Technik der linearen Interpolation, andererseits um eine Möglichkeit, Prozentränge zu bilden, wenn man, wie beim Erstellen von Histogrammen, die Daten schon zu Klassen zusammengefasst hat und nur noch die Häufigkeiten der Klassen kennt, nicht aber mehr die Originaldaten. Wegen des bei einer solchen Klassenbildung auftretenden Informationsverlusts ist mit einer Diskrepanz zu den Prozenträngen zu rechnen, die man für die Originaldaten erhalten würde. Wenn man so will, handelt es sich hier also eher um eine neue Definition des Ausdrucks ‚Prozentrang‘ für eine neue Datensituation als um die Ermittlung von Prozenträngen im alten Sinn. Der Vorteil dieses Vorgehens liegt darin, dass man im ‚Normalfall‘ jetzt für alle sinnvollen Werte Prozentränge bilden kann, und dass man für jeden Prozentrang einen Wert angeben kann, der diesen Prozentrang besitzt. Gelegentlich benutzt man die Interpolation analog auch bei den Originaldaten, um so auch den zu einem vorgegebenen Prozentrang gehörenden Wert zu ‚bestimmen‘, wenn dieser Prozentrang bei den Originaldaten gar nicht auftritt. Lineare Interpolation wird dann verwendet, wenn man eine Funktion an zwei (meist nahe benachbarten) Stellen kennt und sie dazwischen sinnvoll ergänzen möchte. Beispielweise könnten Funktionswerte einer Funktion (wie Sinus oder Logarithmus) in einer Tabelle für viele X-Werte gegeben sein (beispielsweise für die Werte x = . . . .99, 1.00, 1.01, 1.02, 1.03 . . .). Bei der Frage nach dem Funktionswert für einen nicht vertafelten X-Wert (beispielsweise 1.023) muss man eine geeignete Näherung finden; die einfachste Methode ist dabei die der linearen Interpolation. Ob die Methode zu einem sinnvollen Ergebnis führt, hängt von mehreren Bedingungen ab, beispielsweise, ob das ‚Netz‘ der vertafelten X-Werte dicht genug ist. Bei der linearen Interpolation tut man so, als wäre der Graph der Funktion zwischen zwei Stellen, an denen die Funktion bekannt ist, ein Geradenstück. Unter dieser Voraussetzung, die oft näherungsweise richtig ist, bestimmt man dann den gesuchten Funktionswert. Genauer sollen nun für zwei benachbarte X-Werte xu und xo die Funktionswerte yu und yo bekannt sein (die Indizes stehen für ‚unten‘ und ‚oben‘, was auf die obere und untere Grenze bei der Variablen X bezogen ist; die Y -Werte erhalten denselben Index wie die X-Werte, zu denen sie gehören – bei Y muss also nicht 1.3 Deskriptive Statistik QM1 17 31 immer yo größer sein als yu ). Die lineare Interpolation tut dann so, als wäre der Graph zwischen diesen bekannten Werten ein Geradenstück: Y yo y yu r ..................................................................................................... ...... ... ....... ... ....... .. ....... ....... ... ..................................................................................... . . . . . ... . ..... ... . . .. . . . . . ..... . . . . ... . . . . ..... . . . . . . ... . . . ..... . . . .. . . . . .. ..... . . . . ... . . . . ..... . . . . . . ... . . . ..... . . . .. . . . . . . ..... . . . . ... . . . . ... ... ... .......................... ... ... ... .. .. .. ... ... ... ... ... ... .. .. .. ... ... ... .. .. .. r xu xo x X In der Zeichnung ist schon ein weiterer X-Wert x eingezeichnet samt dem Y -Wert y, den man für ihn mit Hilfe der linearen Interpolation bestimmt. Zur Herleitung einer Formel für die rechnerische Bestimmung von y wird zunächst die Zeichnung um einige Hilfslinien ergänzt. Es entstehen dabei zwei Dreiecke, von denen je zwei Seiten mit A und B bzw. a und b bezeichnet sind (die großen Buchstaben gehören zu den Seiten des größeren Dreiecks, die kleinen zu denen des kleineren). Y yo ...............................................................................................r ... ....... ....... ... ... y ........................................................................................... ... . . .. ....... .... ....... ... ... ....... ... ....... ... ....... ... . . . . . . . . . ..... . .. . . . . . . . . ..... .. . . . . . . . . . ..... .. . . . . . . . . . ..... . . . . . . . . . .................................................................................................................................................................. ... ... ... .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. b yu r B a A xu x xo X Da die beiden Dreiecke ähnlich sind, sind die Verhältnisse entsprechender Seiten gleich (Strahlensatz): B b = . a A In dieser Gleichung drückt man nun die Seitenlängen durch die Koordinaten aus 1.3 Deskriptive Statistik QM1 17 und erhält (y − yu ) (yo − yu ) = (x − xu ) (xo − xu ) 32 (1) Löst man diese Gleichung nach y auf (Multiplikation mit (x − xu ) und Addition von yu ), so erhält man die gewünschte Formel für den y-Wert: y= (yo − yu ) (x − xu ) + yu . (xo − xu ) (2) Es gibt auch Situationen, in denen man einen Y -Wert y gegeben hat und fragt, zu welchem X-Wert x er gehört (wenn man wieder den unbekannten Graphen durch ein Geradenstück ersetzt). Hier ist die Formel (1) nach x aufzulösen. Man bildet dazu zunächst den Kehrwert auf beiden Seiten, multipliziert dann mit (y − yu ) und addiert schließlich xu . Das Ergebnis ist x= (xo − xu ) (y − yu ) + xu . (yo − yu ) (3) Damit ist auch die Formel zum Auffinden des X-Werts bei gegebenem Y -Wert gefunden. Es folgen nun konkrete Beispiele. Grundlage ist eine Tabelle von klassifizierten Daten; die Daten sind dabei in drei Klassen eingeteilt. Klasse wahre KG Mitte abs. H. 1 − 3 .5 , 3.5 2 3 4 − 6 3.5 , 6.5 5 5 7 − 9 6.5 , 9.5 8 2 rel. H. .3 .5 .2 kum. rel. H. .3 .8 1 Das Schaubild der kumulierten relativen Häufigkeiten sieht dann so aus: 1.3 Deskriptive Statistik QM1 17 33 k.r.H. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 q .. .......... .......... .......... .......... .......... . . . . . . . . . .... .......... .......... .......... .......... ........ . . . . . ..... ..... ..... ..... ..... . . . . .. ..... ..... ..... ..... ..... . . . . . ..... ..... ..... ..... ..... . . . . .. ..... ..... ..... ..... ..... . . . . .. ..... ....... ....... ....... ....... . . . . . . ... ....... ....... ....... ....... ....... . . . . . . .... ....... ....... ....... ....... ....... q q q 1 2 3 4 5 6 7 8 9 10 X Schon bei diesem Schaubild wurde linear interpoliert. Die genaue Verteilung der Werte innerhalb der Klassen ist hier unbekannt, bekannt sind nur die kumulierten relativen Häufigkeiten an den Klassengrenzen. Als Ergänzung der Funktion der kumulierten relativen Häufigkeiten lag es daher nahe, die unbekannten Teile durch Geradenstücke zu ersetzen; gewissermaßen tut man so, als wäre der Zuwachs innerhalb der Klassen gleichmäßig. Es soll nun der Prozentrang von 5 ermittelt werden. Da 5 keine wahre Klassengrenze ist, muss interpoliert werden (der ermittelte Prozentrang stimmt dann auch nicht notwendigerweise mit dem überein, den man auf Grund der Originaldaten erhalten würde, die ja hier auch nicht mehr zur Verfügung stehen). Zunächst ist die zuständige Klasse zu bestimmen; offenbar ist es die zweite. Die bekannten Werte sind nun die kumulierten relativen Häufigkeiten an der Untergrenze und der Obergrenze. Wählt man als Bezeichnung für die kumulierten relativen Häufigkeiten Y (die Variable selbst ist X), so sind die bekannten Werte am Rand also xu = 3.5 yu = .3 xo = 6.5 yo = .8 , wenn man die Bezeichnungen so wählt, dass sie zu den hergeleiteten Formeln passen. Zu bestimmen ist der Y -Wert, der zu x = 5 gehört. Die Formel (2) liefert durch Einsetzen den Wert (.8 − .3) .5 (yo − yu ) (x − xu ) + yu = (5 − 3.5) + .3 = (1.5) + .3 = .55 y= (xo − xu ) (6.5 − 3.5) 3 1.3 Deskriptive Statistik QM1 17 34 Der gesuchte interpolierte Prozentrang von 5 ist also 55. Als weiteres Beispiel soll gefragt werden, welcher X-Wert zu einem Prozentrang von 90 führt. Hier ist also Y gegeben, umgerechnet der Wert y = .9, und es soll der zugehörige X-Wert bestimmt werden. Offenbar ist jetzt die dritte Klasse relevant. Die bekannten Werte sind hier (wieder in der geeigneten Bezeichnung für die Formeln) xu = 6.5 yu = .8 xo = 9.5 yo = 1 . Diesmal ist die Formel (3) zu benutzen; sie liefert x= (xo − xu ) (9.5 − 6.5) 3 (y − yu ) + xu = (.9 − .8) + x6.5 = (.1) + 6.5 = 8 . (yo − yu ) (1 − .8) .2 Der gesuchte X-Wert mit einem Prozentrang von 90 ist also 8. Wieder ist darauf hinzuweisen, dass dies nicht mit dem Wert übereinstimmen muss, den man erhalten hätte, wenn die Originaldaten noch zur Verfügung gestanden hätten. Streuung und mittlere absolute Abweichung. Hier geht es darum, ob es Beziehungen zwischen der Streuung und dem anschaulicheren Maß der mittleren absoluten Abweichung gibt. Ist für eine Variable X eine Datenreihe x1 , . . . , xn von Daten von n Versuchspersonen gegeben, deren Mittelwert M ist, so ist die mittlere absolute Abweichung vom Mittelwert definiert als n AX = 1X |xi − M | . n i=1 Die Bezeichnung AX ist sonst nicht gebräuchlich und dient hier lediglich als Abkürzung zur bequemeren Formulierung. Offenbar handelt es sich bei AX um den Durchschnitt der absoluten Abweichungen vom Mittelwert M . Mit ‚absoluter Abweichung‘ ist dabei natürlich der Betrag der Differenz (des Datums und des Mittelwerts) gemeint. Anzumerken ist, dass man analog auch eine mittlere absolute Abweichung vom Median (statt vom Mittelwert) bilden kann, was womöglich sogar sinnvoller ist. 1.3 Deskriptive Statistik QM1 17 35 Hier wird jedoch immer die mittlere absolute Abweichung vom Mittelwert betrachtet. Diese mittlere absolute Abweichung AX ist zunächst von der Anschauung her ein viel einleuchtenderes Maß für die Datenvariabilität als die Streuung SX . Allerdings wird dies Maß selten benutzt (die Vorteile der Streuung als Maß zeigen sich erst im Zusammenhang mit der Kovarianz). Es soll nun geklärt werden, ob zwischen den beiden Maßen Zusammenhänge bestehen, die es womöglich gestatten, Abschätzungen des einen Maßes zu geben, wenn man das andere kennt. Zu diesem Zweck definiert man eine neue Variable Y als Y = |X − M |. Diese Definition soll genauer bedeuten, dass der Wert der Versuchsperson i in dieser neuen Variable gerade yi = |xi − M | ist. Vielleicht ist ein Beispiel nützlich: Sind für die Variable X die Werte 2, 5, 3, 1, 4 erhoben worden, so ergibt sich als Mittelwert 3. Die neue Variable Y hat dann bei der ersten Versuchsperson den Wert |2 − 3| = | − 1| = 1. Die Werte von Y bei allen Versuchspersonen sind (in der Reihenfolge der X-Werte) die Zahlen 1, 2, 0, 2, 1. Die mittlere absolute Abweichung AX von X ist dann der Durchschnitt der einzelnen absoluten Abweichungen der xi von M , und da dies gerade die Werte der Variable Y sind, ist die mittlere absolute Abweichung von X gleichzeitig der Mittelwert von Y ; es gilt also AX = MY . Betrachtet man die Werte von Y 2 , so sind dies gerade die quadrierten absoluten Abweichungen der xi von M , die dann mit den quadrierten Abweichungen der xi von M übereinstimmen. (Das Quadrat des Betrages einer Zahl und das Quadrat dieser Zahl sind gleich; so gilt |2|2 = 4 = 22 ebenso wie | − 2|2 = 22 = 4 = (−2)2 . Daher gilt insbesondere |xi − M |2 = (xi − M )2 .) Die Varianz von X ist die mittlere quadrierte Abweichung vom Mittelwert, und dies ist nach den gerade angestellten Überlegungen gleichzeitig der Mittelwert der Werte von Y 2 . Es gilt folglich 2 = MY 2 . SX Für MY 2 gilt jedoch MY 2 ≥ (MY )2 , 1.3 Deskriptive Statistik QM1 17 36 da diese Beziehung für alle Variablen Gültigkeit besitzt. Zusammen folgt 2 ≥ (MY )2 , SX und zieht man auf beiden Seiten die Wurzel, so erhält man SX ≥ MY (man beachte, dass die Wurzel aus (MY )2 gleich MY ist, da ja MY nichtnegativ ist). Da aber MY die mittlere absolute Abweichung von X war, folgt nun insgesamt dass die mittlere absolute Abweichung von X höchstens so groß ist wie SX , kurz AX ≤ SX . Damit ist eine Beziehung zwischen diesen beiden Maßen der Datenvariabilität gefunden: Die mittlere absolute Abweichung ist höchstens so groß wie die Streuung. p √ In dem Beispiel ist die Streuung gleich 10/5 = 2 = 1.41..., während die mittlere absolute Abweichung gleich 6/5 = 1.2 ist; die Ungleichung stimmt hier also (muss sie auch, da sie ja allgemein richtig ist). Naheliegend ist die Frage, unter welchen Bedingungen die beiden Maße sogar gleich sind; dies ist eine etwas fortgeschrittene fakultative Übungsaufgabe (es ergibt sich dabei übrigens, dass bei einer ungeraden Anzahl von Daten Gleichheit nur in dem uninteressanten Fall gilt, dass alle Daten gleich sind – beide Maße sind dann 0). Weiterführend ist auch die Frage interessant, ob eine Abschätzung in der anderen Richtung gilt, ob also womöglich die Streuung nicht größer werden kann als ein geeignetes Vielfaches der mittleren absoluten Abweichung. Hier kann man sich klar machen, dass die folgende Ungleichung gilt: p SX ≤ n/2 AX , p bei der jedoch der Faktor n/2 von der Stichprobengröße abhängt. Dass man mindestens diesen Faktor braucht, sieht man an den möglichen Daten, bei denen die ersten beiden Werte n/2 und −n/2 sind und die anderen 0. Dieses Beispiel zeigt dann auch, dass es eine allgemeine Abschätzung der Form SX ≤ K AX , 1.3 Deskriptive Statistik QM1 17 37 bei der die Zahl K für alle Stichprobengrößen gleich ist, nicht geben kann. Eine Eigenschaft der Streuungsbalken. Bekanntlich charakterisiert man Daten gelegentlich dadurch, dass man den Mittelwert in ein Diagramm einzeichnet und rechts und links davon eine Streuungseinheit abträgt. Sind beispielsweise von X die Daten 3, 6, 4, 5, 9, 5, 7, 3, 2, 6 gegeben, so errechnet man sofort, dass der Mittelwert 5 ist und die Streuung 2. Im folgenden Diagramm sind die Daten zu sehen, darüber zum Vergleich der Mittelwert mit Streuungsbalken: MX s ... .. .................................................................................................................................................... ... ... SX 0 1 SX r r r r r r r r r 2 3 4 5 6 7 r 8 9 10 X Inwieweit sind diese Streuungsbalken für die Daten charakteristisch? Kann man etwas über die Daten schließen, wenn man nur die Streuungsbalken kennt? Offenbar ist es hier nicht so, dass die Streuungsbalken alle Daten einschließen; dies ist folglich erst recht keine allgemeine Eigenschaft der Streuungsbalken. Eine erste Aussage kann man jedoch machen: Entweder liegen alle Daten auf dem Rand der Balken oder es befindet sich sowohl innerhalb als auch außerhalb des markierten Bereichs mindestens ein Datum. Diese Aussage soll gleich gezeigt werden, zuvor soll sie für die konkreten Daten verdeutlicht werden. Der Rand des markierten Bereichs sind die Zahlen 3 und 7; offenbar liegen nicht alle Daten auf diesem Rand. Daher muss, wenn die angegebene Aussage richtig ist, sowohl innerhalb des markierten Bereichs mindestens ein Datum liegen als auch außerhalb. In der Tat liegen hier die Werte 4, 5 und 6 innerhalb und die Werte 2 und 9 außerhalb des Bereichs. 1.3 Deskriptive Statistik QM1 17 38 Bei den Formulierungen ‚innerhalb‘ und ‚außerhalb‘ sind die Grenzen (im Beispiel 3 und 7) nicht mit eingeschlossen (wie auch die Erläuterung des Beispiels zeigt). Man kann die Aussage auch so verstehen: Wenn Daten innerhalb des markierten Bereichs liegen, so muss auch mindestens ein Datum außerhalb liegen, und wenn Daten außerhalb liegen, so muss auch mindestens ein Datum innerhalb liegen. Bezeichnet kurz M den Mittelwert und ist x ein Datenpunkt, so liegt x genau dann auf dem Rand, wenn |x − M | = SX gilt, entsprechend liegt x innerhalb bzw. außerhalb des markierten Bereichs, wenn |x − M | < SX bzw. |x − M | > SX gilt. Damit lässt sich die zu begründende Aussage auch so formulieren: Entweder gilt für alle xi die Beziehung |xi − M | = SX , oder es gilt für mindestens ein xi die Beziehung |xi − M | < SX und für mindestens ein anderes die Beziehung |xi − M | > SX . Gleichbedeutend damit ist die Behauptung, dass weder der Fall eintreten kann, dass für alle xi die Beziehung |xi − M | ≤ SX gilt und für mindestens eines sogar die Beziehung |xi − M | < SX , noch der Fall, dass für alle xi die Beziehung |xi − M | ≥ SX gilt und für mindestens eines sogar |xi − M | > SX . Es soll nun gezeigt werden, dass der erste dieser Fälle unmöglich ist. Würde nämlich der erste Fall vorliegen, so erhielte man für die Varianz von X die Ungleichung n 2 SX n 1X 1X 2 2 = (xi − M )2 < S = SX , n i=1 n i=1 X 2 2 insgesamt also SX < SX . Da dies unmöglich ist, ist auch der erste Fall unmöglich. Vielleicht ist das Ungleichheitszeichen hier erläuterungsbedürftig. Ersetzt man in P 2 der ersten Summe (xi − M )2 jeden der Summanden (xi − M )2 durch SX , so P 2 erhält man gerade die zweite Summe SX . Bei dieser Ersetzung werden jedoch alle Summanden durch eine Zahl ersetzt, die nach Voraussetzung mindestens so groß ist wie diese Summanden, und mindestens einer durch eine, die echt größer ist. Daher muss auch die Summe echt größer werden. Die Division durch n ändert dann an der Ungleichung nichts mehr. Bisher hat sich gezeigt, dass der erste der beiden angegebenen Fälle unmöglich ist; genauso zeigt man auch, dass der zweite nicht eintreten kann. Damit ist die Behauptung insgesamt begründet. Dass übrigens auch der Fall eintreten kann, dass alle Datenpunkte auf dem Rand 1.4 Ergänzungen zur W-Theorie QM1 17 39 liegen, sieht man an der Datenreihe 3, 7, 3, 7, 3, 7, 3, 7, 3, 7, die ebenfalls Mittelwert 5 und Streuung 2 besitzt. Zur Übung kann man auch noch zeigen, dass dieser Fall nur für eine gerade Anzahl von Daten möglich ist; bei einer ungeraden Anzahl von Daten liegen also stets mindestens ein Datenpunkt innerhalb der Streubalken und mindestens einer außerhalb. 1.4 Ergänzungen zur W-Theorie Markoffsche Ungleichung. Ist X eine reelle Zva mit X ≥ 0, so gilt für jedes k > 0 die Markoffsche Ungleichung E(X) P(X ≥ k) ≤ . k Zur Begründung definiert man eine neue Zva Y durch die Vorschrift ( k falls X(ω) ≥ k Y (ω) = 0 sonst . Die neue Zufallsvariable Y ensteht also dadurch, dass man X abändert, indem man Werte ≥ k durch den Wert k ersetzt und alle anderen Werte durch 0. Offenbar gilt dann X ≥ Y , woraus E(X) ≥ E(Y ) folgt. Der Erwartungswert von Y ist leicht zu berechnen, da Y nur die Werte 0 und k annimmt: E(Y ) = 0 · P(Y = 0) + k · P(Y = k) = k · P(X ≥ k) , denn Y ist ja genau dann gleich k, wenn X ≥ k gilt. Insgesamt gilt also k · P(X ≥ k) ≤ E(Y ) ≤ E(X) , woraus mit Division durch k sofort die Behauptung folgt. Tschebyscheffsche Ungleichung. Ist X eine relle Zva mit E(X) = µ und V(X) = σ 2 > 0, so gilt für jedes k > 0 die Tschebyscheffsche Ungleichung: P(|X − µ| ≥ kσ) ≤ 1 . k2 1.4 Ergänzungen zur W-Theorie QM1 17 40 Zur Begründung untersucht man Y = (X − µ)2 . Offenbar gilt dann Y ≥ 0 und E(Y ) = σ 2 . Setzt man c = k 2 σ 2 , so gilt auch c > 0. Aus der Markoffschen Ungleichung folgt nun (wenn man in der Formulierung dieser Ungleichung X durch Y und k durch c ersetzt) P(Y ≥ c) ≤ σ2 1 E(Y ) = 2 2 = 2 . c k σ k Nun gilt aber Y ≥ c ⇔ (X − µ)2 ≥ k 2 σ 2 ⇔ |X − µ| ≥ kσ , woraus P(Y ≥ c) = P(|X − µ| ≥ kσ) und damit insgesamt die Behauptung folgt. Misst man die Abweichungen vom Erwartungswert nicht in Einheiten der Streuung σ, sondern absolut, so erhält man die folgende Alternativversion: Ist X eine relle Zva mit E(X) = µ und V(X) = σ 2 , so gilt für jedes K > 0 die Ungleichung: σ2 P(|X − µ| ≥ K) ≤ 2 . K Man benutzt zur Begründung einfach die Tschebyscheffsche Ungleichung für k = Kσ und erhält P(|X − µ| ≥ K)) = P(|X − µ| ≥ kσ) ≤ 1 σ2 1 = = . k2 K 2 /σ 2 K2 Dies gilt auch für den Sonderfall σ = 0, da dann die untersuchten Wahrscheinlichkeiten immer 0 sind (dann gilt ja X = µ fast sicher). Natürlich kann man in der Alternativversion nun das Symbol K durch k ersetzen – es wurde ja nur zur bequemeren Formulierung der Begründung gebraucht. Wie üblich erhält man Abschätzungen für die komplementären Ereignisse; unter den jeweiligen Voraussetzungen gilt nämlich P(|X − µ| < kσ) ≥ 1 − bzw. P(|X − µ| < k) ≥ 1 − 1 k2 σ2 . K2 1.5 Ergänzungen zur Regression QM1 17 41 Beispielsweise sind ja die Ereignisse |X − µ| ≥ kσ und |X − µ| < kσ Gegenereignisse, weshalb sich ihre Wahrscheinlichkeiten zu 1 addieren. Es gilt also P(|X − µ| < kσ) = 1 − P(|X − µ| ≥ kσ) ≥ 1 − 1 . k2 Für die zweite Version argumentiert man ganz analog. 1.5 Ergänzungen zur Regression Lösen linearer Gleichungssysteme. Im Zusammenhang mit der multiplen Regression tauchen lineare Gleichungssysteme mit mehreren Unbekannten auf. Hier soll eine Möglichkeit behandelt werden, solche Gleichungssysteme zu lösen. Diese Möglichkeit ist keineswegs die einzige und vielleicht in vielen Fällen auch nicht die praktischste. Ein Vorteil ist aber der, dass dieses Verfahren auch später wichtige Anwendungen hat (in den Methoden der multivariaten Statistik). Zur Illustration sei zunächst das Gleichungssystem 2x + x − x + y − z y y − z = 1 = −1 = 0 betrachtet; es handelt sich um ein System von drei Gleichungen mit drei Unbekannten x, y und z. Gesucht ist eine Lösung dieses Gleichungssystems, also eine Angabe von Zahlen, durch die x, y und z ersetzt werden können, so dass dann alle drei Gleichungen erfüllt sind. Eine Lösung besteht also hier immer aus drei Angaben, die man dann ganz kurz zu einem Tripel von Zahlen (in der Reihenfolge x, y, z) zusammenfassen kann. Dieses Gleichungssystem soll in mehreren Schritten gelöst werden. Zunächst geht es nur darum, einzusehen, dass der Lösungsweg korrekt ist; später soll auch die Reihenfolge der Operationen motiviert werden. Diese Reihenfolge von Umformungen ist dabei nicht die einzig mögliche, jede ähnliche muss jedoch zum gleichen Endergebnis führen. Zur besseren Orientierung soll das Ausgangssystem kurz als System (1) oder noch kürzer als (1) bezeichnet werden. 1.5 Ergänzungen zur Regression QM1 17 42 An den Lösungen des Gleichungssystems ändert sich sicher nichts, wenn man die Reihenfolge der Gleichungen ändert; hier könnte man beispielsweise die ersten beiden Gleichungen vertauschen, womit man das Gleichungssystem x − y 2x + y − z x + y − z = −1 = 1 = 0 erhält, das mit (2) bezeichnet werden soll. Der nächste Schritt besteht darin, dass man in (2) von der zweiten Gleichung das Doppelte der ersten abzieht; die anderen Gleichungen bleiben so, wie sie sind: x − y 3y − z x + y − z = −1 = 3 = 0 Dies neue System soll mit (3) bezeichnet werden. Wesentlich ist, dass man erkennt, dass sich durch diese Umformungen nichts an der Lösungsmenge des Gleichungssystems geändert hat. Erfüllen nämlich gewisse Zahlen x, y und z alle Gleichungen von (2), so erfüllen sie insbesondere auch die Gleichung, die sich ergibt, wenn man das Doppelte der ersten von der zweiten abzieht (also die zweite Gleichung von (3)). Zahlentripel, die eine Lösung des Systems (2) waren, sind also auch eine Lösung von (3); Lösungen bleiben bei der Umformung des Systems also erhalten. Es besteht allerdings die Gefahr, dass bei der Umformung neue Lösungen hinzukommen. Hier erkennt man jedoch, dass man von (3) zu (2) dadurch zurückgelangt, dass man eine umgekehrte Umformung vornimmt, die aber von derselben Art ist: Man addiert das 2-fache der ersten Gleichung zur zweiten. Auch hierbei bleiben Lösungen erhalten, jede Lösung von (3) ist also auch eine solche von (2). Dies bedeutet aber, dass bei der Umformung von (2) nach (3) nicht, wie befürchtet, neue Lösungen hinzugekommen sein können. Zusammengefasst sind die Lösungen von (2) also genau dieselben wie die von (3). Etwas allgemeiner formuliert ändert sich die Lösungsmenge eines Gleichungssystems nicht, wenn man zu einer Gleichung ein Vielfaches einer anderen Gleichung hinzuaddiert und alle anderen so lässt, wie sie sind. Man beachte, dass das Subtrahieren des a-fachen einer Gleichung dasselbe ist wie das Addieren des (−a)-fachen, so dass in der allgmeinen Formulierung auch die Möglichkeit des Subtrahierens mit berücksichtigt ist. 1.5 Ergänzungen zur Regression QM1 17 Die nächste Umformung besteht darin, dass dritten abzieht: x − y 3y − z 2y − z 43 man die erste Gleichung von der = −1 = 3 = 1 Das Ergebnis sei mit (4) bezeichnet. Die Rechtfertigung für den Übergang von (3) nach (4) ist die gleiche wie bei der vorhergehenden. Als nächstes kann die dritte Gleichung von der zweiten abgezogen werden; es ergibt sich das System (5): x − y y 2y − z = −1 = 2 = 1 Als nächstes wird die zweite Gleichung zur ersten addiert, was zum System (6) führt: x = 1 y = 2 2y − z = 1 Danach wird von der dritten Gleichung das (7) liefert: x y −z 2-fache der zweiten abgezogen, was = 1 = 2 = −3 Nun wird noch die dritte Gleichung mit (−1) multipliziert, was zu einem Gleichungssystem (8) führt, das bereits die Lösung darstellt: x y z = 1 = 2 = 3 Der letzte Schritt muss noch gerechtfertigt werden. Offenbar erfüllt aber eine Lösung, die die dritte Gleichung erfüllt, auch das (−1)-fache der dritten Gleichung, Lösungen bleiben also bei der Umformung erhalten. Dass keine neue Lösung hinzukommen kann, sieht man wieder daran, dass die Umformung durch eine der gleichen Art rückgängig gemacht werden kann, nämlich dadurch dass die dritte 1.5 Ergänzungen zur Regression QM1 17 44 Gleichung von (8) mit 1/(−1) = (−1) multipliziert wird. Wie oben folgt, dass die Lösungen von (7) und (8) genau die gleichen sind. Allgemein formuliert kann man also eine Gleichung mit einer beliebigen Zahl multiplizieren, ohne dass sich die Lösungen ändern, sofern, und das ist wesentlich, diese Zahl nicht gleich 0 ist (denn dann ließe sich die Operation nicht mehr rückgängig machen). Zusammenfassend ist es also gelungen, in mehreren Schritten das System (1) zum System (8) umzuformen, wobei die Lösungen jeweils erhalten blieben (es kamen also weder neue Lösungen hinzu, noch gingen alte Lösungen verloren). Damit sind die Lösungen von (8) genau die gleichen wie die Lösungen von (1). Beim System (8) erkennt man die Lösungen jedoch unmittelbar. Bei den Umformungen wurden nur drei Typen von Operationen benutzt: Vertauschen zweier Gleichungen, Addition des Vielfachen einer Gleichung zu einer anderen und Multiplikation einer Gleichung mit einer Zahl ungleich 0. Subtraktionen müssen nicht eigens erwähnt werden, da sie als Addition des (−1)-fachen aufgefasst werden können. Das Verfahren zur Lösung des Gleichungssystems bestand also darin, dass in mehr oder weniger geschickter Weise die genannten Operationen solange angewendet wurden, bis das schließlich entstehende Gleichungssystem die Lösung unmittelbar zeigte. Es soll gleich kurz besprochen werden, auf welche Art dies Ziel erreichbar ist, vorher soll jedoch eine abkürzende Notation eingeführt werden, mit der man sich einige Schreibarbeit ersparen kann. Redundant sind die Namen der Unbekannten, wenn sie immer in der gleichen Reihenfolge auftreten, und das Gleichheitszeichen. Man kann so das Gleichungssystem auf seine Koeffizienten und die rechte Seite reduzieren. Aus dem Gleichungssystem 2x + y − z = 1 x − y = −1 x + y − z = 0 wird so kurz 2 1 −1 1 1 −1 0 −1 . 1 1 −1 0 Es ist dabei zu beachten, dass Minuszeichen mit den Koeffizienten verrechnet 1.5 Ergänzungen zur Regression QM1 17 45 werden, und dass auch Unbekannte, die in einer Gleichung nicht vorkommen, hinterher durch eine Null vertreten werden. Das Ergebnis dieser Umformung soll kurz Koeffizientenschema heißen. Es dürfte klar sein, dass sich auf diese Weise das Gleichungssystem eindeutig in ein Koeffizientenschema übersetzen lässt, wobei auch die Rückübersetzung eindeutig möglich ist. Das betrifft natürlich nicht nur das erste Gleichungssystem, sondern auch die folgenden umgeformten Systeme. Wie drücken sich nun die Umformungsoperationen im Koeffizientenschema aus? Offenbar entspricht dem Vertauschen zweier Gleichungen das Vertauschen der entsprechenden Zeilen, dem Addieren eines Vielfachen einer Gleichung zu einer anderen die (koeffizientenweise) Addition des Vielfachen der der einen Gleichung entsprechenden Zeile zu der Zeile, die der anderen Gleichung entspricht, und der Multiplikation einer Gleichung mit einer Zahl ungleich 0 die (koeffizientenweise) Multiplikation der entsprechenden Zeile mit dieser Zahl. Man kann nun die Umformungen auch nur am Koeffizientenschema vornehmen, um nur am Ende die Rückübersetzung vorzunehmen und die Lösung abzulesen. Dies soll gleich mit dem untersuchten Gleichungssystem geschehen, wobei die Schritte genau parallel zu den oben gemachten sind. Zuvor sollen noch die Operationen eine geeignete Abkürzung erhalten, damit in knapper Form deutlich gemacht werden kann, welche Operation vorgenommen wurde. Die Operation des Vertauschens von Zeile i und j soll als zi : j geschrieben werden, das Addieren des a-fachen von Zeile j zu Zeile i als zi + a zj und die Multiplikation der Zeile i mit der Zahl a als zi ∗ a. Statt zi + (−a)zj (Addieren des (−a) fachen der j-ten Zeile zur i-ten) soll anschaulich auch kürzer zi − a zj (Subtrahieren des a-fachen der j-ten Zeile von der i-ten) geschrieben werden. Die erste Operation oben bestand darin, die ersten beiden Gleichungen zu vertauschen, was jetzt für das Koeffizientenschema kurz als z1 : 2 notiert wird; die Operation sieht so aus: 2 1 −1 1 1 −1 0 −1 1 1 −1 0 z1 : 2 −→ 1 −1 0 −1 2 1 −1 1 1 1 −1 0 Man überzeugt sich leicht davon, dass dies in der Tat nichts anderes ist als eine verkürzte Darstellung der oben mit dem Originalgleichungssystem vorgenommenen ersten Operation, in der sich diese Operation auch vollständig wiederfindet. 1.5 Ergänzungen zur Regression QM1 17 46 Auch die weiteren Operationen werden nun, ausgehend von (2), in der verkürzten Form zum Vergleich noch einmal aufgelistet: 1 −1 0 −1 2 1 −1 1 1 1 −1 0 1 −1 0 −1 0 3 −1 3 0 2 −1 1 1 0 0 1 0 1 0 2 0 2 −1 1 z3 − 2z2 −→ z2 − 2z1 −→ z2−z3 −→ 1 −1 0 −1 0 3 −1 3 1 1 −1 0 1 −1 0 −1 0 1 0 2 0 2 −1 1 1 0 0 1 0 1 0 2 0 0 −1 −3 z1 ∗ (−1) −→ z3−z1 −→ z1+z2 −→ 1 0 0 1 0 1 0 2 0 0 1 3 Das letzte Schema übersetzt man nun wieder in Gleichungen und bekommt so aus der ersten Zeile 1 x + 0 y + 0 z = 1, also x = 1, entsprechend mit den übrigen Zeilen. Man sieht nun deutlicher, mit welcher Strategie das Ziel erreicht wurde: Es ging darum, auf der linken Seite mehr oder weniger systematisch Nullen zu erzeugen, wobei dafür zu sorgen war, dass diese Nullen beim weiteren Fortgang erhalten blieben. Dies wurde so lange durchgeführt, bis die Lösung offensichtlich war. Es ist nun auch klar, dass man auch auf andere Weise hätte zum Ziel gelangen können (auch systematischer). Bei der Auswahl des Weges achtet man sinnvollerweise darauf, die Gefahr von Rechenfehlern möglichst gering zu halten. Dies kann bedeuten, dass man beispielsweise Brüche eher vermeidet, dies auch, weil die Rechnungen sonst komplizierter werden. Die Umwandlung von Brüchen in Dezimalzahlen ist wegen Rundungsfehlern oft problematisch. Insgesamt wird man also Divisionen, die zu Brüchen führen, möglichst auf das Ende der Rechnungen verschieben. Um Schreibarbeit zu vermeiden, kann man natürlich auch mehrere Schritte auf einmal durchführen – das Beispiel oben ist unangemessen ausführlich. Dabei ist nur darauf zu achten, dass man nicht Zeilen benutzt, die man eigentlich schon geändert hat, da dann die Gefahr besteht, aus Versehen mit der ursprünglichen Zeile zu rechnen. Beispielsweise ist es nicht sinnvoll, auf einmal die erste Zeile zur zweiten und dann die zweite zur dritten zu addieren, da man die bereits erfolgten 1.5 Ergänzungen zur Regression QM1 17 47 Modifikationen der zweiten sonst immer deutlich vor Augen haben muss, was zur Gefahr von Fehlern führt. In vielen Fällen wird man beispielsweise die Operationen, eine Zeile zu vervielfachen und dann ein Vielfaches einer anderen Zeile zu addieren, zu einem Schritt zusammenfassen. Als Abkürzung soll bzi + azj bedeuten, dass man die i-te Zeile zunächst mit b multipliziert und zum Ergebnis dann das a-fache der j-ten Zeile hinzuaddiert. Es folgt ein weiteres Beispiel: x + 2y + 4z 2x + y + z x + 2y − 2z = 2 = 1 = −1 Die Umwandlung zum Koeffizientenschema liefert 1 2 4 2 2 1 1 1 1 2 −2 −1 Hier ist es leicht möglich, in der ersten Spalte außer an der Stelle links oben Nullen zu erzeugen mit z2 − 2z1 und z3−z1; beide Operationen können gefahrlos auf einmal durchgeführt werden: 1 2 4 2 0 −3 −7 −3 0 0 −6 −3 Hier kann die dritte Zeile durch (−3) dividiert werden (z3 ∗ −(1/3)) und zur Erzeugung einer Null an der zweiten Stelle der ersten Zeile kann das Doppelte der zweiten Zeile zum 3-fachen der ersten addiert werden (3z1 + 2z2 zur Vermeidung von Brüchen): 3 0 −2 0 0 −3 −7 −3 0 0 2 1 Mit z1+z3 und 2z2 + 7z3 bekommt man die letzten beiden erstrebten Nullen: 3 0 0 1 0 −6 0 1 0 0 2 1 1.5 Ergänzungen zur Regression QM1 17 48 Nun lassen sich beim letzten Schritt Brüche nicht mehr vermeiden, aber mit z1 ∗ (1/3), z2 ∗ −(1/6) und z3 ∗ (1/2) hat man ja auch schon das Ergebnis 1 0 0 1/3 0 1 0 −1/6 0 0 1 1/2 Die Lösung lautet also x = 1/3, y = −1/6, z = 1/2. Lösungen der Normalengleichungen lösen das Minimierungsproblem. In diesem Abschnitt geht es darum, zu zeigen, dass eine Lösung der Normalengleichungen auch eine Lösung des Minimierungsproblems ist. Gezeigt wurde bisher ja nur, dass die Koeffizienten einer optimalen Lösung des Regressionsproblems die Normalengleichungen erfüllen müssen. Daraus folgt keineswegs automatisch, dass jede Lösung der Normalengleichungen auch das Minimierungsproblem löst (es könnte beispielsweise sein, dass das Minimierungsproblem gar keine Lösung besitzt). Man kann den bisherigen Kenntnisstand auch so ausdrücken: Dass gewisse Koeffizienten bj die Normalengleichungen erfüllen, ist eine notwendige Bedingung dafür, dass sie auch ein Minimum liefern. Ob dies auch eine hinreichende Bedingung ist, ist noch offen. Zur Verwendungsweise der gelegentlich auftretenden Ausdrücke ‚notwendig‘ und ‚hinreichend‘: Wenn eine Implikation A → B (aus A folgt B) gilt, so ist B eine notwendige Bedingung für A (wenn B nicht gilt, kann auch A nicht gelten, denn sonst müsste ja B gelten!, oder: A kann nur gelten, wenn auch B gilt, oder: die Gültigkeit von B ist notwendig für die Gültigkeit von A) und A ist eine hinreichende Bedingung für B. Um ein Standardbeispiel zu zitieren: Die Aussage „Wenn es regnet, ist die Straße nass“ sei als richtig vorausgesetzt (überdachte Straßen sind hier ausgeschlossen). Der Regen ist dann eine hinreichende Bedingung für die Nässe auf der Straße, während die Nässe eine notwendige Bedingung für Regen ist. Hier ist die Nässe keine hinreichende Bedingung für Regen (und der Regen keine notwendige für Nässe), da die Straße auch aus anderen Gründen nass sein kann, beispielsweise, weil sie jemand gerade zur Begründung dieser Bemerkung mit dem Gartenschlauch nass gespritzt hat. Hier ist noch anzumerken, dass die Aussage A → B auch dann als wahr gilt, wenn 1.5 Ergänzungen zur Regression QM1 17 49 sowohl A als auch B falsch sind (die Aussage „Wenn es regnet, ist die Straße nass“ bleibt auch dann richtig, wenn die Sonne scheint und die Straße trocken ist, oder, ein weiteres verbreitetes Beispiel, die Aussage „Wenn die Erde eine Scheibe ist, besteht der Mond aus Schweizer Käse“ gilt als richtig). Allgemein ist vereinbart, dass A → B nur dann als falsch gilt, wenn A richtig ist und B falsch und sonst als richtig. Diese (in manchen Beispielen etwas seltsam wirkende) Festlegung ist für mathematische Aussagen natürlich und sinnvoll, denn man braucht dann beispielsweise bei der Aussage „Wenn eine ganze Zahl n durch 6 teilbar ist, so ist sie auch durch 2 teilbar“ nicht darüber nachgrübeln, ob dies im Falle n = 7 richtig ist oder nicht. Nun soll also gezeigt werden, dass die Erfüllung der Normalengleichungen auch hinreichend für eine Lösung des Minimierungsproblems ist. Dazu seien b1 , . . . , bm Koeffizienten, die die Normalengleichungen X KovXi , Xj bj = KovXi , Y (i = 1, . . . , m) j erfüllen. Die Normalengleichungen waren ihrerseits nur eine Umformulierung der Forderung, dass die Kovarianzen des Vorhersagefehler mit allen Prädiktoren alle 0 sein sollten. Die Zahlen b01 , . . . , b0m seien irgendwelche Koeffizienten. Es ist dann zu zeigen, dass die Vorhersage mit Hilfe der b0j jedenfalls nicht besser ist als die mit Hilfe der bj . Da die additive Konstante a zu gegebenen Koeffizienten immer so gewählt werden kann, dass der Mittelwert des Vorhersagefehlers zu 0 wird und die mittlere quadrierte Abweichung für die gegebenen Koeffizienten dadurch minimal wird und mit der Varianz des Fehlers übereinstimmt, braucht diese additive Konstante hier nicht berücksichtigt zu werden. Es reicht vielmehr, zu zeigen, dass die Varianz des Fehlers bei der Verwendung von b01 , . . . , b0m jedenfalls nicht größer ist als die bei Verwendung von b1 , . . . , bm . P Die beiden konkurrierenden Vorhersagen sind nun Ŷ = bj Xj + a und Ŷ 0 = P 0 bj Xj + a0 . Die zugehörigen Fehler sind E = Y − Ŷ und E 0 = Y − Ŷ 0 . Der Fehler E 0 kann daher auch geschrieben werden als E 0 = Y − Ŷ + Ŷ − Ŷ 0 = E + (Ŷ − Ŷ 0 ) . Die Berechnung von Ŷ − Ŷ 0 ergibt X X X Ŷ − Ŷ 0 = bj X j + a − b0j Xj − a0 = (bj − b0j )Xj + (a − a0 ) . 1.5 Ergänzungen zur Regression QM1 17 50 Für die Kovarianz von E mit Ŷ − Ŷ 0 erhält man daher X KovE, (Ŷ −Ŷ 0 ) = (bj − b0j )KovE, Xj = 0 , da die Kovarianzen von E mit den Xj alle gleich 0 sind – dies ist ja gerade die Aussage der Normalengleichungen. Die Varianz von E 0 berechnet sich daher folgendermaßen: SE2 0 = SE2 + SŶ2 −Ŷ 0 + 2 KovE, (Ŷ −Ŷ 0 ) = SE2 + SŶ2 −Ŷ 0 . Da die Varianz von Ŷ − Ŷ 0 nichtnegativ ist, folgt die angestrebte Aussage SE2 0 ≥ SE2 .