Vorlesung "Mathematik und Statistik" WS 2006 / 2007 Teil II Statistik und Stochastik Oktober 2006 Dozent: Dr. Norbert Marxer 2 Skript Statistik und Stochastik 0. Inhaltsverzeichnis 0. Inhaltsverzeichnis ................................................................................................. 2 1. Einleitung .................................................................................................................. 7 Vorbemerkung ............................................................................................... Einleitung .......................................................................................................... Referenzen ...................................................................................................... 7 7 9 2. Wahrscheinlichkeitstheorie .............................................................................. 10 Was ist Wahrscheinlichkeit? ................................................................. 10 Ergebnisraum und Ereignisraum .......................................................... 11 Zufallsexperiment ......................................................................................... 11 Illustration: Drei Mal eine Münze Werfen ................................................. 12 Illustration: Zwei Mal Würfeln ................................................................ 12 Empirisches Gesetz der grossen Zahlen ....................................................... 13 Kolmogorov'sches Axiomensystem ..................................................... 13 Eigenschaften von Wahrscheinlichkeitsmassen ............................................ 14 Beispiel 1 .............................................................................................. 14 Beispiel 2 .............................................................................................. 14 Venn Diagramme .......................................................................................... 15 3. Elementare Kombinatorik .................................................................................. 16 Einleitung .......................................................................................................... 16 Laplace Experimente .................................................................................. 16 Laplace Wahrscheinlichkeit ......................................................................... Mehrstufige Laplace Experimente - Baumdiagramme ................................. Bernoulli Experimente ................................................................................ Summenregel ................................................................................................. Produktregel .................................................................................................... Permutationen und Binomialverteilung .............................................. 16 17 17 17 18 18 Einleitung ..................................................................................................... Kombinatorik ........................................................................................ Mengenlehre .......................................................................................... Ohne Zurücklegen - alle verschieden ........................................................... Beispiel ................................................................................................. Ohne Zurücklegen - mehrere Klassen ........................................................... Ohne Zurücklegen - mit 2 Klassen ............................................................... 18 18 19 19 19 19 20 Urnenexperimente bei verschiedenen Elementen ....................... 20 Urnenexperimente ........................................................................................ Mit Zurücklegen und Geordnet (k-Tupel) .................................................... Beispiel ................................................................................................. Mit Zurücklegen und Ungeordnet (k-Repetition) ......................................... Beispiel ................................................................................................. Ohne Zurücklegen und Geordnet (k-Permutation) ....................................... Beispiel ................................................................................................. Ohne Zurücklegen und Ungeordnet (k-Kombinationen) .............................. 20 20 21 21 21 21 22 22 3 Skript Statistik und Stochastik Beispiel ................................................................................................. Zusammenfassung - Ziehen mit verschiedenen Elementen ........................... 22 22 Verteilungen in Behälter ............................................................................ 23 Beispiel ................................................................................................. 23 Urnenexperimente bei teilweise gleichen Elementen ................. 24 Einleitung ..................................................................................................... 24 Ziehen mit Zurücklegen - Variationen und Kombinationen ......................... 24 Beispiel ................................................................................................. 25 Beispiel ................................................................................................. 25 Ziehen ohne Zurücklegen - Variation und Kombination .............................. 25 Beispiel ................................................................................................. 25 Beispiel ................................................................................................. 25 4. Bedingte Wahrscheinlichkeiten ...................................................................... 26 Einleitung .......................................................................................................... 26 Bedingte Wahrscheinlichkeit .................................................................. 26 Beispiel ................................................................................................. 27 Stochastische Unabhängigkeit .............................................................. 27 5. Zufallszahlengenerator ....................................................................................... 28 Einleitung .......................................................................................................... 28 6. Zufallsvariablen und ihre Verteilungen ........................................................ 29 Einleitung .......................................................................................................... 29 PDF und CDF ................................................................................................. 30 Diskrete Verteilung ................................................................................ 33 Erwartungswert .............................................................................................. 33 Beispiel Würfeln .......................................................................................... 34 Diskrete Verteilungen ................................................................................. 34 Einleitung ..................................................................................................... Gleichverteilung (DiscreteUniformDistribution) .......................................... Einleitung .............................................................................................. Eigenschaften ........................................................................................ Bernoulli Verteilung (BernoulliDistribution) ............................................... Einleitung .............................................................................................. Eigenschaften ........................................................................................ Binomial Verteilung (BinomialDistribution bzw. BINOMVERT) ............... Einleitung .............................................................................................. Eigenschaften ........................................................................................ Die Anzahl der Erfolge beim n-maligen Münzen werfen. ........................... Beispiel 1 .............................................................................................. Beispiel 2 .............................................................................................. Beispiel 3 .............................................................................................. Poisson Verteilung (PoissonDistribution bzw. POISSON) .......................... Einleitung .............................................................................................. Eigenschaften ........................................................................................ 34 35 35 36 36 36 37 38 38 39 39 39 40 40 41 41 41 Stetige Verteilungen .................................................................................... 41 Einleitung ..................................................................................................... 41 Normalverteilung (NormalDistribution bzw. NORMVERT, STANDNORMVERT) ....................................................................................................................... 42 4 Skript Statistik und Stochastik Einleitung .............................................................................................. Eigenschaften ........................................................................................ Standardnormalverteilung ....................................................................... c2 Verteilung (ChiSquareDistribution bzw. CHIVERT) ............................. Einleitung .............................................................................................. Eigenschaften ........................................................................................ Student t Verteilung (StudentTDistribution bzw. TVERT) .......................... Eigenschaften ........................................................................................ 42 43 43 44 44 44 44 45 Zentraler Grenzwertsatz ............................................................................ 46 Einleitung ..................................................................................................... Experiment ................................................................................................... Kugeln aus einer Urne ziehen ....................................................................... 46 46 47 7. Statistik und empirische Daten ....................................................................... 49 Einleitung .......................................................................................................... 49 Datentypen ...................................................................................................... 50 8. Beschreibende Statistik ...................................................................................... 51 Einleitung .......................................................................................................... 51 Graphische Darstellungen ....................................................................... 52 Einleitung ..................................................................................................... Diskrete Datenreihe (n klein) ................................................................... Diskrete Daten (n gross: 1000) ................................................................ Stetige Daten (n gross: 1000) .................................................................. 8i, xi < ............................................................................................................. Diskrete Daten (n klein) .......................................................................... Diskrete Daten (n gross) ......................................................................... Stetige Daten (n gross) ............................................................................ 8i, xsort,i < ........................................................................................................ Diskrete Daten (n klein) .......................................................................... Diskrete Daten (n gross) ......................................................................... Stetige Daten (n gross) ............................................................................ Häufigkeitsfunktionen: 8xsort,i , ni <, 8xi , hi < ................................................... Diskrete Daten (n klein) .......................................................................... Diskrete Daten (n gross) ......................................................................... Stetige Daten (n gross) ............................................................................ Verteilungsfunktion: 8xi , ⁄ij=1 h j < ................................................................. 52 52 53 53 53 53 54 54 55 55 55 56 56 57 58 59 61 Weitere graphische Darstellungen ................................................................ 62 Box-And-Whisker Plot ........................................................................... 62 Masszahlen - Nominalskala .................................................................... 63 Masszahlen - Ordinalskala ...................................................................... 64 Masszahlen - Metrisch skalierte Daten .............................................. 65 Lagemasse (Lokalisationsmasse) .................................................................. Streuungsmasse ............................................................................................ Formmasse .................................................................................................... Zentrierung und Standardisierung ................................................................ Additionssätze für êêx und s2 .......................................................................... 65 68 71 73 73 Daten mit diskreter Klassierung und Stetig klassierte Daten .............................................................................. 74 Daten mit diskreter Klassierung ................................................................... 74 5 Skript Statistik und Stochastik Stetig klassierte Daten ................................................................................. 74 Konzentrations- und Disparitätsmessung ......................................... 77 Konzentration ............................................................................................... Disparität ...................................................................................................... Zusammenhang zwischen Konzentrationsindizes und Disparitätkoeffizienten ....................................................................................................................... Kurven .................................................................................................. Zahlen ................................................................................................... Gemeinsame Prinzipien .......................................................................... Unterschiede .......................................................................................... 77 79 80 80 80 80 81 9. Induktive Statistik .................................................................................................. 82 Einleitung .......................................................................................................... 82 Punktschätzungen ....................................................................................... 83 Punktschätzung für den Mittelwert ............................................................... Punktschätzung für den Anteilswert ............................................................. Punktschätzung für die Varianz .................................................................... Eigenschaften von Punktschätzungen ........................................................... 83 83 83 84 Intervallschätzungen ................................................................................... 84 Einleitung ..................................................................................................... Stichprobenverteilungen ............................................................................... Verteilung des Stichprobenmittelwerts ..................................................... Lösung a ............................................................................................... Lösung b ............................................................................................... Intervallschätzung bei grossen Stichproben ................................................. Intervallschätzung bei kleinen Stichproben .................................................. Lösung .................................................................................................. 84 84 84 85 85 86 86 87 Statistische Tests ......................................................................................... 87 Einleitung ..................................................................................................... 87 Testen von Hypothesen über Mittelwerte ..................................................... 88 Zweiseitige Fragestellung ........................................................................ 88 Beispiel ................................................................................................. 88 Schritte ................................................................................................. 90 10. Zweidimensionale Verteilungen ................................................................... 91 Einleitung .......................................................................................................... 91 Kontingenztabelle ......................................................................................... 92 Einleitung ..................................................................................................... Randverteilung ............................................................................................. Bedingte Wahrscheinlichkeiten .................................................................... Berechnung von Mittelwerten und Varianzen für X und Y .......................... 92 92 93 94 Kovarianz und Korrelationskoeffizient ................................................ 94 Einleitung ..................................................................................................... Beispiel 1 ...................................................................................................... Beispiel 2 ...................................................................................................... 94 95 96 11. Regression und Korrelation ........................................................................... 97 Einleitung .......................................................................................................... 97 Scatter Plot ...................................................................................................... 98 Korrelation ........................................................................................................ 99 6 Skript Statistik und Stochastik Einleitung ..................................................................................................... Berechnung des Korrelationskoeffizienten ................................................... Grenzen der Korrelationsanalyse .................................................................. Nichtlinearität ........................................................................................ Ausreisser ............................................................................................. Signifikanz des Korrelationskoeffizienten .................................................... 99 99 100 101 101 102 (Lineare) Regression .................................................................................. 103 Einleitung ..................................................................................................... ` ` Berechnung der (geschätzten) Regressionskoeffizienten b0 und b1 .............. Eigenschaften der Regressionsgerade ....................................................... Berechnung der Residualvarianz s2 (standard error of estimate) ................. ` ` Berechnung der Varianzen für b0 und b1 ...................................................... Bestimmtheitsmass R2 (coefficient of determination) .................................. Intervallschätzung und Tests ........................................................................ Prognose ....................................................................................................... ` ` Mathematica Lineare Regression - b0 und b1 Berechnungen ....................... Beispiel mit Covariance und Mean ........................................................... 103 104 105 105 106 106 108 109 110 110 12. Zeitreihen ................................................................................................................ 111 Einleitung .......................................................................................................... 111 Trendschätzung ............................................................................................ Saisonale Variation ....................................................................................... Zyklische Variation ...................................................................................... Irreguläre Variaton ....................................................................................... Achtung bei Extrapolationen ........................................................................ Simulation .................................................................................................... 111 112 112 112 112 113 13. Stochastische Differentialgleichungen ..................................................... 114 Einleitung ..................................................................................................... Aktie ............................................................................................................. Stochastiche Differentialgleichung ........................................................... Brown'sche Bewegung ............................................................................ Monte-Carlo Lösung der SDE ................................................................ Symbolische Lösung der SDE ................................................................. Mehrere Aktien ...................................................................................... 114 114 114 115 115 116 117 Skript Statistik und Stochastik 7 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten wird, beinhaltet nach einer allgemeinen Repetition von vorausgesetzten mathematischen Grundlagen die Gebiete Taylor Entwicklung und Partielle Differentiation, Zeitreihenanalyse, Regression und allgemeine Optimierung sowie aus dem Gebiet der Statistik und Stochastik die Gebiete Deskriptive Statistik, Induktive Statistik und Stochastic Calculus. Der ganze Vorlesungsstoff wird in zwei Dokumenten bzw. Skripten präsentiert. Das mit "Skript Statistik" bezeichnete Dokument beinhaltet die Gebiete, die dem Gebiete der Statistik und Stochastik zugerechnet werden können. Das mit "Skript Abbildungen" bezeichnete Dokument beinhaltet die Gebiete, die nicht dem Gebiete der Statistik und Stochastik zugerechnet weden können. Einleitung Dieses Dokument ("Skript Statistik") enthält die Gebiete, die dem Gebiet der Statistik und Stochastik zugerechnet werden können. Die Graphik StatistikUebersicht.jpg zeigt, wie die verschiedenen (im Folgenden behandelten Themen) miteinander in Beziehung stehen. Einige Bemerkungen dazu: † Sowohl Zufallsexperimente als auch empirische Befragungen liefern Daten zur Analyse mit den Methoden der Beschreibenden Statistik. † Die Induktive Statistik versucht aus Stichproben Aussagen über die empirische Verteilung der Grundgesamtheit zu machen. † Die Wahrscheinlichkeitstheorie liefert theoretische Verteilungen, die zum Teil auch für empirische Daten verwendet werden können. Skript Statistik und Stochastik 8 Die Kapitel dieses Dokuments enthalten die folgenden Inhalte. Das Kapitel "Wahrscheinlichkeitstheorie" nähert sich dem Begriff der Wahrscheinlichkeit und erklärt die wichtigen Begriffe der Wahrscheinlichkeitstheorie wie Ergebnis, Ereignis und Wahrscheinlichkeit. Ausserdem wird mit dem Kolmogorov'schen Axiomensystem die mathematische Grundlage der Wahrscheinlichkeitstheorie gelegt. Das Kapitel "Elementare Kombinatorik" beschäftigt sich intensiv mit Zufallsexperimenten (vor allem Urnenexperimenten) und den dazugehörigen Formeln zur Berechnung von verschiedensten experimentellen Situationen. Das Kapitel "Bedingte Wahrscheinlichkeiten" untersucht das Vorgehen, wenn Teilinformationen von Experimenten vorliegen, gibt verschiedene Formeln dazu and und definiert den Begriff der stochastischen Unabhängigkeit. Das Kapitel "Zufallszahlengenerator" ist ein kleiner Einschub, der Funktionen zur Erzeugung von Zufallszahlen, die für spätere Simulationen und Computerexperimente wichtig sind, erklärt. Das Kapitel "Zufallsvariablen und ihre Verteilungen" geht dann näher ein auf die wichtigen Funktionen PDF (probability density function) und CDF (cumulative probability density function), die sowohl bei diskreten als auch bei stetigen Verteilungen benutzt werden können, um aus Messintervallen auf Wahrscheinlichkeiten zu schliessen. Es wird auch das umgekehrte Prozedere angesprochen, nämlich aus einem Wahrscheinlichkeitsbereich auf ein Messintervall zu schliessen. Es werden auch die Begriffe Erwartungswert erklärt sowie die wichtigsten diskreten und stetigen Verteilungen diskutiert. Weiters wird der zentrale Grenzwertsatz anschaulich mit Computerexperimenten plausibilisiert. Das Kapitel "Statistik und empirische Daten" beginnt dann die Behandlung von empirisch erhaltenen Daten. Nach einer Übersicht über die Bereiche der Statistik wird auf die einzelnen Datentypen eingegangen. Das Kapitel "Beschreibende Statistik" behandelt die Methoden, mit denen sich riesige Datenmengen anschaulich mittels Graphiken oder kurz und prägnant mit Kennzahlen für die Lage und die Streuung der Daten sowie die Form der Verteilung beschreiben lassen. Das Kapitel "Induktive Statistik" behandelt die Methoden, wie sich aus einer Stichprobe auf die Eigenschaften der Grundgesamtheit schliessen lässt. Es werden Punktschätzungen, bei denen es um die Abschätzung eines einzelnen Werts (z.B. Mittelwert) geht, Intervallschätzungen, wo es um die Abschätzung von Konfidenzintervallen geht sowie statistische Test, wo es um die Annahme bzw. Verwerfung von Hypothesen über die Grundgesamtheit geht, behandelt. Die Induktive Statistik ist das Gebiet, wo die verschiedenen Methoden der vorangehenden Kapitel (Verteilungen, PDF, CDF, Beschreibende Statistik etc.) eingesetzt werden können. Das Kapitel "Zweidimensionale Verteilungen" beschäftigt sich mit multivariaten Daten, mit Kontingenztabellen und Korrelationen von bivariaten Daten. Das Kapitel "Zeitreihen" behandelt bivariate Daten und Zeitreihen sowie verschiedene Methoden, um aus diesen Daten Informationen herauszuziehen. Das Kapitel "Regression und Korrelation" behandelt bivariate Daten und Zeitreihen sowie verschiedene Methoden, um aus diesen Daten Informationen herauszuziehen. Abschliessend noch zwei Definitionen zum Titel dieses Notebooks Die Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung und Auswertung von Informationen / Daten. Viel mehr dazu im Kapitel 7. Die Stochastik ist die Beschreibung und Untersuchung von Zufallsexperimenten und deren Ausgang, von zeitlichen Entwicklungen und räumlichen Strukturen, die wesentlich vom Zufall beeinflusst werden. Skript Statistik und Stochastik 9 Referenzen Das in der Vorlesung behandelte Gebiet ist sehr weit und es gibt natürlich eine Unmenge an Literatur zu den verschiedenen Themen. So wie man sich im Wald dieser Literatur verlieren kann, so kann man sich auch im Wald einer zu langen Literaturliste verlieren. Ich möchte deshalb im Folgenden nur sehr wenige, meines Erachtens nützliche, Hinweise geben. Sehr kostengünstig sind natürlich die im Internet verfügbaren Informationen. Diese Informationen werden auch von Jahr zu Jahr besser. Interessant sind sicherlich die unter http://de.wikipedia.org/wiki/Mathematik vorhandenen Beiträge: über Mengenlehre, Analysis, ... Sehr gut und hilfreich können als Zusatzinformation zur Vorlesung im Gebiete der Statistik auch die beiden folgenden Bücher (zusammen 600 Seiten) sein: † "Wahrscheinlichkeitsrechnung und schliessende Statistik" von K. Mosler und F. Schmid, Springer, 2. Auflage, 2006. www.uni-koeln.de/wiso-fak/wisostatsem/buecher/wrechng_schliessende/index.htm † "Beschreibende Statistik und Wirtschaftsstatistik" von K. Mosler und F. Schmid, Springer, Berlin, 2. Auflage, 2005. www.uni-koeln.de/wiso-fak/wisostatsem/buecher/beschr_stat/ Skript Statistik und Stochastik 10 2. Wahrscheinlichkeitstheorie Was ist Wahrscheinlichkeit? Wahrscheinlichkeitstheorie ist der Zweig der Mathematik, der sich mit Zufallsexperimenten befasst, mit ihrer Beschreibung und der Aufdeckung von Gesetzmässigkeiten. Es wird versucht mathematische Modelle zu finden für Experimente, bei denen mehrere verschiedene Verläufe möglich sind und deren Ergebnisse ganz oder teilweise vom Zufall abhängen. Insbesondere sollen die Gesetzmässigkeiten bei vielfacher Wiederholung des Experiments aufgespürt werden. Bei einem Würfelexperiment kann nicht vorausgesagt werden, welche Augenzahl eintreten wird. Bei vielfachen Wiederholungen des Experiments scheint jedoch der Anteil der Experimente, bei denen 1, 2, ... 6 gewürfelt wird, einer festen Grösse zuzustreben. Eine zentrale und naheliegende Frage lautet: "Was ist Wahrscheinlichkeit?". Auf diese Frage gibt es keine befriedigende Antwort. Intuitive Antworten können folgendermassen lauten. Laplace'sche Wahrscheinlichkeitsdefinition Ein unverfälschter (d.h. symmetrischer, unmanipulierter) Würfel werde geworfen und wir fragen nach der Wahrscheinlichkeit, dass die geworfene Augenzahl gerade ist. In diesem Beispiel wird wohl jeder antworten, dass die Wahrscheinlichkeit 50% sei, da die Hälfte der möglichen Ergebnisse (d.h. die Augenzahl 2, 4, 6) günstig und die andere Hälfte der Ergebnisse (d.h. die Augenzahlen 1, 3, 5) ungünstig ist. Die Laplace'sche Wahrscheinlichkeit wird als Quotient der Anzahl günstiger Ereignisse und der Anzahl möglicher Ereignisse definiert. Diese Definition bedeutet auch, dass alle Ergebnisse eines Experiments gleich wahrscheinlich sind. Wahrscheinlichkeit als relative Häufigkeit in einer endlichen Grundgesamtheit. Eine andere intuitive Wahrscheinlichkeitsvorstellung folgt aus dem folgenden Beispiel. In einer Gruppe von 100'000 Personen seien 20'000 zwischen 10 und 20 Jahren alt. Wie gross ist die Wahrscheinlichkeit, dass eine zufällig aus der Gruppe ausgewählte Person in diese Alterskategorie fällt. Intuitiv würde man sagen 20%, d.h. der Quotient aus 20'000 und 100'000, d.h. die relative Häufigkeit eines Merkmals in einer endlichen Grundgesamtheit (dazu mehr später). Auch hier wird - wenn man nicht mehr dazu weiss - vorausgesetzt, dass jede der 100'000 Personen die gleiche Wahrscheinlichkeit hat, dieser Alterskategorie anzugehören. Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit bei wachsender Anzahl von Wiederholungen des Experiments Bei den bisherigen zwei Möglichkeiten konnte man (oder musste man, da man keine Zusatzinformationen hatte) auf Grund von Symmetrieeigenschaften annehmen, dass die Wahrscheinlichkeiten (eine bestimmte Augenzahl zu würfeln bzw. einer bestimmten Alterskategorie anzugehören) gleich gross waren. Im folgenden Beispiel können keine solchen Symmetrieeigenschaften verwendet werden. Es wird z.B. gefragt, wie gross die Wahrscheinlichkeit ist, dass beim Wurf eines unsymmetrischen Gegenstands der Gegenstand auf einer bestimmten Fläche landet. Hier liefert uns weder die Theorie (Symmetrie) noch die relative Häufigkeit einer endlichen Grundgesamtheit eine Antwort. Wir müssen das Experiment durchführen und die relative Häufigkeit für eine grosse Anzahl an Versuchen bestimmen. Wir gehen dann davon aus, dass im Grenzübergang für n gegen ¶ die relative Häufigkeit einem Grenzwert, den wir als Wahrscheinlichkeit dieses Experiments bezeichnen, zustrebt. Diese verschiedenen Ansätze sind für die Mathematik und rigorose Behandlung nicht geeignet. Die Wahrscheinlichkeitstheorie wurde jedoch mit dem weiter unten behandelten Axiomensystem auf eine feste Grundlage gestellt. Zum Verständnis des Axiomensystems müssen wir jedoch ein wenig ausholen. Skript Statistik und Stochastik 11 Ergebnisraum und Ereignisraum Zufallsexperiment Wichtige Begriffe im Zusammenhang mit der Wahrscheinlichkeitstheorie sind "Zufallsexperiment", "Ergebnis", "Elementarereignis", "Ereignis" und "Wahrscheinlichkeit". Diese Terminologie soll in diesem Abschnitt definiert und erläutert werden. Ein Zufallsexperiment ist ein Experiment - mit mehreren (mindestens 2) möglichen Ergebnissen; - dabei lässt sich nicht sicher voraussagen, welches Ergebnis eintritt; - die Ergebnismenge ist jedoch festgelegt; d.h. alle potentiell möglichen Ergebnisse sind bekannt; Bei einem Zufallsexperiment spielt also der Zufall eine wesentliche Rolle. Beispiele für Zufallsexperimente sind: † Einmaliges Werfen einer Münze; † Das Ziehen einer Karte (z.B. aus einem Quartett); † Die Ziehung der Lottozahlen (6 aus 49); † 1x Würfeln; † Gleichzeitiges Werfen eines roten und grünen Würfels; Die Menge aller möglichen Ergebnisse w eines Zufallsexperiments ist die Ergebnismenge W. Die Ergebnismenge wird mit dem griechischen Buchstaben W bezeichnet, die einzelnen Ergebnisse allgemein mit dem kleinen griechischen Buchstaben w. Die Ergebnismenge † ist eine nichtleere Menge; † kann endlich sein: z.B. 81, 2, 3, 4, 5, 6< beim einmaligen Würfeln; † kann abzählbar unendlich sein; z.B. beim Würfeln bis zum ersten 6-er; Die Ergebnismengen für die obenstehenden Beispiele von Zufallsexperimenten sind: † W = 8Kopf, Zahl< † W = 8Herz As, Herz König, Herz ....<; d.h. die Menge aller Karten † W = 8 8a, b, c, d, e, f < mit a, b, c, d, e, f œ 81, 2, ... 49< und je zwei nicht gleich < † W = 8 1, 2, 3, 4, 5, 6 < † W = 8 81, 1<, 81, 2<, ... 81, 6<, 82, 1<, 82, 2<, ... 86, 6< < Oft ist man jedoch nicht am genauen Ergebnis w eines Experiments interessiert, sondern an einem allgemeineren Ereignis. Formal wird ein allgemeineres Ereignis A definiert als Teilmenge des Ergebnisraums. Z.B. könnte im obigen Experiment "1x Würfeln" das Ereignis "Würfeln einer geraden Zahl" lauten und dieses Ereignis würde der Teilmenge {2, 4, 6} des Ergebnisraums 8 1, 2, 3, 4, 5, 6 < entsprechen. Ein Ereignis kann also mehrere Ergebnisse umfassen. Spezielle Ereignisse sind sogenannte Elementarereignisse, die genau einem Ergebnis (z.B. "Würfle eine 6", d.h. 86<) entsprechen. 12 Skript Statistik und Stochastik Ein Ereignis A ist eine Teilmenge der Ergebnismenge W. Die Ergebnismenge W heisst das sichere Ereignis, die leere Menge 8< das unmögliche Ereignis. Die Elemente w aus W heissen auch Elementarereignisse. Es gibt sehr viele Ereignisse (z.B. "Gerade Augenzahl würfeln", "2 oder 4 würfeln", "Keine 5 würfeln", etc.) und jedes Ereignis ist eine Teilmenge des Ergebnisraums. Für die obenstehenden Zufallsexperimente können wir z.B. folgende Ereignisse A wählen: † A = 8Kopf<; Kopf wird geworfen; † A = {Herz As, Karo As, .... As} ; es wird ein As gezogen; † A = 8 81, b, c, d, e, f < mit b, c, d, e, f œ 81, 2, ... 49< und je zwei nicht gleich <; es wird sicher eine 1 gezogen; † A = 8 2, 4, 6 <; es wird eine gerade Zahl gewürfelt; † A = 8 85, 6<, 86, 5<, 86, 6< <; die Summe der Augenzahlen ist grösser als 10; Der Ereignisraum ist die Menge aller Ereignisse und entspricht zumeist der Potenzmenge (d.h. der Menge aller Teilmengen) des Ergebnisraums. Der Ereignisraum kann sehr schnell sehr gross werden. Im Folgenden werden an Hand zweier (leicht komplizierterer) Experimente die Begriffe Ergebnis w, Ergebnisraum W, Elementarereignis, Ereignis A und Ereignisraum noch etwas ausführlicher behandelt. Man sieht anschaulich, dass die Grösse des Ereignisraums sehr schnell anwachsen kann. Illustration: Drei Mal eine Münze Werfen In diesem Experiment wird drei Mal hintereinander eine Münze geworfen, wobei bei jedem Wurf Kopf (0) oder Zahl (1) als Ergebnis möglich ist. Bei dreimaligem Würfeln ergibt sich der folgende Ergebnisraum: 880, 0, 0<, 80, 0, 1<, 80, 1, 0<, 80, 1, 1<, 81, 0, 0<, 81, 0, 1<, 81, 1, 0<, 81, 1, 1<< Der Ergebnisraum W enthält die Ergebnisse bzw. Elementarereignisse {0,0,0}, {0,0,1}, ... und umfasst insgesamt 8 verschiedene Ergebnisse (Elementarereignisse). Die Anzahl der möglichen Ereignisse (d.h. die Menge aller Teilmengen des Ergebnisraums bzw. die Potenzmenge von W) ist bereits 256 gemäss der allgemeinen Formel zur Berechnung der Mächtigkeit der Potenzmege von W ( 2n = 28 = 256 ), wobei n die Mächtigkeit (Anzahl Elemente) von W ist. Die Begriffe werden in Kürze näher erklärt. Illustration: Zwei Mal Würfeln In diesem Experiment wird zwei Mal hintereinander gewürfel, wobei bei jedem Wurf die Augenzahlen 1, 2, 3, 4, 5 oder 6 als Ergebnis möglich sind. Bei zweimaligem Würfeln ergibt sich der folgende Ergebnisraum: 881, 82, 84, 85, 1<, 4<, 1<, 4<, 81, 82, 84, 85, 2<, 5<, 2<, 5<, 81, 82, 84, 85, 3<, 6<, 3<, 6<, 81, 83, 84, 86, 4<, 1<, 4<, 1<, 81, 83, 84, 86, 5<, 2<, 5<, 2<, 81, 83, 84, 86, 6<, 3<, 6<, 3<, 82, 83, 85, 86, 1<, 4<, 1<, 4<, 82, 83, 85, 86, 2<, 5<, 2<, 5<, 82, 83, 85, 86, 3<, 6<, 3<, 6<< Es gibt also 36 (d.h. 6 mal 6) verschiedene Ergebnisse. Der Ereignisraum umfasst alle Teilmengen des Ergebnisraums. Diese Menge hat sehr viele Elemente, nämlich 236 oder fast 70 Milliarden (genau: 68719476736). Skript Statistik und Stochastik 13 Empirisches Gesetz der grossen Zahlen Das wesentliche Merkmal eines Zufallsexperiments ist, dass wir vor seiner Durchführung nicht wissen, welches der möglichen Ergebnisse eintreten wird. Für ein bestimmtes Ereignis A können wir nicht mit Sicherheit voraussagen, ob es eintreten wird oder nicht; es sei denn, A ist entweder das sichere Ereignis W oder das unmögliche Ereignis 8<. Wir wollen im Folgenden zahlenmässig zu erfassen versuchen, wie "stark" mit dem Eintreten des Ereignisses A zu rechnen ist. Dazu bietet sich der folgende experimentelle Weg an: wir führen ein Zufallsexperiment mehrfach nacheinander durch und notieren die (sogenannte absolute) Häufigkeit Hn HAL des Auftretens des Ereignisses A bei n-facher Hn HAL ÅÅÅÅÅÅ . Wiederholung sowie die davon abgeleitete relative Häufigkeit hn HAL = ÅÅÅÅÅÅÅÅ n Man beobachtet nun im Allgemeinen, dass die relative Häufigkeit mit wachsendem n in der Regel immer weniger um einen festen Wert schwankt. Dieser sogenannte Stabilisierungseffekt ist eine Erfahrungstatsache und wird das empirische Gesetz der grossen Zahlen genannt. Kolmogorov'sches Axiomensystem Nachdem wir die unbefriedigende Situation mit dem Begriff bzw. der Definition der Wahrscheinlichkeit diskutiert sowie wichtige Begriffe von Zufallsexperimenten erläutert haben, können wir den axiomatischen Wahrscheinlichkeitsbegriff bzw. den mathematischen Ansatz, die Wahrscheinlichkeitstheorie auf ein Fundament zu stellen, behandeln. Wir geben im Folgenden das Kolmogorov'sche Axiomensystem (1930er Jahre), die Grundlage der Wahrscheinlichkeitstheorie, wobei W die endliche (oder abzählbar unendliche) Ergebnismenge eines Zufallsexperiments bedeutet. Ein Wahrscheinlichkeitsraum ist ein Tripel HW, , PL, wobei W eine nichtleere Menge ist, eine s-Algebra von Teilmengen von W, d.h. ist nicht leer, aus B œ folgt Bc œ und aus A1 , A2 , ... œ folgt A1 ‹ A2 .... œ , und P : Ø @0, 1D ist eine Abbildung mit folgenden Eigenschaften: Axiom1: PHWL = 1 Axiom 2: PHA ‹ BL = PHAL + PHBL für disjunkte Ereignisse A und B Axiom 3: wie Axiom 2 für eine ¶ Folge von paarweise disjunkten Ereignissen Die Funktion P : Ø @0, 1D heisst Wahrscheinlichkeitsmass, Wahrscheinlichkeitsabbildung, Wahrscheinlichkeitsverteilung oder auch kurz Wahrscheinlichkeit. Wie man leicht einsehen kann, decken sich diese Axiome mit der intuitiven Vorstellung von Wahrscheinlichkeit: † Gemäss Axiom 1 ist die Wahrscheinlichkeit, irgendein Ergebnis des Ergebnisraums zu erzielen, gleich eins (d.h. völlige Sicherheit). † Gemäss Axiom 2 ist die Wahrscheinlichkeit eine 1 oder eine 2 zu würfeln (dies sind disjunkte Ereignisse) gleich der Summe der Wahrscheinlichkeiten der beiden (Elementar)ereignisse, d.h. ÅÅÅÅ26 . † Die Wahrscheinlichkeit ist nie grösser als 1 (das sicherer Ereignis) und nie kleiner als 0 (das unmögliche Ereignis). Eigenschaften von Wahrscheinlichkeitsmassen In der Praxis ist es oft so, dass die Wahrscheinlichkeit eines Ereignisses nicht direkt ausgerechnet werden kann. Dann kann man versuchen, das Ereignis als Vereinigung, Durchschnitt, Differenz oder Komplement von Ereignissen, deren Wahrscheinlichkeit einfacher berechnet werden kann, zu schreiben und die folgenden Beziehungen anzuwenden. Diese Beziehungen können aus dem Axiomensystem abgeleitet werden: † PH«L = 0 14 Skript Statistik und Stochastik † 0 § PHAL § 1 † PHAc L = 1 - PHAL † A Õ B fl PHB \ AL = PHBL - PHAL † A Œ B fl PHAL § PHB † PHB \ AL = PHBL - PHA › BL † PHA ‹ BL = PHAL + PHBL - PHA › BL † PHA ‹ BL § PHAL + PHBL † PHA1 ‹ A2 ‹ ... ‹ An L § ⁄ni=1 PHAi L In dieser Zusammenstellung sind A und B Ereignisse des Wahrscheinlichkeitsraums HW, , PL und Ac das Komplement von A. Beispiel 1 Wie gross ist die Wahrscheinlichkeit, beim n-maligen Würfeln wenigstens eine 6 zu würfeln? Lösung Das Ereignis "Würfle mindestens eine 6 bei n-maligem Würfeln" ist das Komplement des Ereignisses A "Würfle nur die Zahlen 1, 2, 3, 4, 5 bei n-maligem Würfeln". Der Ergebnisraum W beim n-maligen Würfeln hat die Grösse 6n . Die Anzahl der möglichen Ergebnisse, das Ereignis A zu erzielen (d.h. die Grösse von A), beträgt 5n , da bei jedem Wurf nur 5 verschiedene Zahlen möglich sind. Die Wahrscheinlichkeit, das Ereignis A zu erzielen beträgt demnach H ÅÅÅÅ56 L . n Die Wahrscheinlichkeit, das Komplement, d.h. beim n-maligen Würfeln wenigstens eine 6 zu würfeln, beträgt demn nach 1 - H ÅÅÅÅ56 L und strebt für n gegen ¶ gegen 1. Beispiel 2 In einer Stadt erscheinen zwei Zeitungen A und B. Die Wahrscheinlichkeit, dass ein Einwohner - die Zeitung A liest sei 60%; - die Zeitung B liest sei 50%; - die Zeitung A oder B oder beide liest sei 90%. Wie gross ist die Wahrscheinlichkeit, dass ein Einwohner - a. beide Zeitungen liest; - b. keine der beiden Zeitungen liest; - c. nur eine der beiden Zeitungen liest. Lösung Wenn A das Ereignis ("Lesen der Zeitung A") und B das Ereignis ("Lesen der Zeitung B") bezeichnet, dann gilt: a. PHA › BL = PHAL + PHBL - PHA ‹ BL = 60 % + 50 % - 90 % = 20 % êêê êê de Morgan êêêêêêêêê b. PHA › BL = PHA ‹ BL = 1 - PHA ‹ BL = 100 % - 90 % = 10 % c. PHA ‹ BL \ PHA › BL = PHA ‹ BL - PHHA › BL › HA ‹ BLL = PHA ‹ BL - PHA › BL = 90 % - 20 % = 70 % Skript Statistik und Stochastik 15 Venn Diagramme Mit Hilfe der Venn Diagramme lassen sich die Beziehungen zwischen Ereignissen, die symbolisch oder in Worten gegeben sind, auch anschaulich graphisch darstellen. Siehe dazu im Kapitel "Mengenlehre" des Skripts "Abbildungen". Skript Statistik und Stochastik 16 3. Elementare Kombinatorik Einleitung Nachdem wir verschiedene mathematische (mengentheoretische) Beziehungen besprochen haben, möchten wir einen etwas genaueren Blick auf verschiedene Zufallsexperimente werfen. Dabei definieren wir zunächst den für unsere Zufallsexperimente wichtigen Begriff des Laplace Experiments, bei dem jedes Ergebnis mit der gleichen Wahrscheinlichkeit auftritt. Wichtige Zufallsexperimente sind auch die sogenannten Bernoulli Experimente, bei dem nur zwei Ergebnisse jedoch mit unterschiedlicher Wahrscheinlichkeit auftreten können, sowie vor allem die mehrstufigen Bernoulli Experimente, die aus mehreren Bernoulli Experimenten zusammengesetzt sind. Anschliessend untersuchen wir im Detail sogenannte Urnenexperimente, bei denen aus einer Urne mit n Kugeln k Kugeln gezogen und die möglichen resultierenden Anordnungen und deren Wahrscheinlichkeiten studiert werden. Es gibt dabei verschiedene experimentelle Situationen zu berücksichtigen: mit oder ohne Zurücklegen der Kugel, mit oder ohne Berücksichtigung der Anordnung sowie mit verschiedenen oder teilweise gleichen Kugeln. Diese Analyse führt uns ins Gebiet der Kombinatorik. Es lassen sich (für Standardsituationen) explizite Formeln herleiten, die es ermöglichen auf schnelle Art und Weise die möglichen Ergebnisse verschiedener Zufallsexperimente und deren Wahrscheinlichkeiten anzugeben. Es wird weiters dargelegt, dass die gleichen Formeln auch für eine andere experimentelle Situation, nämlich der Aufgabe, k Kugeln auf n Behälter zu verteilen, angewendet werden können. Auch hier gibt es wieder verschiedene (zu den Urnenexperimenten analoge) experimentelle Situationen. Für kompliziertere Situationen in der Praxis (vor allem wenn das Experiment zeitabhängige Aspekte enthält) kann oft nur eine Simulation des Experiments eine Lösung bringen. Es ist jedoch zu beachten, dass bei solchen Zufallsexperimenten die Anzahl der Möglichkeiten sehr schnell ins Unermessliche steigt, und deshalb die ganzen Berechnungen (aus Zeit- und Memory Überlegungen) idealerweise in (durch Formeln berechenbare) Teile aufgeteilt werden. Die verschiedenen in diesem Kapitel besprochenen Zufallsexperimente führen in natürlicher Weise auf diskrete Verteilungen. Die wichtigsten dieser (theoretisch abgeleiteten) Verteilungen und deren Eigenschaften werden jedoch erst in den folgenden Kapiteln behandelt. Laplace Experimente Laplace Wahrscheinlichkeit In vielen experimentellen Situationen (wie: würfeln, Münze werfen, Karte ziehen etc.) ist jedes Ergebnis mit der gleichen Wahrscheinlichkeit zu erwarten. Die Voraussetzung der Gleichwahrscheinlichkeit heisst Laplace-Annahme. Zufallsexperimente, bei denen die Laplace-Annahme zugrunde gelegt wird, heissen Laplace-Experimente. Sei W = 8w1 , w2 , ... wn < die endliche Ergebnismenge eines Zufallsexperiments. Dann heisst die Abbildung P mit: Anzahl der für das Eintreten von A günstigen Fälle »A» PHAL = ÅÅÅÅ ÅÅ Å = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ " A Õ W »W» Anzahl der möglichen Fälle Laplace-Wahrscheinlichkeit. Skript Statistik und Stochastik 17 Ein Laplace-Experiment geht also von der Annahme aus, dass nur endlich viele Ergebnisse möglich sind und diese alle die gleiche Wahrscheinlichkeit haben. Beim Werfen einer Münze ist jedes der Ergebnisse (Kopf, Zahl) mit der gleichen 50% Wahrscheinlichkeit zu erwarten. Beim Würfeln ist jede Augenzahl (1, 2, 3, 4, 5, 6) mit der gleichen ÅÅÅÅ16 Wahrscheinlichkeit zu erwarten. Mehrstufige Laplace Experimente - Baumdiagramme Vorgänge, die sich aus mehreren Teilvorgängen zusammensetzen, heissen mehrstufige Vorgänge (z.B. 5x würfeln). Den Ablauf eines mehrstufigen Vorgangs kann man oft übersichtlich als Baumdiagramm darstellen. Nach jedem Teilvorgang verzweigt sich der Baum. In die Knoten des Baums trägt man in Kreise das bisherige Ergebnis ein. Von jedem Knoten können Äste abzweigen; die Äste entsprechen den möglichen Ergebnissen des nächsten Teilvorgangs. An jeden Ast schreibt man die Wahrscheinlichkeit, die besteht um von einem Knoten zum nächsten Knoten zu gelangen. Die Summe der Wahrscheinlichkeiten bei jedem Knoten beträgt 1. Zu jedem möglichen Ablauf des Gesamtvorgangs gehört ein Weg durch das Baumdiagramm - ein sogenannter Pfad. Es gibt zwei Pfadregeln: In einem Baumdiagramm für einen mehrstufigen Vorgang gilt: Produktregel: Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten entlang dieses Pfades. Summenregel: Die Wahrscheinlichkeit eines Ereignisses ist gleich der Summe der Pfadwahrscheinlichkeiten (d.h. gleich der Summe der Wahrscheinlichkeiten, die für dieses Ereignis günstig sind). Bernoulli Experimente Bei einem Bernoulli Experiment interessiert nur, ob ein Ereignis A eintritt oder nicht. Im ersten Fall spricht man von Erfolg mit der Wahrscheinlichkeit PHAL = p. Im zweiten Fall spricht man von Misserfolg mit der Wahrscheinlichkeit PHAL = 1 - p. Wird ein Bernoulli Experiment mehrfach durchgeführt, spricht man von einer Bernoulli Kette. Bernoulli Formel In einer Bernoulli Kette der Länge n mit der Erfolgswahrscheinlichkeit p gilt: n! PHGenau k ErfolgeL = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ pk H1 - pLn-k k = 0, 1, ... n k! Hn-kL! iny Statt ÅÅÅÅÅÅÅÅ Ån!ÅÅÅÅÅÅÅÅÅÅÅ wird meist jj zz (sprich: n über k) geschrieben. k! Hn-kL! kk{ Mit Hilfe eines Baumdiagramms kann man diese Formel herleiten, bei der der Binomialkoeffizient die Anzahl der verschiedenen Wege darstellt, die zu dem Ereignis "Genau k Erfolge" führen. Summenregel Bei den weiter unten zu besprechenden Urnenexperimenten wird immer wieder auf die Summenregel und die Produktregel zurückgegriffen. Sie werden in diesem und dem nächsten Abschnitt kurz erläutert. Summenregel: Die Anzahl der Möglichkeiten n, ein Element aus einer von zwei diskunkten Mengen A und B zu wählen, ist die Summe der Elemente der beiden Mengen: n = n A + nB Skript Statistik und Stochastik 18 Diese Regel ist unmittelbar einleuchtend. Bei zwei disjunkten Mengen 8a, b, c< und 8d, e< gibt es insgesamt 5 verschiedene Möglichkeiten ein Element zu wählen, nämlich eines aus der Vereinigungsmenge 8a, b, c, d, e<. Produktregel Die Anzahl der Möglichkeiten, aus zwei Mengen ein geordnetes Paar zu wählen, ist gleich der Anzahl der Möglichkeiten, das erste Element zu wählen, multipliziert mit der Anzahl der Möglichkeiten, das zweite Element zu wählen. Diese Regel ist auch unmittelbar einleuchtend. Jedes Element der ersten Menge kann mit den Elementen der zweiten Menge gepaart werden. Z.B. bei den zwei Mengen {a,b} und {c,d} gibt es die Ergebnisse {a,c}, {a,d}, {b,c}, {b,d}. Permutationen und Binomialverteilung Einleitung In vielen Fällen ist zur Berechnung von Wahrscheinlichkeiten ein systematisches Abzählen von Mengen wichtig. Die Kombinatorik ist das Teilgebiet der Mathematik, das sich damit beschäftigt. Fast alle Zufallsexperimente (mit gleichen Wahrscheinlichkeiten) lassen sich auf die in den nächstenen Abschnitten besprochenen Urnenmodelle zurückführen. Darin werden Experimente besprochen wo es darum geht, aus einer Urne, die n (verschiedene oder teilweise gleiche) Kugeln enthält, k Kugeln zu ziehen (mit und ohne Zurücklegen) und zu bestimmen, wieviele verschiedene Konfigurationen (mit oder ohne Berücksichtigung der Anordnung) möglich sind. Im Folgenden werden verschiedene Begriffe im Zusammenhang mit Listen von nummerierten Kugeln verwendet, die hier zusammenfassend kurz erklärt und definiert sind: Kombinatorik † Geordnet heisst, dass es auf die Reihenfolge der Elemente ankommt. † Variation heisst geordnet (d.h. die Reihenfolge wird berücksichtigt, z.B. aufeinanderfolgendes Ziehen). † Kombination heisst nicht geordnet (d.h. Reihenfolge wird nicht berücksichtigt, z.B. gleichzeitiges Ziehen). † ein k-Tupel ist eine Liste von k Elementen; † Ein k-Tupel einer Menge mit n Elementen ist eine geordnete Folge von k Elementen, wobei Elemente auch mehrfach vorkommen können. k-Tupels können auch als Auswahl mit Wiederholungen bzw.Zurücklegen, oder als Stichproben oder Variationen mit Wiederholungen aufgefasst werden. † Eine k-Repetition einer Menge mit n Elementen ist eine ungeordnete Auswahl von k Elementen, wobei Elemente auch mehrfach vorkommen können. k-Repetitionen können auch als Kombinationen mit Wiederholungen bzw. Zurücklegen aufgefasst werden. † Eine k-Permutation einer Menge mit n (n ≥ kL Elementen ist eine geordnete Auswahl von k paarweise verschiedenen Elementen aus der Menge. Eine n-Permutation wird auch einfach Permutation genannt. k-Permutationen können auch als Auswahl ohne Wiederholungen bzw. Zurücklegen, oder als Stichproben oder Variationen ohne Wiederholungen aufgefasst werden. † Eine k-Kombination einer Menge mit n (n ≥ kL Elementen ist eine ungeordnete Auswahl von k paarweise verschiedenen Elementen aus der Menge. k-Kombinationen können auch als ungeordnete Auswahl ohne Wiederholungen bzw. Zurücklegen, oder als Kombination ohne Wiederholungen aufgefasst werden. † n! (gesprochen: n Fakultät) entspricht dem Produkt 1 ä2 ä ... ä n. Skript Statistik und Stochastik 19 Mengenlehre † Beachten Sie, dass es bei Mengen auf die Reihenfolge ihrer Elemente nicht ankommt. † Die Mächtigkeit einer Menge gibt die Anzahl ihrer Elemente an. † Die Potenzmenge einer Menge ist die Menge aller Teilmengen dieser Menge. Wenn die Menge n Elemente hat, so hat die Potenzmenge 2n Elemente. † Begriffe: Vereinigungsmenge, Durchschnittsmenge, Komplementärmenge (Komplement). Bevor wir diese allgemeinen Urnenexperimente untersuchen, soll jedoch noch auf wichtige Spezialfälle (mit k = n) eingegangen werden. Ohne Zurücklegen - alle verschieden Es gibt n ! mögliche Anordnungen (Variationen), wenn n Kugeln aus einer Urne mit n verschiedenen Kugeln gezogen werden (ohne Zurücklegen und mit Berücksichtigung der Reihenfolge). Es gibt nur eine Kombination. Bei der ersten Kugel gibt es n Möglichkeiten, bei der zweiten nur noch (n - 1), etc. bis 1: d.h. die Anzahl der Möglichkeiten ist: n Hn - 1L Hn - 2L ... 2 1 = n! Zur Angabe dieser Anzahl wurde eine neue Funktion (Fakultät bzw.!) definiert: es gilt n ! = 1 ä2 ä ... ä n Die Anzahl der Kombinationen, bei denen es auf die Reihenfolge nicht ankommt, ist gleich 1, da alle Anordnungen (Variationen) die gleichen Elemente enthalten, nämlich alle n (verschiedenen) Kugeln. Beispiel Gegeben sei die Menge 8a, b, c<. Es gibt die folgenden 3 ! = 6 Permutationen (Variationen): 88a, b, c<, 8a, c, b<, 8b, a, c<, 8b, c, a<, 8c, a, b<, 8c, b, a<< Es gibt nur eine Kombination: 88a, b, c<< Ohne Zurücklegen - mehrere Klassen n! Es gibt ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅ verschiedene Möglichkeiten n Kugeln, die in m Klassen von je ki Hi = 1, .. mL nicht unterscheidbaren Kugeln k1 ! k2 ! ... km ! eingeteilt werden können (und ⁄m i=1 ki = n gilt), anzuordnen. Es gibt n ! Möglichkeiten n Kugeln anzuordnen. Jede nichtunterscheidbare Art (z.B. Farbe rot) kann auf ki ! verschiedene Arten angeordnet werden, ohne dass man an der Darstellung einen Unterschied bemerkt. Man muss also durch alle diese ki ! teilen. n! 10! Beispiel: 3 blaue und 7 rote Kugeln können auf ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅ = 120 verschiedene Arten angeordnet werden. k1 ! k2 ! 3! 7! Ohne Zurücklegen - mit 2 Klassen Ein wichtiger Spezialfall der vorherigen Situation ist der Fall, wenn zwei Klassen (d.h. m = 2) vorhanden sind. 20 Skript Statistik und Stochastik n! n! Es gibt ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ verschiedene Möglichkeiten n Kugeln, die in 2 Klassen mit Häufigkeit k bzw. n - k eingeteilt werden k1 ! k2 ! k! Hn-kL! können, anzuordnen. i 10 y 10! Beispiel: Wir können das vorherige Beispiel verwenden und erhalten wiederum jj zz = ÅÅÅÅÅÅÅÅ ÅÅÅ = 120 . k 3 { 3! 7! Urnenexperimente bei verschiedenen Elementen Urnenexperimente In diesem Kapitel werden wir zunächst eine Urne mit n verschiedenen (z.B. von 1 bis n durchnummerierten) Kugeln betrachten und wir ziehen zufällig k-mal nacheinander eine Kugel aus der Urne. Die möglichen Ergebnisse und die Mächtigkeit des Ergebnisraumes hängen dabei entscheidend von der Art der Ziehung ab. Es kann die Reihenfolge der gezogenen Elemente berücksichtigt werden (man spricht dann von Variation oder geordneter Liste) oder nicht (man spricht dann von Kombination oder ungeordneter Liste). Die Anzahl der Variationen ist grösser als die (oder gleich der) Anzahl der Kombinationen. Dementsprechend ist die Wahrscheinlichkeit, ein bestimmtes Ergebnis zu erzielen, bei der Variation kleiner als die (oder gleich der) Wahrscheinlichkeit bei der entsprechenden Kombination. Bei einer Variation muss notwendigerweise nacheinander gezogen werden, bei einer Kombination könnte auch gleichzeitig gezogen werden. Beispiel: Bei der Variation unterscheidet man zwischen den Ergebnissen 82, 4, 8< und 84, 8, 2<, bei der Kombination werden sie jedoch als das gleiche Ergebnis betrachtet. Eine weitere Unterscheidung besteht darin, ob nach dem Ziehen der Kugel die Kugel zurückgelegt wird oder nicht. Dies führt auf die Unterscheidung mit / ohne Zurücklegen. Wenn alle Elemente verschieden sind, hat man im zweiten Fall auch im Ergebnis nur unterschiedliche Kugeln. Diese zwei Unterscheidungen (Variation oder Kombination, mit oder ohne Zurücklegen) führen auf insgesamt 4 verschiedene experimentelle Situationen, die in diesem Kapitel genauer behandelt werden. In einem späteren Abschnitt wird ausserdem noch die Unterscheidung gemacht, ob alle Kugeln unterschiedlich sind oder nicht. Dies führt auf weitere unterschiedliche experimentelle Situationen. Mit Zurücklegen und Geordnet (k-Tupel) Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt. Jede unterschiedliche Anordnung von k Kugeln wird gezählt. Anzahl Möglichkeiten: nk = ´¨¨¨¨ n ¨¨¨≠...¨¨¨¨¨nÆ k-mal Es gibt nk k-Tupel, da es n Möglichkeiten zur Wahl des ersten Elements der Folge, n Möglichkeiten zur Wahl des zweiten Elements der Folge, etc. ... gibt. Jede Möglichkeit tritt mit der Wahrscheinlichkeit ÅÅÅÅ1n auf, jedes k-Tupel tritt mit der gleichen Wahrscheinlichkeit H ÅÅÅÅ1n L auf. k Beispiel Gegeben sei die Menge 8a, b, c<. 21 Skript Statistik und Stochastik Es gibt die folgenden nk = 32 = 8 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu ziehen: 88a, a<, 8a, b<, 8a, c<, 8b, a<, 8b, b<, 8b, c<, 8c, a<, 8c, b<, 8c, c<< Mit Zurücklegen und Ungeordnet (k-Repetition) Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt. Von Tupels, die die gleichen Elemente enthalten, wird nur eines gezählt. Anzahl Möglichkeiten: ij n + k - 1 yz j z k k { Diese Herleitung ist ein wenig komplizierter. Wir können jedoch folgende Überlegung anstellen. Da die Reihenfolge nicht interessiert, können wir eine Strichliste anlegen: d.h. wir schreiben der Reihe nach für jede der n Kugeln Striche entsprechend der Anzahl mit der diese Kugel gezogen wurde und trennen diese Gruppe von Strichen für benachbarte n jeweils durch ein Trennzeichen. Wir haben also insgesamt k Striche plus n - 1 Trennzeichen, die wir auf Hn + k - 1L ! verschiedene Arten anordnen können. Da jedoch die Striche und Zwischenräume nicht unterscheidbar sind, müssen wir diese Anzahl durch k ! und Hn - 1L! teilen und erhalten als Ergebnis i k + n - 1 yz Hk+n-1L! ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅ = jj z. k! Hn-1L! k k { Beispiel Gegeben sei die Menge 8a, b, c<. Hk+n-1L! 4! Es gibt die folgenden ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅ = 6 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu 2! 2! k! Hn-1L! ziehen: 88a, a<, 8a, b<, 8a, c<, 8b, b<, 8b, c<, 8c, c<< Ohne Zurücklegen und Geordnet (k-Permutation) Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt. Jede unterschiedliche Anordnung von k Kugeln wird gezählt. Anzahl Möglichkeiten: n! ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ = n´¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ Hn - 1L ...¨¨≠Hn - k +¨¨¨¨1L ¨¨¨¨¨¨¨¨ ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ ¨¨¨¨Æ Hn-kL! k-mal n! Es gibt ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ k-Permutationen, da es n Möglichkeiten zur Wahl des ersten Element der Folge, (n - 1) Möglichkeiten Hn-kL! n! zur Wahl des zweiten Elements, etc. ... gibt, also: n Hn - 1L ... Hn - k + 1L = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ . Hn-kL! Spezialfall k = n Es gibt n ! n-Permutationen bzw. Permutationen. Beim ersten Ziehen gibt es n Möglichkeiten, beim zweiten n - 1, etc. .... und schliesslich beim letzten Zug eine Möglichkeit. Die Totalanzahl der Möglichkeiten beträgt demnach n Hn - 1L ... 1 = n ! Beispiel Gegeben sei die Menge 8a, b, c<. 22 Skript Statistik und Stochastik 3! n! Es gibt die folgenden ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅ ÅÅ = 6 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu ziehen: Hn-kL! 1! 88a, b<, 8b, a<, 8a, c<, 8c, a<, 8b, c<, 8c, b<< Ohne Zurücklegen und Ungeordnet (k-Kombinationen) Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt. Von Tupels, die die gleichen Elemente enthalten, wird nur eines gezählt. Anzahl Möglichkeiten: n! ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ k! Hn-kL! n! Es gibt ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ k-Kombinationen, da jeweils k ! k-Permutationen zu einer k-Kombination zusammengefasst werden k! Hn-kL! können. Beispiel Gegeben sei die Menge 8a, b, c<. 3! Es gibt die folgenden ÅÅÅÅÅÅÅÅ Ån!ÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅ = 3 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu k! Hn-kL! 2! 1! ziehen: 88a, b<, 8a, c<, 8b, c<< Zusammenfassung - Ziehen mit verschiedenen Elementen In den vorigen Abschnitten wurden die möglichen Anordnungen von k Elementen aus einer Menge bzw. Liste mit n verschiedenen Elementen diskutiert. Übersichtsweise kann dies folgendermassen zusammengefasst werden: Variation HgeordnetL Kombination HungeordnetL mit Zurücklegen ohne Zurücklegen HmehrfachL HverschiedenL nk J n+k−1 N k n! Hn−kL! J n N k Bei der Benutzung dieser Tabelle ist zu berücksichtigen, dass diese expliziten Formeln gelten, wenn alle Elemente im Ausgangstopf verschieden sind. Verteilungen in Behälter In den bisherigen Experimenten hatten wir n verschiedene Kugeln in einer Urne und haben die Anzahl Möglichkeiten berechnet, k Kugeln daraus zu entnehmen und anzuordnen. Die Anzahl der möglichen Anordnungen ergab sich dabei z.B. beim Fall mit Zurücklegen und unter Berücksichtigung der Reihenfolge zu: 23 Skript Statistik und Stochastik W = {w » w = (a1 , a2 , ... ak ), ai = 1, ... n} wobei hier ai die Nummer (von 1 bis n) der i-ten gezogenen Kugel angibt. Nun betrachten wir ein anderes Experiment, und zwar sollen k Kugeln auf n Behälter verteilt werden. Die Anzahl der möglichen Verteilungen ist nun z.B. für den Fall mit Mehrfachbelegung und unterscheidbaren Objekten gleich: W = {w » w = (a1 , a2 , ... ak ), ai = 1, ... n} wobei hier ai für jede Kugel mit der Nummer i den Behälter (von 1 bis n) angibt. Es ist nun bemerkenswert, dass beide Experimente die gleichen Formeln liefern. Aber Achtung: die Anzahl der Kugeln ist im ersten Fall gleich n, im zweiten Fall gleich k. Die Tatsache, dass die gleichen Formeln angewandt werden können, gilt nicht nur für den betrachteten Fall (mit Zurücklegen und unter Berücksichtigung der Anordnung), sondern in allen vier Fällen, wenn folgende Zuordnung gemacht wird: Experiment Anordnungen Experiment Verteilungen n Kugeln k Kugeln davon k Kugeln ziehen auf n Behälter verteilen mit Zurücklegen mit Mehrfachbelegung ohne Zurücklegen mit Einfachbelegung mit Berücksichtigung der Reihenfolge unterscheidbare Objekte ohne Berücksichtigung der Reihenfolge nicht unterscheidbare Objekte Beispiel Auf wieviele Arten können die (unterscheibaren) Objekte {a,b} auf drei Behälter mit Einfachbelegung verteilt werden? n! 3! ÅÅÅÅÅÅ = ÅÅÅÅ ÅÅ = 6 † Die Formel lautet (k Kugeln und n Behälter): ÅÅÅÅÅÅÅÅ Hn-kL! 1! † Die Lösung lautet: auf 6 verschiedene Arten, nämlich {a,b,-}, {a,-,b}, {b,a,-}, {-,a,b}, {b,-,a}, {-,b,a} Der analoge Fall wäre: auf wieviele Arten können zwei Objekte aus einer Urne mit den drei Objekten {a,b,c} gezogen und angeordnet werden (ohne Zurücklegen und unter Berückischtigung der Anordnung). n! 3! † Die Formel lautet (n Kugeln und k-mal Ziehen): ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅ Å =6 Hn-kL! 1! † Die Lösung lautet: auf 6 verschiedene Arten, nämlich {a,b}, {a,c}, {b,a}, {b,c}, {c,a}, {c,b} Urnenexperimente bei teilweise gleichen Elementen Einleitung Bie den bisherigen Urnenexperimenten wurde immer (mit Ausnahme des Abschnitts "Permutationen und Binomialverteilung") vorausgesetzt, dass sich im Topf, aus dem die Elemente gezogen werden, nur unterschiedliche Elemente befinden. Wir haben die folgenden 22 Fälle unterschieden: † Erstens kann nach dem Ziehen die Kugel zurückgelegt werden oder auch nicht (mit anderen Worten Wiederholung ist erlaubt oder auch nicht). Wenn die Kugel zurückgelegt wird, ändert sich die Wahrscheinlichkeit für das Ziehen jeder Kugel nicht, andernfalls schon. 24 Skript Statistik und Stochastik † Zweitens kann es auf die Reihenfolge der gezogenen Kugeln ankommen (Variation) oder auch nicht (Kombination). Eine Variation kann durch aufeinanderfolgendes Ziehen, eine Kombination durch gleichzeitiges Ziehen simuliert werden. Im Folgenden wird nun eine neue experimentelle Situation untersucht, nämlich ... † Drittens können alle Kugeln verschieden sein oder es können einzelne Kugeln gleich sein (z.B. gleiche Nummer oder gleiche Farbe). Wenn einzelne Kugeln gleich sind, können sie in Kategorien oder Klassen zusammengefasst werden. ... womit nun insgesamt 23 Fälle zu unterscheiden sind. Dies ermöglicht neue Fragestellungen: z.B. auf wie viele Arten können (mit Zurücklegen) drei rote Kugeln gezogen werden, wenn sich im Topf zwei rote und drei blaue Kugeln befinden? Allgemeiner formuliert haben wir nun n Kugeln, die in m verschiedene Klassen zusammengefasst werden können und ni die Anzahl der Kugeln in jeder Klasse angibt, wobei gilt: ⁄m i=1 ni = n. Es kann jetzt schon vorausgesagt werden, dass dann die oben hergeleiteten Formeln für die Anzahl der Auswahlen nicht mehr gelten bzw. in der Bedeutung der Variablen angepasst werden müssen. Auf diese Formeln wird im Weiteren näher angegangen. Für die Zahl der möglichen Anordnungen von Objekten aus mehreren Klassen, die untereinander jeweils innerhalb einer Klasse nicht unterscheidbar sind, ist es hilfreich, zunächst die mögliche Zahl der Anordnungen der Objekte zu betrachten und dann zu überlegen, wieviele dieser Anordnungen nicht unterscheidbar sind. Die Zahl der möglichen Anordnungen bei unterscheidbaren Objekten wird dann durch die Zahl der nicht unterscheidbaren Anordnungen dividiert. Ziehen mit Zurücklegen - Variationen und Kombinationen Experiment Aus einer Urne mit n (teilweise gleichen) Kugeln, die in m Kategorien eingeteilt werden können, werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt. Anzahl Variatonen mk Anzahl Kombinationen ij m + k - 1 yz j z k k { Beim ersten Zug haben wir m Möglichkeiten (die Wahrscheinlichkeit, dass eine Kugel einer bestimmten Klasse gezogen wird, hängt natürlich von der Grösse der Klasse ab), ebenso beim zweiten, ... bis zum k-ten Zug. Dies liefert mk verschiedene Variationen. Die Herleitung der Formel für die Anzahl Kombinationen geht analog zum Fall der unterscheidbaren Kugeln, nur muss auch hier n (die Anzahl der Kugeln) durch m (die Anzahl der Kategorien) ersetzt werden. Beispiel Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, c< Es gibt die folgenden mk = 32 = 9 Möglichkeiten, aus der Menge mit m = 3 Kategorien k = 2 geordnete Elemente zu ziehen: 88a, a<, 8a, b<, 8a, c<, 8b, a<, 8b, b<, 8b, c<, 8c, a<, 8c, b<, 8c, c<< 25 Skript Statistik und Stochastik Beispiel Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, c< i m + k - 1 yz ij 4 yz Es gibt die folgenden jj z = j z = 6 Möglichkeiten, aus der Menge mit m = 3 Kategorien k = 2 ungeordnete k k { k2{ Elemente zu ziehen: 88a, a<, 8a, b<, 8a, c<, 8b, b<, 8b, c<, 8c, c<< Ziehen ohne Zurücklegen - Variation und Kombination Experiment Aus einer Urne mit n (teilweise gleichen) Kugeln, die in m Kategorien eingeteilt werden können, werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt. Anzahl Variatonen keine Formel verfügbar Anzahl Kombinationen keine Formel verfügbar Beispiel Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, b< Es gibt die folgenden 3 Möglichkeiten, aus der Menge mit m = 2 Kategorien k = 2 geordnete Elemente zu ziehen: 88a, b<, 8b, a<, 8b, b<< Beispiel Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, b< Es gibt die folgenden 2 Möglichkeiten, aus der Menge mit m = 2 Kategorien k = 2 ungeordnete Elemente zu ziehen: 88a, b<, 8b, b<< 26 Skript Statistik und Stochastik 4. Bedingte Wahrscheinlichkeiten Einleitung Bislang haben wir uns mit Fragestellungen wie ... † "Wie gross ist die Wahrscheinlichkeit, dass bei zweimaligem Würfeln eine Summe grösser als 9 gewürfelt wird?". ... beschäftigt. In diesem Kapitel sollen nun Fragen der folgenden Art untersucht werden: † "Wie gross ist die Wahrscheinlichkeit, dass bei zweimaligem Würfeln eine Summe grösser als 9 gewürfel wird, wenn wir beim ersten Wurf keine 6 erreicht haben?". Es wird nun also nach der Wahrscheinlichkeit eines Ereignisses gesucht, wenn Zusatzinformationen vorhanden sind, die den Ergebnisraum einschränken. Die Wahrscheinlichkeit des Ereignisses wird damit nicht mehr in Bezug zur Mächtigkeit des ganzen Ergebnisraums gesetzt, sondern in Bezug zu einer Teilmenge des Ergebnisraums. Bedingte Wahrscheinlichkeit Dies führt uns auf folgende Definition: Gegeben sei ein diskreter Wahrscheinlichkeitsraum HW, , PL und zwei beliebige Ereignisse A und B mit PHBL > 0. Dann heisst PHA › BL PHA » BL = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ PHBL die bedingte Wahrscheinlichkeit von A unter der Bedingung B. (oder lies: P von A unter der Bedingung B). Die bedingte Wahrscheinlichkeit PHA » BL gibt die Wahrscheinlichkeit für das Eintreten von A an, wenn die Teilinformation "B ist eingetreten" vorliegt. Statt PHA » BL schreibt man auch PB HAL. Beachte: Die bedingte Wahrscheinlichkeit PHA » BL wird leicht mit der Wahrscheinlichkeit des Durchschnitts PHA › BL verwechselt. Beispiel 1: wie gross ist die Wahrscheinlichkeit, dass eine 1 gewürfelt wurde, wenn wir wissen, dass eine ungerade P HA › BL 1ê6 1 Zahl gewürfelt wurde? Die Antwort lautet nun P HA » BL = = P HBL 1ê2 = 3 , da der Ausgang (würfle eine 1) zu den drei möglichen Ausgängen (1, 3, 5) in Beziehung gesetzt werden muss. Beispiel 2: wie gross ist die Wahrscheinlichkeit, dass eine 2 gewürfelt wurde, wenn wir wissen, dass eine ungerade Zahl gewürfelt wurde? Die Antwort lautet nun 0, da der Ausgang (würfle eine 2) nicht möglich ist (2 ist keine ungerade Zahl, bzw. A › B = {} ). Mit obigen Definitionen lassen sich (relativ einfach) verschiedene Formeln herleiten. Für zwei Ereignisse A und B mit PHBL > 0 gilt: Multiplikationsformel: PHB »AL PHAL PHA » BL = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ PHBL PHA › BL = PHA » BL PHBL Allgemeine Multiplikationsformel: PHAn » A1 › ... › An-1 L PHA1 › A1 › ... › An L = PHA1 L PHA2 » A1 L PHA3 » A1 › A2 L ... 27 Skript Statistik und Stochastik Für den Fall, dass die Ereignisse A1 , A2 ... An eine Partition von W ergeben (d.h. sie schliessen sich gegenseitig aus und ihre Vereinigung ergibt W), gelten weiter die beiden Formeln: PHBL = ⁄ni=1 PHB » Ai L PHAi L Formel von der totalen Wahrscheinlichkeit: Formel von Bayes: PHB »Ak L PHAk L PHAk » BL = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ⁄n PHB »A L PHA L i=1 i i Beispiel Zwei Laplace-Würfel, ein grüner und ein roter, werden einmal gleichzeitig geworfen. Frage 1: Wie groß ist die Wahrscheinlichkeit, dass die Augensumme beider Spielwürfel grösser als 9 ist? Antwort 1: Sei A das Ereignis „die Augensumme ist grösser als 9“. Dann ergibt sich wegen A = 8H4, 6L, H6, 4L, H5, 5L, H5, 6L, H6, 5L, H6, 6L<, »A» = 6 und » W » = 36 die Wahrscheinlichkeit PHAL = 6 ê 36 = 1 ê 6. Frage 2: Wie groß ist die Wahrscheinlichkeit, dass die Augensumme beider Spielwürfel grösser als 9 ist, wenn man schon weiss, dass der grüne Würfel keine „6“ zeigt? Antwort 2: Die Bedingung B „der grüne Würfel zeigt keine 6“ reduziert die Anzahl der möglichen Fälle von 36 auf 30, da nur noch die Fälle betrachtet werden, bei denen der grüne Würfel 1, 2, 3, 4 oder 5 zeigt. Von diesen 30 Fällen sind 3 Fälle günstig, nämlich HA, BL aus 8H4, 6L, H5, 5L, H5, 6L<. Also ist die gesuchte Wahrscheinlichkeit 3 ê 30 = 1 ê 10. Stochastische Unabhängigkeit Die bedingte Wahrscheinlichkeit PHA » BL gibt die Wahrscheinlichkeit für das Eintreten von A an, wenn die Teilinformation "B ist eingetreten" vorliegt. Zwei Ereignisse sind stochastisch unabhängig, wenn das Eintreten von B nichts an der Wahrscheinlichkeit für das Eintreten von A ändert, wenn also gilt: PHA » BL = PHAL Ereignisse, die nicht stochastisch unabhängig sind, bezeichnet man als stochastisch abhängig. Für stochastisch unabhängige Ereignisse vereinfachen sich die im vorigen Abschnitt angegebenen Multiplikationsformeln. In einem diskreten Wahrscheinlichkeitsraum (W, , P) heissen zwei Ereignisse A und B stochastisch unabhängig, wenn für sie die Produktformel gilt: PHA › BL = PHAL PHBL Skript Statistik und Stochastik 28 5. Zufallszahlengenerator Einleitung Bei der Simulation eines Zufallsexperiments muss jedes Ergebnis als zufällig betrachtet werden. Es gibt verschiedene Geräte um Zufallszahlen zu erzeugen: † ein Münzwurf liefert die beiden Zufallszahlen 0 und 1; † ein Würfel liefert die sechs Zufallszahlen 1 bis 6; † eine Urne mit n (von 1 bis n nummerierten Kugeln) liefert die n Zufallszahlen 1 bis n; † Glücksräder mit n Einstellungen liefern Zufallszahlen 1 bis n; Ausserdem können Computer (Quasi)-Zufallszahlen liefern. Sie sind nicht zufällig, sondern deterministisch, da sie nach einem bestimmten Algorithmus berechnet werden. Sie haben auch die nützliche Eigenschaft, dass sie durch das Setzen eines Startwerts (seed) immer wieder die gleiche Sequenz liefern. Diese vom Zufallszahlengenerator gelieferten Zahlen können diskret oder (quasi)stetig sein. Sie können auch gleichmässig verteilt sein oder eine bestimmte Verteilung aufweisen. In Mathematica können ... † die Funktion Random: Random[] liefert eine reelle Zufallszahl mit gleichmässiger Verteilung im Intervall [0,1]. Mit Argumenten können Werte mit diskreten oder anderen stetigen Verteilungen retourniert werden. † die Funktion SeedRandom[...]: damit lässt sich der Zufallszahlengenerator zurücksetzen (reset); † die Variable $RandomState: diese Variable enthält den aktuellen Zustand des Zufallszahlengenerators (d.h. eine grosse Integer Zahl); ... verwendet werden. Auch Excel liefert Möglichkeiten (wenn auch bei weitem nicht so komfortable wie Mathematica), Zufallszahlen zu erzeugen. 29 Skript Statistik und Stochastik 6. Zufallsvariablen und ihre Verteilungen Einleitung In den bisherigen Kapiteln haben wir uns vor allem mit Urnenexperimenten und der Anzahl der verschiedenen Ergebnisse und Ereignisse beschäftigt. Wenn die Anzahl der Ereignisse durch die Mächtigkeit des Ergebnisraums geteilt wird, erhalten wir eine (auf @0, 1D normierte) Wahrscheinlichkeit für das Ereignis. In diesem Kapitel werden wir uns zunächst weiterhin mit diskreten Verteilungen beschäftigen. Bei den diskreten Verteilungen gibt es für jedes Ereignis A eine bestimmte Wahrscheinlichkeit pHAL. Wir werden lernen, wie solche Verteilungen mit wenigen Masszahlen beschrieben werden können. Anschliessend werden wir uns mit stetigen Verteilungen beschäftigen. In dieser Situation wird der Definitionsbereich der Verteilungsfunktion als (quasi)stetig vorausgesetzt. Dies kann auf zwei verschiedene Arten geschehen. Erstens kann dies als Grenzübergang verstanden werden, wenn für eine grosse Anzahl von Versuchen der Definitionsbereich der Verteilung immer grösser wird und die Verteilung immer mehr gegen eine Normalverteilung strebt. Beispielsweise resultiert bei der Binomialverteilung für grosse n annähernd eine (stetige) Normalverteilung wie das folgende Beispiel (mit n = 1000 und k = 0.5) zeigt: 0.025 0.02 0.015 0.01 0.005 450 500 550 Wir werden einige Beispiele für solche Übergänge im Abschnitt "Zentraler Grenzwertsatz" kennen lernen. Zweitens kann (im Unterschied zu unseren Urnenexperimenten) das Ergebnis einer Messung (z.B. eine Temperaturmessung) kontinuierliche Werte annehmen. Z.B. zeigt das folgende Beispiel eine Normalverteilung mit dem Mittelwert 60.34 und Standardabweichung 2.56: 0.15 0.125 0.1 0.075 0.05 0.025 50 60 70 80 Wir messen also stetig verteilte Werte, die wir zur optimalen Darstellung als Histogramm in Kategorien einteilen können. Bei den diskreten Verteilungen ist pHxL die Wahrscheinlichkeit. Bei den stetigen Verteilungen ist pHxL die Wahrscheinlichkeitsdichte, und die Wahrscheinlichkeit für das Ereignis (dass sich der Messwert im Intervall Skript Statistik und Stochastik 30 @a, a + dxD befindet), ergibt sich aus der Multiplikation von pHxL mit der Breite des Intervalls dx. Die Wahrscheinlichkeit ist also durch die Fläche unter der Wahrscheinlichkeitsdichtekurve gegeben. Die Wahrscheinlichkeit ist also im diskreten Fall durch pHxL, im stetigen Fall durch die Fläche unter der pHxL Kurve, b d.h. Ÿa pHxL „ x, gegeben. Die beiden ganz zentralen (Mathematica) Funktionen im Zusammenhang mit Verteilungen sind die † PDF (probability density function, Wahrscheinlichkeitsfunktion), d.h.die Wahrscheinlichkeit bei diskreten Verteilungen bzw. die Wahrscheinlichkeitsdichte bei stetigen Verteilungen; sowie die † CDF (cumulative probability density function, Verteilungsfunktion), d.h. die kumulierte Wahrscheinlichkeit bzw. Wahrscheinlichkeitsdichte; Bei diskreten Verteilungen (bei denen die Abszissenwerte der Grösse nach geordnet werden können) und bei stetigen Verteilungen gibt die CFD(x) die Wahrscheinlichkeit an, dass der Messwert § x beträgt. Bei diskreten Verteilungen entspricht die CDF einer Summe über die Wahrscheinlichkeiten für Messwerte b x, bei stetigen Verteilungen einem Integral von -¶ bis x. Wir werden im nächsten Abschnitt noch genauer auf die PDF und CDF eingehen. Bei der Behandlung der verschiedenen Verteilungen in den nächsten Abschnitten werden wir immer wieder eine kleine Tabelle mit wichtigen Eigenschaften von Verteilungen wie dem Träger (Domain), der PDF, der CDF , dem arithmetischen Mittelwert (Mean) sowie der Varianz (Variance) darstellen. Andere wichtige Eigenschaften und Masszahlen von Verteilungen (und empirischen Daten) werden wir im Kapitel "Deskriptive Statistik" kennenlernen. PDF und CDF Werte der PDF und CDF sind in vielen Lehrbüchern tabelliert. Mit den Möglichkeiten des Computers und den in diesem Abschnitt besprochen Funktionen können wir auf solche Tabellen jedoch verzichten. Im Folgenden werden die Ausführungen mit den Mathematica Funktionen PDF, CDF und Quantile (Quantilsfunktion) durchgeführt. Man könnte das Gleiche auch mit den entsprechenden Funktionen anderer Softwarepakete demonstrieren. Mit Hilfe der PDF lassen sich sehr einfach Wahrscheinlichkeiten (bei diskreten Verteilungen) bzw. Wahrscheinlichkeitsdichten (bei stetigen Verteilungen) berechnen. Wenn der PDF oder der CDF eine bestimmte Verteilung als erstes Argument übergeben wird (z.B. "PDFHNormalDistributionH5, 1L, xL" für eine Normalverteilung mit Mittelwert 5 und Standardabweichung 1) ... pdfHx_L := PDFHNormalDistributionH5, 1L, xL; cdfHx_L := CDFHNormalDistributionH5, 1L, xL; quantileHx_L := QuantileHNormalDistributionH5, 1L, xL; ... dann geben diese Funktionen die Wahrscheinlichkeitsdichte, die Verteilung oder die Quantilsfunktion für diese Verteilung an der Stelle x zurück.Mit diesen Funktionen lassen sich auch die Wahrscheinlichkeitsdichte (PDF) ... Plot@pdfHxL, 8x, 0, 10<, PlotRange Ø AllD; 31 Skript Statistik und Stochastik 0.4 0.3 0.2 0.1 2 4 6 8 10 ... oder die Verteilung (CDF), die die Wahrscheinlichkeit angibt, dass der Messwert § x beträgt graphisch darstellen: Plot@cdf@xD, 8x, 0, 10<, PlotRange Ø AllD; 1 0.8 0.6 0.4 0.2 2 4 6 8 10 An Stelle der obigen Normalverteilung hätten wir auch eine andere Verteilung nehmen können, um die wesentlichen Eigenschaften zu diskutieren. Wie schon ausgeführt gibt die pdf(x) bei stetigen Verteilungen die Wahrscheinlichkeitsdichte an. Um die Wahrscheinlichkeit, dass der Messwert im Intervall @a, bD liegt, zu berechnen muss die Wahrscheinlichkeitsdichte von a bis b integriert werden, dies liefert: b 1 ji ij b - 5 yz i a - 5 yzzy Å jerf j ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ zz - erf jjj ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ zzzz ‡ pdfHxL „ x = ÅÅÅÅÅ è!!!! 2 jk jk è!!!! a 2 { k 2 {{ 2 Die Funktion erf ist dabei die bekannte Funktion: erf HzL = ÅÅÅÅ ÅÅÅÅ!ÅÅ Ÿ0 e-t dt è!!!! p z 2 Alternativ könnte man auch die CDF verwenden, die diese Integration definitionsgemäss bereits für das Intervall D - ¶, xD durchgeführt hat. Die Differenz der CDF an zwei Punkten a und b liefert: 1 i i b - 5 zy i a - 5 zyzy cdfHbL - cdfHaL = ÅÅÅÅÅÅ jjjerf jjj ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ ÅÅ zz - erf jjj ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ zzzz è!!!! 2 k k è!!!! 2 { k 2 {{ Wir sehen, dass das gleiche Resultat resultiert. Wir können also entweder die PDF über das Intervall integrieren oder die Differenz der CDF an den beiden Intervallgrenzen bilden. Wenn wir ein ganz bestimmtes Intervall wählen (z.B. @6, 7D), dann können wir einen Zahlenwert für die Wahrscheinlichkeit erhalten und zwar: 7 ‡ pdfHxL „ x = 0.1359 6 32 Skript Statistik und Stochastik 0.4 0.3 0.2 0.1 2 4 6 8 10 Wir schliessen aus obiger Berechnung, dass die Wahrscheinlichkeit bei einer Normalverteilung mit dem Mittelwert 5 und der Standardabweichung 1 einen Messwert zwischen 6 und 7 zu finden durch die Fläche unter der Kurve gegeben ist und 13.59% beträgt. Wir haben auch gesehen, dass wir mit der CDF eine sehr einfache Möglichkeit haben, von Messintervallen (Abszisse: @a, bD) auf Wahrscheinlichkeiten (Ordinate: cdf @bD - cdf@aD) zu schliessen. 1 0.8 0.6 0.4 0.2 2 4 6 8 10 Wir erhalten für unser Beispiel die folgenden Zahlenwerte: cdf@7D = 0.97725 cdf@6D = 0.841345 cdf@7D - cdf@6D = 0.135905 bzw. 13.59% Interpretation (der Graphik und der Zahlen): † die Wahrscheinlichkeit, einen Messwert kleiner als 7 zu finden ist 97.7%; † die Wahrscheinlichkeit, einen Messwert kleiner als 6 zu finden ist 84.1%; † die Wahrscheinlichkeit, einen Messwert im Intervall [6,7] zu finden ist 13.59% (wie oben bei der Integration); † man sieht auch, dass die Wahrscheinlichkeit, einen Messwert kleiner als 2 zu finden, (praktisch) 0 ist; † man sieht auch, dass die Wahrscheinlichkeit, einen Messwert kleiner 8 zu finden, (praktisch) 1 ist; In der Schätztheorie werden wir auch auf die umgekehrte Aufgabe stossen, nämlich von Ordinatenwerten (Wahrscheinlichkeit oder Wahrscheinlichkeitsintervall) auf Abszissenwerte (Messwert oder Messintervall) zu schliessen. Dazu muss die inverse Funktion zur Verteilung verwendet werden: sie wird mit Quantile (hier für unsere Normalverteilung mit Mittelwert 5 und Standardabweichung 1 quantile genannt) bezeichnet. [email protected] = 7. [email protected] = 6. 33 Skript Statistik und Stochastik Statt Quantile aufzurufen (d.h. [email protected]) können wir aber auch die Gleichung cdf@xD = 0.97725 (numerisch) nach x auflösen (z.B. mit FindRoot in Mathematica). Im Rahmen der Schätztheorie werden wir noch ausführlich von diesen Funktionen (PDF, CDF, Quantile) Gebrauch machen. Diskrete Verteilung Zum Schluss wollen dir doch noch einen kleinen Blick auf diskrete Verteilungen werfen. Wir haben in der Einleitung behauptet, dass die CDF der Summe der Wahrscheinlichkeiten entspricht. Wir vergleichen deshalb diese beiden Formeln für konkrete Werte: n = 10; p = 0.5; x = 3; :‚ PDFHBinomialDistributionHn, pL, iL, CDFHBinomialDistributionHn, pL, xL> x i=0 80.171875`, 0.1718750000000001`< Die beiden Summen sind (im Rahmen der Rechengenauigkeit) identisch. Erwartungswert Wenn wir Zufallsexperimente durchführen (oder Daten analysieren), dann interessieren wir uns vielfach für quantitative Aussagen: z.B. wie gross ist die mittlere Augenzahl beim Würfeln oder wie gross ist die Abweichung von diesem Mittelwert. Der Begriff des Erwartungswerts liefert uns solche Werte. Er ist folgendermassen definiert. Der Erwartungswert ist die Summe der Produkte aus den Wahrscheinlichkeiten jedes möglichen Ergebnisses des Experiments und den Werten dieses Ergebnisses. Wenn die Zufallsvariable X diskret ist und die Werte x1 x2, ... mit den Wahrscheinlichkeiten p1 , p2, ... annehmen kann, dann ist der Erwartungwert von X , d.h. EHX L, folgendermassen definiert (n kann auch ¶ sein, dann existiert der Erwartungswert nur, wenn die unendliche Reihe konvergiert): EHX L = ⁄ni=1 xi pi Wenn die Zufallsvariable X stetig ist und die Wahrscheinlichkeitsdichtefunktion pHxL hat, dann ist der Erwartungwert von X , d.h. EHX L, folgendermassen definiert: EHX L = Ÿ-¶ x pHxL „ x ¶ Heuristisch ist der Erwartungswert einer Zufallsvariablen jener Wert, der sich bei einer oftmaligen Wiederholung des zugrunde liegenden Experiments als Mittelwert der tatsächlichen Ergebnisse ergibt. Das Gesetz der grossen Zahlen sichert uns in den meisten Fällen zu, dass dieser heuristische Wert mit der mathematischen Definition übereinstimmt. Wenn Y = gHX L auch eine Zufallsvariable ist, kann der Erwartungswert dieser Zufallsvariablen folgendermassen berechnet werden: EHY L = Ÿ-¶ gHxL pHxL „ x ¶ bzw. EHY L = ⁄ni=1 gHxi L pi Skript Statistik und Stochastik 34 Beispiel Würfeln Als Beispiel für einen Erwartungswert wollen wir das Zufallsexperiment Würfeln und als (diskrete) Zufallsvariable X die "Augenzahl" wählen. Wir haben die möglichen Ergebnisse 81, 2, 3, 4, 5, 6< mit den (gleichen) Wahrscheinlichkeiten 1/6. Der Erwartungswert für die Augenzahl berechnet sich damit zu 3.5: 6 i 7 ‚ ÅÅÅÅÅÅ = ÅÅÅÅÅÅ 6 2 i=1 Dieser Wert wird sich bei einer grossen Anzahl von Wiederholungen (approximativ, jedoch nicht genau) einstellen. Wenn wir z.B. 5 Versuche mit je 106 x würfeln durchführen, erreichen wir (in einem Computerexperiment) beispielsweise die folgenden Durchschnitte: 83.4987451`, 3.5000078`, 3.5002974`, 3.500247`, 3.4999695`< Diese Durchschnitte liegen nahe beim Erwartungswert. Bei nur 10 Wiederholungen (statt 106 ) kann die Abweichung von 3.5 gross sein. 83.5`, 4.1`, 4.2`, 3.6`, 3.8`< Diskrete Verteilungen Einleitung Es gibt viele verschiedene Diskrete Verteilungen. Mathematica hat die folgenden acht implementiert: BernoulliDistribution, BinomialDistribution, DiscreteUniformDistribution, GeometricDistribution, HypergeometricDistribution, LogSeriesDistribution, NegativeBinomialDistribution, PoissonDistribution}. Nicht alle sind gleich wichtig. Wir werden uns vor allem mit der Gleichverteilung, der Bernoulli Verteilung, der Poisson Verteilung und der Binomial Verteilung beschäftigen. Diese Verteilungen folgen direkt aus verschiedenen experimentellen Situationen. † Die Gleichverteilung resultiert beim Würfeln oder beim Ziehen einer Kugel aus einer Urne. Die Bernoulli Verteilung, die Poisson Verteilung, die Binomial Verteilung sowie weitere Verteilungen resultieren bei der Durchführung einer Bernoulli Versuchsreihe, wo bei jeder Wiederholung die gleiche Ausgangssituation vorliegt (z.B. Ziehen mit Zurücklegen). Das Bernoulli Experiment hat die zwei möglichen Ergebnisse 81 = Erfolg, 0 = Misserfolg< und der Erfolg tritt mit der Wahrscheinlichkeit p und der Misserfolg mit der Wahrscheinlichkeit 1 - p auf. Es folgt nun. † Die Wahrscheinlichkeitsfunktion der Bernoulli Verteilung B@1, pD @kD gibt beim 1-maligen Versuch die Wahrscheinlichkeiten für k (d.h. 0 oder 1) Erfolge an. † Die Wahrscheinlichkeitsfunktion der Binomial Verteilung B@n, pD @kD gibt beim n-maligen Duchführen eines iny Bernoulli Experiments die Wahrscheinlichkeit für k Erfolge an und hat die Formel H1 - pLn-k pk jj zz kk { † Die Wahrscheinlichkeitsfunktion der Poisson Verteilung P@l = n pD @kD gibt beim n-maligen Duchführen eines ‰-l lk Bernoulli Experiments die Wahrscheinlichkeit für k Erfolge an und hat die Formel ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ . Sie wird bei grossen n k! und kleinen p angewendet und stellt eine Approximation für die Binomial Verteilung B@n, pD @kD dar. 35 Skript Statistik und Stochastik † Die Wahrscheinlichkeitsfunktion der NegativeBinomialDistribution gibt die Wahrscheinlichkeit für k Misserfolge i k + r - 1 zy vor dem r-ten Erfolg an und hat die Formel f @ p, rD @kD = jj z H1 - pLk pr . k r-1 { † Die Wahrscheinlichkeitsfunktion der GeometricDistribution gibt die Wahrscheinlichkeit für k Misserfolge vor dem ersten Erfolg an und hat die Formel f @ pD @kD = H1 - pLk p. Beim Experiment "Ziehen mit Zurücklegen" handelt es sich nicht um eine Bernoulli Versuchsreihe, da sich die Wahrscheinlichkeiten für Erfolg und Misserfolg im Laufe der Versuchsreihe ändern. So ändert sich z.B. bei einem Experiment, wo sich in einer Urne mit N Kugeln M rote und N - M weisse Kugeln befinden, die Wahrscheinlichkeit (eine rote Kugel zu ziehen) mit jedem Zug. Eine genaue Analyse dieser Situation führt uns auf die Hypergeometrische Verteilung. Es gilt: † Die Wahrscheinlichkeitsfunktion der Hypergeometrische Verteilung H@N, M , n, mD gibt (für obige Situation) beim n-maligen Ziehen die Wahrscheinlichkeit für m rote Kugeln an. Diese Verteilung hat die Formel pHkL = M Diese Verteilung konvergiert für grosse N gegegen die Binomialverteilung B@n, pD mit p = ÅÅÅÅ ÅÅ . N M N-M y jij zyz jij zz k m { k n-m { ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ Å Å Å ij N yz j z n k { . Es gibt weitere Verteilungen, die anwendbar sind auf Experimente mit mehr als zwei Ergebnissen (z.B. Trinomial Verteilung und Bivariate Hypergeometrische Verteilung bei drei Ergebnissen). Wir werden diese jedoch hier nicht weiter besprechen. In den folgenden Abschnitten werden wir einige diskrete Verteilungen etwas genauer anschauen. Gleichverteilung (DiscreteUniformDistribution) Einleitung Die gleichförmige Verteilung(Gleichverteilung) basiert auf dem Gleichwahrscheinlichkeitsmodell. Die Zufallsvariable X hat n Ausprägungen, wobei alle Ausprägungen mit gleicher Wahrscheinlichkeit vorkommen. Diese Wahrscheinlichkeit muss 1 ê n betragen, da die gesamte Wahrscheinlichkeit stets 1 sein muss. Die Wahrscheinlichkeitsfunktion der Gleichverteilung ist (für n = 5) auf dem Träger 81, 2, 3, 4, 5< ungleich 0 und hat den konstanten Wert ÅÅÅÅ15 . Der Plot der Wahrscheinlichkeiten sieht damit folgendermassen aus. 0.2 0.15 0.1 0.05 2 4 6 Die CDF liefert uns die kumulierte Wahrscheinlichkeit. Sie steigt in gleichen Schritten für die Abszissenwerte 1 bis 5. 36 Skript Statistik und Stochastik 1 0.8 0.6 0.4 0.2 2 4 6 8 Beispiele für Gleichmässige Verteilung: † Die Zufallsvariable, die definiert ist durch die Nummer der Kugel beim einmaligen, zufälligen Ziehen aus einer Urne mit n Kugeln; oder † Die Zufallsvariable "Augenzahl" beim Würfeln (n=6); Eigenschaften Die gleichförmige Verteilung hat die folgenden wichtigen Eigenschaften. DiscreteUniformDistribution@nD Domain: PDF: CDF: Mean: Variance: Range@nD 1 n Floor@xD n 1+n 2 1 H−1 + n2 L 12 Die Funktion Floor@xD = dxt bedeutet dabei die grösste ganze Zahl, die § x ist. Die Funktion Range@xD bedeutet dabei die Zahlenfolge 81, 2, ... x<. Beispiel Der arithmetische Mittelwert beim Würfeln (n=6) beträgt 1 35 ÅÅ H-1 + 62 L = ÅÅÅÅ ÅÅ s = ÅÅÅÅ 12 12 1+n 1+6 ÅÅÅÅÅÅ = ÅÅÅÅ m = ÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅ72 2 2 und hat die Varianz Bernoulli Verteilung (BernoulliDistribution) Einleitung Beim Bernoulli Experiment hat die Zufallsvariable nur die beiden möglichen Ausprägungen 0 und 1, wobei 0 üblicherweise als Misserfolg und 1 als Erfolg bezeichnet wird. Der Erfolg (1) tritt dabei mit einer Wahrscheinlichkeit p auf. Das komplementäre Ereignis Misserfolg hat demnach die Wahrscheinlich 1 - p. Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist auf dem Träger 80, 1< ungleich 0 und hat (für p = 0.75) folgende Werte: µ 0.25 0.75 x0 x1 Ein Plot der Wahrscheinlichkeitsverteilung zeigt dies anschaulich: 37 Skript Statistik und Stochastik 1 0.8 0.6 0.4 0.2 -1 -0.5 0.5 1 1.5 2 Die CDF erreicht bereits bei x = 1 das Maximum von 1. 1 0.8 0.6 0.4 0.2 -1 -0.5 0.5 1 1.5 2 Man kann aus diesem Plot (z.B.) herauslesen, dass die Wahrscheinlichkeit einen Wert §1 zu finden gleich 1 ist. Beispiel: Bernoulli(0.5) entspricht einem Münzwurf. Eigenschaften Die Bernoulli Verteilung hat die folgenden wichtigen Eigenschaften. BernoulliDistribution@pD Domain: PDF: CDF: Mean: Variance: 80, 1< 1−p x 0 µ p x1 1−p 0≤x<1 µ 1 x≥1 p H1 − pL p Beispiel Der arithmetische Mittelwert beim Münzen werfen ( p = 0.5, Kopf = 0, Zahl = 1) beträgt 0.5 und hat die Varianz 0.25. 38 Skript Statistik und Stochastik Binomial Verteilung (BinomialDistribution bzw. BINOMVERT) Einleitung Mehrere (n) Bernoulli Experimente mit derselben Erfolgswahrscheinlichkeit p werden unabhängig voneinander durchgeführt (z.B. n mal Münzen werfen oder n Kugeln mit Zurücklegen aus einem Topf mit Kugeln aus zwei verschiedenen Farben ziehen). Die Anzahl der Erfolge wird als Zufallsvariable Sn definiert. Die Wahrscheinlichkeit, dabei genau k Erfolge zu messen, führt auf die Binomial Verteilung, die vielfach kurz als BHn, pL bezeichnet wird. Eine Verteilung mit dieser Wahrscheinlichkeitsfunktion (mit 0 § p § 1, n œ ) heisst binomialverteilt. Die Wahrscheinlichkeitsfunktion der Binomial-Verteilung ist auf dem Träger 80, 1, ... n< ungleich 0 und hat den iny folgenden Wert H1 - pLn-k pk jj zz. kk{ Ein Plot der Wahrscheinlichkeitsfunktion (n = 20, p = 0.5, z.B. 20 mal Münze werfen) zeigt (gegen k aufgetragen) anschaulich die Symmetrie: 0.175 0.15 0.125 0.1 0.075 0.05 0.025 5 10 15 20 Man kann ausrechnen, dass die Wahrscheinlichkeit beim Münzenwerfen 20 mal Kopf zu werfen klein ist (9.5 µ 10-7 ), jedoch nicht gleich 0. Die CDF steigt kontinuierlich an bis auf den Wert 1 bei x = 20. 1 0.8 0.6 0.4 0.2 5 10 15 20 1 Bemerkungen † Man sieht, dass die Binomialverteilung zwei Parameter Hn, pL hat. Sie bildet eine sogenannte Zwei-Parameter-Familie. † Wenn man n = 1 setzt, erhält man die Bernoulli Verteilung. 39 Skript Statistik und Stochastik † Alle Binomialverteilungen mit p = 0.5 sind symmetrisch. Für p 0.5 erhält man linkssteile, sonst rechtssteile Verteilungen. † Die Binomialverteilung BHn, pL nähert sich für grosse n der Normalverteilung mit Mittelwert n p und Varianz n pH1 - pL, also NHn p, n pH1 - pLL. Eigenschaften Die Verteilung hat die folgenden wichtigen Eigenschaften. BinomialDistribution@n, pD Domain: PDF: CDF: Mean: Variance: Range@0, nD H1 − pLn−x px Binomial@n, xD BetaRegularized@1 − p, n − Floor@xD, 1 + Floor@xDD np n H1 − pL p Die Funktion Range@0, xD bedeutet dabei die Zahlenfolge 80, 1, 2, ... x<. Siehe die mathematische Fachliteratur für Informationen zur CDF Funktion BetaRegularized. Die Anzahl der Erfolge beim n-maligen Münzen werfen. Die PDF ergibt folgenden Plot ( p = 0.5, n = 20). 0.175 0.15 0.125 0.1 0.075 0.05 0.025 5 10 15 20 Man kann dem Plot (z.B.) entnehmen, dass bei 20 Münzenwürfen die Wahrscheinlichkeit rund 7.5% beträgt, 13 mal Zahl zu werfen. Den genauen Wert liefert PDFHBinomialDistributionH20, 0.5L, 13L = 0.0739288 Beispiel 1 Bestimmen Sie die Wahrscheinlichkeiten, bei 20 Zügen k rote Kugeln zu ziehen, wenn sich in der Urne 2 rote und 8 blaue Kugeln befinden. 2 Die Wahrscheinlichkeit ist gegeben durch die Binomialverteilung BH20, ÅÅÅÅ ÅÅ L. Dies gibt den folgenden Plot: 10 40 Skript Statistik und Stochastik 0.2 0.15 0.1 0.05 5 Beispielrechnung für k = 15: Beispielrechnung für k = 5: 10 15 20 iny i 20 y H1 - pLn-k pk jj zz = 0.85 0.215 jj zz = 1.66473 µ 10-7 kk { k 15 { iny i 20 y H1 - pLn-k pk jj zz = 0.815 0.25 jj zz = 0.17456 kk { k 5 { Beispiel 2 Sie würfeln 10x. Bestimmen Sie die Wahrscheinlichkeiten, k-mal mindestens eine 5 zu würfeln. 2 Bei jedem Wurf ist die Wahrscheinlichkeit, eine Augenzahl von mindestens 5 zu werfen 6 . Bei 10 Würfen ist die Erfolgswahrscheinlichkeit, k mal (k = 0, ... 5) eine 5 zu werfen, durch die Binomialverteilung BH10, ÅÅ26ÅÅ L gegeben. Dies gibt den folgenden Plot: 0.25 0.2 0.15 0.1 0.05 2 4 6 8 10 Beispiel 3 Sie würfeln 5x. Mit welcher Wahrscheinlichkeit resultiert zweimal eine 6? 1 Bei jedem Wurf ist die Wahrscheinlichkeit, eine 6 zu werfen 6 . Bei 5 Würfen ist die Erfolgswahrscheinlichkeit, 2 mal eine 6 zu werfen, durch die Binomialverteilung gegeben: 5-2 2i5y iny H1 - pLn-k pk jj zz = H1 - ÅÅÅÅ16 L H ÅÅÅÅ16 L jj zz = 0.160751 kk { k2{ 41 Skript Statistik und Stochastik Poisson Verteilung (PoissonDistribution bzw. POISSON) Einleitung Die Verteilung p heisst Poisson Verteilung mit Parameter l mit l œ (0,¶), wenn gilt: ‰-l lk ÅÅÅÅÅÅÅÅ pHl, kL ÅÅÅÅÅÅÅÅ k! Sie approximiert die Binomialverteilung BHn, kL und findet Anwendung für grosse Werte von n und sehr kleine Werte von p (mit l = n p ). Die Poisson Verteilung hat den Mittelwert l und die Varianz l. Die Wahrscheinlichkeitsfunktion der Poisson Verteilung ist auf dem Träger k œ 80, 1, 2. .. ¶< ungleich 0 und hat den ‰-l lk ÅÅÅÅÅÅ . folgenden Wert ÅÅÅÅÅÅÅÅ k! Sie hat beispielsweise (für l = 10) für k = 6 den folgenden Wert: 0.0630555 Ein Plot zeigt die Wahrscheinlichkeitsverteilung anschaulich (für l = 10): 0.12 0.1 0.08 0.06 0.04 0.02 5 10 15 20 25 30 Eigenschaften Die Verteilung hat die folgenden wichtigen Eigenschaften. PoissonDistribution@λD Domain: PDF: CDF: Mean: Variance: Range@0, ∞D −λ λx x! GammaRegularized@1 + Floor@xD, λD λ λ Siehe die mathematische Fachliteratur für Informationen zur CDF Funktion GammaRegularized. Stetige Verteilungen Einleitung Es gibt viele Stetige Verteilungen. Mathematica hat beispielsweise die folgenden einundzwanzig implementiert: ChiSquareDistribution, FRatioDistribution, NormalDistribution, StudentTDistribution, BetaDistribution, CauchyDistribution, ChiDistribution, ExponentialDistribution, ExtremeValueDistribution, GammaDistribution, HalfNormalDistribution, LaplaceDistribution, LogisticDistribution, LogNormalDistribution, NoncentralChi- 42 Skript Statistik und Stochastik SquareDistribution, NoncentralFRatioDistribution, NoncentralStudentTDistribution, RayleighDistribution, UniformDistribution, WeibullDistribution. ParetoDistribution, Wir werden uns in dieser Vorlesung vor allem mit der NormalDistribution, der UniformDistribution, der ChiSquareDistribution sowie der StudentTDistribution beschäftigen. Normalverteilung (NormalDistribution bzw. NORMVERT, STANDNORMVERT) Einleitung Die Normalverteilung ist die wichtigste stetige Verteilung und zwar aus folgenden Gründen: † Gemäss zentralem Grenzwertsatz (siehe später) haben Summen von Zufallsgrössen approximativ eine Normalverteilung. Dies erklärt, dass viele Phänomende der Natur, welche sich aus vielen Einzelereignissen zusammensetzen, eine Normalverteilung haben. † Die Normalverteilung maximiert die Entropie. Damit maximiert man die Unwissenheit. Damit drängt sich die Normalverteilung zur Modellierung von Fehlern auf, wenn man keine weiteren Anhaltspunkte hat. † Viele Prozesse mit exponentiellem Wachstum (Modelle von Aktienkursen oder ganzen Volkswirtschaften) sind Lognormalverteilt (d.h. nach Logarithmierung normalverteilt). † Die Normalverteilung hat schöne mathematische Eigenschaften. Sie ist symmetrisch und die Wahrscheinlichkeitsdichte geht sehr schnell gegen 0. Die Normal-Verteilung ist eine zwei Parameter Familie von Verteilungen. Der erste Parameter ist der Mittelwert der Verteilung, der zweite Parameter ist die Standardabweichung (bzw. Varianz) der Verteilung. Sie wird vielfach kurz als NHm, s2 L bezeichnet. Die Wahrscheinlichkeitsfunktion der Normalverteilung ist auf dem Träger @-¶, ¶D ungleich 0 und hat den folgenden 2 H−m+xL − 2 2s Wert mit Mittelwert m und Standardabweichung s. è!!!!!!!! 2π s Sie hat folgendes (symmetrisches) Aussehen (mit m = 5 und s = 1): 0.4 0.3 0.2 0.1 2 4 6 8 10 Die Wahrscheinlichkeitsdichte der Normalverteilung (PDF) sowie die im folgenden abgebildete CDF spielen eine zentrale Rolle in der induktiven Statistik sowie der Schätz- und Testtheorie. Wir werden später darauf zurückkommen. 43 Skript Statistik und Stochastik 1 0.8 0.6 0.4 0.2 2 4 6 8 10 Eigenschaften Die Verteilung hat die folgenden wichtigen Eigenschaften. NormalDistribution@m, sD Domain: Interval@8−∞, ∞<D PDF: 2 s2 − è!!!!!!!! 2π s H−m+xL2 CDF: Mean: Variance: 1 i −m + x y z j j1 + ErfA è!!!! Ez 2 k 2 s { m s2 Standardnormalverteilung Eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1 wird Standardnormalverteilung genannt. Sie wird oft auch mit N@0, 1D bezeichnet. Die PDF und CDF der Standardnormalverteilung sind tabelliert. Aus diesen Tabellen lassen sich die Wahrscheinlichkeiten für normierte Messwertintervalle herauslesen. Wir können einfacher und schneller (statt der Tabellen) die CDF verwenden. Wichtig zu wissen ist, dass die folgenden Beziehungen gelten (mit m = Mittelwert und s = Standardabweichung): 0.5` 1.` 2.` 3.` 4.` 0.382925 0.682689 0.954500 0.997300 0.999937 38.2925 % der Beobachtungen liegen im Intervall @m - 0.5 s, m + 0.5 sD 68.2689 % der Beobachtungen liegen im Intervall @m - 1 s, m + 1 sD 95.4500 % der Beobachtungen liegen im Intervall @m - 2 s, m + 2 sD 99.7300 % der Beobachtungen liegen im Intervall @m - 3 s, m + 3 sD 99.9937 % der Beobachtungen liegen im Intervall @m - 4 s, m + 4 sD Man sieht, dass die Wahrscheinlichkeit, einen Wert ausserhalb von @-4 s, 4 sD zu messen, weniger als 0.01 % beträgt, also äusserst unwahrscheinlich ist. 44 Skript Statistik und Stochastik c2 Verteilung (ChiSquareDistribution bzw. CHIVERT) Einleitung Diese Verteilung ist in der Statistik sehr wichtig und verdankt ihre Existenz weitgehend dem zentralen Grenzwertsatz und der Tatsache, dass man in Modellen der Datenanalyse Fehlerterme normalverteilt modelliert. Dann haben folgende Zufallsvariablen eine cn 2 Verteilung. † ⁄ni=1 Xi 2 , falls die Xi (i = 1, .. n) standardnormalverteilt sind; êêê 2 n n êêê HYi -Y L Yi † ‚ ÅÅÅÅÅÅÅÅ ÅÅÅÅ2 ÅÅÅÅÅÅ , falls die Yi (i = 1, .. n) normalverteilt sind mit Mittelwert Y = ‚ ÅÅÅÅ Å und Varianz s2 ; s i=1 i=1 n n êêê 2 S2 † Ausserdem hat ÅÅÅÅ ÅÅÅ eine cn-1 2 Verteilung, wobei S 2 = ‚ HYi - Y L ; s2 i=1 Wir werden später noch genauer darauf zurückkommen. Die Wahrscheinlichkeitsfunktion der c2 Verteilung ist auf dem Träger @0, ¶@ ungleich 0 und hat den folgenden Wert -nê2 -xê2 n -1+ ÅÅ2ÅÅÅ 2 ‰ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅxÅÅÅÅÅÅÅÅÅÅÅÅÅ . Sie ist also für negative x nicht definiert. Gamma@ ÅÅÅÅn D 2 Der folgende Plot zeigt die Verteilung für verschiedene n: 81, 2, 3, 5, 10, 20< in den Farben {rot, grün, blau, rot-strichliert, grün-strichliert, blau-strichliert}. Der folgende Map Befehl erzeugt eine Liste von Graphiken, die als Animation betrachtet werden können. Auf diese Art und Weise sieht man sehr schön, wie sich die ChiSquareDistribution mit zunehmendem Parameter (Anzahl Freiheitsgrade) verändert. 0.3 0.25 0.2 0.15 0.1 0.05 5 10 15 20 25 Eigenschaften Die Verteilung hat die folgenden wichtigen Eigenschaften. ChiSquareDistribution@nD Domain: Interval@80, ∞<D PDF: 2−nê2 −xê2 x−1+ 2 n Gamma@ D 2 n CDF: Mean: Variance: n x GammaRegularizedA , 0, E 2 2 n 2n Student t Verteilung (StudentTDistribution bzw. TVERT) Die Wichtigkeit der StudentTDistribution leitet sich von folgender Eigenschaft ab. 45 Skript Statistik und Stochastik Y Falls Y eine standardnormalverteilte Zufallsgrösse und Z eine cn 2 verteilte Zufallsgrösse ist, dann ist der Quotient Tn = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ "####### Z ÅÅnÅÅ StudentT verteilt. Die Wahrscheinlichkeitsfunktion der Student t Verteilung ist auf dem Träger D - ¶, ¶@ ungleich 0 und hat den foln I ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ M 2 n+x2 ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ . è!!!!! ÅÅÅÅÅÅÅÅ n Beta@ ÅÅÅÅn2 , ÅÅÅÅ12 D 1+n ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ genden Wert Die folgende Graphik zeigt sehr schön, dass mit zunehmendem n (Anzahl Freiheitsgrade): {1 rot, 2 grün,3 blau,5 rot strichliert,10 grün strichliert,100 blau strichliert}die StudentTDistribution gegen die Standardnormalverteilung konvergiert. In der Praxis ist es üblich, für einen Parameter grösser als 100 die StudentTDistribution durch die Standardnormalverteilung zu ersetzen. Wie man sieht, ist dies gerechtfertigt. 0.4 0.3 0.2 0.1 -4 -2 2 4 Eigenschaften Die Verteilung hat die folgenden wichtigen Eigenschaften. StudentTDistribution@nD Domain: Interval@8−∞, ∞<D PDF: n H L 2 n+x2 è!!!! n 1 n Beta@ , D 2 2 1+n CDF: Mean: Variance: 1 n n 1 J1 + BetaRegularizedA , 1, , E Sign@xDN 2 n + x2 2 2 0 n −2 + n 46 Skript Statistik und Stochastik Zentraler Grenzwertsatz Einleitung Der Graph der Verteilungsfunktion einer Summe von n unabhängigen, identisch verteilten Zufallsvariablen mit endlicher Varianz gleicht für grosse n mehr und mehr einer Normalverteilung. Diese bemerkenswerte Tatsache ist eines der fundamentalen Ergebnisse der Wahrscheinlichkeitstheorie und wird der "Zentrale Grenzwertsatz" genannt. 1 Wir werden diesen Satz nicht beweisen. Wir wollen dies jedoch mit der Bernoulli( 2 ) Verteilung illustrieren. Diese 1 . Bernoulli Verteilung hat die Werte 0 und 1 mit der Wahrscheinlichkeit von je 2 Experiment Der zentrale Grenzwertsatz bezieht sich auf eine Summe von Zufallsvariablen, also auf die Summe der Ergebnisse von n-mal durchgeführten Bernoulli Experimenten. Es interessiert nun nicht diese Summe, sondern die Verteilung dieser Summe (aus n Experimenten), wenn n gegen ¶ geht. Ein Wurf ergibt die zwei möglichen Pfade bzw. Summe {0} und {1} mit je 50% Wahrscheinlichkeit: Zwei Würfe ergeben bei 4 verschiedenen Pfaden die Summen {0}, {2} mit je 25% Wahrscheinlichkeit und {1} mit 50% Wahrscheinlichkeit. Fünf Würfe ergeben den folgenden Plot der 8Summe, Anzahl Pfade<-Paare. 10 8 6 4 2 5 10 15 20 Die Verteilung ist weit von einer Normalverteilung entfernt. Wenn wir jedoch die Anzahl Münzwürfe weiter erhöhen, wird die Verteilung immer symmetrischer und ähnlicher zu einer Normalverteilung. Bei 20 Würfen gibt es total 220 = 1048576 verschiedene Pfade (Variationen). Rund 175'000 dieser Pfade ergeben dabei als Summe 10 (bzw. 10x das Einzelergebnis {1}). 47 Skript Statistik und Stochastik 175000 150000 125000 100000 75000 50000 25000 5 10 15 20 Die PDF selbst konvergiert jedoch nicht für grosse n gegen eine bestimmte Kurve. Der Erwartungswert sowie die Varianz nehmen nämlich kontinuierlich zu (gegen ¶). Dies ist auch zu erwarten, da der Erwartungswert der Bernoullivn n erteilung bei n Versuchen 2 beträgt und die Varianz 4 . Man kann jedoch diese PDF so normieren, dass sie den Erwartungswert 0 und die Varianz 1 hat. Diese PDF konvergiert dann gegen die Standard Normalverteilung. Obwohl die Ausgangswahrscheinlichkeitsfunktion mit den beiden Ergebnissen {0} und {1} weit von einer Normalverteilung entfernt ist, konvergiert die Summe für grosse n gegen die Normalverteilung. Kugeln aus einer Urne ziehen Hier wird nun eine weitere Illustration des zentralen Grenzwertsatzes gegeben. Gegeben ist eine Box, in der sich Kugeln mit den Nummern 0, 2, 3, 4 und 6 befinden. Dies ist wiederum eine Ausgangswahrscheinlichkeitsfunktion, die weit von einer Normalverteilung entfernt ist. Es werden nun 25 Kugeln mit Zurücklegen gezogen und die Nummern addiert. Dies gibt eine Zahl im Bereich von 0 ( 25 mal die 0) bis 150 (25 mal die 6). Wenn wir nun 5x je 25 Kugeln ziehen, resultieren (in einem Computerexperiment) die folgenden Summen: 8102, 84, 70, 88, 80< Dieses Experiment wird nun nicht 5 mal, sondern 100 mal ... 6 5 4 3 2 1 20 40 60 80 100120140 ... bzw. 10'000 mal repetiert. 400 300 200 100 20 40 60 80 100 120 140 Skript Statistik und Stochastik 48 Man sieht, dass mit der Anzahl der Wiederholungen die Verteilung gleichmässiger wird. Im obigen Prozedere muss man zwischen der Anzahl Züge (25) und der Anzahl Wiederholungen (10'000) unterscheiden. Wenn die Anzahl Züge zunimmt (z.B. 50 statt 25), wird sich das diskrete (theoretische) Wahrscheinlichkeitshistogramm für die Summe immer mehr der Normalverteilung annähern. Der Erwartungswert der Summe wird immer grösser werden und die (relativen) Abstände zwischen den Summen werden immer kleiner (quasistetig). Wenn die Anzahl der Repetitionen zunimmt, wird sich das empirische Histogramm für die Summe der Züge immer mehr dem theoretischen Histogramm annähern. Was auch immer in der Box ist, mit einer genügend grossen Anzahl an Zügen wird das Wahrscheinlichkeitshistogramm (nach Normierung) immer mehr der Standardnormalverteilung folgen. Skript Statistik und Stochastik 49 7. Statistik und empirische Daten Einleitung Nachdem wir uns bislang vor allem mit der Wahrscheinlichkeitstheorie, mit Zufallsexperimenten und daraus folgenden (theoretischen) Verteilungen beschäftigt haben, wollen wir uns nun dem Gebiet der Statistik zuwenden, wo es darum geht (empirische) Daten zu erheben und zu analysieren. Stichwortartig soll im Folgenden das Gebiet der Statistik umrissen werden. † Die Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung und Auswertung von Informationen / Daten. † Die Statistik kann eingeteilt werden in spezielle (auf ein Thema bezogen: z.B. Bevölkerungsstatistik) und allgemeine Statistik. † Die allgemeine Statistik kann eingeteilt werden in praktische (Erhebung der Daten) und theoretische Statistik. † Die theoretische Statistik kann eingeteilt werden in beschreibende (deskriptive) und schliessende (induktive, inferentielle) Statistik. † Bei der deskriptiven Statistik geht es darum, die Daten zu beschreiben. Dies geschieht mittels Masszahlen und Graphiken. Stichworte: † Positionsmass bzw. Lokalisationsmass: Mean, Median, Min, Max, Quantile † Streuungsmass bzw. Dispersionsmass: Standardabweichung, Varianz, Spanne, Skewness (Schiefe), Kurtosis (Wölbung), KurtosisExcess (Exzess) † Häufigkeitsauszählung, Kontingenztafel (Kreuztabelle) † Kovarianz, Korrelation † Graphiken: Die Darstellung kann von der Urliste, der sortierten Liste (rel. Häufigkeit, Stabdiagramm, Polygonzug) oder gruppierten Daten (Klassen, Balkendiagramm) ausgehen. Es können auch bearbeitete (gefilterte) Daten dargestellt werden oder mit einem Modell verglichen werden. Weiters gibt es PieChart, BarChart und BarChart3D (diskret) bzw. Histogram (stetig), BoxAndWhiskerPlot, ListPlot, Plot ... † Bei der inferentiellen Statistik geht es darum, aus einer Stichprobe (repräsentative Auswahl, Messreihe, empirische Verteilung) auf eine ganze Population (Grundgesamtheit, theoretische Verteilung) zu schliessen. Sie kann weiter in Schätztheorie (z.B. Schätzen der theoretischen Verteilung) und Testtheorie unterteilt werden. Stichworte dazu: † PDF (probability density function, Wahrscheinlichkeitsdichtefunktion) † CDF (cumulative density function, Verteilungsfunktion) † Statistische Test dienen dem Testen von Vermutungen (sogenannten Hypothesen) über Eigenschaften der Gesamtheit aller Daten (Grundgesamtheit oder Population), aus denen man eine Stichprobe entnommen hat. Man unterscheidet: † Hypothesen über die unbekannten Parameter eines bekannten Verteilungstyps. Die zugehörigen Tests nennt man parametrische Tests. † Hypothesen über das Symmetriezentrum der Verteilung bei unbekanntem Verteilungstyp (nichtparametrische Tests). † Hypothesen über die Art einer Verteilung (Anpassungstests). † Hypothesen über die Abhängigkeit von Zufallsvariablen (Unabhängigkeitstests). Skript Statistik und Stochastik 50 † Die Statistik beschäftigt sich mit Daten. Die Daten können verschieden eingeteilt werden † Einteilung gemäss: quantitativ bzw. metrisch (Real und Integer) versus qualitativ bzw. kategoriell bzw. nichtmetrisch (diese können weiters in nominal (ohne Rangfolge: z.B. blau, grün, rot) und ordinal (mit Rangfolge: z.B. schlecht, mittelmässig, gut) unterteilt werden). † Einteilung gemäss: kontinuierlich bzw. stetig (Real) versus diskret (Integer, Kategorien) † Die Daten liegen als Listen (univariate Daten) oder Tabellen mit zwei (bivariat) oder mehr (multivariate) Spalten vor. † In einer Reihe (Zeile) stehen die Werte (aller Variablen) für eine Messung / Beobachtung. † In einer Kolonne (Spalte) stehen die Werte (aller Messungen) für ein bestimmtes Merkmal (Variable). † Schritte bei der Analyse von Daten † Deskriptive Statistik: Positionsmasse, Dispersionsmasse, ... Graphiken † Korrelationen (bei multivariaten Daten) † Filtern und Vorverarbeiten von Daten: ZeroMean, Standardize † Test auf Normalverteilung (oder eine andere Verteilung) † Schliessen von der Stichprobe auf die Population Datentypen Wir wollen hier noch etwas detaillierter (als im vorherigen Abschnitt) auf die verschiedenen Datentypen (bzw. Merkmalstypen) eingehen. Es lassen sich drei Merkmalstypen unterscheiden † Klassifikatorische (qualitative) Merkmale; abzählbar viele Ausprägungen; die möglichen Merkmalsausprägungen werden auf einer Nominalskala erfasst, bei der die Skalenwerte lediglich als Kennzahlen (Namen für die Objekte) aufgefasst werden können: Geschlecht, Haarfarbe. † Komparative Merkmale, deren mögliche Ausprägungen intensitätsmässig abgestuft sind und die sich nach einem Ordnungsprinzip in eine Rangfolge bringen lassen. Die Darstellung derartiger Merkmale erfolgt auf einer Ordinalskala, auf der monotone (oder ordnungserhaltende) Transformationen erlaubt sind: Handelsklassen, Windstärke, Schulnote. † Quantitative Merkmale, deren Merkmalsausprägungen digital (Zählvorgang) oder im Vergleich mit einer vorgegebenen Masseinheit analog gemessen werden (Kardinal- oder metrische Skala): Alter, Einkommen, Umsatz. Bei den quantitativen Merkmalen unterscheidet man drei Skalen: † Intervallskala, bestimmt dadurch, dass Rangfolge und Abstand zwischen den Merkmalswerten definiert sind; diese Skala ist gegenüber linearen Transformationen invariant: Temperatur in Grad Celsius. † Verhältnisskala, bestimmt dadurch, dass Rangfolge, Abstand und Verhältniswert zweier Merkmalswerte definiert sind; invariant gegenüber ähnlichen Transformationen (y = a x). Es existiert ein natürlicher Nullpunkt: Körpergrösse. † Absolute Skala, bestimmt dadurch, dass zusätzlich zu den eine Verhältnisskala definierenden Relationen eine natürliche Einheit gegeben ist und nur identische Transformationen (y = x) erlaubt sind: Anzahl der Einwohner einer Gemeinde. Eine weitere Unterscheidung der Merkmale wird durch die jeweilige Angabe der Merkmalswerte getroffen. Diskrete Merkmale sind Merkmale, deren Wertebereich endlich oder abzählbar unendlich viele Merkmalswerte aufweist. Kontinuierliche oder stetige Merkmale haben einen Wertebereich mit überabzählbar vielen Merkmalswerten. Skript Statistik und Stochastik 51 8. Beschreibende Statistik Einleitung In der Statistik hat man es häufig mit grossen Datenreihen zu tun. Die als deskriptive Statistik bezeichnete Zweig der Statistik liefert leistungsstarke Werkzeuge, um solche Datenreihen zu analysieren und Schlüsse daraus zu ziehen. In diesem Kapitel untersuchen wir Methoden zur Untersuchung eines einzelnen Merkmals X in einer Grundgesamtheit G = 8e1 , e2 , ... en <. Die Daten sind als Datenvektor x = 8x1 , x2 , ... xn < in einer Urliste gegeben, wobei xi der Merkmalswert der statistischen Einheit ei darstellt. Wir haben es also mit univariaten Daten zu tun. Zur Untersuchung dieser Daten gibt es - abhängig von der Länge n der Datenreihen und dem Typ der Daten - ganz unterschiedliche Methoden. Die wichtigsten, in diesem Kapitel untersuchten Methoden, sind ... † die graphischen Darstellungen; † die tabellarischen Darstellungen; sowie † die Berechnung von Masszahlen ... von solchen Datenreihen. Bei Experimenten mit sehr vielen unterschiedlichen Merkmalsausprägungen kann die Zahlenfülle den Blick auf das Wesentliche verstellen. In solchen Situationen können gut gewählte Graphiken helfen. Wir werden im Folgenden diverse Methoden präsentieren, wie univariate möglichst anschaulich dargestellt werden können. Wir starten mit den einfachsten Punkteplots 8i, xi <, wo der Merkmalswert in der Reihenfolge der Beobachtungen 8x1 , x2 , ... xn < aufgetragen wird. Die Information wird auf diese Art nicht sehr anschaulich präsentiert. Als leichte Abwandlung dieser Punkteplots können auch an Stelle der Punkte (oder zusätzlich zu den Punkten) senkrechte Linien (Stabdiagramm) eingetragen werden. Eine etwas bessere Darstellung resultiert, wenn man an Stelle der Urliste 8x1 , x2 , ... xn < die sortierte Urliste verwendet (was natürlich mit nominal skalierten Datenreihen nicht gemacht werden kann) und die entsprechenden Punkte 8i, xsort,i < aufträgt. Sehr einfach kann man z.B. die Grösse des Medians oder eines Quantils aus der Tabelle herauslesen. Man sieht auch wie bei diskreten Daten der gleiche xsort,i Wert mehrmals auftreten, während bei stetigen Daten dies in der Regel nicht der Fall ist und die xsort,i streng monoton zunehmen. In einem nächsten Schritt wird dann quasi die Abszisse mit der Ordinate vertauscht und wir verwenden eine Darstellung, in der zu jedem xsort,i die entsprechende (absolute) Häufigkeit ni (d.h. 8xsort,i , ni < )oder relative Häufigkeit hi (d.h. 8xsort,i , hi <) als Punkt aufgetragen wird. Alternativ können an Stelle der Punkte auch Linien oder Rechtecke (Säulendiagramm) eingezeichnet werden. Wenn sich die benachbarten Säulen berühren spricht man von einer Histogramm Darstellung. Diese Darstellungen machen nur bei diskreten Daten einen Sinn, da bei stetigen Daten für praktisch alle xsort,i die Häufigkeit gleich 1 ist. Wir müssen also (insbesondere für stetige Daten, aber auch für diskrete Daten, die sehr viele unterschiedliche x-Werte annehmen) die Daten in k Klassen (Intervalle) zusammenfassen. Wir haben weiterhin eine Häufigkeitsdarstellung mit dem Unterschied, dass der Index nun nicht mehr einen gemessenen xi Wert repräsentiert, sondern ein ganzes Intervall: d.h. 8xsort,iv , niv < oder 8xsort,iv , hiv <. Während bei den absoluten Häufigkeiten die Summe ⁄kiv=1 niv = n ergibt, liefern die 52 Skript Statistik und Stochastik relativen Häufigkeiten eine normierte Darstellung: d.h. ⁄kiv=1 hiv = 1 und jedes hiv die Wahrscheinlichkeit repräsentiert, einen Wert im Intervall iv zu finden. Es gibt jedoch noch eine dritte Darstellungsmöglichkeit mit den sogenannten empirischen Dichten fiv , die insbesondere bei Histogrammdarstellungen, die Intervalle ungleicher Breite beinhalten, angewendet wird, bei der die relativen hiv Häufigkeiten hiv noch durch die Breite biv jeden Intervalls geteilt werden: d.h. fiv = ÅÅÅÅ ÅÅÅ . In diesem Fall entspricht das biv Produkt aus fiv und biv der Wahrscheinlichkeit, einen Wert im Intervall iv zu finden. Als letzten Schritt führen wir noch eine Summation der Häufigkeiten durch, was uns auf die Darstellung der Verteilung bzw. der Summenhäufigkeit führt. In diesem Fall werden die Paare 8xiv , ⁄ivj=1 hi < als Punkte, in der Histogrammdarstellung oder als Polygonzug dargestellt. Die graphischen Darstellungen vermögen anschaulich einen Eindruck über die Verteilung der Daten zu vermitteln, über ihre Symmetrie, Schiefe und Gipfligkeit. Oft ist jedoch der Wunsch vorhanden, an Hand von wenigen Zahlen die Verteilung des Merkmals zu charakterisieren. Solche Zahlen heissen Masszahlen oder Parameter einer Verteilung. Sie beschreiben zumeist entweder die Lage (d.h. die durchschnittliche Grössenordnung der Merkmalswerte) oder die Streuung (d.h. wie nah sie beieinander liegen) und Form der Verteilung (d.h. ob sie symmetrisch oder unsymmetrisch verteilt sind). Wie schon bei den graphischen Darstellungen gibt es auch hier für die unterschiedlichen Skalierungen der Daten (Nominalskala, Ordinalskala, Metrische Skala) unterschiedliche Methoden. Wir werden in diesem Abschnitt verschiedene, häufig gebrauchte Masszahlen kennenlernen. Graphische Darstellungen Einleitung In diesem Abschnitt untersuchen wir die verschiedenen Möglichkeiten der graphischen und tabellarischen Darstellung von Datenreihen. Wir behandeln in diesem Abschnitt zur Veranschaulichung kurze diskrete, lange diskrete und lange stetige Datenreihen. Diese Datenreihen seien folgendermassen spezifiziert. Diskrete Datenreihe (n klein) Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 20, deren Werte einer Binomialverteilung mit n = 5 und p = 0.6 entnommen sind. Der Wertebereich dieser Verteilung ist das Intervall @0, nD. 8 6 4 2 1 2 3 4 5 6 Diese Datenreihe steht repräsentativ für nominal und ordinal skalierte Daten. 53 Skript Statistik und Stochastik Diskrete Daten (n gross: 1000) Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 1000, deren Werte einer Binomialverteilung mit n = 100 und p = 0.5 entnommen sind. Der Wertebereich dieser Verteilung ist das Intervall @0, nD. 80 60 40 20 30 40 50 60 70 80 Diese Datenreihe steht ebenfalls repräsentativ für nominal und ordinal skalierte Daten. Auf Grund der grossen Anzahl von Daten sind jedoch andere Methoden anwendbar. Stetige Daten (n gross: 1000) Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 1000, deren Werte einer Normalverteilung mit m = 50 und s = 10 entnommen sind. Hier werden die relativen Häufigkeiten (d.h. normiert) der gerundeten (d.h. in Intervalle der Breite 1 eingeteilten) Daten dargestellt. 0.05 0.04 0.03 0.02 0.01 30 40 50 60 70 80 Die in diesem Beispiel erzeugte Datenreihe hat 18.4392 als kleinsten und 89.6249 als grössten Wert. 8i, xi < Die einfachste Darstellung dieser Datenreihen ist sicherlich, wenn man die gemessenen Werte der Reihe nach als Punkte 8i, xi <, Stämme oder Säulen im Koordinatensystem einträgt. In der Abszisse wird der Index (der Messreihe) und in der Ordinate der (gemessene) Merkmalswert eingetragen. Wie die untenstehenden Plots zeigen, ist es jedoch sehr schwierig einen detaillierten Eindruck über die Verteilung zu bekommen. Diskrete Daten (n klein) In einem Stabdiagramm (hier mit Symbol) wird zusätzlich zu jedem Punkt 8i, xi < eine senkrechten Linie eingetragen. MultipleListPlot@xBDk, SymbolShape → StemD; 54 Skript Statistik und Stochastik 5 4 3 2 1 5 10 15 20 Diskrete Daten (n gross) In einem Plot 8i, xi < werden alle beobachteten Messwerte xi gegen den Index i aufgetragen. Man sieht ungefähr, wo sich die Daten häufen. Eine zuverlässig Angabe eines mittleren Wertes oder anderer Grössen ist jedoch schwierig. ListPlot@xBD, PlotRange → AllD; 65 60 55 50 45 40 200 400 600 800 1000 Es ist auch möglich, die einzelnen Punkte miteinander zu verbinden. Dadurch sieht man die Verteilung etwas besser. ListPlot@xBD, PlotRange → All, PlotJoined → TrueD; 65 60 55 50 45 40 200 400 600 800 1000 Stetige Daten (n gross) Bei stetigen Daten und vielen Beobachtungen unterscheidet sich ein Punkteplot nicht allzusehr von einem Punkeplot bei diskreten Daten. ListPlot@xND, PlotRange → AllD; 55 Skript Statistik und Stochastik 90 80 70 60 50 40 30 200 400 600 800 1000 8i, xsort,i < Die im voranstehenden Abschnitt untersuchten xi waren nicht sortiert. Deshalb springen die xi von Beobachtung zu Beobachtung in Richtung der Ordinate auf und ab. Wenn die Daten xi sortiert werden und dann die Punkte 8i, sortierte xi < einzeichnet, dann erhält man eine gleichmässige Zunahme der xi Werte. Diskrete Daten (n klein) Bei wenigen Daten sieht man die einzelnen Datenpunkte sehr gut. Man sieht: † es gibt nur diskrete Ordinatenwerte † mehrere Beobachtungen können den gleichen Wert liefern † es gibt keinen Datenpunkt mit dem Wert xi = 1 † es gibt 3 Datenpunkte mit dem Wert xi = 2 † es gibt 4 Datenpunkte mit dem Wert xi § 2 † etc. 5 4 3 2 1 5 10 15 20 Diskrete Daten (n gross) Bei sehr grossen Datenreihen können die einzelnen Punkte nicht mehr aufgelöst werden, sie verschmelzen zu einer Linie. Ansonsten ist die Interpretation gleich wie bei wenig Daten. Mit einfachen Mitteln kann beispielsweise der (Unter)Median der Verteilung bestimmt werden: Man nimmt den mittleren Index (500) und finden das entsprechende x500 . 56 Skript Statistik und Stochastik 65 60 55 50 45 40 200 400 600 800 1000 Stetige Daten (n gross) Bei stetigen Daten liefert in der Regel jede Beobachtung einen anderen Wert (v.a. wenn nicht allzustark gerundet wird). Dies führt dazu, dass die Abstände zwischen den eingetragenen Ordinatenwerten (xi+1 - xi ) beliebige stetige Werte annehmen können. Die eingetragenen Werte steigen deshalb (zumeist) streng monoton. Aus einer solchen Graphik kann man auch auf relative einfache Art und Weise den Median finden. 90 80 70 60 50 40 30 200 400 600 800 1000 Häufigkeitsfunktionen: 8xsort,i , ni <, 8xi , hi < In den 8i, xi,sortierte<- Plots kann man gut gesehen, wo sich die xi Werte häufen. Eine noch bessere Darstellung erlaubt die Graphik, in der man in der Abszisse die xi und in der Ordinate die absolute Häufigkeit ni dieser xi Werte aufträgt. Diese ni werden auch als absolute Häufigkeiten oder kurz als Häufigkeit bezeichnet. Es gilt: ⁄ni=1 ni = n. Diese Darstellung zeigt für diskrete Daten sehr schön, wo und wie sich die xi Werte verteilen. ni Wenn diese absoluten Häufigkeiten durch n geteilt werden, dann erhält man die relativen Häufigkeiten: hi = ÅÅÅÅ Å . Die n n Summe der hi ergibt 1: ⁄i=1 hi = 1. Die relativen Häufigkeiten sind also normiert. Eine Abbildung, die einem xi das hi zuordnet, wird auch Häufigkeitsfunktion H@xD (englisch Frequency Distribution) genannt. H@xD ist eine Kurve, die nicht nur zeigt, wo sich die meisten Beobachtungen befinden, sondern auch welche Form (symmetrisch, schief, gipflig) die Verteilung hat. Im Folgenden kann in den meisten Darstellungen statt ni auch hi verwendet werden. Der Einfachheit halber wird jeweils nur eines dargestellt. Die 8xi , nxi < Darstellung kann auch sehr einfach aus dem 8i, xi,sortiert<- Punkteplot abgeleitet werden, indem die einzelnen Punkte nach links gegen die Ordinate verschoben werden und anschliessend die Abszisse und Ordinate miteinander vertauscht werden. 57 Skript Statistik und Stochastik Die 8xi , nxi < oder 8xi , hxi < Darstellung eignet sich jedoch nicht gut bei diskreten Verteilungen mit vielen unterschiedlichen Werten, da dann - trotz grossem n - jedes xi nur wenige Male vorkommen kann und deshalb grosse Schwankungen in benachbarten nxi auftreten können. Die 8xi , nxi < oder 8xi , hxi < Darstellung eignet sich auch nicht bei stetigen Verteilungen, da - wie schon ausgeführt - für die stetigen Verteilungen die Häufigkeit für jedes xi gleich 1 wäre. In beiden Fällen kann eine optimalere Darstellung erreicht werden, wenn mehrere xi -Werte (bei diskreten Verteilungen) oder x-Intervalle jeweils zu Klassen zusammengefasst werden. Dies führt uns dann auf die wichtige Histogramm Darstellung. Eine Einteilung in Klassen kann aus einer Urliste beispielsweise mit folgenden Schritten vorgenommen werden: † Sortiere die Urliste in aufsteigender Reihenfolge † Bestimme die Intervalle. Es gibt viele Möglichkeiten, die Intervalle festzulegen. Beispielsweise: † Berechne die Spanne der Daten, d.h. Maximum - Minimum † Bestimme die Anzahl k der Intervalle (Klassen, Bereiche, Bins). Bei zu wenig Intervallen verliert man wichtige Information, bei zu vielen Intervallen wird zu wenig gemittelt. Die optimal Anzahl hängt auch von der Verteilung der Daten ab. è!!!! Als Faustregel gilt k = n . Spanne † Bestimme die Intervallbreite als ÅÅÅÅÅÅÅÅkÅÅÅÅÅÅÅÅÅ Man kann auch einen grösseren Bereich als die Spanne abdecken. Ausserdem ist es möglich, Intervalle unterschiedlicher Breite zu wählen. Maximum-Minimum † Bestimme alle k + 1 Intervallgrenzen gi : z.B. gi = Minimum + Hi - 1L ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ " i = 1, ... k + 1 k † Zähle die Anzahl Beobachtungen hi , die in jedes Intervall @gi , gi+1 @ fallen. Achtung bei den Intervallgrenzen: jeder Wert darf nur einmal gezählt werden: die untere Intervallgrenze gi zählt zum Intervall die obere Grenze gi+1 demnach nicht (da sie zum nächsten Intervall gehört), d.h. gi § x gi+1 . † Erstelle eine Tabelle der Punkte 8i, hi < für alle Intervalle i. † Stelle diese Punkte graphisch in einem Histogramm dar. Diskrete Daten (n klein) Bei wenigen Daten muss keine Klasseneinteilung vorgenommen werden und man kann die Daten direkt als Stammdiagramm ... 8 6 4 2 1 2 3 4 5 ... , in einem Säulendiagramm (englisch Barchart) oder in einem Kreisdiagramm (Kuchendiagramm , englisch Piechart) darstellen. In einem Säulendiagramm wird für jeden xi - Wert eine Säule der Höhe nxi oder hxi eingetragen. 58 Skript Statistik und Stochastik 8 6 4 2 0 1 2 3 4 5 In einem Kreisdiagramm entsprechen die Winkel bzw. Flächen der Kreissektoren der einzelnen xi -Werte den Häufigkeiten ni oder hi . Diese Darstellung eignet sich jedoch nicht für sehr grosse Datenmengen, da dann die einzelnen Sektoren zu klein würden. 2 3 0 5 4 Bei kleinen Datenmengen können die 8xi , nxi < oder 8xi , h xi < Werte auch direkt in einer Tabelle dargestellt werden. xi nhi 0 1 1 0 2 3 3 8 4 6 5 2 Diskrete Daten (n gross) Diese Darstellung ist analog zur im letzten Abschnitt diskutierten Darstellung bei kleinen Datenreihen. Für jeden xi Wert wird die Häufigkeit bestimmt. In unserem Beispiel erhalten wir die folgenden 8xi , nxi < Werte: 8834, 843, 850, 858, 1<, 836, 1<, 837, 2<, 838, 6<, 839, 8<, 840, 9<, 841, 16<, 842, 25<, 43<, 844, 41<, 845, 35<, 846, 64<, 847, 66<, 848, 89<, 849, 64<, 87<, 851, 84<, 852, 66<, 853, 59<, 854, 55<, 855, 40<, 856, 44<, 857, 30<, 20<, 859, 15<, 860, 16<, 861, 5<, 862, 5<, 863, 1<, 864, 2<, 866, 1<< Das heisst, dass 1x der Wert xi = 34, 35x der Wert xi = 45 etc. vorkommt. 59 Skript Statistik und Stochastik Die graphische Darstellung führt auf: 80 60 40 20 30 40 50 60 70 80 Aus dieser Graphik kann auch einfach die Häufigkeit ni eines xi Werts herausgelesen werden. Beispielsweise beträgt für den Wert xi = 45 die Häufigkeit ni = 35. Im Folgenden haben wir die obigen Daten in Klassen zusammengefasst, wobei die Klassengrenzen als 834, 38, ... 66< gewählt wurden. Die Häufigkeiten wurden über der Klassenmitte eingetragen. Es muss beachtet werden, dass n Intervalle zu n + 1 Intervallgrenzen führen. Die Säulendarstellung ergibt: 300 250 200 150 100 50 32 36 40 44 48 52 56 60 64 68 Diese Verteilung könnte auch in einem Histogramm (statt einem Säulendiagramm) dargestellt werden. Dies wird im nächsten Abschnitt mit stetigen Daten durchgeführt. Stetige Daten (n gross) Die Daten unseres Beispiels (mit 1000 Beobachtungen) haben einen Minimalwert von rund 18.43 und einen Maximalwert von rund 89.62. Wir können beispielsweise den Bereich auf das ganze Intervall [0,100] festlegen und darin 20 gleich breite Intervalle wählen. Dies führt auf die Intervallgrenzen ci von 80, 5, 10, ... 100<. Wenn wir die Werte in diesen Kategorien zählen erhalten wir: 60 Skript Statistik und Stochastik Intervall Mitte relative Häufigkeit 2.5` 7.5` 12.5` 17.5` 22.5` 27.5` 32.5` 37.5` 42.5` 47.5` 52.5` 57.5` 62.5` 67.5` 72.5` 77.5` 82.5` 87.5` 92.5` 97.5` 0.` 0.` 0.` 0.001` 0.007` 0.016` 0.038` 0.086` 0.145` 0.194` 0.197` 0.144` 0.092` 0.054` 0.015` 0.008` 0.001` 0.002` 0.` 0.` In einem Histogramm wird der Wertebereich der Daten in (nicht notwendigerweise) gleich grosse Intervalle eingeteilt und es ni Å ) als Ordinate werden jeweils die Messwerte ni , die in diese Intervalle fallen, gezählt und eventuell nach Normierung (hi = ÅÅÅÅ n eingetragen. Alternativ kann der Ordinatenwert auch so gewählt werden, dass die Fläche über jedem Intervall proportional zur Wahrscheinlichkeit ist, einen Messwert in diesem Intervall zu finden. Der Vorteil einer graphischen Darstellung ist, dass man sehr schnell sieht, wo die meisten Beobachtungen liegen. 0.2 0.15 0.1 0.05 20 40 60 80 100 Wenn der ganze Bereich von 0 bis 100 in nur 5 Intervalle eingeteilt wird, resultiert folgende Tabelle Intervall Mitte relative Häufigkeit 10.` 30.` 50.` 70.` 90.` 0.001` 0.147` 0.68` 0.169` 0.003` 61 Skript Statistik und Stochastik ... und folgendes Histogramm: 0.6 0.5 0.4 0.3 0.2 0.1 20 40 60 80 100 Man sieht, dass die Intervallbreite viel zu klein für eine vernünftige Darstellung ist. Eine zum Histogramm ähnliche Darstellung ist ein Häufigkeits Polygon (englisch frequency polygon). In einem Häufigkeits Polygon werden die Punkte 8MitteIntervall i , HäufigkeitIntervall i < in einem Koordinatensystem eingezeichnet und miteinander verbunden. Ein solcher Plot erscheint etwas kontinuierlicher als ein Histogramm mit seinen ¶ steilen Flanken. Verteilungsfunktion: 8xi , ⁄ij=1 h j < Als Ausgangspunkt für die Definition der Verteilungsfunktione dienen die bekannten absoluten oder relativen Häufigkeiten. Aus diesen wird ... † die laufende Summe der absoluten Häufigkeiten ni,cum = ⁄ij=1 n j . † oder die laufende Summe der relativen Häufigkeiten hi,cum = ⁄ij=1 h j . ... verwendet. Eine Abbildung, die einem xi das ⁄ij=1 h j zuordnet, wird auch Verteilungsfunktion F@xD (empirische Verteilungsfunktion, Summenhäufigkeitsfunktion; englisch Cumulative Frequency Distribution) genannt. F@xD ist eine Kurve, die zeigt wieviele Datenpunkte (oder wieviel % der Datenpunkte) einen Werte haben, der kleiner als ein spezifizierter Wert ist. Bei der Verteilungsfunktion handelt es sich um eine rechtsstetige Treppenfunktion. Bei sehr vielen Datenpunkten können (ohne grossen Fehler durch die lineare Approximation zwischen den Datenpunkten) zur anschaulichen Darstellung einfach die Punkte 8xsort,i , i< miteinander verbunden werden, da nach der Sortierung Bei stetigen Funktionen können einfach die Punkte 8xsort,i , ÅÅÅÅni < miteinander verbunden werden da gerade i (von total n) Beobachtungen kleiner oder gleich xsort,i sind. 62 Skript Statistik und Stochastik 1 0.8 0.6 0.4 0.2 30 40 50 60 70 80 90 Es gilt: † Die steile Flanke dieser Kurve zeigt den Wert an, den die meisten Punkte einnehmen. † Am Rande (links und rechts) wird die Kurve flacher. † Die Normierung führt dazu, dass die Ordinatenwerte der Kurve zwischen 0 und 1 liegen. † Die Abszissenwerte umfassen alle gemessenen Werte xi . Mehr Informationen zur Verteilungsfunktion kann auch in den Kapiteln über Verteilungen und Masszahlen gefunden werden. Weitere graphische Darstellungen Box-And-Whisker Plot Mit einem Box-And-Whisker Plot (Schachteldiagramm) kann sehr schnell ein Eindruck einer Datenreihe gewonnen werden. Der Plot hat die Form einer Box, die die Distanz zwischen (ülicherweise) dem 25% Quantil und dem 75% Quantil umfasst. Zusätzlich sind Querlinien beim Median und dem Minimum und Maximum (eventuell nach Ausschluss von Ausreissern) eingezeichnet. Der folgende Plot gilt für unsere Binomialverteilung (n gross). 65 60 55 50 45 40 35 Der folgende Plot zeigt alle drei unserer Beispielverteilungen. 63 Skript Statistik und Stochastik 80 60 40 20 0 1 2 3 Masszahlen - Nominalskala Wir beginnen nun mit der Besprechung von Masszahlen. Wie schon bei den graphischen Darstellungen gibt es auch hier für die unterschiedlichen Skalierungen der Daten (Nominalskala, Ordinalskala, Metrische Skala) unterschiedliche Methoden. Wir starten hier mit den Methoden, die für nominalskalierte Daten eingesetzt werden können. Diese Methoden gelten (natürlich) auch für ordinal und metrisch skalierte Daten. Ebenso werden die im nächsten Abschnitt für ordinalskalierte Daten diskutierten Methoden auch für metrisch skalierte Daten gelten. Bei nominalskalierten Daten besitzt das Merkmal X insgesamt J verschiedene Merkmalswerte, die mit 8x1 , x2 , ... xJ < bezeichnet seien. Für jeden Merkmalswert kann nun die absolute n j und relative h j Häufigkeit berechnet werden, mit der der Merkmalswert x j in den Daten vorkommt. Im Folgenden jeweils für " j œ 81, 2. .. J <. Die absolute Häufigkeit n j ist gleich der Anzahl der Daten mit x j = x j . n Die relative Häufigkeit h j ist definiert als ÅÅÅÅnÅjÅ und gibt den Anteil der Daten mit dem Merkmalswert x j = x j an. Ein Merkmalswert x j heisst Modus, wenn seine Häufigkeit mindestens so gross wie die der übrigen Merkmalswerte ist, d.h. wenn n j ¥ nk " k.Im Allgemeinen können Daten mehrere Modi aufweisen. Es gilt: † Eine Verteilung kann mehr als einen Modus haben. † Eine Verteilung mit nur einem Modus heisst unimodal, mit zwei Modi heisst bimodal, dann trimodal ... † Wenn alle Beobachtungswerte ungleich sind (z.B. bei stetigen Verteilungen), dann hat die Verteilung keinen Modus. † Der Modus ist das einzige Lokalisationsmass, das für nominale Daten verwendet werden kann. Die absoluten und relativen Häufigkeiten können dazu benutzt werden, die Daten in einer Tabelle übersichtlicher darzustellen. Bei einer diskreten Klassierung werden die Merkmalswerte mit ihrer absoluten Häufigkeit als Folge dargestellt: 8x1 , n1 <, 8x2 , n2 <, ... 8xJ , n J < Unter einer Häufigkeitstabelle versteht man eine Tabelle der Form: 64 Skript Statistik und Stochastik j 1 2 ... J Σ ξj ξ1 ξ2 ... ξJ nj n1 n2 ... nJ n hj h1 h2 ... hJ 1 Nominalskalierte Daten können durch verschiedene graphische Darstellungen veranschaulicht werden. Wichtig sind vor allem Säulendiagrammen oder Kreisdiagramme. Masszahlen - Ordinalskala Für Daten, deren Merkmal X (mindestens) ordinalskaliert ist, gibt es eine natürliche Ordnung. Für eine Datenreihe 8x1 , ... xn < kann man eine Verteilungsfunktion F@xD definieren. Die Funktion F@xD mit x œ mit »8i»xi §x<» F@xD = HAnteil der Daten § xL = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅ = S hr n xr §x wird empirische Verteilungsfunktion oder auch kurz Verteilungsfunktion genannt. Bei Vorliegen einer Urliste ermittelt man F@xD durch Abzählen der Beobachtungswerte, die kleiner oder gleich x, und anschliessende Division durch n. Wenn diskret klassierte Daten gegeben sind, wird F@xD durch Addition der entsprechenden relativen Häufigkeiten berechnet. Die Verteilungsfunktion hat die folgenden Eigenschaften: † Sie ist monoton wachsend. † Sie ist eine Treppenfunktion, d.h. stückweise konstant. Die Sprünge entstehen an jenen Stellen, die als Daten in der Urliste vorkommen, und die Sprunghöhe an einer Stelle x = x j ist gleich der relativen Häufigkeit des Wertes x j in der Urliste. † Sie ist rechtsstetig, d.h. der Funktionswert an einer Sprungstelle ist gleich dem Grenzwert der Funktionswerte, wenn man das Argument x von rechts der Sprungstelle annähert. Wenn die Verteilungsfunktion bekannt ist, lassen sich daraus die beobachteten Merkmalswerte und ihre relativen Häufigkeiten ermitteln. Ein weiteres wichtiges Mass zur Beschreibung von Daten ist das Quantil und kann mit Hilfe der Verteilungsfunktion definiert werden. Das p-Quantil xè p der Daten ist (für 0 p 1) definiert als xè p = min 8x œ » F@xD ¥ p< Die Funktion, die p in xè p abbildet heisst Quantilfunktion. Das p%-Quantil (oder auch p-tes Perzentil oder p-tes Fraktil) ist jene Zahl xè p % , für die die kumulierte Verteilungsfunktion den Wert von p% annimmt. Dies heisst, dass p% der Beobachtungen einen kleineren Wert haben als das p%-Quantil. Wichtige Quantile tragen spezielle Namen. Beispielsweise x 0.5 x0.25 , x0.50 , x 0.75 Median Quartile 65 Skript Statistik und Stochastik ,x ,x x0.2 , x 0.4 0.6 0.8 x0.1 , ... x0.9 x , ... x 0.01 0.99 Quintile Dezile Perzentile Die Quantile sind gut zu interpretieren und nützlich, um grosse Datenmengen mit vielen verschiedenen Werten zu charakterisieren. † Das Quantil xè 0.25 bezeichnet man als unteres Quartil, das Quantil xè 0.5 als mittleres Quartil oder Median, das Quantil xè 0.75 als oberes Quartil. † Der Median ist der Wert, der die unteren 50% der Daten von den oberen 50% der Daten trennt. (Siehe später mehr) † Die Quartile xè , xè , xè teilen die Daten in vier Blöcke, die jeweils 25% der Daten umfassen. Zwsichen dem 0.25 0.5 0.75 unteren und oberen Quartil liegen die "mittleren" 50% der Daten. Quantile können auch berechnet werden, ohne die Verteilungsfunktion F@xD zu berechnen. In einem ersten Schritt werden die Daten aufsteigend sortiert. Dann gilt (gemäss Mosler&Schmid): † falls n p ganzzahlig: xè p = xn p † andernfalls: xè p = x@n pD+1 , wo @n pD den ganzzahligen Teil von n p bezeichnet. alternativ könnte man auch eine lineare Interpolation zwischen den Daten durchführen. Mit dieser Definition wird immer einer der xi Werte retourniert. Beispielsweise ist bei n = 17 das 3. Quartil: xè 0.75 = x@n pD+1 = [email protected]+1 = x12+1 = x13 Diese Art der Quartilsbestimmung ist jedoch bei weitem nicht die einzige in der Statistik verwendete Implementation. Es gibt mindestens zehn weitere unterschiedliche Definitionen. In den CFA Readings wird i, der Index von x, mittels Hn + 1L q berechnet und bei nicht ganzer Zahl zwischen den benachbarten Werten (d.h. xi und xi+1 ) interpoliert. Für obiges Beispiel würde also resultieren: xè 0.75 = xHn+1L q = x13.5 = x13 + 0.5 Hx14 - x13 L Masszahlen - Metrisch skalierte Daten Für metrisch skalieren Daten können weitere Rechenoperationen ausgeführt werden. Im Folgenden werden die wichtigsten Masszahlen, die die ganze Information einer Folge von Daten 8x1 , ... xn < in eine einzige Masszahl komprimieren, besprochen. Diese Masszahlen machen insbesondere Aussagen über die Lage, die Streuung und die Form der Verteilung (Asymmetrie) der Daten von metrisch skalierten Daten. Lagemasse (Lokalisationsmasse) ⁄ni=1 xi Das arithmetische Mittel êêx ist definiert als êêx = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ bzw. in Worten ausgedrückt als Summe der Beobachtungen geteilt n durch die Anzahl der Beobachtungen. Das arithmetische Mittel ist das am häufigsten verwendete Lokalisationsmass und wird oft einfach als Mittelwert, Durchschnitt oder Schwerpunkt der Daten bezeichnet. Das arithmetische Mittel hat folgende wichtige Eigenschaften: 66 Skript Statistik und Stochastik † Merkmalssumme: ⁄ni=1 xi = n êêx † Das arithmetische Mittel liegt zwischen dem grössten und dem kleinsten Wert der Daten. † Zentraleigenschaft: ⁄n Hx - êêx L = 0 i=1 i Die Abweichungen der Daten vom arithmetischen Mittel heben sich gegenseitig auf. † Verschiebung: yi = xi + a; êêy = êêx + a x † Homogenität: y = b x ; êêy = b êê i i † affin-lineare Transformation: yi = b xi + a; êêy = b êêx + a Das arithmetische Mittel transformiert sich wie die Einzeldaten. † Es gilt: ⁄n Hx - êêx L2 = min ⁄n Hx - c L2 i=1 i cœ i=1 i Die Summe der quadratischen Abweichungen der Daten von einem festen Punkt c ist für das arithmetische Mittel am kleinsten. † Das arithmetische Mittel ist empfindlich auf Ausreisser. Bei der Berechnung des arithmetischen Mittels werden alle Merkmalswerte mit dem gleichen Gewicht verwendet. Wenn ein Wert aus der Urliste und dem Gewichtsvektor 8w1 , ... wn <, mit wi ¥ 0 und ⁄ni=1 wi = 1 gemäss der Beziehung êêx = ⁄n w x w i=1 i i berechnet wird, resultiert das sogenannte gewichtete Mittel. Das arithmetische Mittel kann auch als gewichtetes Mittel mit dem Gewichtsvektor 8w1 , ... wn <, wo alle Gewichte den gleichen Wert ÅÅÅÅ1n haben, verstanden werden. Das gewichtete Mittel spielt eine wichtige Rolle in der Portfolio Analyse zur Berechnung des Total Return, wenn unterschiedliche Gelmengen in den verschiedenen Assets investiert werden. Auch bei market-capitalization Indizes (wie z.B. S&P 500) wird der Index als mit dem Marktwert jeder Aktie gewichtetes Mittel berechnet. Wenn nun ein Beobachtungswert sehr weit - nach oben oder unten - von den übrigen entfernt ist, hat sein Beitrag einen grossen Einfluss auf êêx . Das arithmetische Mittel ist nicht robust gegen sogenannte Ausreisser. Einen robusteren Mittelwert konstruiert man, indem man die Daten trimmt, d.h. einen Anteil extremer Werte weglässt. Das a-getrimmte Mittel hat die Formel 1 êêx = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ n-@n aD x a n-2 @n aD ⁄i=1+@n aD i wobei [n a] den ganzzahligen Teil von n a bezeichnet; wobei 0 a 0.5; Beim a-getrimmten Mittel wird der Anteil a der Daten oben und unten in der sortierten Liste weggelassen und aus den verbleibenden Daten der Mittelwert berechnet. Es ist robuster als der arithmetische Mittelwert. Weitere Lokalisationsmasse sind der (schon für nominal skalierte Daten definierte) Modus (falls er eindeutig bestimmt ist) und der (schon für ordinal skalierte definierte) Median. Sie werden der Vollständigkeit halber nochmals kurz mit ihren Eigenschaften aufgeführt. Der Median (auch Zentralwert genannt) ist so definiert, dass 50% der Daten grösser und 50% der Daten kleiner als der Median sind. Sortiert man die Beobachtungswerte der Größe nach („geordnete Stichprobe“), so ist der Median bei einer ungeraden Anzahl von Beobachtungen der in der Mitte dieser Folge liegende Beobachtungswert. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern einen ganzen Bereich. Alle denkbaren (nicht beobachteten) Werte zwischen den beiden in der Mitte liegenden Werten sind ein Median der 67 Skript Statistik und Stochastik Stichprobe, da für alle diese Werte obige Bedingung zutrifft. In der Statistik werden rund 10 verschiedene Definitionen für den Median angewandt. Die folgenden drei sind die gebräuchlichsten; man sollte sich jeweils im Klaren sein, welche Definition vom benutzten Programm (Taschenrechner, Excel etc) verwendet wird: † Untermedian: xnê2 ; diese Definition stimmt auch mit dem 0.5-Quantil xè 0.5 überein; † Zentraler Wert: ÅÅÅÅ12 Hxnê2 + xnê2+1 L; CFA verwendet diese Definition. † Obermedian: xnê2 + 1; Während der Untermedian und der Obermedian mit einem Datenpunkt übereinstimmen, kann der Zentrale Wert einem nicht vorkommenden Wert entsprechen. Ein Vorteil des Medians ist, dass er besonders robust gegen Ausreisser ist und auch für ordinal skalierte Daten verwendet werden kann. Ein Nachteil des Median kann sein, dass er nicht alle Beobachtungen verwendet und die Berechnung mathematisch aufwendiger als die Berechnung des Mittelwerts ist. Bei verhältnisskalierten Merkmalen lassen sich zwei weitere Lokalisationsmasse bilden: das harmonische und das geometrische Mittel. -1 n 1 Das harmonische Mittel êêx H ist folgendermassen definiert: êêx H = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅ = I ÅÅ1nÅÅ ‚ xi -1 M nÅÅÅÅÅÅÅÅ ÅÅÅÅ1ÅÅ ÅÅ1ÅÅ i=1 n ‚ i=1 xi Das harmonische Mittel ist der Kehrwert des arithmetischen Mittels der Kehrwerte der Daten xi . Das harmonische Mittel kann sinnvollerweise angewandt werden, wenn Verhältnisse gemittelt werden. Eine Anwendung ist z.B. die als cost-averaging bekannte Investment Strategie, in welcher eine fixe Geldsumme investiert wird. In Preis diesem Beispiel wird das Verhältnis ÅÅÅÅÅÅÅÅ ÅÅ Å gemittelt. Aktie Beispielsweise werde CHF 1000 in zwei aufeinanderfolgenden Perioden investiert. In der ersten Periode koste die Aktie CHF 10.00 und es können 100 Aktien gekauft werden. In der zweiten Periode koste die Aktie CHF 12.50 und es können 80 Aktien gekauft werden. Was ist der durchschnittliche Preis der Aktie? inv.Geld 2000 ÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅ Å = 11.11 Franken pro Aktie. Der Der Quotient aus dem investierten Geld und der Anzahl Aktien ergibt ÅÅÅÅÅÅÅÅ # Aktien 180 1 durchschnittlich bezahlte Preis ist in der Tat das harmonische Mittel der jeweiligen Preise: êêx H = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ 1 1 ÅÅÅÅÅÅÅÅ 1 ÅÅÅÅÅ =11.11 ÅÅÅÅ2 H ÅÅÅÅ ÅÅÅÅÅÅÅ L 10ÅÅÅ + ÅÅÅÅ 12.5 1 n è!!!!!!!!!!!!!!!! ! ÅÅ1ÅÅ lnHx L Das geometrische Mittel êêx G ist folgendermassen definiert: êêx G = x1 ... xn = H¤ni=1 xi L ÅÅnÅÅ = e n ‚i=1 i êêêêêêêê 1 êê n Damit gilt auch: lnHx G L = ÅÅÅÅn ⁄i=1 lnHxi L = lnHxi L n Der (natürliche) Logarithmus des geometrischen Mittels ist das arithmetische Mittel der logarithmierten Daten. Das geometrische Mittel wird vor allem bei der Berechnung von durchschnittlichen Wachstumsfaktoren und Wachstumsraten angewandt. Wenn sich z.B. das investierte Kapital pro Jahr um den Faktor 1 + Ri erhöht, dann gilt nach n Jahren: H1 + Rg Ln = H1 + R1 L H1 + R2 L ... H1 + Rn L wo 1 + Rg den durchschnittlichen jährlichen Faktor darstellt und sich nach der Formel für das geometrische Mittel berechnen lässt: n è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ! 1 + Rg = H1 + R1 L H1 + R2 L ... H1 + Rn L Wie man sieht vermittelt das geometrische Mittel einen Wert für den über mehrere Jahre erzielten durchschnittlichen Profit. Das arithmetische Mittel hingegen konzentriert sich auf einen pro Jahr erzielten durchschnittlichen Profit. Beide Masse können einem Investor wichtige Informationen liefern. Skript Statistik und Stochastik 68 Im allgemeinen gilt, dass die Differenz zwischen dem arithmetischen und geometrischen Mittel zunimmt, wenn die Variabilität der Daten zunimmt. Das arithmetische, harmonische und geometrische Mittel gehören zur Familie der Potenzmittel, die folgendermassen definiert ÅÅ1pÅÅ n sind: êêx p = I ÅÅ1nÅÅ ‚ xi p M . i=1 Es gilt: limes êêx p pØ-¶ = min 8x1 , ... xn < êêx -1 = harmonisches Mittel limes êêx p = geometrisches Mittel êêx 1 = arithmetisches Mittel limes êêx p = max 8x1 , ... xn < pØ0 pØ+¶ Man kann zeigen, dass immer gilt: êêx H § êêxêG § êêx Das Gleichheitszeichen gilt, wenn alle xi gleich sind. Streuungsmasse Eine weitere Aufgabe der beschreibenden Statistik ist, Aussagen über die Streuung (englisch Dispersion) der Daten zu machen. Es soll beschrieben werden, wie weit die Daten auf der Merkmalsachse x voneinander entfernt liegen oder um ein geeignet definiertes Zentrum streuen. Die wichtigsten Streuungsmasse sind die Standardabweichung und die Varianz. Die Varianz s2 ist definiert als: s2 = ÅÅÅÅ1n ⁄ni=1 Hxi - êêx L2 = ÅÅ1nÅÅ ⁄ni=1 xi 2 - êêx2 Es gilt für die Varianz: † Die Varianz und die Standardabweichung sind genau dann gleich 0, wenn alle Merkmalswerte xi den gleichen Wert haben. † Die Gültigkeit des Ausdrucks ganz rechts lässt sich folgendermassen zeigen: = ÅÅÅÅ1n ⁄ni=1 Hxi - êêx L2 = ÅÅÅÅ1n ⁄ni=1 Hxi 2 - 2 xi êêx + êêx 2 L s2 = ÅÅÅÅ1n H⁄ni=1 xi 2 - 2 êêx ⁄ni=1 xi + ⁄ni=1 êêx 2 L = ÅÅÅÅ1n H⁄ni=1 xi 2 - 2 êêx n êêx + n êêx 2 L = ÅÅ1nÅÅ ⁄ni=1 xi 2 - êêx 2 Diese Formel verwendet nichtzentrierte Summanden und kann bei grossen Werten zu Rundungsfehlern führen. † Man kann die Varianz auch ohne Verwendung des Mittelwerts berechnen (ohne Beweis): 1 n s2 = ÅÅÅÅ ÅÅÅÅÅ n Hxi - x j L2 2 n2 ⁄i=1 ⁄ j=1 1 † Vielfach wird für die Varianz auch die Formel ÅÅÅÅ ÅÅÅÅÅÅ n Hxi - êêx L2 verwendet: d.h. n - 1 statt n. Diese Formel ist n-1 ⁄i=1 dann anzuwenden, wenn der Mittelwert der Daten êêx nicht gegeben, sondern vorgängig auch aus der Stichprobe (den Daten xi ) berechnet werden muss. Dazu mehr im Kapitel über induktive Statistik. † Bei einer affin-linearen Transformation (d.h. yi = a + b xi ) mit reellen a und b gilt: s2Y = b2 s2X und sY = †b§ s X Die Varianz und die Standardabweichung werden demnach von einer Verschiebung um a nicht beeinflusst. Der 69 Skript Statistik und Stochastik Faktor b jedoch geht als Faktor mit seinem Quadrat in die Varianz und mit seinem Absolutbetrag in die Standardabweichung ein. êê - cL2 . † Für die Varianz gilt der folgende Verschiebungssatz: ÅÅÅÅ1n ⁄ni=1 Hxi - cL2 = s2 + Hx Man erkennt (wiederum), dass das arithmetische Mittel die Summe der quadrierten Abweichungen minimiert. † Die Varianz hat die gleiche Einheit wie x2 . Die Standardabweichung s ist definiert als die Wurzel aus der Varianz: s = è!!!!! ! s2 Es gilt für die Standardabweichung: † Im Gegensatz zur Varianz hat die Standardabweichung die gleiche Einheit wie x und ist deshalb etwas einfacher zu interpretieren. † Mit Hilfe der Tschebyscheff-Ungleichung der Wahrscheinlichkeitsrechnung kann man zeigen, dass (bei jeder Verteilung) - mindestens 75% der Daten im Intervall D êê x - 2 s, êêx + 2 s@ - mindestens 88.88% der Daten im Intervall D êêx - 2 s, êêx + 2 s@ liegen Vielfach wird für die Varianz und die Standardabweichung auch s2X und s X geschrieben, um herauszustreichen, dass sich das Streumass auf das Merkmal X bezieht. Dadurch dass in die Berechnung der Varianz und der Standardabweichung quadrierte Abstände eingehen, haben Ausreisser einen grossen Einfluss auf deren Wert. Um den Einfluss der Ausreisser zu minimieren kann - ähnlich wie bei den Lokalisationsmassen - eine a-getrimmte Varianz oder Standardabweichung definiert werden. Bei diesen werden der obere und untere a Anteil der Daten in der Berechnung nicht berücksichtigt. Bei der folgenden Definition wird wiederum vorausgesetzt, dass die Daten aufsteigend sortiert sind. 1 Die a-getrimmte Varianz ist definiert als: s2a = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ n-@n aD Hxi - êêx a L2 . Analog ist die a-getrimmte n- 2@n a D ⁄i=1+@n aD è!!!!! ! Standardabweichung sa = s2a definiert. Analog wie bei den Lokalisationsmassen gibt es eine ganze Reihe von weiteren Massen für die Streuung. Die mittlere absolute Abweichung d vom Mittelwert ist definiert als d = ÅÅÅÅ1n ⁄ni=1 †xi - êêx §. Die mittlere absolute Abweichung vom Mittelwert (englisch: mean absolute deviation) verwendet alle Beobachtungen und ist relativ einfach zu berechnen. Sie ist jedoch (wegen des Knicks der Funktion † ...§) mathematisch schwierig zu behandeln. Die mittlere absolute Abweichung d vom Median ist definiert als d = ÅÅ1nÅÅ ⁄ni=1 †xi - xè 0.5 §. Sie hat die hat die Minimumeigenschaft d = Min ÅÅÅÅn1 †xi - x j §. aœ 1 n Ginis mittlere Differenz ist definiert als D = ÅÅÅÅ ÅÅ n †x - x j § n2 ⁄i=1 ⁄ j=1 i Wie bei der Varianz werden hier die Abstände zwischen je zwei Beobachtungen gemittelt. Allerdings werden statt der quadrierten die absoluten Abstände genommen. D wird auch verwendet bei der Berechnung des Gini Koeffizienten, des am meisten gebräuchlichen Disparitätsindex (siehe später). Weiters gibt es einige Streumasse, die mit Quantilen in Zusammenhang stehen. 70 Skript Statistik und Stochastik Der Quartilsabstand (oder Interquartilsabstand) Q ist die Differenz zwischen dem oberen und unteren Quartil: Q = xè 0.75 - xè 0.25 . Q ist die Spanne, die die mittleren 50% der Daten umfasst. Er ist besonders robust gegen Ausreisser, da die Werte im oberen und unteren Viertel keine Rolle spielen. Die Spannweite R ist die Differenz zwischen dem grössten und kleinsten Wert: R = Max@xi D - Min@xi D. Die Spannweite (englisch Range) wird besonders stark von Ausreissern beeinflusst. Sie ist jedoch sehr einfach zu berechnen, indem sie nur zwei Informationen nutzt. êêê 2 S êêêHXi -X L "Xi X n* -1 Die Semivariance SV ist definiert als SV = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ , wobei n* der Anzahl Messungen entspricht, die kleiner als der Mittelwert sind. Semideviation (oder Semistandard Deviation) entsprechen der Wurzel aus der Semivariance. Vielfach wird die Varianz oder Standardabweichung der Returns eines Assets als Mass für das Risiko interpretiert. Die Varianz und die Standardabweichung berücksichtigen jedoch die Abweichungen über und unter dem Mittelwert. Aus diesem Grund haben Analysten die Semivarianz, Semideviation und verwandte Streumasse entwickelt, die nur auf die downside risk fokussiert sind. In der Praxis kann es auch vorkommen, dass man vor allem an den Abweichungen nach unten von einem anderen Wert als dem Mittelwert interessiert ist. Dies führt auf die Definition ... S HXi -BL2 " X B i Die Target Semivariance ist definiert als ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ n* -1 ... wo nur Werte Xi B berücksichtigt werden. Bei symmetrischen Verteilungen führen die Verwendung von Varianz und Semivarianz praktisch zum gleichen Ergebnis. Bei unsymmetrischen Verteilungen resultieren jedoch unterschiedliche Bewertungen für das Risiko. Wir haben festgestellt, dass die Standardabweichung einfacher zu interpretieren ist als die Varianz, da sie die gleiche Einheit wie die Beobachtung hat. Trotzdem gibt es Situationen, in denen es schwierig ist zu interpretieren, was der (absolute) Wert der Standardabweichung auch wirklich bedeutet: insbesondere wenn verschiedene Datensätze miteinander verglichen werden sollen, die stark unterschiedliche Mittelwerte haben oder die gar unterschiedliche Einheiten tragen. In solchen Situationen kann ein relatives (einheitenloses) Streuungsmass, der Variationskoeffizient (englisch: coefficient of variation), nützlich sein. Der Variationskoeffizient CV ist definiert als der Quotient aus der Standardabweichung und dem arithmetischen Mittelwert: d.h. CV = ÅÅÅÅêêxsÅ . Wenn die Beobachtungen z.B. Returns sind, dann misst der Variationskoeffizient die Höhe des Risikos (Standardabweiêê 1 chung) pro ReturnEinheit. Umgekehrt misst ÅÅÅÅ ÅÅÅÅÅ = ÅÅÅÅxs den Return pro RisikoEinheit. Beispielsweise hat ein Portfolio CV 1.19 mit einem monatlichen Return von 1.19% und einer Standardabweichung von 4.42% ein CV-1 von ÅÅÅÅ ÅÅÅÅÅÅ = 0.27. Das 4.42 bedeutet, dass jedes % Standardabweichung einen Return von 0.27% repräsentiert. Ein genaueres Mass für die Return-Risiko Beziehung berücksichtigt, dass es einen risikofreien (d.h. StandardabweiReturn-riskfree Return chung = 0) Return gibt. Dies führt auf das wichtige Sharpe Ratio = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ . s Zum Abschluss wollen wir noch die Chebyshev Ungleichung erwähnen. In ihr wird die Standardabweichung als Mass für die Streuung verwendet. 71 Skript Statistik und Stochastik Die Chebyshev Ungleichung besagt, dass der Anteil der Beobachtungen, die innerhalb von k Standardabweichungen vom 1 arithmetischen Mittel liegen, mindestens 1 - ÅÅÅÅ ÅÅ (" k>1) beträgt. k2 Wenn wir Informationen über die Verteilung haben, können wir in der Regel viel engere Intervalle (als das durch die Chebyshev Ungleichung angegebene) angeben. Die Wichtigkeit dieser Ungleichung rührt jedoch daher, dass sie für jede Verteilung - unabhängig davon wie die Daten verteilt sind - gilt. Formmasse Der arithmetische Mittelwert und die Varianz beschreiben nicht immer genügend genau die Verteilung der Beobachtungen. Beispielsweise werden bei der Berechnung der Varianz die Abweichungen vom Mittelwert quadriert, weshalb wir nicht wissen, ob die grossen Abweichungen ein positives oder negatives Vorzeichen haben. Wir müssen deshalb neben den Lokalisations- und Streuungsmassen weitere Masse einführen, um weitere Eigenschaften einer Verteilung (mit einer Zahl) zu beschreiben. Ein wichtiger Punkt ist die Symmetrie von Verteilungen. Bei einer symmetrischen Verteilung ist jede Seite der Verteilung (um den Mittelwert) ein Spiegelbild der anderen Seite. Eine nichtsymmetrische Verteilung kann mit Hilfe der sogenannten zentralen Momente definiert weden. 1 Das r-te zentrale Moment ist definiert als mr = ÅÅÅÅ Hx - êêx Lr n ⁄i i Wichtig sind vor allem das 2. (Varianz), das 3. (Schiefe) und das 4. (Wölbung) zentrale Moment. m3 xi -x Die Schiefe S (englisch Skewness, Skew) ist definiert als S = ÅÅÅÅ ÅÅÅÅ = ÅÅÅÅ1n ‚ I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M , wobei m3 das dritte zentrale Moment ist. s3 s i êê 3 Für eine Stichprobe verwendet man S = êê 3 xi -x n ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅ I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M . Hn-1L Hn- 2L ‚i s Es gilt: † Die Schiefe ist ein (einheitenloses) Mass für die Symmetrie der Wahrscheinlichkeitsverteilung zum Mittelwert. † Eine symmetrische Verteilung hat die Schiefe 0. Eine Schiefe von 0.5 wird (bei mehr als 100 Datenpunkten) als gross betrachtet. † Ist die Schiefe > 0, so überwiegen die Summanden mit Hx - êêx L3 > 0, andernfalls umgekehrt. i † Ist die Schiefe > 0, wird die Verteilung als rechtsschief (linkssteil), andernfalls als linksschief (rechtssteil) bezeichnet. † Eine rechtsschiefe Verteilung hat viele kleine Abweichungen nach unten und wenige grosse Abweichungen nach oben (und damit einen langen Schwanz auf der rechten Seite). † Es gilt für eine rechtsschiefe unimodale Verteilung: Modus Median Mittelwert Es gilt für eine linksschiefe unimodale Verteilung: Mittelwert Median Modus Für Investoren ist eine rechtsschiefe unimodale Verteilung interessant, da der Mittelwert (der Returns) über dem Median liegt. Wenige grosse Gewinne überwiegen im Vergleich mit den vielen kleinen Verlusten. † Da die Normalverteilung die Schiefe Null hat (sie ist immer symmetrisch zum Mittelwert), ist die Schiefe auch ein geeignetes Werkzeug, um eine beliebige Verteilung mit der Normalverteilung zu vergleichen. † Da die Schiefe mit den standardisierten Daten definiert wird, ist sie invariant gegenüber Transformationen des Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi ). † Die Schiefe hat den Nachteil, dass sie nicht normiert ist, und beliebig grosse positive und negative Werte annehmen kann. † Die Schiefe hat den Nachteil, dass sie empfindlich auf Ausreisser reagiert. 72 Skript Statistik und Stochastik n † Für eine Stichprobe ist die Stichprobenstandardabweichung s und der Faktor ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ (statt ÅÅÅÅ1n ) zu verwenden: Hn- 1L Hn- 2L xi -x n Schiefe = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ H ÅÅÅÅÅÅÅÅ ÅÅÅÅ L . Für grosse n führt dies auf den gleichen Wert. Hn- 1L Hn- 2L ‚i s êê 3 Hx0.75 -x0.5 L-Hx0.5 -x0.25 L Die Quartilsschiefe wird definiert als ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ Å xè -xè è è è 0.75 è 0.25 Für die Quartilsschiefe gilt: † Sie ist weniger empfindlich auf Ausreisser als die Schiefe. † Sie ist ausserdem normiert und auf das Intervall @-1, 1D beschränkt. † Sie ist invariant gegenüber Transformationen des Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi ). † Die Berechnung der Quartilsschiefe ist einfach und benötigt nur drei Quartile. † Sie beträgt bei einer symmetrischen Verteilung gleich 0. Die Schiefe ist ein Mass für die Abweichung einer Verteilung von der Symmetrie, wie sie beispielsweise für die Normalverteilung gilt. Eine Verteilung kann jedoch noch in einer anderen Weise von einer Normalverteilung abweichen. Es können z.B. mehr Beobachtungen (als in der Normalverteilung) in der Nähe des Mittelwerts (d.h. hoher Peak) und gleichzeitig mehr Beobachtungen weit entfernt vom Mittelwert (d.h. fetter Schwanz) haben. Um diese Charakteristik zu beschreiben wird die Wölbung verwendet. m4 xi -x ÅÅ Å = ÅÅ1nÅÅ ‚ I ÅÅÅÅÅÅÅÅ Die Kurtosis oder Wölbung ist definiert als: ÅÅÅÅ ÅÅÅÅ M , wobei m4 das vierte zentrale Moment ist. s4 s i êê 4 m4 xi -x Die Excess Kurtosis oder Excess ÅÅÅÅ ÅÅ Å - 3 = ÅÅÅÅ1n ‚ I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M - 3 ist die Kurtosis relativ zur Normalverteilung. s4 s i êê 4 nHn+1L xi -x 3 Hn-1L Für eine Stichprobe verwendet man für die Excess Kurtosis ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M - ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ . Hn- 1L Hn- 2L Hn- 3L ‚i Hn-2L Hn-3L s êê 4 2 Es gilt: † Die Standard Normalverteilung hat die Wölbung 3. Die Excess Kurtosis beschreibt die Abweichung des Verlaufs der gegebenen Wahrscheinlichkeitsverteilung zum Verlauf einer Normalverteilung. † Ist die Excess Kurtosis einer Verteilung gross, so kommt ein höherer Anteil der Varianz von Ausreissern als bei einer Verteilung mit geringer Excess Kurtosis. † Eine Verteilung mit Excess Kurtosis < 0 heisst flachgipflig (platycurtic). Eine Verteilung mit Excess Kurtosis = 0 heisst normalgipflig (mesocurtic). Eine Verteilung mit Excess Kurtosis > 0 heisst steilgipflig (leptocurtic). † Eine Excess Kurtosis von 1.0 wird (bei mehr als 100 Datenpunkten) als gross betrachtet. † Da die Wölbung mit den standardisierten Daten definiert wird, ist sie invariant gegenüber Transformationen des Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi ). † Die meisten Return Verteilungen sind leptocurtic. Wenn diese fetten Schwänze bei der statistischen Analyse nicht berücksichtigt werden, wird die Wahrscheinlichkeit eines sehr guten oder sehr schlechten Ausgangs unterschätzt. Zentrierung und Standardisierung Wichtige Rechenoperationen sind die Zentrierung und Standardisierung. Sie werden verwendet, um Daten von zwei (oder mehr) Merkmalen zu vergleichen. Will man von deren unterschiedlicher Lage absehen und nur die übrigen Aspekte wie Streuung und allgemeine Form der Verteilung berücksichtigen, so untersucht und vergleicht man die zentrierten Daten. Zentrierte Daten werden gebildet, indem der arithmetische Mittelwert abgezogen wird: xi Ø xi - êêx 73 Skript Statistik und Stochastik Will man zusätzlich auch noch von der unterschiedlichen Streuung absehen, werden standardisierte Daten verwendet. êê xi -x Standardisierte Daten werden gebildet, indem man die zentrierten Daten durch die Standardabweichung teilt: xi Ø ÅÅÅÅÅÅÅÅ ÅÅÅÅ s x Wichtige Masszahlen wie Schiefe und der Korrelationskoeffizient sind so definiert, dass sie nur von den standardisierten Daten abhängen. Sie beschreiben Aspekte der Daten, die nichts mit ihrer Lage und ihrer Streuung zu tun haben. èè Additionssätze für x und s2 Wir wollen in diesem Abschnitt den Fall untersuchen, dass die Grundgesamtheit G in J Teilgesamtheiten G1 , G2 , ... GJ zerfalle. Für diese J Grundgesamtheiten seien die Mittelwerte êêx 1 , êêx 2 , ... êêx J sowie die Varianzen s21 , s22 , ... s2J bekannt, wobei die Teilgesamtheiten n1 , n2 , ... nJ Daten enthalten. Es gilt (ohne Herleitung) n Der Mittelwert der Grundgesamtheit beträgt: êêx = ⁄ Jj=1 êêx j ÅÅÅÅnÅjÅ . Die Varianz der Grundgesamtheit führt auf den sogenannten Varianzzerlegungssatz und beträgt: n nj êê - êêxL2 ÅÅÅÅ s2 = ⁄ Jj=1 s2j ÅÅÅÅnÅjÅ + ⁄ Jj=1 Hx ÅÅ = s2 +s2 ´¨¨¨¨¨¨¨¨¨¨¨¨≠¨¨¨¨¨¨¨¨¨¨Æ ´¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨j¨≠¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨n¨¨Æ int ext s2int s2ext Die Gesamtstreuung besteht demnach aus zwei Teilen: † der internen Varianz: d.h. gewichtetes Mittel aus den Streuungen der Teilgesamtheiten. s2int = 0 heisst: in jeder Teilgesamtheit sind alle Merkmalswerte gleich. † sowie der externen Varianz: d.h. gewichtetes Mittel der quadratischen Abweichungen der Mittelwerte der Teilgesamtheiten vom Gesamtmittel. s2ext = 0 heisst: alle Teilgesamtheiten haben den gleichen Mittelwert êêx j = êêx . Mit Hilfe des Varianzzerlegungssatz kann eine weitere Masszahl definiert werden. s2 Das Bestimmtheitsmass B ist definiert als B = ÅÅÅÅsext Å2ÅÅÅÅ Es gibt den Anteil der externen Streuung an der Gesamtstreuung. Dieser Anteil ist auf die Einteilung der Grundgesamtheit in Teilgesamtheiten zurückzuführen. Daten mit diskreter Klassierung und Stetig klassierte Daten Daten mit diskreter Klassierung Wenn die Daten in diskreter Klassierung vorliegen, können die Formeln für die metrischen Daten folgendermassen angewandt werden. Arithmetisches, harmonisches und geometrisches Mittel können auch einfach berechnet werden, wenn nur eine diskrete Klassierung der Daten mit J Ausprägungen (d.h. 8x1 , n1 <, 8x2 , n2 <, ... 8xJ , nJ <) vorliegt. Arithmetisches Mittel: êêx = ÅÅ1ÅÅ ⁄ J x n = ⁄ J x h i=1 i i i=1 i i n 74 Skript Statistik und Stochastik Harmonisches Mittel: êêx = J ÅÅ1ÅÅ ‚ J x -1 n N i i n i=1 Geometrisches Mittel: êêx = J‰ J x ni N n = ¤J x hi i i=1 i i=1 -1 = J‚ J i=1 xi -1 hi N -1 ÅÅ1ÅÅ Die verschiedenen Streumasse können auch berechnet werden, wenn nur eine diskrete Klassierung der Daten mit J Ausprägungen (d.h. 8x1 , n1 <, 8x2 , n2 <, ... 8xJ , nJ <) vorliegt. Varianz s 2 : Ginis mittlere Differenz d: Ginis mittlere Differenz D: Spannweite R: J s2 = ÅÅÅÅ1n ⁄i=1 Hxi - êêx L2 ni = ÅÅ1nÅÅ ⁄ni=1 xi 2 ni - êêx 2 = ⁄ni=1 xi 2 hi - êêx 2 J J d = ÅÅ1nÅÅ ⁄i=1 †xi - xè 0.5 § ni = ⁄i=1 †xi - xè 0.5 § hi 1 J J J D = ÅÅÅÅ ÅÅ J †x - xk § ni nk = ⁄i=1 †xi - xk § hi hk ⁄k=1 n2 ⁄i=1 ⁄k=1 i R = Maximum@x j D-Minimum@x j D 8 j»n j >0< 8 j»n j >0< Stetig klassierte Daten Häufig liegen die Daten über ein metrisches Merkmal in stetiger Klassierung vor. Stetige Klassierung bedeutet, dass die Werte des Merkmals in sogenannte Klassen zusammengefasst sind und an Stelle der Einzeldaten lediglich diese Klassen und die Anzahl der Daten in jeder Klasse angegeben werden. Insbesondere bei einem stetigen Merkmal macht es in der Regel keinen Sinn, die Häufigkeiten der einzelnen Werte zu zählen (da ¶ viele verschiedene Werte vorkommen können und vermutlich jeder Wert in einer Datenreihe nur einmal oder keinmal vorkommt). Der Wertebereich der Daten wird deshalb in J nichtüberlappende Teilintervalle (Klassen) K j eingeteilt. Es gilt: † Für die J Teilintervalle werden die J + 1 Grenzen 8g1 , g2 , ....gJ+1 < benötigt. Die untere und obere Grenze können auch -¶ bzw. ¶ sein. † Dies führt auf die J Teilintervalle K j =D g j , g j+1 D für j = 1, ... J . Das Intervall ist an der unteren Grenze offen und an der oberen Grenze abgeschlossen. g j ist somit die untere Grenze und g j+1 die obere Grenze der Klasse j. † Für jedes Teilintervall wird die Anzahl n j der Daten gezählt, die in jenes Teilintervall fallen, was dann auf die folgende diskrete Klassierung führt: 8K1 , n1 <, 8K2 , n2 <, ... 8KJ , nJ <. n † Für jedes Teilintervall kann der Anteil h j = ÅÅÅÅnjÅÅ berechnet werden, was dann auf die folgende diskrete Klassierung führt: 8K1 , h1 <, 8K2 , h2 <, ... 8KJ , hJ <. Eine stetige Klassierung sagt nichts über die Verteilung der Daten innerhalb der einzelnen Klassen aus. Die stetige Klassierung enthält deshalb weniger Informationen als die Urliste. Deshalb wird man eine Urliste nur dann in Klassen einteilen, wenn dies notwendig ist. Mit den heute zur Verfügung stehenden Mitteln der Datenverarbeitung stellt selbst bei grossen Datensätzen die Berechnung der statistischen Grössen kein Problem dar. Es gibt jedoch Situationen, in denen stetig klassierte Daten angewendet werden (müssen): † sei es, weil bereits bei der Erhebung der Daten eine Klassierung vorgenommen wurde. Z.B. wenn nicht das exakte Einkommen erfragt wird, sondern nur ob das Einkommen in eines von mehreren vorgegebenen Intervallen fällt; † sei es dass zum Zwecke des Datenschutzes die Intervalle so gross gewählt werden, dass aus den Häufigkeiten der stetigen Klassierung keine Rückschlüsse auf die Einzeldaten gezogen werden können; 75 Skript Statistik und Stochastik † sei es weil nur wenige verschiedene Werte in der Urliste vorkommen; Bei der Festlegung der Klassen sind einige Punkte zu beachten: † Eine Faustregel besagt, dass für n Beobachtungen rund 10 Log10 HnL gleich grosse Klassen angemessen sind; † Je nach Situation sind die Klassenbreiten unterschiedlich zu wählen; † Wie sollen die untere und obere Grenze gesetzt werden, wenn die unterste und oberste Klasse unbeschränkt sind? Wenn die Daten in stetiger Klassierung vorliegen, muss zu ihrer Auswertung die fehlende Information in geeigneter Weise substituiert werden. n h j j ÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ Der Quotient ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅ wird als empirische Dichte der Daten in der Klasse K j bezeichnet. nHg -g L g -g j+1 j j+1 j Sie ist umso grösser, † je grösser die absolute oder relative Häufigkeit; und † je kleiner die Klassenbreite ist. Wenn man diese empirischen Dichten als waagrechte Linien über den Klassen (Intervallen) abträgt und an den Sprungstellen senkrechte Hilfslinien einzeichnet, entsteht ein sogenanntes Histogramm. Es gilt: † Die einzelnen Rechteckflächen über den Klassen betragen Hg j+1 - g j L ÅÅÅÅÅÅÅÅ ÅÅÅÅj ÅÅÅÅÅÅ = h j . g j+1 -g j h † Die Fläche ist somit ein Mass für die relativen Häufigkeiten (Wahrscheinlichkeiten) und die relevante Grösse in einem Histogramm. J † Die Gesamtfläche unter der empirischen Dichte beträgt somit gleich 1 (da ⁄i=1 h j = 1). Im Gegensatz zur Betrachtung im vorherigen Abschnitt ("Diskrete Klassierung"), wo die statistischen Grössen exakt berechnet werden konnten, können sie bei einer stetigen Klassierung nur approximativ berechnet werden. Im Folgenden sollen einige Formeln angegeben werden, mit denen wir für eine stetige Klassierung die empirische Verteilungsfunktion, Quantile, Lage- und Streuungsmasse wenigstens näherungsweise berechnen können. Verteilungsfunktion Im Abschnitt über die Ordinalskala haben wir die empirische Verteilungsfunktion definiert. Gemäss Definition kann die Verteilungsfunktion an den Obergrenzen der Klassen K j exakt angegeben werden: F@g j+1 D = ⁄i=1 hi , j j = 1, 2, ... J Ausserdem gilt: F@xD = 0, für x g1 F@xD = 1, für x > gJ+1 Innerhalb der Klassen wird dann linear interpoliert: j F@xD > F@g j D + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ Hx - g j L, Hg -g L h j+1 Quantile j für x œD g j , g j+1 ] 76 Skript Statistik und Stochastik Wenn keine Klasse die Häufigkeit 0 hat, dann ist F@xD eine streng monoton steigende Funktion. Da sie ausserdem stetig ist, kann zu jedem Wert p H0 p 1L die Gleichung F@xD = p eindeutig nach x (dem p-Quantil) aufgelöst werden. Wiederum kann mittels Interpolation die Lösung einfach gefunden werden. p-F@g D p-F@g D j x p > g j + ÅÅÅÅÅÅÅÅhÅÅÅÅÅÅÅÅÅÅÅÅ Å Hg j+1 - g j L = g j + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅjÅÅÅÅÅÅÅÅÅÅ Hg j+1 - g j L, F@g D-F@g D j j+1 j für p œD F@g j D, f @g j+1 D] Arithmetischer Mittelwert Wenn die Klassenmittelwerte êêx i exakt bekannt sind, kann auf die Formel für die diskrete Klassierung zurückgegriffen werden. J J êêx = ÅÅÅÅ1Å êê êê ‚x n =‚x h n i=1 i i i=1 i i Wenn die Klassenmittelwerte êêx i nicht bekannt sind, so ersetzt man sie durch einen geeigneten Wert, z.B. durch die g j+1 +g j Klassenmitte ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ . 2 Varianz n nj êê - êêx L2 ÅÅÅÅ Mit Hilfe des Varianzzerlegungssatzes s2 = ⁄Jj=1 s2j ÅÅÅÅnÅjÅ + ⁄Jj=1 Hx ÅÅ kann man approximativ schreiben: nÆ ´¨¨¨¨¨¨¨¨¨¨¨≠¨¨¨¨¨¨¨¨¨Æ ´¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨j¨¨≠¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ s2int nj êê - êêxL2 ÅÅÅÅ s2 º ⁄ Jj=1 Hx ÅÅ j n s2ext falls s2j º 0 und falls die Klassenmittelwerte bekannt sind. Wenn die einzelnen Klassen breit sind, kann diese Approximation einen grossen Fehler haben. j+1 s2 º ‚ H ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅjÅÅ - êêx L ÅÅÅÅnÅjÅ 2 j=1 J g +g 2 n falls s2j º 0 und falls die Klassenmittelwerte nicht bekannt sind. Hier werden die Klassenmitten an Stelle der Klassenmittelwerte gebraucht. Konzentrations- und Disparitätsmessung Einer der erste Schritte bei der Analyse eines Marktes ist die Bestimmung der Marktkonzentration. Wenn der Markt fragmentiert ist, stehen viele Unternehmen im Wettbewerb und die Wettbewerbstheorien und Fragen der Produktdifferentiation stehen im Vordergrund. Mit grösserer Konzentration und weniger Unternehmen, die am Markt teilnehmen, werden oligopolistische Wettbewerbs- und Spieltheorien wichtiger. Schlussendlich ist bei nur einem Unternehmen die Theorie der Monopole anwendbar. In diesem Abschnitt werden wir einige Indizes und graphische Darstellungen kennen lernen, um die Marktkonzentration bzw. die Ungleichheit in Märkten kennenzulernen. Wir gehen (allgemein) von n Merkmalsträgern aus, die je ein Merkmal xi H ¥ 0L - beispielsweise den Umsatz eines Unternehmens - haben und bei der die Merkmalssumme ⁄ni=1 xi des ganzen Marktes eine sinnvolle Interpretation zulässt. Es soll dann untersucht werden, wie sich diese Summe auf die einzelnen Merkmalsträger i verteilt. Zwei Aspekte stehen bei diesen Untersuchungen im Vordergrund: die Disparität und die Konzentration. Eine Disparität (oder Ungleichheit) liegt vor, wenn die Merkmalssumme ⁄ni=1 xi nicht gleichmässig auf die n Merkmalsträger aufgeteilt ist. 77 Skript Statistik und Stochastik Bei der Betrachtung der Disparität einer Verteilung von Merkmalswerten werden Anteile miteinander verglichen. Die Anzahl der Merkmalsträger geht in die Betrachtung nicht ein. Ein klassisches Anwendungsgebiet der Disparitätsmessung ist die Messung der Einkommens- oder Vermögensdisparität in einem Land. Wenn zusätzlich die Anzahl der Merkmalsträger, die sich die Merkmalssumme teilen, in die Betrachtungsweise mit einbezogen wird, kann auch die Konzentration einer Verteilung untersucht werden. Eine Konzentration liegt vor, wenn ein grosser Anteil der Merkmalssumme auf eine kleine Anzahl von Merkmalsträgern entfällt. Im Folgenden werden wir die hilfreichsten graphischen Darstellungen und Masszahlen zur Disparität und Konzentration besprechen. Zur Illustration verwenden wir folgendes Beispiel: im untersuchten Markt betätigen sich 5 Unternehmungen mit den folgenden Usätzen (in Millionen Euro): x = 8330, 120, 90, 30, 30<. Man kann sich leicht ausrechnen, dass die Merkmalssumme ⁄ni=1 xi = 600 beträgt. Konzentration Bei der Konzentrationsmessung sorgt man dafür, dass die Daten absteigend sortiert sind: x1 ¥ x2 , ... ¥ xn . xi xi Dann berechnet man die relativen Anteile: hi = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ = ÅÅÅÅ ÅÅÅÅÅ . Da die xi absteigend sortiert sind, sind auch die hi n êêx ⁄ni=1 xi absteigend sortiert. ⁄i=1 i Die Konzentrationsrate CR@ jD ist definiert als CR@0D = 0 und CR@ jD = ⁄i=1 hi = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ Å für j, 1, ... n und entspricht der Summe ⁄n x j j x i=1 i der j grössten Merkmalsanteile. Bei maximaler Konzentration (d.h. h1 = 1, alle anderen hi = 0) gilt: CR@ jD = 1 für j = 1, ... n. Bei minimaler Konzentration (d.h. alle hi = 1 ê n) gilt: CR@ jD = ÅÅÅÅ1n für j = 1, ... n. Beispielsweise bedeutet die "3 Firmen Konzentrationsrate" CR@3D = 0.80, dass die drei grössten Unternehmen einen Marktanteil von 80 % haben. Mit Hilfe der Konzentrationsrate lässt sich auch eine anschauliche graphische Darstellung konstruieren. In einer Konzentrationskurve werden der Punkt 80, 0< sowie die n Punkte 8 j, ⁄i=1 hi = CR@ jD< mit absteigend sortierten hi eingezeichnet: d.h. in der Abszisse steht der Index des Merkmalsträgers j und in der Ordinate der Anteil der j grössten Merkmalsträger (d.h. die j-te Konzentrationsrate CR@ jD). j Konzentrationskurve 1 0.8 0.6 0.4 0.2 1 2 Für die Konzentrationskurve gilt: 3 4 5 78 Skript Statistik und Stochastik † sie bildet das Intervall @0, nD in das Intervall @0, 1D ab, ist stückweise linear und wächst streng monoton vom Wert 0 bis zum Wert 1; die Steigungs des j-ten Segments ist h j ; da die Steigungen mit wachsendem j abnehmen ist die Kurve konkav. † der rechte obere ist (v.a. bei grossen n) weniger relevant. Oft berechnet man deshalb die Konzentrationsraten und damit den Verlauf nur bis zu einer Anzahl m Hm nL von Merkmalsträgern und vernachlässigt den Rest. Dann müssen nur die m Anteile hi oder die m Werte xi sowie die Merkmalssumme angegeben werden. † die Konzentrationskurve kann dazu benutzt werden, Konzentrationen auf verschiedenen Märkten zu vergleichen. Wenn eine erste Konzentrationskurve I immer über einer zweiten Konzentrationskurve II verläuft (d.h. CRI @iD > CRII @iD " i = 1, ... n), dann sagt man, dass der Markt I eine gleichmässig höhere Konzentration als Markt II habe. Wenn zwei Märkte unterschiedliche n haben, dann müssen die fehlenden Konzentrationsraten des Marktes mit dem kleineren n mit genügend CR@ jD = 1 ergänzt werden. Um auch die Konzentrationen von Märkten miteinander vergleichen zu können, deren Konzentrationskurven sich schneiden, benötigen wir weitere Kriterien. Im Folgenden besprechen wir zwei sogenannte Konzentrationsindizes, die die Konzentration eines Marktes mit einer (einzigen) Zahl messen. 1 1 Der Rosenbluth Index KR ist ein Konzentrationsindex und berechnet sich nach der Formel KR = ÅÅÅÅ ÅÅ Å = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ , wobei A 2A H2 ⁄n i x L-1 der Teilfläche des Rechtecks @0, nD µ @0, 1D , die oberhalb der Konzentrationskurve liegt, entspricht. i=1 i Zur Herleitung dieser Formel kann man die Fläche über der Konzentrationskurve in Teilflächen Ai unterteilen, die durch die Punkte 8i - 1, CR@i - 1D< und 8i, CR@iD< auf der Konzentrationskurve und die Punkte 80, CR@i - 1D< und 80, CR@iD< auf der Ordinate gegeben sind. Diese Teilflächen haben die Fläche Ai = hi Hi - 1L + ÅÅÅÅ2i = hi Hi - ÅÅÅÅ12 L. Die Summation dieser Flächen ergibt dann: A = ⁄ni=1 Ai = ‚ n i=1 hi Hi - ÅÅÅÅ12 L = ⁄ni=1 hi i - ÅÅÅÅ12 ⁄ni=1 hi = ⁄ni=1 hi i - ÅÅÅÅ12 Es gilt: † bei minimaler Konzentration: KR = ÅÅÅÅ1n † bei maximaler Konzentration: KR = 1 † allgemein: ÅÅÅÅ1n § KR § 1 Vielfach verwendet wird auch der folgende Konzentrationsindex. Der Herfindahl Index KH ist ein Konzentrationsindex und berechnet sich nach der Formel KH = ⁄ni=1 h2i Auch der Herfindahl Index lässt sich an der Konzentrationskurve veranschaulichen. Er entspricht der Summe der n Quadrate, die durch jeweils zwei benachbarte Punkte der Folge 880, 0<, 8CR@1D, CR@1D<, ... 8n, CR@nD<< gegeben sind. Es gilt (wie beim Rosenbluth Index): † bei minimaler Konzentration: KH = ÅÅÅÅ1n ; d.h. das Inverse des Herfindahl Index gibt die Anzahl der Merkmalsträger (z.B. Anzahl Unternehmen) an. † bei maximaler Konzentration: KR = 1 † allgemein: ÅÅÅÅ1n § KH § 1 † 0 § KH 0.1 entspricht einem unkonzentrierten Markt; † 0.10 § KH 0.18 entspricht entspricht moderater Konzentration; † 0.18 § KH 1.00 entspricht entspricht hoher Konzentration; 79 Skript Statistik und Stochastik Disparität Im Gegensatz zur Konzentrationsmessung werden bei der Untersuchung der Disparität die Daten aufsteigend sortiert: d.h. x1 § x2 , § ... § xn . Damit sind auch die daraus abgeleiteten relativen Häufigkeiten hi aufsteigend sortiert. Eine anschauliche Darstellung der Disparität kann mit Hilfe der Lorenzkurve erreicht werden. In einer Lorenzkurve werden der Punkt {0,0} und die n Punkte 8 ÅÅÅÅnj , ⁄i=1 hi U L@ ÅÅÅÅnj D< mit aufsteigend sortierten hi eingezeichnet: d.h. in der Abszisse steht der Anteil ÅÅÅÅnj der j kleinsten Merkmalsträger an der Zahl der Merkmalsträgern und in der Ordinate der Anteil dieser j kleinsten Merkmalsträger an der Merkmalssumme. j Bei maximaler Disparität (d.h. hn = 1, alle anderen hi = 0) gilt: L@ ÅÅnjÅÅ D = 0 für j = 1, ... n - 1 sowie L@ ÅÅÅÅnn D = 1 Bei minimaler Disparität (d.h. alle hi = 1 ê n) gilt: L@ ÅÅÅÅnj D = ÅÅÅÅnj für j = 1, ... n Lorenzkurve 1 0.8 0.6 0.4 0.2 0.2 0.4 0.6 0.8 1 Für die Lorenzkurve gilt: † in ihr werden zwei Anteile gegeneinander abgetragen; † sie bildet das Intervall @0, 1D in das Intervall @0, 1D ab, ist stückweise linear und wächst monoton vom Wert 0 bis i-1 ÅÅÅÅÅ , ÅÅÅÅni @ besitzt sie die Steigung n hi ; da die Anteile hi mit i anwachsen, gilt dies zum Wert 1; in jedem Intervall @ ÅÅÅÅ n auch für die Steigung in jedem Intervall; die Lorenzkurve ist daher konvex. † die Lorenzkurve kann dazu benutzt werden, Disparitäten auf verschiedenen Märkten zu vergleichen. Wenn eine erste Lorenzkurve I immer über einer zweiten Lorenzkurve II verläuft, dann sagt man, dass der Markt I eine gleichmässig geringere Disparität als Markt II habe. Um auch die Disparitäten miteinander vergleichen zu können, deren Lorenzkurven sich schneiden, benötigen wir weitere Kriterien. Im Folgenden besprechen wir zwei sogenannte Disparitätsindizes, die die Disparität mit einer (einzigen) Zahl messen. 2 i-n-1 D Der Gini-Koeffizient DG ist ein Disparitätsindex und berechnet sich gemäss DG = 2 H ÅÅÅÅ12 - BL = ⁄ni=1 hi ÅÅÅÅÅÅÅÅ ÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅ ÅÅ Å , wobei B n 2 êêx der Teilfläche des Rechtecks @0, 1D µ @0, 1D , die unterhalb der Lorenzkurve liegt, entspricht und D Ginis mittlere Differenz und êêx das arithmetischen Mittel ist. Die Herleitung verläuft analog zur Herleitung des Rosenbluth Index. Die Fläche unter der Lorenzkurve kann in i-1 Teilflächen Bi unterteilt werden, die durch die Punkte 8 ÅÅÅÅ ÅÅÅÅÅ , L@i - 1D< und 8 ÅÅÅÅni , L@iD< auf der Lorenzkurve und die Punkte n Hn-i+1L+Hn-iL ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ 2 n-2 i+1 n 81, L@i - 1D< und 81, L@iD< gegeben sind. Diese Teilflächen haben die Fläche Bi = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ . 2 2n Daraus folgt für DG (mit Hilfe von ⁄ni=1 hi = 1): DG = 2 H ÅÅÅÅ12 - BL = 2 I ÅÅÅÅ12 - ‚ n = ⁄ni=1 hi ÅÅÅÅnn - ‚ i=1 n i=1 2 i-2 n+1 hi ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ M = 1 - ‚ 2n 2 i-2 n+1 hi ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ = ‚ n n i=1 n i=1 2 i-2 n+1 hi ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ n 2 i-n-1 hi ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ n 80 Skript Statistik und Stochastik Es gilt: † bei minimaler Disparität: DG = 0 † bei maximaler Konzentration: DG = 1 - ÅÅÅÅ1n † allgemein: 0 § DG § 1 - ÅÅÅÅ1n 2 i-n-1 † DG lässt sich als (mit ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ) gewichtetes Mittel der hi interpretieren, wobei die Gewichte sowohl positiv als auch n n 2 i-n-1 ÅÅÅÅÅÅÅÅÅÅ = 0 ist. negativ sein können und die Summe ‚ ÅÅÅÅÅÅÅÅ n i=1 † Man kannn auch zeigen, dass der Gini-Koeffizient gleich der Hälfte des Quotienten aus Ginis mittlerer Differenz D D 1 n und dem arithmetischen Mittel êêx ist: DG = ÅÅÅÅ ÅÅÅÅ = ÅÅÅÅ ÅÅÅÅ n †x - x j § 2 êêx 2 êêx ⁄i=1 ⁄ j=1 i Ein weiterer Disparitätskoeffizient, der besonders einfach ist und deshalb häufig verwendet wird, ist der Variationskoeffizient. Der Variationskoeffizient v ist ein Disparitätsindex und berechnet sich gemäss v = ÅÅÅÅêêxsÅ , ist also der Quotient aus der Standardabweichung s und dem arithmetischen Mittel êêx . Es gilt: † 0 § v = è!!!!!!!!!!!! n-1 † v = 0 ó x1 = x2 =. .. = xn (minimale Disparität) è!!!!!!!!!!!! † v = n - 1 ó x1 = x2 =. .. = xn-1 = 0, xn > 0 (maximale Disparität) Zusammenhang zwischen Konzentrationsindizes und Disparitätkoeffizienten Die in den vorausgegangenen Abschnitten diskutierten Konzentrationsmasse und Disparitätsindizes, wie auch die entsprechenden Kurven sind eng miteinander verwandt. Kurven Das sieht man schon aus der Definition der Konzentrationskurve 9 j, ⁄i=1 hi = und der Lorenzkurve 9 ÅÅÅÅn , ⁄i=1 hi =. Es muss jedoch berücksichtigt werden, dass die obigen hi unterschiedlich sortiert sind: im ersten Fall sind die relativen Häufigkeiten hi absteigend und im zweiten Fall aufsteigend sortiert. j j j Trotzdem lassen sich diese zwei Kurven durch einfache geometrische Operationen ineinander überführen. † Erster Schritt: Reskaliere die Abszisse der Konzentrationskurve; 9 j, ⁄i=1 hi = Ø 9 ÅÅÅÅn , ⁄i=1 hi = Die Konzentrationskurve verläuft somit auch im Einheitsquadrat. j j j † Zweiter Schritt: Spiegele die Konzentrationskurve an der Diagonalen, die durch die Punkte 80, 0< und {1,0}verläuft. † Dritter Schritt: Spiegele die Konzentrationskurve an der Diagonalen, die durch die Punkte 81, 0< und {0,1}verläuft. Zahlen Ebenso einfach lassen sich Zahlen (d.h. die Konzentrationsindizes und die Disparitätskoeffizienten) ineinander transformieren. Es gelten: 1 1 1 KR = ÅÅÅÅ ÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ 2A 2 nB nH1-D L KH = v2 +1 ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ n oder 2 v +1 Beweis von KH = ÅÅÅÅÅÅÅÅ ÅÅ Å : n 2 G oder v = n KH - 1 n KR -1 DG = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ nK R 81 Skript Statistik und Stochastik ÅÅÅÅ1 ⁄n x 2 ⁄n x 2 v +1 s +x 1 i=1 i n i=1 i ÅÅÅÅÅÅÅÅ ÅÅÅÅ = ÅÅÅÅ1n I ÅÅÅÅÅÅÅÅ J ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ Å = ‚ êêx 2ÅÅÅÅÅÅ M = ÅÅÅÅ êêx 2 ÅÅÅÅÅÅ N = ÅÅÅÅÅÅÅÅ n n H⁄n x L2 2 2 êê2 i=1 i n i=1 xi ÅÅÅÅÅÅÅ M = ‚ I ÅÅÅÅÅÅÅÅ ⁄n xi 2 i=1 n i=1 hi 2 = KH Man sieht, dass mit steigender Zahl der Merkmalsträger n und bei gleichbleibender Konzentration (gemessen mit dem Herfindahl-Index KH ) die Disparität (gemessen mit dem Variationskoeffizient v) linear mit n steigt. Analoges gilt für den Rosenbluth-Konzentrationsindex und den Gini-Koeffizienten. Gemeinsame Prinzipien Den Konzentrations- und Disparitätsindizes sind die folgenden Prinzipien gemeinsam. Prinzip der Anonymität: d.h. die Zuordnung der Merkmalswerte zu den Merkmalsträgern geht durch die Sortierung der Urliste verloren. Prinzip der Skaleninvarianz: d.h. die Einheit der Merkmalswerte spielt keine Rolle, da sich die Einheiten sowohl bei den Indizes als auch bei den Kurven herauskürzen. Prinzip des egalisierenden Transfers: d.h. falls ein Merkmalsträger mit höherem Merkmalswert einem anderen Merkmalsträger mit geringerem Merkmalswert einen Merkmalsbetrag (der jedoch nicht so gross ist, dass sich die Rangierung ändern würde) transferiert, dann reduzieren sich sowohl Disparität als auch Konzentration. Unterschiede Die Konzentrations- und Disparitätsindizes unterscheiden sich jedoch auch in zweierlei Hinsicht: Nullergänzung: Wenn man dem Datenvektor x m Nullen hinzufügt, so verändert sich weder die Konzentrationskurve noch die Werte der Konzentrationsindizes. Demgegenüber verlagert sich die Lorenzkurve nach unten und die Werte der Disparitätsindizes werden grösser. Replikation der Daten: Geht man von den Daten x1 , ... xn zu den Daten x1 , ... xn , x1 , ... xn über, d.h. dass man den Datensatz um ein identisches Abbild erweitert, so verändern sich weder die Lorenzkurve noch die Werte der Disparitätsindizes. Demgegenüber verschiebt sich die Konzentrationskurve nach unten, und die Werte der Konzentrationsmasse werden kleiner. Rosenbluth- und Herfindahl-Index reduzieren sich bei einer m-fachen Replikation auf den m-ten Teil des Ausgangswertes. Skript Statistik und Stochastik 82 9. Induktive Statistik Einleitung Nur mit einer Totalerhebung lässt sich eine vollständige Information über die Verteilung eines Merkmals X in einer Grundgesamtheit gewinnen. Da dies selten möglich ist, versucht man mit Hilfe von Teilerhebungen Anhaltspunkte über die unbekannte Verteilung zu gewinnen. Man spricht von Stichproben, wenn bei der Auswahl der Merkmalsträger der Zufall eine wesentliche Rolle spielt. Die induktive (zufallskritische, beurteilende) Statistik liefert auf Grund einer Stichprobe Aussagen über die Grundgesamtheit und hat zwei Aufgaben: † Die Schätzung unbekannter Parameter der Grundgesamtheit mit Angabe der Vertrauensgrenzen (Schätzverfahren) † Die Prüfung von Hypothesen über die Grundgesamtheit (Testverfahren) Die deduktive Statistik (Wahrscheinlichkeitsrechnung) macht auf Grund eines Modells (über die Grundgesamtheit) Aussagen über eine Stichprobe. Es gibt verschiedene Arten von Tests. † Signifikanztest testet, ob eine Hypothese verworfen werden muss oder nicht. † Parametertest testet Hypothesen über einen Parameter. † Anpassungstest prüft, ob eine beobachtete Verteilung mit einer hypothetischen verträglich ist. Schritte beim Test von Hypothesen. † Aufstellen der Nullhypothese. † Aufstellen des Tests. † Bei Gültigkeit der Nullhypothese ist ein bestimmter Ausgang sehr unwahrscheinlich. † Risiko I oder Fehler I. Art (a), Risiko II oder Fehler 2. Art (b). Ein statistischer Test ist ... † Ein Verfahren, das für jede Stichprobe die Entscheidung, ob das Stichprobenergebnis die Hypothese stützt oder nicht, herbeiführt, heisst statistischer Test. † Die meisten statistischen Tests werden mit Hilfe einer Prüfgrösse (Teststatistik) durchgeführt. Eine solche Prüfgrösse ist eine Vorschrift, nach der aus einer gegebenen Stichprobe eine Zahl errechnet wird. Der Test besteht nun darin, dass je nach dem Wert der Prüfgrösse entschieden wird. 83 Skript Statistik und Stochastik Punktschätzungen Punktschätzung für den Mittelwert Der Mittelwert m des metrischen Merkmals X einer Grundgesamtheit sei unbekannt und soll mit Hilfe einer Zufallsstichprobe vom Umfang n geschätzt werden. Aus den beobachteten Merkmalswerten xi jedes einzelnen Stichprobenele` ⁄ni=1 xi ¯ = ments berechnet man das arithmetische Mittel x n und erhält damit einen Schätzwert m. Eine solche Schätzung heisst Punktschätzung, weil ein punktueller Wert als Schätzwert genannt wird und nicht etwa ein Intervall. Es fehlt auch jede Angabe über die Zuverlässigkeit. Um zu überprüfen, ob es sich bei dieser Formel um eine gute Schätzformel handelt (oder nicht), muss sie analysiert werden. Der Schätzwert ist (wie man sich klarmachen kann) die Realisation einer Zufallsvariablen (die Merkmalsträger wurden ja zufällig aus der Grundgesamtheit ausgewählt), nämlich der durch n geteilten Summe der Xi . In der Regel wird der Schätzwert vom wahren Wert abweichen. Man kann jedoch einfach ausrechnen, dass der Erwarêê tungswert der Schätzung m` mit dem Mittelwert der Grundgesamtheit m übereinstimmt. Dies wird erwartungstreue Schätzung genannt. Das heisst auch, dass der Schätzfehler im Mittel verschwindet und nicht etwa eine systematische Über- oder Unterschätzung vorliegt. Eine nicht erwartungstreue Schätzung heisst verzerrt, der Erwartungswert der Abweichung Verzerrung (oder englisch Bias). Die Berechnung der Varianz des Schätzwerts liefert (unter Berücksichtigung der Unabhängigkeit der Einzelstichσ2 proben) einen Wert von n , hat also die angenehme Eigenschaft, dass die Varianz mit zunehmendem Stichprobenumfang immer kleiner wird, was mit Konsistenz bezeichnet wird. Punktschätzung für den Anteilswert Im Gegensatz zum vorherigen Abschnitt, wo der Mittelwert einer metrischen Variable untersucht wurde, geht es beim Anteilswert um eine ja/nein Entscheidung: hat der Merkmalsträger (das Individuum) eine bestimmte Eigenschaft oder nicht, woraus sich dann der Anteil berechnen lässt. Der in der Zufallstichprobe gefundene Anteilwert h ist eine Realisation der Zufallsvariablen, die als arithmetisches Mittel von n Bernoulli-Variablen (ja/nein) definiert ist. Ô Ô Der Schätzwert p gemäss der Schätzformel p = h ist erwartungstreu und konsistent. Punktschätzung für die Varianz Ô2 ⁄i=1 Hxi −xL Bei der Analyse der Punktschätzung für die Varianz stellt sich heraus, dass σ = s2 = n kein guter Schätzwn-1 ert ist. Er ist nicht erwartungstreu, er gibt einen um den Faktor ÅÅÅÅnÅÅÅÅÅÅ zu kleinen Wert an. Dies kann gezeigt werden, n indem man den Erwartungswert (von S 2 ) berechnt. Der Schätzwert für die Varianz muss also ÅÅÅÅ ÅÅÅÅÅÅ s2 lauten. Den n-1 Grund für diese Korrektur kann man darauf zurückführen, dass die Methode bereits einen Freiheitsgrad zur Berechnung des Mittelwerts verbraucht und die xi dann nicht mehr alle unabhängig sind, da ⁄ni=1 Hxi - êêx L = 0 gilt (d.h. die Zentraleigenschaft des arithmetischen Mittels). n ¯ 2 84 Skript Statistik und Stochastik Eigenschaften von Punktschätzungen Wir haben gesehen, dass ein Schätzwert einer Punktschätzung eines Parameters eine Zufallsvariable ist und viele Werte annehmen kann. Der Schätzwert wird von einer Schätzformel hervorgebracht und gründet sich auf einer Stichprobe. Man schätzt vielfach einen Parameter der Grundgesamtheit mit einem Parameter der Stichprobe. Nur bei der Varianz musste eine Korrektur angebracht werden. Eine Schätzformel (Schätzfunktion, Schätzer) hat eine Wahrscheinlichkeitsverteilung und aus ihr folgen gewisse stochastische Eigenschaften. Zur Gütebeurteilung eines Schätzers q verwendet man einen Katalog von wünschenswerten Eigenschaften. Ô † Erwartungstreue, d.h. EJq N = q Ô † Asymptotische Erwartungstreue, d.h. limnض EJq N = q † Konsistenz, d.h. die Varianz geht gegen 0 † Effizienz, d.h. die Varianz ist möglichst klein (im Vergleich zu anderen Schätzern) Es kann sein, dass ein nicht erwartungstreuer Schätzer besser ist als ein erwartungstreuer, wenn seine Varianz kleiner ist. Entscheidend ist die Nähe zum wahren Wert, was mit dem mittleren quadratischen Fehler bestimmt werden kann. Intervallschätzungen Einleitung Keine Stichprobe kann völlig exakte Auskunft über die tatsächliche Verteilung oder auch nur die Masszahlen der Verteilung von Merkmalen in einer Grundgesamtheit geben. Bei den bisher behandelten Punktschätzungen wissen wir nicht, ob wir ihnen vertrauen können. Unter gewissen Bedingungen ist es jedoch möglich, die Wahrscheinlichkeitsverteilung der Stichprobenwerte und damit den Schätzwerte wenigstens annähernd anzugeben. Mit Hilfe dieser Stichprobenverteilungen kann man dann das Vertrauen quantifizieren, also Wahrscheinlichkeiten angeben, mit denen man eine Schätzung für richtig hält. Stichprobenverteilungen Kenngrössen von Stichproben (z.B. Mittelwert, Anteilswert oder Varianz) sind Realisationen von Zufallsvariablen. Ihre Wahrscheinlichkeitsverteilung nennt man Stichprobenverteilung. Verteilung des Stichprobenmittelwerts Wenn das metrische Merkmal X in einer Grundgesamtheit den Mittelwert m und die Varianz s2 hat, dann gilt für die êêê Verteilung des Stichprobenmittelwerts X . êêê † EHX L = m s † sêêê ÅÅÅÅ!ÅÅ è!!!! X = ÅÅÅÅ n êêê † X ist annähernd normalverteilt. Diese Aussage folgt aus dem zentralen Grenzwertsatz (jedoch nur für unabhängige Ereignisse). Das heisst, dass die Zufallsvariable, für die êêx = ÅÅÅÅ1n ⁄ni=1 xi eine Realisation darstellt, asymptotisch normalverteilt ist mit obigen Parametern. 85 Skript Statistik und Stochastik Wie schnell die Verteilung konvergiert, hängt von der Ausgangsverteilung in der Grundgesamtheit ab. In den meisten Fällen kann man davon ausgehen, dass bei einem Stichprobenumfang von n > 30 die Ausgangsverteilung kaum noch eine Rolle spielt. ¯ êêê X−µ Wenn man obige Zufallsvariable X standardisiert (d.h. bildet) folgt daraus sofort die folgende Wahrscheinlichè!!!! σê n keitsaussage: êêê X -m PI-z ÅÅÅÅÅÅÅÅ ÅÅ Å § zM = CDFHzL - CDFH-zL sêêê X und noch leicht umgeformt: êêê êêê PHm - z s êêê X X § m + z s X L = CDFHzL - CDFH-zL Diese Beziehung wird direkter Schluss genannt. Man schliesst von der Grundgesamtheit auf die Stichprobe. Sie gibt die Wahrscheinlichkeit an, mit der ein Stichprobenmittelwert in ein vorher bestimmtes Intervall fällt oder umgekehrt. Beispiel 800 Personen besuchen eine Veranstaltung. Ihre durchschnittliche Körpergrösse beträgt 183 cm bei einer Standardabweichung von 10 cm. Es werden 25 zufällige Personen ausgewählt (mit "Zurücklegen"). êêê † Mit welcher Wahrscheinlichkeit wird der Stichprobenmittelwert im Intervall 182 cm < X < 184 cm liegen? † Wie gross ist das Intervall, in welches der Stichprobenmittelwert mit einer hohen Wahrscheinlichkeit von 0.9 fällt? Lösung a Es wird (mit n = 25) davon ausgegangen (zumal das Merkmal Körpergrösse schon weitgehend normalverteilt ist), dass eine Normalverteilung vorliegt. êêê Wenn wir die Zahlen für m und s êêê X in der linken Seite (m - z s X = 182) der Intervallformel einsetzen (die rechte liefert 10 Å ÅÅÅ Å = 182 und nach z augelöst z = ÅÅ12ÅÅ . den gleichen Wert) erhalten wir 183 - z ÅÅÅÅÅÅÅÅ è!!!!!!!! 25 Diesen z-Wert können wir nun in die CDF Verteilungsfunktion einsetzen und erhalten die Wahrscheinlichkeit. CDFHNormalDistributionH0, 1L, 0.5L - CDFHNormalDistributionH0, 1L, -0.5L 0.38292492254802624` Man könnte auch ansetzen (wegen der Symmetrie der Normalverteilung): HCDFHNormalDistributionH0, 1L, 0.5L - 0.5L 2 0.38292492254802624` Lösung b Für 90% Wahrscheinlichkeit erhalten wir (wenn wir die 10% gleichmässig auf beide Seiten verteilen) die Wahrscheinlichkeiten von 5% und 95%. Daraus können wir die z-Werte berechnen. z = Quantile@NormalDistributionH0, 1L, 0.95D = 1.6448 Ebenso ergibt Quantile@NormalDistributionH0, 1L, 0.05D = -1.6450 Wir setzen dieses z in unsere Intervallformel ein und erhalten für das Intervall: Skript Statistik und Stochastik 86 z 10 10 z 9183 - ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ!ÅÅÅ , ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ!Å + 183= = 8179.710, 186.290< è!!!!!! è!!!!!! 25 25 Intervallschätzung bei grossen Stichproben Eine Stichprobe gilt dann als grosse Stichprobe, wenn die Abweichung der tatsächlichen Stichprobenverteilung von der Normalverteilung vernachlässigt werden kann. Die Intervallschätzung gründet auf der gleichen Wahrscheinlichkeitsaussage wie derjenigen im vorigen Abschnitt. Im Argument der Wahrscheinlichkeitsfunktion P wird jedoch so umgestellt, dass man ein Intervall um m erhält. Die Intervallschätzung ist die Umkehrung des direkten Schlusses und heisst deshalb auch Umkehrschluss oder Rückschluss. Es wird von der Stichprobe auf die unbekannte Grundgesamtheit geschlossen. Für grosse Stichproben gilt. êêê êêê êêê PHX - z s êêê X m § X + z s X L = CDFHzL - CDFH-zL = 1 - a êêê Wenn man auch noch X durch den Mittelwert êêx ersetzt erhält man das sogenannte Konfidenzintervall êê - z sêêê , êêx + z s êêê D und schreibt: @x X X êê - z s êêê m § êêx + z s êêê L = CDFHzL - CDFH-zL = 1 - a PHx X X † 1-a heisst die Konfidenzwahrscheinlichkeit und gibt an, wie sehr man darauf vertraut, dass der feste aber unbekannte Wert m im Konfidenzintervall liegt. † a heisst die Irrtumswahrscheinlichkeit † In der Praxis muss zumeist eine Schätzung für die Varianz eingesetzt werden. Intervallschätzung bei kleinen Stichproben Sind die Stichproben zu klein, muss an Stelle der (nach dem zentralen Grenzsatz asymptotisch erreichten) Normalverteilung die tatsächliche Verteilung genommen werden. Nur im Spezialfall, wenn das Merkmal in der Grundgesamtheit bereits (oder fast) normalverteilt ist, wird die Situation wieder etwas einfacher, da dann auch die Stichprobe normalverteilt ist. Wird die geschätzte Varianz eingesetzt muss (da in diesem Fall die Standardisierung eigentlich ein Quotient aus zwei Zufallsvariablen ist), die Normalverteilung durch die Student-t Verteilung mit n - 1 Freiheitsgraden ersetzt werden und wir erhalten êê - t s êêê m § êêx + t s êêê L = 1 - a PHx n-1 X n-1 X wo der t-Wert aus der Student-t Verteilung erhalten wird. Beispiel Eine Befragung unter einer Berufsgruppe mit 25 Absolventen hat ein durchschnittliches Einkommen von 42'720 CHF bei einer Standardabweichung von 6'256 CHF ergeben. Wie gross ist das Einkommen für die ganze Grundgesamtheit mit einer Irrtumswahrscheinlichkeit von 5%. Lösung Das Einkommen kann in guter Näherung als normalverteilt angenommen werden. Deshalb führt die kleine Stichprobe auf die Student-t Verteilung (n - 1 ergibt 24; die 5% werden gleichmässig auf beide Seiten verteilt): 87 Skript Statistik und Stochastik t = Quantile@StudentTDistributionH24L, 0.975D = 2.063898 ` "######### 1 n # Wir berechnen das geschätzte s` êêê è!!!! Faktor) aus dem geschätzten s X ( X für den Mittelwert ( n−1 Faktor) für die n Grundgesamtheit: n "########## ÅÅÅÅ ÅÅÅÅÅÅ s n-1 s = 6256; n = 25; s = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ è!!!!ÅÅÅÅÅÅÅÅÅÅÅÅ ; n n n "########## ÅÅÅÅ ÅÅÅÅÅÅ s "########## ÅÅÅÅ ÅÅÅÅÅÅ s n-1 n-1 :42720 - t ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅ Å ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ , è!!!! è!!!!ÅÅÅÅÅÅÅÅÅÅÅ t + 42720> = 840084, 45355< n n Statistische Tests Einleitung Ein Verfahren, das für jede Stichprobe die Entscheidung, ob das Stichprobenergebnis die Hypothese stützt oder nicht, herbeiführt, heisst statistischer Test. † Die meisten statistischen Tests werden mit Hilfe einer Prüfgrösse (Teststatistik) durchgeführt. Eine solche Prüfgrösse ist eine Vorschrift, nach der aus einer gegebenen Stichprobe eine Zahl errechnet wird. Der Test besteht nun darin, dass je nach dem Wert der Prüfgrösse entschieden wird. è!!!!! HX -m0 L n † Prüfgrösse für den Einstichproben Gauss Test: Z = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ s êêê † Theoretisch ist Z standardnormalverteilt. Es ist oft nicht leicht zu entscheiden, wie lange Daten zur Überprüfung der Nullhypothese gesammelt werden sollen; denn mit genügend grossen Stichprobenumfängen lassen sich fast alle Nullhypothesen ablehnen. Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie. Bei den Testverfahren wird die mit der Stichprobe gewonnene Information dazu verwendet, eine Entscheidung über eine Hypothese zu treffen. Es wird aber nicht definitiv entschieden, ob die Hypothese richtig oder falsch ist, das heisst ob sie zutrifft oder nicht. Man wird als Ergebnis eines statistischen Tests die gefasste Hypothese nur beibehalten oder verwerfen. Dabei kommt es darauf an, dass die Wahrscheinlichkeit, eine richtige Hypothese zu verwerfen und eine falsche Hypothese beizubehalten, nicht allzu gross ist. Anfänglich wird eine Hypothese (Nullhypothese, Anfangshypothese) aufgestellt (über einen Parameter, die Verteilung eines Merkmals etc.). Diese Hypothese kann richtig oder falsch sein. Sie wird jedoch nur geändert, wenn genügend Beweise für das Gegenteil erbracht werden. Die Alternativhypothese (Gegenhypothese) könnte z.B. das logische Komplement sein. Wichtig ist, dass sich die Nullhypothese und die Alternativhypothese gegenseitig ausschliessen. Man unterscheidet zwischen einer einfachen oder Punkthypothese und einer zusammengesetzten. Die erstere spezifiziert einen singulären Parameterwert, die andere ein ganzes Intervall für den Wert des unbekannten Parameters. Man unterscheidet auch zwei Fehlerarten: † Fehler 1. Art: man verwirft die Nullhypothese, obwohl sie richtig ist; † Fehler 2. Art: man verwirft die Nullhypothese nicht, obwohl die Alternative richtig ist. Bei den Tests steht der Fehler 1. Art im Vordergrund. Dessen Wahrscheinlichkeit sollte möglichst klein sein, dabei aber den Fehler 2. Art nicht zu gross werden zu lassen. 88 Skript Statistik und Stochastik Testen von Hypothesen über Mittelwerte Mit diesem Test wird eine Hypothese über den Mittelwert (z.B. Hypothese m = m0 ) getestet. Erst wenn der gefundene Mittelwert êêx deutlich von diesem Wert abweicht (d.h. die Abweichung signifikant ist), wird man die Hypothese verwerfen. Mit der Verteilung des Stichprobenmittelwerts kann (bei Gültigkeit der Nullhypothese) für êêx ein Annahmebereich êêê und ein Verwerfungsbereich so bestimmt werden, dass die Wahrscheinlichkeit, mit der X in den Verwerfungsbereich fällt, obwohl die Nullhypothese richtig ist, höchstens a beträgt. Die Wahrscheinlichkeit des Fehlers 1. Art a heisst Signifikanzniveau. ÅÅÅÅ0ÅÅÅÅ § z@1 - ÅÅÅÅa2Å D; H0 richtigM = 1 - a PI ÅÅÅÅÅÅÅÅ sêêê êêêê ¦X-m ¦ X Zweiseitige Fragestellung Hier vergleicht man die absolute Abweichung zwischen dem in der Stichprobe gefundenen Mittelwert und dem »xêê-m0 » Å ÅÅÅ Å ÅÅ heisst Prüfgrösse. Die Nullhypothese ist zu hypothetischen Wert mit seiner Standardabweichung. Der Quotient ÅÅÅÅÅÅÅÅ sêêê X verwerfen, falls die Prüfgrösse den kritischen Wert z überschreitet. Der kritische Wert gibt gerade jene Stelle der Verteilungsfunktion an, wo sie den Wert 1 - ÅÅÅÅa2Å hat. Er ist also das 1 - ÅÅÅÅa2Å Quantil. Beispiel In einem Restaurant sollen geeichte Biergläser im Ausschank 0.4 l Bier enthalten. Bei einer Stichprobe (Umfang 50) ergibt sich eine durchschnittliche Füllmenge von 0.38 l bei einer Varianz von 0.0064 l2 . Kann man auf einem Signifikanzniveau von 5% die Nullhypothese aufrechterhalten, dass durchschnittlich 0.4 l Bier im Glas enthalten sind. Lösung Wir wollen ein bisschen ausholen. Die Stichprobe hat einen Mittelwert von 0.38 (den wir auch als Schätzer für die Grundgesamtheit verwenden können) und eine Varianz von 0.0064. Dies ist jedoch die Varianz für die Stichprobe, die Varianz für den Mittelwert ist n-mal kleiner. Wir wollen ausserdem die Varianz des Mittelwerts als Schätzer für die n Varianz der Grundgesamtheit verwenden, weshalb wir mit ÅÅÅÅ ÅÅÅÅÅÅ multiplizieren müssen. Wir haben also m = 0.38 und n-1 n ÅÅÅÅ Å ÅÅÅ Å Å 0.0064 "#################### # n-1 s êêê ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ mit n = 50. X = n Mit nicht normierten Messwerten 50 0.0064 ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ N. Wir haben also die folgende Verteilung dist = NormalDistributionJ0.38, "################## 49 50 Wir plotten nun die CDF dieser (nicht normierten) Verteilung, wobei wir noch zusätzlich den Bereich markieren, der im Wahrscheinlichkeitsintervall [0.025, 0.975] liegt. 1 0.8 0.6 0.4 0.2 0.35 0.4 0.45 0.5 89 Skript Statistik und Stochastik Wir müssen uns nun fragen, ob der Prüfwert von 0.40 innerhalb dieses Bereichs liegt. Wir können der Graphik entnehmen, dass dies der Fall ist. Wir können jedoch auch unser Messintervall ausgeben lassen und sehen wiederum, dass 0.40 in diesem Intervall liegt: 8Quantile@dist, 0.025D, Quantile@dist, 0.975D< = 80.3576, 0.4024< Der Wahrscheinlichkeitswert für den Prüfwert beträgt somit ... cdfH0.40L = 0.95994 ... ist also kleiner als 97.5% (aber nicht viel). Mit normierten Messwerten In der Regel arbeitet man jedoch mit normierten Verteilungen und Messwerten (siehe auch den theoretischen Teil oben; die Verwendung der Standardnormalverteilung machte früher viel Sinn, denn dann musste nur diese eine Verteilung tabelliert werden), d.h. wir nehmen die Standardnormalverteilung und zeichnen wieder das dem Wahrscheinlichkeitsintervall @0.025, 0.975D entsprechende Messintervall ein. Die Frage ist nun, ob die gemäss der Formel »x -m0 » ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ normierte Prüfgrösse ... sêêê êê X †0.38 - 0.40§ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ = 1.7500 50 0.0064 # "################## ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ 49 50 ... innerhalb dieses Messintervalls liegt oder nicht. Wir plotten deshalb die Normalverteilung mit den entsprechenden Messintervallen (2.5% und 97.5%) ... 1 0.8 0.6 0.4 0.2 -2 -1 1 2 ... und sehen wiederum, dass die Prüfgrösse von 1.75 innerhalb des Intervalls liegt. Der Wahrscheinlichkeitswert der Prüfgrösse ergibt wiederum den gleichen Wert von 95.99, ist also kleiner als 97.5%. cdfH1.75L = 0.95994 Die Hypothese ist also (auf diesem Signifikanzniveau) nicht zu verwerfen. Schritte Nach der (zweimaligen) anschaulichen Herleitung soll noch eine Schritt für Schritt Anleitung zur Lösung dieser Aufgabe gegeben werden: † Aufstellen der zweiseitigen Hypothese: H0 : m = 0.4 l, H1 : m ∫ 0.4 l † Schätzen der Standardabweichung gemäss der Formel s êêê X = n 50 ÅÅÅÅ ÅÅÅÅÅÅ s2 # ÅÅÅÅ "############## n-1 49ÅÅÅ 0.0064 ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ Å = $%%%%%%%%%%%%%%%%%%% ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ = 0.0114286 n 50 »x -m0 » †0.38-0.40§ † Berechnen der Prüfgrösse gemäss der Formel ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ ÅÅÅ = 1.75 sêêê 0.0114286 êê X † Bestimme den kritischen Wert zu a = 0.05: z = Quantile@NormalDistributionH0, 1L, 0.975D = 1.95996 Skript Statistik und Stochastik † Testentscheidung: Die Prüfgrösse (1.75) ist kleiner als der kritische Wert (1.96), d.h. innerhalb des Messintervalls. Deshalb kann die Hypothese beibehalten werden. 90 91 Skript Statistik und Stochastik 10. Zweidimensionale Verteilungen Einleitung Jede statistische Einheit einer Grundgesamtheit kann Träger einer Vielzahl von Merkmalen sein. Die univariate Statistik beachtet nur ein Merkmal bzw. nur eine Variable, die multivariate Statistik beobachtet von jedem Merkmalsträger mehrere Variablen. Wir beschäftigen uns im Folgenden mit dem einfachsten Fall von zwei Variablen 8X , Y <. Das Ergebnis einer Messung (Erhebung, Beobachtung) sind Wertepaare 8xi , yi <. Diese Wertepaare können in einem Streudiagramm eingetragen werden. Wenn nur endlich viele Ausprägungen der Merkmale X und Y vorkommen (endliche Verteilung), kann man auch eine Kontingenz- bzw. Korrelationstabelle erzeugen, in der die Zeilen- und Spaltenköpfe durch X bzw. Y und die Tabelleninhalte durch die (relative) Häufigkeit des Auftretens der entsprechenden Paare {xi , yi } gegeben sind. Durch Bildung von Grössenklassen (statt Verwendung der diskreten Werte) lässt sich die Anzahl der Zeilen und Spalten reduzieren. Es ist auch bei stetigen Verteilungen möglich, durch Bildung von Grössenklassen die Häufigkeiten dieser Klassen in einer Kontingenztabelle darzustellen. In diesem Kapitel beschäftigen wir uns auch mit Fragen der Korrelation, dem Grad der Beziehung zwischen diesen Variablen. Dabei versuchen wir herauszufinden, wie gut eine lineare oder nichtlineare Gleichung die Beziehung zwischen den Variablen beschreibt oder erklärt. Wenn alle Variablenwerte eine Gleichung vollkommen erfüllen, bezeichnen wir diese Variable als vollständig korreliert oder sprechen von einer vollständigen Korrelation zwischen ihnen. Sind nur zwei Variablen miteinander verknüpft, sprechen wir von einfacher Korrelation bzw. einfacher Regression, bei mehr als zwei Variablen von mehrfacher Korrelation bzw. mehrfacher Regression. Positive bzw. direkte Korrelation heisst, dass Y im gleichen Sinne wächst wie X . Liegen alle Punkte in der Nähe einer gekrümmten Kurve, wird die Korrelation nichtlinear genannt. Wenn keinerlei Beziehung zwischen den Variablen zu erkennen ist, gibt es keine Korrelation zwischen den Variablen bzw. sind die Variablen unkorreliert. Der folgende Plot zeigt drei Punktmengen mit negativ linearer Korrelation (rot), nichtlinearer Korrelation (magenta) und keiner Korrelation (schwarz). 20 17.5 15 12.5 10 7.5 5 2.5 2 4 6 8 10 Qualitativ kann man bereits aus der Graphik entnehmen, wie gut eine Kurve eine Punktmenge beschreibt. Zur quantiativen Festlegung müssen jedoch Messgrössen für die Korrelation eingeführt werden. In den folgenden Abschnitten diskutieren wir zunächst die Darstellungen und Möglichkeiten bei der Verwendung der Kontingenztabelle. 92 Skript Statistik und Stochastik Daran anschliessend diskutieren wir noch die Begriffe Kovarianz und Korrelationskoeffizient. Kontingenztabelle Einleitung Wenn nur endlich viele Ausprägungen der Merkmale X und Y vorkommen (endliche Verteilung), kann man auch eine Kontingenz- bzw. Korrelationstabelle erzeugen, in der die Reihen- und Spaltenköpfe durch xi bzw. yi und die Tabelleninhalte durch die (relative) Häufigkeit des Auftretens der entsprechenden Paare {xi , yi } gegeben sind. Wir wollen im Folgenden an Hand eines Beispiels die verschiedenen Begriffe erklären. Gegeben seien Messungen von X und Y , bei denen X vier verschiedene Ausprägungen und Y fünf verschiedene Ausprägungen haben kann. Konkret könnten folgende Messwerte resultieren: x = 830, 40, 50, 60<; y = 81, 2, 4, 5, 8<; Wir führen nun Messungen durch und erhalten beispielsweise die folgende Häufigkeitstabelle: ij jj jj x1 jj jj x jj 2 jj jj x3 jj j k x4 y1 4 4 12 0 y2 8 8 10 4 y3 8 16 16 10 y4 0 20 28 16 y5 y zz 0 zzzz z 12 zzzz zz 14 zzz zz 10 { Die Daten sind so zu interpretieren, dass 4 mal das Paar {x1 , y1 }, 8 mal das Paar {x1 , y2 } etc. gemessen wurde. Es wurden insgesamt 200 Messungen durchgeführt: Randverteilung Die Ränder der Kontingenztabelle (bei denen die Reihen hiS bzw. die Spalten hSj aufsummiert sind, was durch das S angedeutet wird) ermöglichen die Untersuchung nur des einen Merkmals, womit wir wieder bei der univariaten Analyse gelandet wären. Diese eindimensionalen Verteilungen heissen Randverteilung der statistischen Variablen X bzw. Y. Randverteilung für die X Zur Berechnung der Randverteilung für X (hiS ) müssen wir für jede Zeile über die Spalten summieren. Wir erhalten nach Normierung durch die Anzahl der Messungen die gewünschte Randverteilung: ij jj jj x1 jj jj x jj 2 jj jj x3 jjj k x4 y1 4 4 12 0 y2 8 8 10 4 y3 8 16 16 10 y4 0 20 28 16 y5 0 12 14 10 Xrv 0.1 0.3 0.4 0.2 yz zz zz zz zz zz zz zz zz z { Diese Liste gibt die relativen Häufigkeiten an, ein X1 , X2 , ... zu messen: so wurde z.B. ein X1 in 10% der Fälle gemessen. Randverteilung für Y Zur Berechnung der Randverteilung für Y (hSj ) müssen wir für jede Spalte über die Zeilen summieren. Die Berechnung ist analog zur Berechnung der Randverteilung für X. 93 Skript Statistik und Stochastik ij jj jj x1 jj jj x jj 2 jj jj x3 jjj jj x jj 4 j k Yrv y1 4 4 12 0 0.1 y2 8 8 10 4 0.15 y3 8 16 16 10 0.25 y4 0 20 28 16 0.32 y5 0 12 14 10 0.18 Xrv y zz 0.1 zzzz z 0.3 zzzz zz 0.4 zzz zz 0.2 zzzz z 1.0 { Die unterste Reihe dieser Tabelle gibt die relativen Häufigkeiten an, ein Y1 , Y2 , ... zu messen. Darstellung der Randverteilungen und relativen Häufigkeiten Wir wollen nun noch eine übersichtliche Darstellung der gemessenen Daten geben, bei der alle Daten normiert werden. jij jj jj jj jj jj jj jj jj jj jj j k x1 x2 x3 x4 Yrv y1 0.02 0.02 0.06 0.00 0.10 y2 0.04 0.04 0.05 0.02 0.15 y3 0.04 0.08 0.08 0.05 0.25 y4 0.00 0.10 0.14 0.08 0.32 y5 0.00 0.06 0.07 0.05 0.18 Xrv 0.10 0.30 0.40 0.20 1.00 zyz zz zz zz zz zz zz zz zz zz zz z { Wir können der Tabelle z.B. entnehmen: † die Wahrscheinlichkeit das Wertepaar 8X2 , Y3 } zu messen ist 8%; † die Wahrscheinlichkeit ein X2 zu messen ist 30% (Randverteilung ganz rechts); Bedingte Wahrscheinlichkeiten Im vorigen Abschnitt haben wir in der Tabelle die relativen Häufigkeiten sowie die Randverteilungen dargestellt. Diese Werte können folgendermassen interpretiert werden: † Die (gleichzeitige) Messung des Paares 8Xi , Y j < tritt mit der relativen Häufigkeit auf, die in der Tabelle an der entsprechenden Position 8i, j< eingetragen ist. † Die relative Häufigkeit des Wertes Xi (unabhängig davon was für Y gemessen wurde) ist durch das i-te Element der Randverteilung für X gegeben (Spalte ganz rechts). † Die relative Häufigkeit des Wertes Y j (unabhängig davon was für X gemessen wurde) ist durch das j-te Element der Randverteilung für Y gegeben (letzte Zeile). In diesem Abschnitt wollen wir uns mit den folgenden zwei Fragen beschäftigen: † Wie gross ist die Wahrscheinlichkeit ein Xi zu messen, wenn ein bestimmtes Y j gemessen wurde? † Wie gross ist die Wahrscheinlichkeit ein Y j zu messen, wenn ein bestimmtes Xi gemessen wurde? Es interessiert also nun die Verteilung der relativen Häufigkeiten einer Variablen, wenn die andere auf einem bestimmten Wert festgehalten wird. Auf diese Weise erhält man einen wichtigen Einblick in die Art des Zusammenhangs zwischen den beiden Werten. Diese sogenannten bedingten Verteilungen lassen sich leicht der Kontingenztabelle entnehmen; man braucht nur die Zeilen oder Spalten der Tabelle durch den ihnen entsprechenden Wert der Randverteilung zu dividieren. Bei unabhängigen statistischen Variablen sind die bedingten Verteilungen identisch und jeweils gleich der Randverteilung. Statistische Unabhängigkeit wird dabei so definiert, dass die gemeinsamen relativen Häufigkeiten gleich dem Produkt der beiden dazugehörigen Randverteilungshäufigkeiten sind: hij = hiS hSj . 94 Skript Statistik und Stochastik Wir fragen nun also nach bedingten Wahrscheinlichkeiten. Im Gegensatz zur obigen Normierung, wo mit der Anzahl Messungen normiert wurde, müssen wir nun die Normierung mit den Werten der Randverteilung durchführen. Es resultieren zwei Darstellungen (die bedingte Wahrscheinlichkeit für X bzw.Y). Bedingte Wahrscheinlichkeit für X Wir führen also die folgenden Schritte durch (zur Normierung jeder Spalte): jij jj x jj 1 jj jj x2 jj jj jjj x3 jj jjj x4 j k Norm y1 0.200 0.200 0.600 0.000 1.000 y2 0.267 0.267 0.333 0.133 1.000 y3 0.160 0.320 0.320 0.200 1.000 y4 0.000 0.313 0.438 0.250 1.000 y5 zyz 0.000 zzzz z 0.333 zzzz zz 0.389 zzz zz 0.278 zzzz z 1.000 { Diese Tabelle ist so zu interpretieren: wenn wir (z.B.) wissen, dass Y1 gemessen wurde, dann wurde auch X3 mit einer Wahrscheinlichkeit von 60% gemessen. Bedingte Wahrscheinlichkeit für Y Die Berechnung der bedingten Wahrscheinlichkeit für Y erfolgt analog (es wird jede Zeile normiert). ij jj jj x1 jj jj x jj 2 jj jj x3 jj j k x4 y1 0.200 0.067 0.150 0.000 y2 0.400 0.133 0.125 0.100 y3 0.400 0.267 0.200 0.250 y4 0.000 0.333 0.350 0.400 y5 0.000 0.200 0.175 0.250 Norm 1.000 1.000 1.000 1.000 yz zz zz zz zz zz zz zz zz z { Berechnung von Mittelwerten und Varianzen für X und Y In diesem Abschnitt wollen wir uns mit der Berechnung der Mittelwerte und Varianzen beschäftigen. Der Mittelwert für X berechnet sich mit der Formel êêx = ⁄ki=1 ⁄lj=1 hij xi (für Y analog). Die Varianz für X berechnet sich mit der Formel s2X = ⁄ki=1 ⁄lj=1 hij Hxi - êêx L2 (für Y analog). Man sieht, dass die Summe über j separat durchgeführt werden kann und deshalb die Randverteilungen zur Berechnung der Mittelwerte und Varianzen verwendet werden können: † êê x = ⁄ki=1 hiS xi und êêy = ⁄lj=1 hSj y j l † s2X = ⁄ki=1 hiS Hxi - êê x L2 und s2Y = ‚ j=1 HhSj Hy j - êêyLL2 Kovarianz und Korrelationskoeffizient Einleitung Für die beiden Variablen X und Y bei bivariaten Daten gilt, dass der Mittelwert der Summe X + Y gleich der Summe der Mittelwerte und der Mittelwert der Differenz X - Y gleich der Differenz der Mittelwerte ist. Für die Varianz ist das Ergebnis nicht so einfach. 95 Skript Statistik und Stochastik Eine Rechnung zeigt, dass êêL 2 ⁄n Hx j -xêêL Hy j -y j=1 s2X +Y = s2X + s2Y + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ n und analog für die Differenz. Nur für den Spezialfall, dass der letzte Term verschwindet, wäre die Varianz einer Summe gleich der Summe der Varianzen. Dieser Term (ohne den Faktor 2) wird empirische Kovarianz oder kurz Kovarianz genannt und mit cXY bezeichnet. Die Kovarianz ist nichts weiter als das arithmetische Mittel des Produkts der Abweichungen der einzelnen Beobachtungen von ihrem jeweiligen Mittel. Wie für die Varianz gibt esêêauch für die Kovarianz eine einfachere Berechnungsmöglichkeit: êêL Hy -y L ⁄nj=1 Hx j -x ⁄nj=1 x j y j j cXY = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ - êêx êêy = êêêê x y - êêx êêy n n Sind zwei Variablen X und Y statistisch unabhängig, ist die Kovarianz zwischen ihnen Null. Man beachte jedoch, dass dieser Satz nicht umkehrbar ist: aus der statistischen Unabhängigkeit folgt zwar das Verschwinden der Kovarianz, jedoch liegt keineswegs immer Unabhängigkeit vor, wenn die Kovarianz verschwindet. In der Tat misst die Kovarianz nur den linearen Anteil der statistischen Abhängigkeit. An Stelle der Kovarianz wird vielfach der Korrelationskoeffinzient verwendet: cXY rXY = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ s s X Y Eigenschaften des Korrelationskoeffizienten † Normierung Mit der Division durch die beiden Standardabweichungen (was natürlich nur erlaubt ist, wenn sie ungleich Null sind) erhält man ein normiertes Mass für die Strenge des linearen statistischen Zusammenhangs. Der Korrelationskoeffizient hat das gleiche Vorzeichen wie die Kovarianz, liegt aber stets zwischen -1 und 1. † Masstabsneutral Wenn man eine der beiden Variablen linear transformiert (z.B. von Dollar in Euro umrechnet) bleibt der Korrelationskoeffizient unverändert. † Vertauschung der Variablen Wenn man die Variablen X und Y vertauscht, ändert sich der Korrelationskoeffizient nicht. Beispiel 1 Für unser Beispiel des Abschnitts "Kontingenztabelle" erhalten wir für die Kovarianz und Korrelation. Kovarianz: 4.5200 Korrelation: 0.2366 Der Wert von 0.236 für den Korrelationskoeffizienten deuet auf eine schwache positive Korrelation hin. Es ist zu beachten, dass in der Definition der Kovarianz die Summe über alle Messungen genommen wird. 96 Skript Statistik und Stochastik Beispiel 2 In der Einleitung zu diesem Kapitel haben wir Streudiagramme dargestellt. Nun wollen wir noch die Korrelationskoeffizienten für diese Tabellen berechnen. Wir erhalten: -0.9935 rote Punkte 0.3603 -0.0120 lila Punkte schwarze Punkte 20 15 10 5 2 4 6 8 10 Man sieht: † Für die (approximativ) lineare Funktion resultiert ein Korrelationskoeffizient nahe bei -1. † Für die (approximativ) quadratische Funktion resultiert ein positiver Korrelationskoeffizient von rund 0.4, obwohl die x und y Werte über die quadratische Beziehung sehr stark miteinander korrelieren. Aber wie schon gesagt, die Kovarianz bzw. der Korrelationskoeffizient misst nur die lineare Abhängigkeit. † Für die Random Funktion resultiert ein Korrelationskoeffizient nahe bei 0 (d.h. unkorreliert). Skript Statistik und Stochastik 97 11. Regression und Korrelation Einleitung In vielen Anwendungen der Statistik stellt sich die Aufgabe, eine Variable (z.B. Inflationsrate) durch eine oder mehrere andere Variablen (z.B. Geldmengenwachstum) zu erklären, indem ein in der Regel approximativer funktionaler Zusammenhang zwischen den Variablen nachgewiesen wird. Cross-sectional Bei den Daten handelt es sich vielfach um Datenreihen, bei denen zur gleichen Zeit Beobachtungen 8xi , yi < von (mindestens) zwei Eigenschaften für eine varierende dritte Eigenschaft 8i< aufgenommen wurden (cross-sectional). Beispiel: 8i, xi , yi < = 8Land, Geldmengenwachstum, Inflationsrate<. Beispiel: 8i, xi , yi < = 8Schüler, Körpergrösse, Gewicht<. Zeitreihen Alternativ kann es sich aber auch um Zeitreihen 8ti , yi < handeln, bei denen (mindestens) eine Ausprägung für verschiedene Zeitpunkte aufgenommen wurde. Beispiel: 8ti , yi < = 8Jahr, Inflation<. Funktionale Beziehung 8xi , f @xi D< In beiden Fällen wird eine funktionale Beziehung 8xi , yi = f @xi D< bzw. 8ti , yi = f @ti D< zwischen einer unabhängigen Variablen (xi oder ti ) und einer abhängigen Variablen (yi ) vorausgesetzt. In beiden Fällen stellt sich also die Aufgabe, den Zusammenhang 8ti , f @ti D< bzw. 8xi , f @xi D< zu bestimmen. Um solche Aufgaben zu lösen können qualitative (Scatterplots) oder die quantitativen (Korrelation, Regression) Analysen angewandt werden. Scatterplot Ein Scatterplot liefert ein anschauliches Bild, wie die Datenpunkte zueinander in Beziehung stehen. Mit einem Blick gewinnt man einen Eindruck, ob die Datenpunkte in einem linearen oder nichtlinearen oder gar keinem Zusammenhang stehen. Um jedoch quantitative Aussagen über den funktionalen Zusammenhang zu machen, muss eine Korrelations- oder Regressionsanalyse durchgeführt werden. Korrelation Bei der Korrelationsanalyse wird der Korrelationskoeffizient zwischen den beiden Datenreihen berechnet. Dies ist eine Zahl zwischen -1 und +1 und ist ein Mass für den linearen Zusammenhang zwsichen den Datenpaaren 8xi, yi <. Regression Mehr Möglichkeiten zur Feststellung eines funktionalen (nicht nur linearen) Zusammenhangs bietet die Regressionsanalyse. Die Regressionsanalyse geht jedoch von weitergehenden Annahmen aus als die Korrelationsanalyse: z.B. müssen die xi deterministisch sein und die Fehler der yi einer Normalverteilung folgen. Wir werden uns in diesem Kapitel relativ ausführlich mit einer linearen Regression für eine einzige unabhängige Variable xi beschäftigen und modellieren die Beziehung zwischen xi und yi durch ein lineares Modell: 98 Skript Statistik und Stochastik ` ` yi = b0 + b1 xi + ei . Wir bestimmen die Gleichungen zur optimalen Schätzung der Param b0 und b0 sowie der Varianz 2 des Fehlerterms s`e` . ` ` 2 Wir untersuchen auch im Detail die Zuverlässigkeit (bzw. den Fehler) dieser drei Parameter (b0 , b0 , s` ). Die Kenntnis dieser Fehler erlaubt es uns dann auch, Konfidenzintervalle und Hypothesentests für diese Parameter durchzuführen. Weiters definieren wir das sogenannte Bestimmtheitsmass R2 , das uns sagt, welcher Anteil der Streuung in yi mit der Regression erklärt werden kann und welcher Teil durch die Fehlerterme ei gegeben ist. Zum Abschluss verwenden wir die gefundene Regressionsgerade dazu, für ein gegebenes xn+1 den dazugehörigen Wert yn+1 zu prognostizieren, und ein Fehlerband für das geschätzte y` n+1 anzugeben. Scatter Plot Ein Scatterplot ist eine graphische Darstellung, die die Beziehung zwischen Beobachtungen für zwei Datenreihen in zwei Dimensionen darstellt. Die erste Beobachtung wird in der Abszisse, die zweite Beobachtung in der Ordinate dargestellt. Mit einem Scatter Plot lassen sich die Daten-Paare anschaulich darstellen. Man sieht auf einen Blick den funktionalen Zusammenhang. Ausserdem können Ausreisser gut erkannt werden. Beispielsweise seien die folgenden Datenreihen (bzw. 8xi , yi < Paare) gegeben: x 0. 2. 4. 6. 8. 10. y 0.72 4.53 5.42 7.26 9.54 10.07 Dies ergibt den folgenden Scatter Plot: 10 8 6 4 2 2 4 6 8 10 Jede Beobachtung i im Scatterplot ist repräsentiert durch einen Punkt 8xi , yi < und die Punkte werden nicht verbunden. Korrelation Einleitung Im Gegensatz zu einem Scatter Plot, der die Beziehung zwischen zwei Datenreihen 8xi , yi < anschaulich darstellt, drückt die Korrelationsanalyse die Beziehung quantitativ mit einer einzigen Zahl, dem Korrelationskoeffizienten, aus. 99 Skript Statistik und Stochastik Der sogenannte Korrelationskoeffizient ist ein Mass dafür, wie eng zwei Datenreihen 8xi , yi < miteinander in Beziehung stehen; genauer ausgedrückt misst er die Richtung und das Ausmass des linearen Zusammenhangs zwischen zwei Variablen. Der Korrelationskoeffizient kann nur Werte aus dem Intervall @-1, 1D annehmen. † Ein Korrelationskoeffizient > 0 drückt einen positiven linearen Zusammenhang zwischen den Datenreihen aus, d.h. dass auch y zunimmt, wenn x zunimmt. † Ein Korrelationskoeffizient 0 drückt einen negativen linearen Zusammenhang zwischen den Datenreihen aus, d.h. dass y abnimmt, wenn x zunimmt. † Ein Korrelationskoeffizient von 0 zeigt an, dass keine lineare Beziehung zwischen den zwei Variablen 8x, y< besteht. Ein grosser (absoluter) Wert des Korrelationskoeffizienten weist auf eine starke lineare Beziehung zwischen den zwei Variablen hin. Bei vielen Datenpunkten kann bereits ein kleiner Wert des Korrelationskoeffizienten auf eine lineare Beziehung zwischen zwei Variablen hinweisen. Berechnung des Korrelationskoeffizienten Die Berechnung des Korrelationskoeffizienten kann am einfachsten mit Hilfe der Kovarianz angegeben werden. Die Stichprobenkovarianz sx,y zwischen zwei Datenreihen x = 8xi < und y = 8yi < mit n Beobachtungen berechnet sich zu: n ¯L Hxi − ¯ xL Hyi − y ; sx,y = ‚ n−1 i=1 ¯ mit den Mittelwerten ¯ x und y ⁄ni=1 xi ¯ x = n ; ⁄ni=1 yi ¯ = y ; n Die Stichprobenkovarianz ist somit der Durchschnitt des Produkts aus Hxi - êêx L und Hxi - êêx L, wobei diese Faktoren jeweils die Abweichungen der entsprechenden Beobachtung von ihrem Stichprobenmitttelwert beschreiben. Mit Hilfe der Standardabweichungen sx und s y der beiden Stichproben, die die Streuung der x- und y-Werte um ihren Mittelwert beschreiben, und die folgendermassen definiert sind ... ¯L2 xL2 ⁄ni=1 Hxi − ¯ ⁄ni=1 Hyi − y ; sy = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% ; sx = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% n−1 n−1 ... kann dann die Definition des Korrelationskoeffizienten r = rx,y kurz und prägnant geschrieben werden: s s x,y x,y Der Korrelationskoeffizient rx,y = ÅÅÅÅÅÅÅÅ ÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅ ist die Kovarianz der beiden Variablen x und y, geteilt durch das Produkt s s "################### x y sx,x s y,y der Stichprobenstandardabweichungen. Der Korrelationskoeffizient hat die folgenden Eigenschaften. † Wie die Kovarianz ist der Korrelationskoeffizient ein Mass für die lineare Beziehung zwischen zwei Datenreihen. 100 Skript Statistik und Stochastik † Im Gegensatz zur Kovarianz hat der Korrelationskoeffizient den Vorteil, dass er eine reine Zahl (ohne Einheiten) und ausserdem auf das Interval @-1, 1D normiert ist. Er ist deshalb viel einfacher zu interpretieren. † Die Normierungen Hn - 1L in der Definition der Kovarianz und den Standardabweichungen sx und s y heben sich gerade auf und es folgt auch: ¯L xL Hyi − y ⁄ni=1 Hxi − ¯ rx,y = ; "############################### ¯L2# xL2 "############################### ⁄ni=1 Hxi − ¯ ⁄ni=1 Hyi − y † Der Korrelationskoeffizient ist symmetrisch in x und y: rx,y = r y,x † sx s y kann auch als "############### sx,x s y,y# geschrieben werden. x,x † rx,x = 1, da rx,x = ÅÅÅÅ Åx,xÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ = 1. Eine Datenreihe 8xi < hat perfekte Korrelation mit sich selbst. è!!!!!!!!!!!!!!!!!! sx sx s s s s x,x x,x Berechnung Wir sind nun in der Lage, den Korrelationskoeffizienten für unser Beispiel zu berechnen. Mathematica Definitionen: x_i_ := xPiT; n = Length@xD; ⁄ni=1 xi êê ⁄ni=1 yi êêx = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ; y = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ; n n ⁄ni=1 Hxi - êêx L2 % ⁄ni=1 Hyi - êêyL2 sx = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ; s y = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ; n-1 n-1 n Hxi - êêxL Hyi - êêyL sx,y = ‚ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ; n-1 i=1 sx,y rx,y = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ; sx s y Kovarianz = 12.724 Korrelationskoeffizient = 0.976286 Korrelationskoeffizienten können berechnet werden, wenn die Mittelwerte und Standardabweichungen sowie die Kovarianz endlich und konstant sind. Grenzen der Korrelationsanalyse Der Korrelationskoeffizient misst den linearen Zusammenhang zwischen zwei Variablen. Der Korrelationskoeffizient ist jedoch nicht immer zuverlässig. Dies kann verschiedene Ursachen haben: Nichtlinearität Beispielsweise können zwei Variablen eine starke nichtlineare Abhängigkeit - und trotzdem eine kleine lineare Korrelation - haben. Obwohl bei der Beziehung y = Hx - 4L2 die Daten vollständig korreliert sind, ergibt die Berechnung des Korrelationskoeffizienten einen Wert von 0. 101 Skript Statistik und Stochastik 10 8 6 4 2 2 4 6 8 Korrelation = 0 Ausreisser Der Korrelationskoeffizient kann auch unzuverlässig sein, wenn Ausreisser in einer oder beiden Datenreihen vorhanden sind. Ausreisser sind eine kleine Anzahl von Beobachtungen an beiden Enden (klein oder gross) einer Stichprobe. Beispielsweise wird in der folgenden linearen Beziehung durch einen einzigen Ausreisser der Korrelationskoeffizient von 1.00 auf 0.73 reduziert. 20 15 10 5 5 10 15 20 Korrelation = 0.969228 Wenn der Ausreisser eliminiert wird steigt der Korrelationskoeffizient wieder auf 1.00. 20 15 10 5 5 10 15 20 Korrelation = 1. Die Berechnung des Korrelationskoeffizienten ist sehr empfindlich auf den Aufschluss von Ausreissern. Ein Ausreisser darf nicht ohne Grund aus den Daten entfernt werden. Man muss sich zuerst versichern, ob der Ausreisser Information über die Beziehung zwischen den Datenpunkten enthält oder nicht. Falls der Ausreisser keine Information enthält, und es sich um eine Fehlmessung bzw. Noise handelt, sollte er von der Analyse ausgeschlossen werden. Falls der Ausreisser jedoch Informationen enthält und auf eine relevante Beziehung zwischen den Datenpunkten hinweist, darf er von der Datenanalyse nicht ausgeschlossen werden. Skript Statistik und Stochastik 102 Ausserdem sollte generell untersucht werden, wie sich der Korrelationskoeffizient beim Auschluss von Ausreissern ändert. Wichtig ist auch zu berücksichtigen, dass eine Korrelation keine Ursache (kausale Verknüpfung) impliziert. Auch wenn zwei Variablen stark korreliert sind, heisst dies nicht, dass ein bestimmter Wert einer Variable einen bestimmten Wert der anderen Variablen verursacht. Korrelationen können auch auf eine Beziehung hinweisen, die gar nicht existiert. Dies kann verschiedene Ursachen haben: † die Korrelation kann zufällig sein; † die Korrelation wurde herbeigeführt durch eine Rechnung, die jede von zwei Variablen x und y mit einer dritten Variable z vermischt; wenn beispielsweise zwei unkorrelierte Variablen durch eine dritte Variable dividiert werden. † die Korrelation zwischen zwei Datenreihen entsteht dadurch, dass beide Datenreihen mit einer dritten Datenreihe korreliert sind; wenn beispielsweise die beiden Korrelationen Alter/Grösse und Alter/Wortschatz auf die falsche Korrelation Grösse/Wortschaft führen. Signifikanz des Korrelationskoeffizienten Es ist relativ einfach, den Korrelationskoeffizienten zwischen zwei Datenreihen 8xi < und 8yi < zu berechnen. Wenn wir wissen, dass die linear Beziehung nicht auf Zufall beruht, können wir dann diese Beziehung für Voraussagen von y aus der Kenntnis (oder Voraussage) von x verwenden. Um festzustellen, ob die berechnete Korrelation eine wirklich vorhandene Beziehung zwischen den Datenreihen ausdrückt oder nur auf Zufall beruht, reicht die Grösse des Korrelationskoeffizienten allein nicht aus; es muss ein Signifikanztest durchgeführt werden, um festzustellen ob der Korrelationskoeffizient der Population r wirklich von 0 verschieden ist. Ein Signifikanztest verläuft analog zu den Hypothese Tests und enthält die folgenden Schritte: † Aufstellen der Nullhypothese H0 , dass die Korrelation in der Population gleich 0 ist ( r = 0) und der Alternativhypothese (r ∫ 0), was auf einen zweiseitigen Test führt. † Unter der Annahme, dass die beiden Variablen normalverteilt sind, führt dies auf die folgende Test Statistik è!!!!!!!!!!!! r n-2 t = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅ è!!!!!!!!!!!!! 2 1-r mit einer t-Verteilung und n - 2 Freiheitsgraden. Wenn die Anzahl der Datenpunkte n erhöht wird, fällt der Wert des Korrelationskoeffizienten r, der notwendig ist, die Nullhypothese (r = 0) zu verwerfen (d.h. t > tc ). Einerseits fällt tc (da die Anzahl der Freiheitsgrade n - 2 steigt) und è!!!!!!!!!!!! andererseits erhöht sich t (mit n - 2 ). (Lineare) Regression Einleitung Als nächstes diskutieren wir ein weiteres Verfahren, die Beziehung zwischen zwei Datenreihen zu quantifizieren: die Regressionsanalyse. Eine Regression erlaubt uns mit Hilfe einer Variablen x Voraussagen über eine zweite Variable y zu machen, Hypothesen über die Beziehung zwischen den zwei Variablen zu testen und die Stärke der Beziehung zu quantifizieren. Zur Durchführung einer Regressionsanalyse modelliert man die Werte der "zu erklärenden" Variable y (abhängige Variable, erklärte Variable, Regressand) als Funktion der Werte der anderen so genannten "erklärenden" Variablen x 103 Skript Statistik und Stochastik (unabhängige Variable, Regressor) und eines Störterms e. yi = f @xi D + ei = y@xi D + ei Der Störterm beschreibt die als unsystematisch oder zufällig angesehenen Abweichungen vom exakten funktionalen Zusammenhang. Die Funktion legt man bis auf gewisse Parameter vorweg fest und schätzt diese Parameter dann aus den Daten. Die resultierende Kurve y@xD nennen wir die Regressionskurve für y aus x, da von x auf die y geschlossen wird. Der Rest dieses Abschnitts wird sich mit der Linearen Regression (auch Linear Least Square genannt) mit einer einzigen unabhängigen Variablen x beschäftigen. Es wird also die lineare Beziehung der Form y = b0 + b1 x vorausgesetzt. Modell Annahmen Das Modell der linearen Regression (genauer lineare Einfachregression, da nur eine abhängige Variable x existiert) führt auf den Ansatz yi = b0 + b1 xi + ei Diese Gleichung besagt, dass die abhängige Variable yi gleich dem Achsenabschnitt b0 plus der Steigung b1 mal der abhängigen Variable xi plus einem Fehlerterm (Störterm, Residuum) ist. Der Fehlerterm ei repräsentiert denjenigen Anteil der abhängigen Variablen, der nicht durch die abhängige Variable xi erklärt werden kann. In diesem Modell wird weiters vorausgesetzt, dass ... † ... die Werte x1 , x2 , ... deterministisch (d.h. fest gegeben) und nicht alle gleich (d.h. sx 2 > 0) sind; dies ist oft nicht der Fall; wichtig ist vor allem, dass die unabhängige und abhängige Variable unkorreliert sind; dann kann den Ergebnissen der Regression trotzdem vertraut werden; † ... für die Verteilung der Fehlerterme (die nicht beobachtet werden können) folgendes gilt: Erwartungswert@ei D = 0 " i Varianz@ei D = s2 " i Kovarianz@ei , e j D = 0 " i ∫ j Das Modell besitzt drei Parameter: die beiden Regressionskoeffizienten b0 und b1 sowie die Residualvarianz s2 . Dies sind Modellparameter (bzw. Parameter der Population) und sind nicht bekannt. Aus den Daten8xi , yi < können sie jedoch geschätzt werden. Mit der Methode der kleinsten Quadrate berechnet man die beiden (aus den Daten geschätzten) Regressionskoeffi` ` zienten b0 und b0 , mit deren Hilfe man eine Gerade in den Scatterplot einzeichnen kann, die die beobachteten y-Werte für die vorliegenden Werte von x am besten erklärt. 10 8 6 4 2 2 4 6 8 10 Fig. Scatterplot mit eingezeichneter Regressionsgerade. Mit Hilfe dieser Regressionskoeffizienten können dann auch die geschätzten Fehler e`i und daraus die geschätzte ` 2 berechnet werden. Residualvarianz s Das genaue Vorgehen zur Berechnung dieser Parameter wird in den nächsten beiden Abschnitten gezeigt. 104 Skript Statistik und Stochastik ` ` Berechnung der (geschätzten) Regressionskoeffizienten b0 und b1 Um die Parameter b0 und b1 zu bestimmen (bzw. zu schätzen), wird die Methode der kleinsten Quadrate angewandt. Das heisst, dass die Summe der Fehlerquadrate minimiert wird: ⁄ni=1 ei 2 = ‚ n i=1 Hyi - b0 - b1 xi L2 Um das Minimum zu finden, wird dieser Ausdruck nach b0 und b1 abgeleitet und gleich 0 gesetzt. Die daraus resultier` ` ` enden Lösungen für b0 und b1 werden mit b0 und b1 sowie die dazugehörigen Fehler werden mit ei bezeichnet. ` Die Ableitung nach b0 und Nullsetzen ergibt für b0 die Beziehung: n ` ` ` ⁄ni=1 ei = ‚ Iyi - b0 - b1 xi M = 0 ⁄ni=1 i=1 ` yi - ⁄ni=1 b0 -‚ n i=1 ` b1 xi = 0 ` ` n êêy - n b0 - b1 n êêx = 0 ` ` b0 = êêy - b1 êêx ` Analog folgt für b1 : n ` ` ` ⁄ni=1 ei xi = ‚ Iyi - b0 - b1 xi M xi = 0 ⁄ni=1 i=1 ` ` yi xi - b0 n êêx - b1 ⁄ni=1 xi xi = 0 ` ` ` Wenn man nun die Gleichung für b0 (b0 = êêy - b1 êêx ) hier einsetzt folgt: ` ` ⁄ni=1 yi xi - Iêêy - b1 êêx M n êêx - b1 ⁄ni=1 xi xi = 0 êêL ` sx y ⁄ni=1 yi xi -n êêy êêx ⁄ni=1 Hxi -xêêL Hyi -y Covaricance@x,yD b1 = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅ ÅÅ Å Variance@xD sx 2 ⁄n xi xi -n êêx êêx ⁄n Hx -xêêL2 i=1 i=1 i Dabei wurde benutzt, dass ... ⁄ni=1 Hxi - êêx L Hyi - êêyL = ⁄ni=1 xi yi - êêy ⁄ni=1 xi - êêx ⁄ni=1 yi + n êêx êêy = ⁄ni=1 xi yi - n êêx êêy ... und analog dass ... ⁄ni=1 Hxi - êêx L2 = ⁄ni=1 xi xi - n êêx êêx . Zusammenfassend gilt also ` und ⁄ni=1 ei = 0 ` sx y b1 = ÅÅÅÅ ÅÅ ÅÅ s 2 x und ` ⁄ni=1 ei xi = 0 ` ` sx y êê b0 = êêy - b1 êêx = êêy - ÅÅÅÅ ÅÅÅÅÅ x s 2 x ` ` Die lineare Regression liefert somit die Parameter b0 und b1 , die die lineare Beziehung (Gerade) zwischen den Datenreihen beschreiben. Damit lassen sich ... † ... für ein gegebenes xi das dazugehörige yi voraussagen; ` ` † ... Hypothesen über die Parameter b0 und b1 testen; und † ... die Stärke der Beziehung zwischen den beiden Variablen x und y quantifizieren. Eigenschaften der Regressionsgerade Die Regressionsgerade hat einige interessante Eigenschaften. 105 Skript Statistik und Stochastik êê,y êê} der Punktwolke, da gemäss † Mittlere Gerade. Die Regressionsgerade läuft genau durch den Schwerpunkt {x ` ` ` Definition von b0 gilt: êêy = b0 + b1 êêx ˆ sxy sy † Steigungsregression: es gilt b1 = s2x = rxy sx . † das Vorzeichen der Steigung entspricht dem Vorzeichen des Korrelationskoeffizienten rxy ; † die Steigung hängt vom Verhältnis der beiden Varianzen sx , sy ab; † bei gegebenen Varianzen verläuft die Gerade um so flacher je schwächer der lineare statistische Zusammenhang zwischen den Variablen ist; † Varianzminimierung. Die Varianz der Regressionsabweichungen wird minimiert. Berechnung der Residualvarianz s2 (standard error of estimate) Manchmal beschreibt die lineare Regression den Zusammenhang zwischen x und y recht gut, manchmal aber auch nicht. Wir müssen in der Lage sein, zwischen diesen zwei Fällen zu unterscheiden, um die Regressionsanalyse auch wirkunsvoll einsetzen zu können. Ein Mass für die Güte der gefundenen Regressionsbeziehung ist die sogenannte Residualvarianz s2 , die mit Hilfe der Daten folgendermassen geschätzt wird: 2 n ` ` 2 2 1 1 s` = ÅÅÅÅ ÅÅÅÅÅÅ n e` = ÅÅÅÅ ÅÅÅÅÅÅ Iy - b0 - b1 xi M n-2 ⁄i=1 i n-2 ‚i=1 i Die Wurzel aus diesem Ausdruck (d.h. s`) wird auch mit (geschätztem) Standardfehler der Regression sowie im Englischen mit "standard error of estimate" (SEE) oder mit "standard error of the regression" bezeichnet. Bei der Berechnung der Residualvarianz wird im Nenner der Faktor n - 2 verwendet, weil n Datenpunkte vorliegen ` ` und das lineare Regressionsmodell zwei Parameter (die beiden Regressionskoeffizienten b0 und b1 ) abschätzt: der Freiheitsgrad, d.h. die Differenz zwischen der Anzahl Beobachtungen und der Anzahl Parameter, ist demzufolge gleich n - 2. ` 2 ist es nicht notwendig, die Fehlerterme zu berechnen. Es gilt: Zur Berechnung von s `2 s n 2 ` ` 1 = ÅÅÅÅ ÅÅÅÅÅÅ Iy - b0 - b1 xi M n-2 ‚i=1 i n 2 ` ` 1 = ÅÅÅÅ ÅÅÅÅÅÅ Iyi - êêy + b1 êêx - b1 xi M n-2 ‚ i=1 ` 2 ` 1 = ÅÅÅÅ ÅÅÅÅÅÅ J⁄ni=1 Hyi - êêyL2 + b1 ⁄ni=1 Hxi - êêx L2 - 2 b1 ⁄ni=1 Hyi - êêyL Hxi - êêx LN n-2 ` 2 ` n = ÅÅÅÅ ÅÅÅÅÅÅ Js y 2 + b1 sx 2 - 2 b1 sx y N n-2 ` 2 n = ÅÅÅÅ ÅÅÅÅÅÅ Js y 2 - b1 sx 2 N n-2 ` Im letzten Schritt wurde die Beziehung sx y = b1 sx 2 ausgenutzt. Es folgt also: ` 2 sx y 2 2 n n s` = ÅÅÅÅ ÅÅÅÅÅÅ Js y 2 - b1 sx 2 N = ÅÅÅÅ ÅÅÅÅÅÅ Js y 2 - ÅÅÅÅÅÅÅÅ ÅÅÅÅ N n-2 n-2 s 2 x ` ` ` 2 nur von den fünf Grössen êêx , êêy, s , s und s abhängen. Man sieht also, dass alle drei Parameter b0 , b1 und s x y x,y ` ` Berechnung der Varianzen für b0 und b1 ` Die Regressionskoeffizienten b0 und b1 (des Modells) können nicht exakt bestimmt werden; die geschätzten b0 und ` b1 hängen von den vorliegenden Stichprobenwerten yi ab. 106 Skript Statistik und Stochastik Wir können jedoch die Varianz dieser Koeffizienten bestimmen und so den möglichen Fehler abschätzen. Es gilt: êêL ` ⁄ni=1 Hxi -xêêL Hyi -y 1 b1 = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅ ÅÅÅÅ n Hx - êêx L yi n sx 2 ⁄i=1 i ⁄n Hx -xêêL2 i=1 da ⁄ni=1 Hxi i - êêx L êêy = êêy ⁄ni=1 Hxi - êêx L = 0 Für die Varianz folgt: 1 2 n V @b̀1 D = I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M ⁄i=1 Hxi - êêx L2 V @yi D n sx 2 1 2 2 n = I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M s ⁄i=1 Hxi - êêx L2 n sx 2 1 s = I ÅÅÅÅÅÅÅÅ ÅÅÅÅ M s2 n sx 2 = ÅÅÅÅÅÅÅÅ ÅÅÅÅ n sx 2 n sx 2 2 2 Bei dieser Herleitung wurde benutzt, dass V @yi D = V @ei D = s2 gemäss Annahme. Analog berechnet man V @b̀0 D, so dass zusammenfassend gilt: Varianzen der Regressionskoeffizienten: ` s2 s2 V@b1 D = ÅÅÅÅÅÅÅÅ ÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ und êêLÅÅ2ÅÅ ns 2 ⁄n Hx -x x i=1 i ` ` ⁄ni=1 xi 2 s2 ⁄ni=1 xi 2 V@b0 D = V@b1 D ÅÅÅÅÅÅÅÅ ÅÅÅÅ ÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ êêLÅ2ÅÅÅÅ n n ⁄n Hx -x i=1 i Die Varianzen (Fehler) beider Schätzer hängen proportional von s2 und umgekehrt proportional von sx 2 ab. Ist s2 gross, so streuen die Punkte stark um die Gerade. Ist s2 klein, liegen die Punkte nahe an der Gerade und die Gerade kann genauer festgelegt werden. Ist sx 2 klein, dann streuen die x-Werte kaum und nur ein kleiner Abschnitt auf der x-Achse dient zur Bestimmung der Geraden. Für grosse sx 2 kann die Gerade deshalb genauer bestimmt werden. Für eine verlässliche Schätzung der Steigung wird eine hinreichend grosse Streuung der erklärenden Variablen x benötigt. Ausserdem sollte die Gerade nicht über den Bereich der gegebenen x-Werte hinaus extrapoliert werden. Bestimmtheitsmass R2 (coefficient of determination) Obwohl die Residualvarianz s2 uns einen Hinweis darauf gibt, wie zuverlässig wir ein bestimmtes y voraussagen können, sagt sie uns trotzdem noch nicht, wie gut die unabhängige Variable die Variation in der abhängigen Variablen erklären kann. Dies leistet uns jedoch das sogenannte Bestimmtheitsmass. Es misst den Anteil an der ganzen Variation in y, der durch die Variation in x erklärt werden kann und kann auf zwei Arten berechnet werden: Allgemeiner Fall: s` 2 s` 2 y y y e R2 = ÅÅÅÅ ÅÅÅÅÅ = 1 - ÅÅÅÅ ÅÅ Å s 2 s 2 Spezieller Fall (eine unabhängige Variable x): R2 = rx y 2 Anschaulich Diese Beziehung für das Bestimmtheitsmass (ein Mass, wie gut ein yi bei gegebenem xi vorausgesagt werden kann), kann folgendermassen gefunden werden. Wenn wir nicht wissen, wie die abhängige Variable y von der unabhängigen Variablen x abhängt, dann dient der Mittelwert êêy als beste Voraussage. Ein Mass für die Güte der Voraussage besteht in diesem Fall in der (totalen) 1 Varianz von y, d.h. ÅÅÅÅ ÅÅÅÅÅÅ n Hy - êêyL2 . n-1 ⁄i=1 i Wenn wir jedoch bereits mittels Regression einen Zusammenhang zwischen den xi und den yi gefunden haben, dann ` ` können wir diese Beziehung dazu benutzen, das yi mittels y` i = b0 + b1 x genauer (als mit dem Mittelwert) vorauszusagen. Falls die Regressionsbeziehung y gut zu erklären vermag, dann sollte der resultierende Fehler kleiner sein als n 2 2 mit dem Mittelwert. Wenn wir den Ausdruck ⁄ni=1 Hyi - êêyL2 als totale Variation und ‚ Hyi - y` i L = ⁄ni=1 e`i als i=1 107 Skript Statistik und Stochastik unerklärte Variation (die nach der Regression noch übrig bleibt) bezeichnen, dann können wir das Bestimmtheitsmass R2 folgendermassen definieren: ‚ n Hyi -y` i L2 s` 2 erklärte Variation unerklärte Variation i=1 e R2 = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = 1 - ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ = 1 - ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ ÅÅÅÅ êêÅLÅÅÅ 2 ÅÅ = 1 - ÅÅÅÅ totale Variation totale Variation sy 2 ⁄n Hy -y i=1 i Ausführlicher Im Folgenden soll diese Beziehung noch etwas genauer und ausführlicher hergeleitet werden. ` In den vorangegangenen Abschnitten wurden aus vorliegenden Beobachtungen 8xi , yi < die Regressionskoeffizienten b0 ` und b1 berechnet bzw. geschätzt. Diese Koeffizienten können nun benutzt werden, um für eine unabhängige Variable ` ` xi den Wert für die abhängige Variable yi zu schätzen bzw. zu prognostizieren nach der Formel y`i = b0 + b1 xi . Mit dem Ansatz: ` yi = y`i + ei und der Mittelung folgt (da ⁄ni=1 e`i = 0): êêy = êêy` + eề = êêy` Für die Varianz gilt weiters: sy2 n êê 2 = ÅÅ1nÅÅ ⁄ni=1 Hyi - êêyL2 = ÅÅÅÅ1n ‚ Iy`i + e`i - y` M i=1 n n ` n ề 2 êê` 2 êê ` 1 = ÅÅnÅÅ J‚ Iyi - yM + 2 ‚ ei Iy`i - y` M + ‚ Ièi - eM N i=1 i=1 i=1 = s y` 2 + se` 2 ề Zur Herleitung wurde beim dritten Term benutzt, dass e = 0 ist und deshalb eingefügt werden kann, sowie beim zweiten Term, dass: n ` ` n ` êê` êê` n ` ` n ` ` ‚i=1 ei Iyi - yM = ⁄i=1 ei yi - y ⁄i=1 ei = ‚i=1 ei Ib̀0 + b1 xi M - 0 ` ` = b0 ⁄ni=1 e`i + b1 ⁄ni=1 e`i xi = 0 + 0 = 0 Beim letzten Schritt wurde ⁄ni=1 ei xi = 0 benutzt; diese Beziehung war ein Resultat der Anwendung der Methode der ` ` kleinsten Quadrate zur Bestimmung von b0 und b1 . Die hergeleitete Beziehung bezeichnet man auch als Varianzzerlegungssatz: s y 2 = s y` 2 + se` 2 Die Varianz der abhängigen Variablen y lässt sich demnach in zwei Teile aufspalten. ` ` † s y` 2 ist die Varianz der exakt auf der Regressionsgeraden liegenden Werte y`i . Da die Definition von y`i = b0 + b1 xi in die berechnete Regressionsgerade eingeht, nennt man s y` 2 auch den durch die Regression erklärten Teil der Varianz s y 2 . † s` 2 ist die Varianz der Residuen e` , die sogenannte Residualvarianz oder die durch die Regression nicht erklärte e i Varianz. Der obige Varianzzerlegungssatz ist auch die Basis für die Definition einer Masszahl zur Beurteilung der Güte oder der Qualität einer berechneten Regressionsgeraden: das Bestimmtheitsmass. Es ist folgendermassen definiert: s` 2 s` 2 y y y e Das Bestimmtheistsmass R2 = ÅÅÅÅ ÅÅÅÅÅ = 1 - ÅÅÅÅ ÅÅÅÅÅ ist der Anteil der durch die Regression erklärten Varianz an der Varianz der s 2 s 2 y-Werte. Es gilt: 108 Skript Statistik und Stochastik † 0 § R2 § 1 ` † Es ist R2 = 1, wenn die Residualvarianz se` 2 = 0 ist; d.h. wenn alle empirischen Residuen ei = 0 sind; d.h. wenn alle Punkte 8xi , yi < exakt auf der Regressionsgeraden liegen. In diesem Fall werden 100% der Varianz s y 2 der y-Werte durch die Regression erklärt. † Es ist R2 = 0, wenn die erklärte Varianz s ` 2 = 0 ist; d.h. wenn y` = y` =. .. = y` . Dann verläuft die Regressionsy 1 2 n gerade parallel zur x-Achse; die Variation der y-Werte wird nicht durch die Variation der x-Werte erklärt. Für die konkrete Berechnung des Bestimmtheitsmasses muss nicht auf die Berechnung von se` 2 zurückgegriffen werden, da mit Hilfe von ... n n 2 ` ` 2 = ÅÅ1nÅÅ ‚ Hy`i - êêyL = ÅÅÅÅ1n ‚ IIb̀0 + b1 xi M - Ib̀0 + b1 êêx MM i=1 i=1 ` 2 ` 2 b1 = ÅÅÅÅ ÅÅÅÅÅ n Hx - êêx L2 = b1 sx 2 n ⁄i=1 i s y` 2 ... für R2 folgt: 2 R = s y` 2 ÅÅÅÅ ÅÅÅÅ sy2 = ` 2 b 1 sx 2 ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ sy 2 s 2 xy = ÅÅÅÅÅÅÅÅsÅyÅÅÅÅÅÅÅ ÅÅ M = rx y 2 2 ÅÅÅÅ = I ÅÅÅÅÅÅÅÅ sx s y xy ÅÅÅÅÅÅÅÅ ÅÅÅÅÅ s 2 22 x sx s 2 Das Bestimmtsheitsmass R2 ist also das Quadrat des Korrelationskoeffizienten rx y : R2 = rx y 2 Intervallschätzung und Tests ` ` Nachdem wir die Parameter b0 und b1 bestimmt haben, interessiert uns natürlich die Frage, ob die Daten durch eine Gerade gut approximiert werden, oder weiters wie gross die Zuverlässigkeit der gefundenen Parameter ist. ` ` 2 Um Konfidenzintervalle für b0 , b1 oder s` konstruieren und Hypothesen über die Parameter testen zu können, nimmt man zusätzlich an, dass die Residuen gemeinsam normalverteilt sind. Ohne Herleitung seien die wichtigsten Ergebnisse angegeben: Konfidenzintervall zum Niveau 1 - a: ` ` b0 : b0 ≤ s`b` tn-2,1-aê2 0 ` ` b : b ≤ s` ` t 1 2 s` : 1 b1 n-2,1-aê2 `2 `2 Hn-2L s Hn-2L s A ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅ , ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅ E c2 n-2, 1-aê2 c2 n-2, aê2 ` ` Hypothesen über b0 und b1 testet man mit den folgenden t-Tests: Hypothesentests: ` ` ` b0 -b0,0 b0 : T = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ∂ tn-2 s`b ` `0 ` b1 -b1,0 b1 : T = ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ ∂ tn-2 s` b1 ` ` ` ` wobei getestet wird ob die geschätzten Werte b0 und b1 mit den Werten b0,0 bzw. b1,0 übereinstimmen. Prognose In den vorangehenden Abschnitten haben wir die Zuverlässigkeit der linearen Regression und den Fehler der Korrelationskoeffizienten und der Residualvarianz untersucht. In der Praxis ist es häufig wünschenswert eine Regressionsanalyse dazu zu benutzen, um eine Prognose für eine abhängige Variable zu machen, konkret um für ein gegebenes zusätzliches xi+1 das dazugehörige y` i+1 zu schätzen. 109 Skript Statistik und Stochastik Wir wollen jedoch nicht nur diese Prognose machen, sondern auch den dabei auftretenden Fehler dieses Wertes abschätzen können. Dies ist der Gegenstand dieses Abschnitts. Nachdem wir für die Daten 8xi , yi < eine lineare Regression durchgeführt haben, können wir naheliegenderweise ansetzen: ` ` ` ` Y i+1 = b0 + b1 xn+1 . Der Wert Y i+1 heisst Punktprognose. Wir müssen berücksichtigen, dass wir bei der Benutzung des Regressionsmodells Yi+1 = b0 + b1 xn+1 + en+1 ` ` und der geschätzten Parameter b0 und b1 , zwei Quellen von Fehlern haben. Wenn wir für den Prognosefehler ansetzen ... ` ` ` Y i+1 - Yi+1 = b0 + b1 xn+1 - Hb0 + b1 xn+1 + en+1 L ... sehen wir, dass die erste Quelle der Fehlerterm (en+1 ) ist, dessen Fehler mit der Residualvarianz abgeschätzt werden ` ` kann. Die zweite Quelle ist der Fehler bei der Bestimmung der geschätzten Regressionskoeffizienten b0 und b1 . Wenn wir die wahren Werte der Regressionskoeffizienten wüssten, dann wäre die Varianz des Prognosefehlers gleich der Residualvarianz s2 . Eine genauere Untersuchung zeigt (ohne Herleitung): Prognosefehler Erwartungswert: Varianz: ` EAY i+1 - Yi+1 E = 0 êêL2 ` Hxn-1 -x VAY i+1 - Yi+1 E = s2 I1 + ÅÅÅÅ1n + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅ M n s2 X Die Varianz des Prognosefehlers ist offenbar dann am kleinsten, wenn xn-1 = êêx . Sie wächst quadratisch mit dem Abstand zwischen xn+1 und êêx . 2 Wenn man für s2 die geschätzte Varianz s` einsetzt, erhält man die geschätzte Varianz für die Varianz des Prognosefe` 2 ` Hxn-1 -xêêL2 1 hlers: V AỲ i+1 - Yi+1 E = s I1 + ÅÅÅÅn + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅ M n s2 X ` Y i+1 -Yi+1 Da die Grösse ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ eine Student-t Verteilung hat (mit n - 2 Freiheitsgraden) kann dies dazu benutzt werden, ein ` V AỲ i+1 -Yi+1 E ` ` Prognoseintervall zu bilden: Y i+1 ¡V AỲ i+1 - Yi+1 E tn-2,1- ÅÅa2ÅÅ Unter der Normalverteilungsannahme an die Residuen überdeckt dieses Intervall die zukünftige Beobachtung Yn+1 mit Wahrscheinlichkeit 1 - a. ` ` Mathematica Lineare Regression - b0 und b1 Berechnungen Beispiel mit Covariance und Mean Für unser obiges Beispiel erhalten wir somit: << Statistics`MultiDescriptiveStatistics` Covariance@X, YD PrintA"b1 = ", b1 = E; Covariance@X, XD Print@"b0 = ", b0 = Mean@YD − b1 Mean@XDD; b1 = 0.908857 b0 = 1.71238 Die folgende Graphik überlagert die Datenpunkte und die gefundene Regressionsgerade. 110 Skript Statistik und Stochastik 10 8 6 4 2 2 4 6 8 10 Mathematica kennt eine Reihe von eingebauten Funktionen, die auch zur Bestimmung der Regressionsgeraden verwendet werden können: FindFit, Fit, Regress etc. Auf dies wird hier nicht weiter eingegangen. Skript Statistik und Stochastik 111 12. Zeitreihen Einleitung In diesem Kapitel soll speziell auf Zeitreihen, d.h. Beobachtungen, die zu bestimmten Zeitpunkten in normalerweise gleichen Zeitabständen aufgenommen wurden (z.B Jahresproduktion, Schlussnotierungen von Aktien an der Börse), eingegangen werden. Es ist allgemeine Konvention, die Zeit (an Stelle von x) mit t zu bezeichnen. Sie ist die unabhängige Variable in den mathematischen Überlegungen. Eine Zeitreihe kann anschaulich in einer Graphik (mit der Abszisse t) dargestellt werden. Die Erfahrung hat gezeigt, dass es bestimmte charakteristische Bewegungen und Variationen gibt, die einzeln oder auch gemeinsam auftreten können. Die Analyse und Separation der einzelnen Variationen ist vor allem auch im Hinblick auf Voraussagen für zukünftige Entwicklungen von grosser Wichtigkeit. Diese Analyse nimmt in vielen Bereichen eine sehr wichtige Stellung ein. Die charakteristischen Variationen von Zeitreihen können in vier Haupttypen eingeteilt werden: † Langfristige (säkulare) Variation (Bewegung, Trend) Diese Variation beschreibt die allgemeine Richtung, in die sich der y-Wert über eine lange Zeitspanne bewegt. Dies kann durch eine Trendlinie bzw. Trendkurve beschrieben werden. † Zyklische Variation Diese Variation beschreibt die langfristigen Schwankungen um die Trendlinie oder Trendkurve und werden auch als Zyklen bezeichnet (Konjunkturzyklen). † Saisonale Variation Diese Variation beschreibt die identischen oder fast identischen Muster, denen eine Zeitreihe in den entsprechenden Monaten oder Quartalen von aufeinanderfolgenden Jahren unterworfen ist (z.B. Weihnachtsgeschäft). Saisonal heisst zwar üblicherweise jährliche Regularität; man kann dieses Konzept jedoch auch auf Monate, Tage oder Stunden erweitern. † Zufällige (irreguläre) Variation Diese Variation beschreibt sporadische, zufällige und in der Regel kurzzeitige Variationen. Die Ursachen können jedoch auch langfristige Folgen haben. Trendschätzung Zur Schätzung des Trends (bzw. der mathematischen Beschreibung des Trends) bieten sich die folgenden Methoden an: † Methode der kleinsten Quadrate Man wählt eine geeignete Trendkurve (Modell mit geeigneter Anzahl der Parameter) und findet mit der Methode der kleinsten Quadrate die Parameter dieser Kurve. † Freihand Methode Man zeichnet von Hand den Trend in die Graphik ein. Diese Methode hat den Nachteil, dass die gefundene Lösung vom persönlichen Urteil des Zeichnenden abhängt und nicht reproduzierbar ist. † Methode des gleitenden Durchschnitts (siehe auch später) Damit können zyklische, saisonale und irreguläre Muster (wenigsten zum Teil) beseitigt werden. Diese Methode hat den Nachteil, dass Daten am Anfang und Ende einer Reihe verloren gehen. Sie kann auch Zyklen vortäuschen, Skript Statistik und Stochastik 112 die in den Ausgangsdaten nicht vorhanden waren. Mit spezieller Gewichtung kann dieses Problem gemildert werden. † Methode der Semi-Mittelwerte Man trennt die Daten in zwei (vorzugsweise gleich lange) Teile und bestimmt in beiden Teilen den Durchschnitt. Mit diesen zwei Punkten wird dann eine Trendlinie gezogen. Dies funktioniert nur bei linearen oder fast linearen Trends. Die Methode kann erweitert werden, indem man die Daten in mehr als zwei Teile teilt. Saisonale Variation Um den saisonalen Beitrag zur resultierenden Variation zu bestimmen, muss abgeschätzt werden wie die Daten der Zeitreihe im Verlaufe eines durchschnittlichen Jahres von Monat zu Monat schwanken. Gesucht wird also der Saisonindex, bei dem für jeden Monat ein %Wert relativ zum Wert des gesamten Jahres (der gleich 1200% ist) steht. Zur konkreten Berechnung bieten sich die folgenden Methoden an: † Methode "Durchschnittliche Prozente" Bei dieser Methode werden die Daten für jeden Monat als Prozentsatz für das ganze Jahr angegeben. Die Monatswerte mehrerer Jahre werden dann gemittelt (arithmetischer Mittelwert, Median). Die erhaltenen Prozentsätze müssen eventuell noch auf 1200% für das ganze Jahr skaliert werden. † Methode "Prozent Trend" Bei dieser Methode werden die Daten für die einzelnen Monate als Prozentsätze der monatlichen Trendwerte angegeben. Wiederum ergibt eine Mittelung über mehrere Jahre den erforderlichen Saisonindex. † Methode "Prozent Gleitender Durchschnitt" Wenn die monatlichen Ausgangsdaten durch die entsprechenden saisonalen Indexzahlen geteilt werden, spricht man von Desaisonalisierung oder Anpassung auf Grund von saisonaler Variation. Solche Daten umfassen nach wie vor Trend-, zyklische und irreguläre Variationen. Zyklische Variation Nach der Elimination des Trends und der saisonalen Schwankungen bleiben noch die zyklischen und irregulären Schwankungen übrig. Wenn man die angepassten Daten (z.B.) über mehrere Monate mittelt, können auch noch die irregulären Anteile eliminiert bzw. verkleinert werden, und man erhält die zyklische Variation. Irreguläre Variaton Nach den bisherigen Korrekturen bleiben noch die irregulären Variationen übrig. Sie sind in der Regel klein und folgen einer Normal-Verteilung, d.h. dass kleine Abweichungen sehr häufig und grosse eher selten auftreten. Achtung bei Extrapolationen Die obigen Verfahrensschritte liefern eine mathematische Beschreibung der verschiedenen Variationen und können ohne weiteres in die Zukunft extrapoliert werden. Es versteht sich von selbst, dass sich die Wirklichkeit nicht immer an unsere Vorstellungen und Erwartungen hält und (in der Regel) auch nicht alle möglichen Einflüsse im mathematischen Modell berücksichtigt werden (können). 113 Skript Statistik und Stochastik Simulation In dieser Simulation wird (exemplarisch) gezeigt, wie der Ansatz DatenPunkt = Trend * Zyklisch * Saisonal * Irregulär programmiert und simuliert werden kann. Da die einzelnen Anteile multiplikativ miteinander verknüft werden, werden die Anteile als relative Abweichung von 1 (1 bedeutet keinen Einfluss) definiert. Langfristige Variation (Trend) (blau): f1HxL = 0.05 x + 1 2px Zyklische Variation (in der Regel jedoch nicht periodisch, grün): f2HxL = 0.2 sinH ÅÅÅÅÅÅÅÅ ÅÅÅ L + 1 6 Saisonale Variation (periodisch, magenta): f3HxL = 0.1 sinH2 p xL + 1 Zufällige Variation (cyan): f4HxL = .05 Random@D + 1 Summe aller Variationen (rot): fAllHxL = f1HxL f2HxL f3HxL f4HxL; Der Plot zeigt sehr schön die einzelnen Anteile. Plot@8fAll@xD, f1@xD, f2@xD − 1, f3@xD − 1, f4@xD − 1<, 8x, 0, 10<, PlotStyle → 8Red, Blue, Green, Magenta, Cyan<, PlotRange → AllD; 1.5 1 0.5 2 4 6 8 10 Es ist auch manchmal üblich für die Berechnung (an Stelle des Produkts) eine Summe zu verwenden. Dann sind die einzelnen Bewegungen absolut und nicht als relativ (um 1 schwankend) einzugeben. Je nach vorliegender Aufgabenstellung ist die eine oder andere Wahl vorteilhaft. Im Folgenden ginge es nun darum, die einzelnen Beiträge aus der beobachteten Variation herauszufiltern. Für die vier Beiträge (der hier besprochenen Haupttypen) gibt es unterschiedliche Verfahren. 114 Skript Statistik und Stochastik 13. Stochastische Differentialgleichungen Einleitung Stochastische Differentialgleichungen (SDE) spielen nicht nur in der Physik (1905, Paper von Albert Einstein über die Brown'sche Bewegung), sondern auch in der Finanzmathematik eine wichtige Rolle. In diesem Kapitel soll exemplarisch die Preisentwicklung einer Aktie beschrieben werden. Aktie Die Preisentwicklung einer Aktie wird durch eine Stochastische Differentialgleichung beschrieben „ y HtL = a y HtL „ t + s y HtL „ B HtL yHt0 L = y0 Über die effektive Preisentwicklung können nur Wahrscheinlichkeitsaussagen gemacht werden. Im Vergleich zu (praktisch) risikofreien Instrumenten wie Cash Accounts sind Investitionen in risikoreiche Wertschriften wie z.B. Aktien mit grösseren Unsicherheiten behaftet. Aktien haben einen Preis auf dem offenen Markt, der sich praktisch kontinuierlich ändert. Diese Fluktuationen des Aktienpreises stellen die konstante Suche nach einem fairen Preis dar. Zusätzlich zu diesen (zufälligen) Fluktuationen gibt es eine mehr oder weniger kontinuierliche (in der Zeit) Zunahme oder Abnahme des Werts, die auf das wirtschaftliche Umfeld oder firmenspezifische Faktoren zurückzuführen sind. Stochastiche Differentialgleichung Die Berechnung des Werts einer Aktie ist aus den angeführten Gründen nicht so einfach wie die Berechnung des Werts von Cash. Die Änderung des Werts ist nicht nur von der Zeit und dem momentanten Wert der Aktie abhängig. In komplizierter Art und Weise hängt die Änderung ausserdem von vielen weiteren Dingen ab (Inflationsrate, Zins, Arbeitslosigkeit, Währungskurse, etc.), die nicht mit genügender Genauigkeit modelliert werden können. Aus diesem Grund wird der Differenzialgleichung ein Zufallselement hinzugefügt, das diese nicht deterministischen Terme enthalten soll. Dies führt auf den folgenden Ansatz für die zeitliche Änderung des Werts einer Aktie: „ yHtL = aHt, yHtLL „ t + sHt, yHtLL „ BHtL yHt0 L = y0 (1) wo a(t,y(t)) „t den deterministischen Teil und s(t,y(t)) „B(t) den zufälligen Teil beschreibt. „ BHtL ist dabei das sHt,yHtLL "Differential" der Brownschen Bewegung BHtL, und sHt, yL eine gegebene Funktion ( ÅÅÅÅÅÅÅÅ ÅÅÅÅÅÅÅÅÅÅ wird Volatilität genannt). yHtL Mit Brown'scher Bewegung ist gemeint, dass die „ BHtL's (unabhängige) normal verteilte Zufallsvariablen sind, mit è!!!!!!! Mittelwert 0 und Standard Abweichung „ t (Varianz „ t), i.e., è!!!!!!! „ BHtL ~ NI0, „ t M. Die obige Gleichung wird Stochastische Differenzialgleichung (SDE: stochastic differential equation) oder präziser Stochastische Gewöhnliche Differenzialgleichung genannt. Zusätzlich wird im obigen Gleichungssystem auch noch die Randbedingung - d.h. der anfängliche Wert der Aktie yHt0 L - festgelegt. 115 Skript Statistik und Stochastik Brown'sche Bewegung Zuerst soll die Brown'sche Bewegung etwas Genauer untersucht werden. Dazu wird im Folgenden die Funktion "BrownianMotion" definiert und verwendet: Als Input verlangt sie die Startzeit (t0), die Endzeit (t1), den Anfangswert (y0) sowie die Anzahl der Schritte (K) der Brown'schen Bewegung. Bei der Berechnung, die auch auf das Statistik Paket zurückgreift, werden zuerst die Schrittweite (dt), dann die Liste der einzelnen Schritte (dB, wobei Schritte aus einer Normalverteilung mit Varianz dt stammen) und schlussendlich mit FoldList auch noch die Listen mit den Zeitpunkten und den aufsummierten Schritten (d.h. die Trajektorie) zu diesen Zeitpunkten berechnet. Diese drei Listen werden von der Funktion als Output retourniert. Needs@"Statistics`NormalDistribution`"D; t1 - t0 BrownianMotionHt0_, t1_, y0_, K_L := ModuleB8dt, dB<, dt = NB ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ F; K è!!!!!! 9dB = TableARandomANormalDistributionI0, dt ME, 8K<E, FoldList@8dt + #1P1T, #1P2T + #2< &, 80, 0<, dBD=F; Im Folgenden werden vier solcher Trajektorien berechnet. Jeder Aufruf dieser Funktion gibt auf Grund des Aufrufs von "Random" in der Funktion BrownianMotion eine andere Trajektorie. Mit "Interpolation" wird zum Plotten zwischen den Punkten der Trajektorie linear interpoliert. Plot@Evaluate@Table@Interpolation@BrownianMotionH0, 1, 0, 100LP2T, InterpolationOrder Ø 1D@sD, 84<DD, 8s, 0, 1<, PlotStyle Ø 8Red, Green, Blue, Black<, AxesLabel Ø 8"Zeit", ""<D; 2.5 2 1.5 1 0.5 -0.5 -1 0.2 0.4 0.6 0.8 1 Zeit Monte-Carlo Lösung der SDE Nachdem wir gesehen haben, wie die Brown'sche Bewegung programmiert werden kann, soll nun die SDE gelöst werden. Lösen heisst hier, ein Verfahren zu finden, um den Verlauf des Aktienpreises (je nach Verlauf der Brown'schen Bewegung) zu berechnen. Die SDE lautet in der diskretisierten Darstellung yi+1 = yi + aHti , yi L „ t + sHti , yi L „ Bi (2) Zur Lösung der SDE wird die Funktion "SDESolver" verwendet. Im Vergleich zu "BrownianMotion" wird hier nicht nur die Schrittlänge aufsummiert, sondern alle in der obigen Gleichung gegebenen Terme. Beim Aufruf der Funktion muss auch die Drift aHt, yL und die nicht-deterministische Funktion sHt, yL eingegeben werden. Die Funktion "SDESolver" wird folgendermassen definiert: Needs@"Statistics`NormalDistribution`"D; SDESolverHaFunc_, sFunc_, t0_, t1_, y0_, K_L := t1 - t0 ModuleB8dt, G<, dt = NB ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ F; GH8t_, y_<, db_L := 8dt + t, y + dt aFuncHt, yL + db sFuncHt, yL<; K è!!!!!! FoldListAG, 8t0, y0<, TableARandomANormalDistributionI0, dt ME, 8K<EEF; Die einfachste SDE für eine Aktienpreis Entwicklung stellt die spezielle Wahl der Funktionen aHti , yi L = a yi und sHti , yi L = s yi dar: 116 Skript Statistik und Stochastik „ yHtL = a yHtL „ t + s yHtL „ BHtL yHt0 L = y0 (3) Experimentell (Monte-Carlo) kann diese Gleichung - mit Hilfe der oben definierten Funktion "SDESolver" - gelöst werden. Im Folgenden werden a und s gesetzt sowie 10 mögliche Aktienpreisverläufe berechnet und geplottet. aFuncHt_, y_L := .3 y; sFuncHt_, y_L := .1 y; t0 = 0; t1 = 2; y0 = 100; K = 1000; Plot@Evaluate@Table@Interpolation@SDESolverHaFunc, sFunc, t0, t1, y0, KL, InterpolationOrder Ø 1D@tD, 810<DD, 8t, t0, t1<, PlotRange Ø 80, Automatic<, PlotStyle Ø 8Red, Green, Blue, Magenta, Black, Cyan<, AxesLabel Ø 8"Zeit", "Aktienpreis"<D; Aktienpreis 200 150 100 50 0.5 1 1.5 2 Zeit Symbolische Lösung der SDE Nach der numerischen Monte-Carlo Lösung soll noch auf die symbolische Lösung der SDE eingegangen werden. „ yHtL = a yHtL „ t + s yHtL „ BHtL yHt0 L = y0 (4) Bei Stochastischen Differenzialgleichungen ist zu berücksichtigen, dass nicht die aus der Analysis gewohnten Regeln (z.B. Kettenregel, Produktregel, Integration) zu verwenden sind, sondern die für Stochastische Gleichungen angepassten (z.B. Ito Kettenregel, Ito Integration). Auf diese Details wird hier jedoch nicht näher eingegangen. Mit dem Ansatz für den zeitabhängigen Preis y(t) z = logHyL (5) und Ausnutzung der Ito Kettenregel H„ yL2 = s2 y2 „ t (6) 1 1 -1 1 1 „ z = „ logHyL = ÅÅÅÅÅ „ y + ÅÅÅÅÅ ÅÅÅÅÅÅÅÅ2ÅÅ H„ yL2 = a „ t + s „ B - ÅÅÅÅÅÅÅÅÅÅÅÅÅ2Å s2 y2 „ t = Ja - ÅÅÅÅÅÅ s2 N „ t + s „ B y 2 y 2y 2 (7) kann man ableiten, dass Es fällt auf, dass die Drift von z nicht gleich der Drift von y ist. Stochastische Integration liefert dann s2 y s2 y i i zHtL = t jja - ÅÅÅÅÅÅÅÅÅÅ zz + s HBHtL - BH0LL + zH0L = t jja - ÅÅÅÅÅÅÅÅÅÅ zz + s BHtL + logHy0L. 2 { 2 { k k (8) yHtL = ‰zHtL = ‰Ia- ÅÅÅÅ2ÅÅ Å M t+s BHtL+logHy0L = y0 ‰Ia- ÅÅÅÅ2ÅÅ Å M t+s BHtL . (9) Exponenzieren liefert schliesslich s2 s2 Diese Gleichung ist nicht besonders nützlich für die Berechnung von y(t), da die Brown'sche Bewegung B(t) nicht gemessen werden kann und y(t) ja sowieso vom Markt geliefert wird. Die Gleichung liefert jedoch Grenzen für den Verlauf des Preises. Man sieht auch schnell, dass der Median den Verlauf y0 ‰Ia- ÅÅÅÅ2ÅÅÅÅ M t hat und etwas tiefer als der Durchschnittspreis (y0 ‰a t ) liegt. s2 117 Skript Statistik und Stochastik Im untenstehenden Plot werden einige (mögliche) Preisentwicklungen (grün), die gegebenen Grenzen (±s innerhalb dessen 68.3% der Werte liegen sollten, ±2 s mit 95.5% und ±3 s mit 99.7%) in schwarz, der Median (blau) sowie der Durchschnitt des Preises (rot) eingezeichnet. y0 = 70; a = .5; s = .6; t0 = 0; t1 = 1; T = t1 - t0; K = 200; aFuncHt_, y_L := a y; sFuncHt_, y_L := s y; s Ja- ÅÅÅÅ 2ÅÅ ÅÅ N t+b s 2 ZHa_, s_, b_, t_L = y0 ‰ è!!! t ; Show@Plot@Evaluate@Table@Interpolation@SDESolverHaFunc, sFunc, t0, t1, y0, KL, InterpolationOrder Ø 1D@tD, 850<DD, 8t, t0, t1<, PlotRange Ø 80, 400<, PlotStyle Ø Green, DisplayFunction Ø IdentityD, Plot@Evaluate@Table@ZHa, s, b, tL, 8b, -3, 3<DD, 8t, 0, T<, PlotStyle Ø ReplacePart@Table@RGBColor@0, 0, 0D, 86<D, RGBColor@0, 0, 1D, 4D, DisplayFunction Ø IdentityD, Plot@y0 ‰a t , 8t, 0, T<, PlotStyle Ø RGBColor@1, 0, 0D, DisplayFunction Ø IdentityD, DisplayFunction Ø $DisplayFunction, AxesLabel Ø 8"Zeit", "Aktienpreis"<D; Aktienpreis 400 350 300 250 200 150 100 50 0.2 0.4 0.6 0.8 1 Zeit Mehrere Aktien Die bisherige Untersuchung ging von einer einzelnen Aktie aus. In ähnlicher (jedoch etwas komplizierterer) Weise können auch mehrere Aktien behandelt werden. Bei mehreren Aktien muss die Multinormal Verteilung verwendet sowie die Kovarianz zwischen den Preisen berücksichtigt werden.