STATISTIK Wintersemester 2016/2017 Skript zur Vorlesung (für Smartphones) Andreas Löpker, HTW Dresden 7. Februar 2017 Inhaltsverzeichnis 1 2 Einführung 1 1.1 Was ist Statistik? . . . . . . . . . . . . . . 2 1.2 R . . . . . . . . . . . . . . . . . . . . . . . 4 Deskriptive Statistik 2.1 2.2 2.3 2.4 . . . . . . . . . . . . . . . 6 2.1.1 Die Grundgesamtheit . . . . 6 2.1.2 Stichproben . . . . . . . . . . 7 2.1.3 Merkmale . . . . . . . . . . . 2.1.4 Klassikation von Merkmalen Kenngröÿen univariater Daten . . . . . . . 8 10 13 2.2.1 Stichproben . . . . . . . . . . 13 2.2.2 Häugkeiten 14 2.2.3 Klassenbildung 2.2.4 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . 17 20 Diagramme und Graken . . . . . . . . . . 22 2.3.1 Stab- und Säulendiagramme . 23 2.3.2 Kreis- und Tortendiagramme 24 2.3.3 Histogramm und empirische Dichtefunktion . . . . . . . . 24 Lagemaÿe . . . . . . . . . . . . . . . . . . 28 2.4.1 Arithmetisches Mittel 28 2.4.2 Arithmetisches Mittel klassierte Daten . . . . . . . 2.4.3 2.5 6 Ausgangspunkt . . . . für 32 Arithmetisches Mittel für gepoolte Daten . . . . . . . . . 33 2.4.4 Die Ordnungsstatistik . . . . 35 2.4.5 Getrimmtes Mittel . . . . . . 35 2.4.6 Median . . . . . . . . . . . . 37 2.4.7 Quantile und Quartile 40 2.4.8 Das geometrische Mittel . . . 41 2.4.9 Weitere Mittelwerte . . . . . 43 . . . . . . . . . . . . . . . 45 Streuungsmaÿe 2.5.1 Varianz und . . . . Standardabwei- chung . . . . . . . . . . . . . 2.5.2 Varianz für gepoolte (Varianzzerlegung) . . . . . . 1 45 Daten 51 0.0 2.5.3 Spannweite und Interquartilsabstand . . . . . . . . . . . . 52 2.5.4 Variationskoezient 54 2.5.5 Weitere Streuungsmaÿe . . . . . . . . Boxplots . . . . . . . . . . . . . . . . . . . 63 2.7 Konzentrationsmaÿe 65 2.8 . . . . . . . . . . . . 2.7.1 Die Lorenz-Kurve 2.7.2 Das Gini-Maÿ . . . . . . 69 Bivariate Daten . . . . . . . . . . . . . . . 71 Häugkeiten und Kontingenztabellen . . . . . . . . . . . . 72 2.8.2 Unabhängige Merkmale 75 2.8.3 Zusammenhangsmaÿe für no- . . . minale Daten . . . . . . . . . 2.8.4 Zusammenhangsmaÿe metrische Daten 2.8.5 . . . . . . . . . . . . . . . . Wahrscheinlichkeitsrechnung 3.2 3.3 85 . . . . 90 3.1.1 Laplace-Experimente . . . . . 94 3.1.2 Bedingte Wahrscheinlichkeiten 97 3.1.3 Unabhängigkeit . . . . . . . . 99 . . . . . . . . . . . . . . . . 101 3.2.1 Kombinatorik Permutationen . . . . . . . . 101 3.2.2 Variationen und Kombinationen 102 Zufallsvariablen und ihre Verteilungen . . . 106 3.3.1 Zufallsvariablen . . . . . . . . 106 3.3.2 Verteilungsfunktionen . . . . 107 . . . . . . . . 112 Erwartungswert und Varianz 3.5 Das Gesetz der groÿen Zahlen 3.6 Unabhängigkeit und Korrelation 3.8 81 88 Ereignisse und Wahrscheinlichkeiten 3.4 3.7 77 für Zusammenhangsmaÿe für ordinale Daten 3.1 65 . . . . . . . . 2.8.1 3 54 2.6 Fünf wichtige Verteilungen . . . . . . . 115 . . . . . . 117 . . . . . . . . . 119 3.7.1 Die Bernoulli-Verteilung . . . 119 3.7.2 Die Binomialverteilung . . . . 120 3.7.3 Die geometrische Verteilung . 121 3.7.4 Die Multinomialverteilung 3.7.5 Die stetige Gleichverteilung . . . 125 130 Die Normalverteilung und ihre Verwandten . 132 3.8.1 Die Standardnormalverteilung 132 3.8.2 Tabellen und Quantile 134 . . . . Seite ii 0.0 3.8.3 Der zentrale Grenzwertsatz . 137 3.8.4 Abschätzungen . . . . . . . . 142 3.8.5 Die allgemeine Normalverteilung145 3.8.6 Rechenregeln und Transfor- mationen für die Normalverteilung 4 . . . . . . . . . . . . 3.8.7 Die Chi-Quadrat-Verteilung 3.8.8 147 . 149 Die t-Verteilung . . . . . . . 151 3.8.9 Die F-Verteilung . . . . . . . 153 3.8.10 Ein Beispiel zum Schluss . . . 154 Induktive Statistik 158 4.1 Punktschätzer . . . . . . . . . . . . . . . . 158 4.1.1 Punktschätzer für den Erwartungswert . . . . . . . . . . . 4.1.2 161 Punktschätzer für die Varianz bei bekanntem Erwartungswert 164 4.1.3 Punktschätzer für die Varianz bei unbekanntem Erwartungs- 4.2 wert . . . . . . . . . . . . . . 165 Intervallschätzer . . . . . . . . . . . . . . . 167 4.2.1 Intervallschätzer für den Erwartungswert bei bekannter Varianz . . . . . . . . . . . . 4.2.2 167 Intervallschätzer für den Erwartungswert bei unbekannter Varianz . . . . . . . . . . . . 4.2.3 rianz bei bekanntem Erwar- tungswert . . . . . . . . . . . 4.2.4 171 Intervallschätzer für die Va174 Intervallschätzer für die Varianz bei unbekanntem Erwar- 4.2.5 4.3 tungswert . . . . . . . . . . . 176 Schätzen ohne Zurücklegen 178 Hypothesentests . . . . . . . . . . . . . . . 180 4.3.1 Idee . . . . . . . . . . . . . . 180 4.3.2 Wahl des Ablehnungsbereiches 183 4.3.3 Vorgehensweise . . . . . . . . 185 4.3.4 Die Gütefunktion . . . . . . . 188 4.3.5 Der p-Wert . . . . . . . . . . 189 4.3.6 Einstichprobentests Erwartungswert bei für den normal- verteilter Grundgesamtheit . . 192 Seite iii 0.0 (1) Test bei bekann- ter Varianz . . . . (2) 4.3.7 Test bei kannter Varianz (t-Test) . . . . . Einstichprobentests Varianz bei für 194 die normalverteilter Grundgesamtheit . . . . . . . (1) 193 unbe- Test bei 198 bekann- tem Erwartungswert 198 (2) Test bei un- bekanntem Erwartungswert 4.3.8 . che Erwartungswerte (t-Test) 4.3.9 . . . Chi-Quadrat-Anpassungstest 209 4.3.11 Weitere Tests auf Normalität 214 4.3.12 Q-Q-Plots 215 4.3.13 Der . . . . . . . . . . Chi-Quadrat-Homogeni- tätstest . . . . . . . . . . . . Der 220 Chi-Quadrat- Unabhängigkeitstest . . . . . 223 . . . . . . 226 Einfache lineare Regression . . . . . . . . . 229 4.3.15 Test auf Ausreiÿer 4.4.1 Die Kleinste-Quadrate-Methode234 4.4.2 Prognosen 4.4.3 Standardbedingungen . . . . . . . . . . Güte der Schätzer B 206 4.3.10 4.3.14 A 203 Zweistichprobentest auf gleiche Varianzen (F-Test) 4.4 202 Zweistichprobentest auf glei- 238 und . . . . . . . . . 240 4.4.4 Das Bestimmtheitsmaÿ 4.4.5 Intervallschätzer . . . . . . . 245 4.4.6 Tests zur Anpassungsgüte . . 247 4.4.7 Beispielregression mit R . . . 250 Übungsaufgaben 242 255 A.1 Aufgaben . . . . . . . . . . . . . . . . . . 255 A.2 Musterlösungen . . . . . . . . . . . . . . . 283 Anhang B.1 288 Kleine Formelsammlung . . . . . . . . . . . 288 Seite iv 0.0 B.1.1 Notationen (Deskriptive Statistik) . . . . . . . . . . . . . 288 B.1.2 Wahrscheinlichkeitstheorie . . 288 B.1.3 Schätzer und Kondenzintervalle . . . . . . . . . . . . . . C 290 Hinweise zur Klausur 291 C.1 Hilfsmittel . . . . . . . . . . . . . . . . . . 291 C.2 Welche Abschnitte und Gegenstände werden nicht abgefragt? . . . . . . . . . . . . . . . 292 C.3 Grundsätzliches 292 . . . . . . . . . . . . . . . Seite v 1.0 1. Einführung Beispiel B1.1: Eine Firma stellt Spielwürfel her und überprüft von Zeit zu Zeit ihre Produkte, indem sie Stichproben zieht. Dazu wird ein Würfel ausgewählt und 120 Mal geworfen. Die Anzahl der Würfe für die verschiedenen Augenzahlen wird notiert. Es ergibt sich folgende Häugkeitstabelle: Augenzahl: Häugkeit: 1 15 2 18 3 30 4 18 5 21 6 18 Wir können z.B. folgende Fragen stellen: Seite 1 1.1 Wie kann man die Daten grasch darstellen? Wie häug sollten die Augenzahlen bei einem fairen Würfel vorkommen? (Ist so eine Frage überhaupt sinnvoll?) Welche Abweichungen sind noch akzeptabel? Kann man sagen, ob der vorliegende Würfel fair ist? Mit welcher Sicherheit ist eine solche Aussage zu machen? 1.1. Was ist Statistik? Erhebung, Erfassung, Darstellung/Präsentation, Analyse und Interpretation von Daten. Man unterscheidet: Seite 2 1.1 Deskriptive/beschreibende duktion von Statistik: Datenmengen, Re- Darstellung durch Tabellen und Diagramme, Ermittlung aussagekräftiger Kenngröÿen (z.B. Mittelwert, Varianz) Induktive Statistik: Weitere Rückschlüsse durch mathematische Methoden aus der Wahrscheinlichkeitsrechnung (z.B. Schätzen des Erwartungswertes, Hypothesen- tests) Woher kommen die Daten? Beispiele: Technische Messungen (z.B. in der Meteorologie) Umfragen (z.B. im Vorfeld von Wahlen oder zur Kundenzufriedenheit) Nutzerstatistiken (z.B. für Internetprovider) Patientendaten Seite 3 1.2 Zugverspätungen Jahresberichte von Konzernen Statistische Ämter Finanzdaten: z.B. via Yahoo-Finance ... 1.2. R Die Graken/Analysen in diesem Skript wurden mit R, einer Programmiersprache, die primär für statistische Anwendungen geschaen wurde, erstellt. Begleitend zur Vorlesung kann optional R auf dem Rechner installiert werden (s. erste Übung). Das Erlernen von R ist nicht Gegenstand der Vorlesung und wird nicht von den Studierenden verlangt. Gleichwohl ist ein begleitendes Lernen computergestützter Methoden mit R hilfreich für das Verständnis im Umgang mit Daten. Seite 4 1.2 Links: The R Project for Statistical Computing RStudio (GUI) Seite 5 2.1 2. Deskriptive Statistik 2.1. Ausgangspunkt 2.1.1. Die Grundgesamtheit Als Grundgesamtheit (Population) be- zeichnet man eine Menge von sogenannten statistischen Einheiten Beispiel B2.1: ! 2 . Beim einmaligen feln kann man als Grundgesamtheit Wür- = f1; 2; 3; 4; 5; 6g wählen. Jede der sechs Elemente ist dann eine statistische Einheit. Beispiel B2.2: Alle Studierenden der HTW Dresden werden im Rahmen einer Umfrage befragt. Wir wählen z.B. = f00000; : : : ; 99999g Seite 6 2.1 und identizieren die Studierenden mit ihrer fünfstelligen Matrikelnummer. Beispiel B2.3: Ein Thermometer misst jeden Tag morgens um acht Uhr die Auÿentemperatur. Man kann das Intervall = [ 30; 50] als Grundgesamtheit wählen. 2.1.2. Stichproben Man unterscheidet bei der Datenerhebung zwischen: Vollerhebungen: Erfassung der gesamten Population . Beispiel B2.4)B2 :2 : Alle Studierenden der HTW werden befragt. Seite 7 2.1 Teilerhebungen: Stichprobe S Erfassung einer Beispiel B2.5)B2 :2 : Nur die Studierenden der Vorlesung Statistik werden befragt. Teilerhebungen sind kostengünstiger und weniger aufwendig, aber der Statistiker muss von der Stichprobe auf die Grundgesamtheit schlieÿen. 2.1.3. Merkmale Ein Merkmal ist eine Eigenschaft, die jede der statistische Einheiten aufweist. Beispiel B2.6)B2 :2 : Studierende an der HTW werden in einer Umfrage befragt. Folgende drei Merkmale werden erfasst: das Semester, die gesammelten ECTS-Punkte, das Alter, mit Abitur? Seite 8 2.1 Für jeden Studierenden ergibt sich für jedes dieser Merkmale jeweils eine Beobachtung, z.B. für den Studierenden mit der Matrikelnummer 60182, Semester=1, ECTSPunkte=0, Alter=19. man ein Merkmal der Menge X Mathematisch kann als Abbildungen aus in die Menge aller möglichen Merkmalsausprägungen MX auassen: X : ! MX : X repräsentiere die Semesterzahl. Dann ist X eine Beispiel B2.7)B2 :2 : Das Merkmal Abbildung von = f00000; : : : ; 99999g in die Menge der Merkmalsausprägungen MX = f1; 2; 3; 4; 5; 6; 7; 8; 9; 10g: Seite 9 2.1 2.1.4. Klassikation von Merkmalen Merkmale werden u.a. nach ihrem Skalenniveau eingeteilt: Nominalskala: Keine sinnvolle Anordnung der Ausprägungen. Beispiel B2.8)B2 :2 : Das Merkmal Y nehme die beiden Werte Ja oder Nein an, je nachdem, ob der Studierende das Abitur besitzt oder nicht, es ist also Dann ist Y MY = fJa; Neing. ein nominales Merkmal, denn es gibt keine Reihenfolge unter den Ausprägungen. Beispiel bahn gen ke B2.9: werden notiert. ist ein die Das An einer Auto- vorbeifahrenden Merkmal nominales Wa- Automar- Merkmal. Seite 10 2.1 Ordinalskala: Die Ausprägungen lassen sich anordnen und die Anordnung macht Sinn. Es gibt eine ' Beispiel '-Relation. B2.10: Die Examensnote von Studierenden ist ein ordinales Merkmal. Beispiel chen ein B2.11: Ausgaben ordinales eines Die monatli- Haushalts sind Merkmal. Intervallskala: Es macht auÿerdem Sinn von einem Abstand bzw. der Dierenz zwischen den Ausprägungen zu sprechen. Kein sinnvoller Nullpunkt und keine Möglichkeit der Multiplikation. Beispiel B2.12: Eine gemessene Temperatur ist intervallskaliert. (Was ist mit dem Nullpunkt?) Beispiel B2.13: Das Merkmal Uhrzeit ist intervallskaliert. Seite 11 2.1 Verhältnisskala: Es macht Sinn von Verhältnissen zwischen den Ausprägungen zu sprechen. Multiplikation und Division machen Sinn, ein Nullpunkt ist vorhanden. Beispiel B2.14: Die Körpergröÿe von Befragten ist verhältnisskaliert. Beispiel B2.15: Das Merkmal Preis für eine Ware ist verhältnisskaliert. Ein Merkmal ist diskret, wenn es nur abzählbar viele Werte annehmen kann. (Abzählbar) Eine Menge A heiÿt abzählbar, wenn man ein Verfahren angeben kann, mit dem man an jedes Element in mer A eine eindeutige Num- 2 N vergeben kann. Beispiel B2.16)B2 :2 : Das Merkmal Lebensalter (angegeben in Jahren) ist ein diskretes Merkmal. Seite 12 2.2 Ein Merkmal ist stetig, wenn praktisch jeder Zahlenwert in einem Zahlenintervall als Ausprägung vorkommen kann. Beispiel B2.17: Das Merkmal L, dass die Länge eines gefertigten Werkstücks bezeichnet, ist ein stetiges Merkmal. 2.2. Kenngröÿen univariater Daten Univariate Daten liegen vor, wenn nur ein Merkmal X untersucht wird. 2.2.1. Stichproben Wir betrachten eine Stichprobe des Merkmals X vom Umfang n, also n Beobachtungen x1 = X (!1 ); x2 = X (!2 ); : : : ; xn = X (!n ): Wir schreiben dafür meistens einfach x1 ; x2 ; : : : ; xn : Seite 13 2.2 Es können natürlich verschiedene Beobachtungen denselben Werte besitzen. 2.2.2. Häugkeiten X zusätzlich diskret, d.h. Es sei nun MX = fa1 ; a2 ; a3 ; : : :g mit den Merkmalsausprägungen 1; 2; 3; : : :. (Mächtigkeit einer Menge) ai , i = Wir ]A für die Anzahl der Elemente in einer Menge A, z.B. schreiben ]f1; 2; 3; 4; 5; 6g = 6; ]fA; B; C g = 3; ]N = Seite 14 2.2 Die absolute Häugkeit der Ausprägung MX ai 2 ist der Wert ni = n(ai ) = Anzahl der xj mit xj = ai = ]fj 2 f1; 2; : : : ; ngjxj = ai g: Beispiel B2.18: Ein Würfel wird Mal geworfen. Das Merkmal X n=5 entspreche der Augenzahl, d.h. MX = f1; 2; 3; 4; 5; 6g; a1 = 1; a2 = 2; : : : ; a6 = 6: Die entsprechenden Beobachtungen seien x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6: Dann sind die absoluten Häugkeiten der Merkmalsausprägungen gegeben durch n1 = n(1) = 1; n2 = n(2) = 0; n3 = n(3) = 1; n4 = n(4) = 0; n5 = n(5) = 1; n6 = n(6) = 2: Seite 15 2.2 ai 2 Die relative Häugkeit der Ausprägung MX ist der Wert n hi = h(ai ) = ni : Es gilt 0 hi 1; (2.1) ni = n; (2.2) hi = 1: (2.3) ]MX X i =1 ]M XX i =1 Man drückt die relativen Häugkeiten auch in Prozent aus: Einer relativen Häugkeit von entsprechen dann hi 100%. hi Die kumulativen absoluten/relativen Häugkeiten sind gegeben durch die Summen Ni = N ( a i ) = n 1 + n 2 + : : : + n i = H i = H ( ai ) = h 1 + h 2 + : : : + h i = i X k =1 i X k =1 nk ; hk : Seite 16 2.2 Beispiel B2.19)B2 :18 : Im obigen Beispiel ergibt sich: i ni hi Ni Hi 1 1 0.2 1 0.2 2 0 0.0 1 0.2 3 1 0.2 2 0.4 4 1 0.2 3 0.6 5 0 0.0 3 0.6 6 2 0.4 5 1.0 2.2.3. Klassenbildung Ist die Anzahl der Ausprägungen eines Merkmals sehr groÿ oder sogar unendlich, so empehlt es sich, die Daten in Klassen einzuteilen. Die Klassen müssen folgende Eigenschaften erfüllen: Jede Ausprägung muss in einer Klasse vorkommen, Keine zwei Klassen enthalten dieselbe Ausprägung. Seite 17 2.2 Natürlich ist die Klasseneinteilung mit einem Informationsverlust verbunden. Faustregeln für die Klassenanzahl p m n m 1 + log2 (n): m: (Sturges) Man deniert Klassenhäugkeiten als absolute/relative Häugkeiten, summiert über alle Elemente der Klasse. Für eine Klasse K MX n (K ) = h (K ) = X a 2K X a 2K ergibt sich also n(a); h(a): Beispiel B2.20: Fläche von 407 bundes- 2 deutschen Landkreisen (in km , Quelle: Stat. Bundesamt). Seite 18 2.2 Wir teilen die Merkmalsausprägungen in Klassen ein: K1 = (0; 500]; K2 = (500; 1000]; K3 = (1000; 1500]; K4 = (1500; 2000]; K5 = (2000; 1): Absolute und relative Häugkeiten: i n(Ki ) h(Ki ) 1 129 0.317 2 127 0.312 3 96 0.236 4 30 0.074 5 30 0.074 Seite 19 2.2 Daten sortiert nach der Kreisgröÿe: 2.2.4. Empirische Verteilungsfunktion empirische Die Verteilungsfunktion x 2 R die relative von Beobachtungen xi mit xi x : schreibt für jedes Fn (x ) = be- Anzahl ]fi 2 f1; 2; : : : ; ngjxi x g : n Es gilt: 1. Fn (x ) ist monoton steigend (aber nicht streng monoton), 2. 0 Fn (x ) 1, Fn (x ) strebt gegen 0, wenn x gegen 1 strebt, Fn (x ) strebt Seite 20 2.2 3. gegen 1, wenn x gegen 1 strebt, Fn (x ) ist dort konstant, wo keine Be- obachtungswerte vorliegen. 5 Beispiel B2.21)B2 :18 : Ein Würfel wird n= Mal geworfen, die entsprechenden Beob- achtungen sind: x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6: Es ergibt sich folgende empirische Verteilungsfunktion: Beispiel B2.22)B1 :1 : Im Eingangsbeispiel wurde ein Testwürfel 120 Mal geworfen. Es ergibt sich: Seite 21 2.3 Wir werden später sehen, dass Fn (x ) etwa der Verteilungsfunktion der Zufallsvariablen Augenzahl B2.23)B2 :20 : entspricht. Für das Beispiel Landkreisgröÿen- Beispiel ergibt sich die folgende empirische Verteilungsfunktion: 2.3. Diagramme und Graken Seite 22 2.3 2.3.1. Stab- und Säulendiagramme In Stabdiagrammen werden die relativen/absoluten Häugkeiten als vertikale Linien dargestellt. Beispiel B2.24)B1 :1 : Im Balkendiagramm verwendet man stattdessen Balken. Beispiel B2.25)B1 :1 : Seite 23 2.3 2.3.2. Kreis- und Tortendiagramme Im Kreisdiagramm werden die relativen Häugkeiten durch Kreissektoren beschrieben. Das Tortendiagramm ist eine dreidimensionale Variante. Beispiel B2.26)B1 :1 : 2.3.3. Histogramm und empirische Dichtefunktion Klassierte Daten kann man übersichtlich in einem Histogramm darstellen. Dabei repräsentiert jeder Balken die absoluten Klassenhäugkeiten der entsprechenden Klasse. Beispiel B2.27: Tagesgewinne/-verluste des DAX vom 1.Januar bis 27.April 2011, in Punkten (Quelle: yahoo.com) Seite 24 2.3 Wenn die Klassen nicht alle gleich groÿ sind, ist es nicht ratsam in Histogrammen absolute oder relative Häugkeiten anzugeben. Beispiel B2.28: 200 Besucher eines Einkaufszentrums werden befragt, über wieviel Geld sie im Monat verfügen (Nettogehalt). Die Befragung ergibt folgende Zahlen: Klasse 0-1000 1000-1500 1500-2000 2000-3500 3500- 1 n (K ) 64 40 30 47 19 Die 70 Befragten mit Gehältern zwischen 1000 und 2000 Euro und die 19 Befragten über 3500 Euro scheinen in der Grak unterbzw. überrepräsentiert. Seite 25 2.3 Die empirische Dichtefunktion ist im Falle von Klassenbildung mit Klassen Ki = (ai ; bi ] deniert als h (K ) fn (x ) = b ia ; x 2 Ki : i i (2.4) Vorteil: Im Balkendiagramm ist die Gesamtäche der Balken stets eins. Im Diagramm entspricht nun die Balkenäche der (geschätzten) Wahrscheinlichkeit dafür, dass das Merkmal einen Wert in der entsprechenden Klasse annimmt. Bei klassierten Daten mit unterschiedlich groÿen Klassen besser geeignet als das Standardhistogramm! Beispiel B2.29)B2 :28 : Vergleich des klassischen Histogramms mit dem Diagramm für die empirische Dichte: Seite 26 2.3 Beispiel deutscher B2.30: Städte Einwohnerzahl am 31.12.2015 http://www.citypopulation.de, 187 (Quelle: Angaben in Mill. Einwohnern). Wir denieren folgende Klassen der Form i 1 2 3 4 a 0 0.1 0.4 1.0 b 0.1 0.4 1.0 4.0 (a; b] (in Mill. Einw.): n ( Ki ) h ( Ki ) 108 64 11 4 0.578 0.342 0.059 0.021 fn (Ki ) 5.775 1.141 0.098 0.007 Es ergeben sich folgende Diagramme: Seite 27 2.4 2.4. Lagemaÿe Lagemaÿe intervall- sind und im Allgemeinen verhältnisskalierte für Daten (sog. metrische Daten) deniert. Lagemaÿe sollen einen ersten Eindruck über die durchschnittliche Lage der Daten geben. 2.4.1. Arithmetisches Mittel Das arithmetische Mittel (häug Mittelwert) einer Stichprobe einfach x1 ; x2 ; : : : ; xn ist deniert als Seite 28 2.4 x= Das Pn i =1 xi : n arithmetische gewichtete Summe schen Gewichten 1=n. Mittel mit ist jeweils eine identi- Das arithmetische Mittel ist linear: ax + b = ax + b; a; b 2 R: Speziell gelten die Identitäten und ax = ax x + y = x + y: Beide Eigenschaften sind mehr oder weniger oensichtlich (Beweis in der Übung). Warnung: Es gilt i.A. keineswegs f (x ), z.B ist (x 2) 6= (x )2. f (x ) = Seite 29 2.4 Beispiel B2.31)B2 :18 : Ein Würfel wird 5 Mal geworfen: n= x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6: Dann ergibt sich x= 3 + 6 + 1 + 5 + 6 = 21 : 5 5 Auÿerdem berechnet man leicht, dass aber (x 2) = 9 + 36 + 15+ 25 + 36 = 107 =2 5 2 441 = 17:64 2 = (x ) = 21 5 25 gilt. Seite 30 2.4 Die Summe der Abweichungen vom Mittelwert ist null: n X i =1 Das (xi x ) = 0: arithmetische Mittel minimiert das mittlere Abweichungsquadrat: n X i =1 (xi c )2 . Alternative Formeln: 1 x=n oder auch x= X m 2 MX X m 2M X m n (m ) m h(m) Vorteile des arithmetischen Mittels als Lagemaÿ: Intuitive Formel, die leicht zu berechnen ist. Seite 31 2.4 Nachteile: Das arithmetische Mittel ist nicht robust, sondern reagiert empndlich auf Ausreiÿer (s.Übung). Manchmal ist die Interpretation als Mittelwert fragwürdig (s. geometrisches Mittel 2.4.8). 2.4.2. Arithmetisches Mittel für klassierte Daten Angenommen die Daten liegen in reduzierter K1 ; K2 ; : : : ; Kn vor. Dabei seien 1 ; 2 ; : : : ; n die entsprechenden KlasForm in Klassen senmittelwerte (z.B. die Intervallmitten). Dann berechnen wir als arithmetisches Mittel x= n X i =1 h(Ki ) i : Seite 32 2.4 Oenbar haben wir dabei implizit vorausgesetzt, dass die Daten in ihren Klassen gleichverteilt sind. Der so ermittelte Mittelwert stimmt nicht mit dem arithmetischen Mittel der unklassierten Originaldaten überein. 2.4.3. Arithmetisches Mittel für gepoolte Daten Angenommen es liegen mehrere Stichproben Stichprobe 1: Stichprobe 2: x11 ; x12 ; : : : ; x1n x21 ; x22 ; : : : ; x2n 1 2 . . . Stichprobe m: mit . . . . . . xm1 ; xm2 ; : : : ; xmnm verschiedenen x 1 ; x 2 ; : : : ; x m vor. Mittelwerten Dann kann man den Mittelwert der gepoolten Daten x11 ; x21 ; : : : ; xmnm einfach berechnen, Seite 33 2.4 ohne die Daten selbst zu kennen: x= m X xk k =1 nk n (gepoolter Mittelwert). Spezialfall: Möchte man zu einer Stichprobe x1 ; x2 ; : : : ; xn einen weiteren Datenpunkt xn+1 hinzufügen, so ergibt sich x neu = n x alt + xn+1 n+1 (2.5) als der neue Mittelwert. Man erkennt, dass für sehr groÿe Werte von n etwa x x neu x alt + nn+1 gilt, d.h. die Änderung des Mittelwertes ist etwa von der Gröÿenordnung xn+1 =n. Seite 34 2.4 2.4.4. Die Ordnungsstatistik Gegeben seien ordinalskalierte Daten x1 ; x2 ; : : : ; xn : Als Ordnungsstatistik bezeichnet man die in aufsteigender Gröÿe angeordneten Daten x(1) x(2) : : : x(n) : Dann ist z.B. x(1) = minfx1 ; x2 ; : : : ; xn g; x(n) = maxfx1 ; x2 ; : : : ; xn g: 2.4.5. Getrimmtes Mittel Das arithmetische Mittel ist anfällig für Ausreiÿer. Das getrimmte Mittel ignoriert die Seite 35 2.4 bnc gröÿten und kleinsten Beobachtungen: nX bnc 1 x () = n 2bnc x(i ) : i =bnc+1 Vorteile: Robust gegen Ausreiÿer. Nachteile: Einige Datenpunkte werden nicht verwendet. Wahl von beliebig. Missbrauch möglich. Beispiel B2.32: Dreiÿig Jahre lang wurde an einem Ort die Tageshöchsttemperatur am 1.September gemessen: Seite 36 2.4 Es ergibt sich ein arithmetisches Mittel von t = 20:3o C Wir wählen und = 0:1 = 0:2: 2.4.6. Median Der (empirische) Median ist die kleinste Zahl xe , für die mindestens die Hälfte der Beob- achtungen xe ist und die andere Hälfte xe ist. Seite 37 2.4 Genaue Denition: x ; n=2 62 N xe = med (x ) = 1(bn=2c+1) 2 x(n=2) + x(n=2+1) ; n=2 2 N ( Der Median Pn i =1 jxi c j. minimiert den Abstand Seite 38 2.4 Vorteile des Median: Robust gegen Ausreiÿer Nachteile des Median: Nicht alle Datenpunkte werden berücksichtigt. Beispiel B2.33)B2 :32 : Ordnungsstatistik der Temperaturen: 9, 11, 13, 13, 16, 16, 16, 16, 17, 18, 18, 18, 19, 19, 20, 20, 20, 21, 21, 21, 21, 22, 22, 22, 25, 26, 29, 32, 34, 34. Da n = 30 ist ergibt sich n=2 2 N, also ist x +x 20 + 20 xe = (15) 2 (16) = 2 = 20: Beispiel B2.34)B2 :18 : Ein Würfel wird 5 Mal geworfen: n= x1 = 3; x2 = 6; x3 = 1; x4 = 5; x5 = 6: Seite 39 2.4 Da n=2 62 N ergibt sich für den Median xe = x(3) = 5: 2.4.7. Quantile und Quartile -Quantil ist die kleinste Zahl xe für die e sind: mindestens n der Daten x Das x ; n 62 N xe = 1(bnc+1) 2 x(n) + x(n+1) ; n 2 N ( 50%-Quantil. Die 25%- und 75%-Quantile heiÿen auch Der Median ist das unteres und oberes Quartil. Beispiel B2.35)B2 :32 : Ordnungsstatistik der Temperaturen: 9, 11, 13, 13, 16, 16, 16, 16, 17, 18, 18, 18, 19, 19, 20, 20, 20, 21, 21, 21, 21, 22, 22, 22, 25, 26, 29, 32, 34, 34. Dann ergibt sich für das untere Quartil Seite 40 2.4 xe0:25 = x(b7:5c+1) = x(8) = 16: 2.4.8. Das geometrische Mittel Beispiel B2.36: Ein Aktienindex steigt in drei Jahren zunächst um 15%, dann um 21% und sinkt schlieÿlich um 12%. Wie groÿ ist das durchschnittliche Wachstum? Insgesamt steigt der Index um den Faktor 1:15 1:21 0:92 = 1:22452, also um knapp 22%. Wie hoch müsste das Wachstum im Durchschnitt jährlich sein, um in drei Jahren insgesamt auf den Faktor 1:22452 zu kommen? Wir suchen eine Lösung der Gleichung also p x 3 = 1:22452; x = 1:22452 = 1:069848, das mittle3 re Wachstum beträgt also knapp 7%. Das geometrische Mittel verwendet man, um Mittelwerte von relativen Wachstumszahlen zu Seite 41 2.4 berechnen: v u n uY n xg = t xk : k =1 Liegen die Daten nahe bei eins, so gilt die Schätzung x g x: Beispiel B2.37: Es sei x1 = 1:1; x2 = 1:03; x3 = 0:99; x4 = 1:07: Dann ist x = 1:0475; x g = 1:046676: Seite 42 2.4 2.4.9. Weitere Mittelwerte Das harmonische Mittel ist gegeben durch die Formel n X 1 1 xh = n x k =1 k ! 1 : Es entspricht also dem Kehrwert des arithmetischen Mittels der Datenkehrwerte. Beispiel B2.38: Drei Autos legen eine Strecke von 100 km mit unterschiedlichen Geschwindigkeiten zurück (100 km/h, 150 km/h und 200 km/h). Wie ist ihre Durchschnittsgeschwindigkeit? 300 = 1 1 1 100 + 150 + 200 3 v h = 100 100 100 100 + 150 + 200 1 = 138:4615 km/h: Seite 43 2.4 Der Modalwert (Modus) xm ist bei diskreten Merkmalen die in der Stichprobe am häugsten vorkommende Beobachtung. Bei klassierten Daten wählt man die Mitte der Klasse mit den meisten Beobachtungen. Der Modalwert ist nicht eindeutig. Modus und arithmetisches Mittel müssen keinesfalls nahe beieinander liegen. Beispiel B2.39)B2 :32 : Im Beispiel B2.32 wurden 30 Jahre lang Temperaturen gemessen: 9, 11, 13, 13, 16, 16, 16, 16, 17, 18, 18, 18, 19, 19, 20, 20, 20,21, 21, 21, 21, 22, 22, 22, 25, 26, 29, 32, 34, 34. Sowohl 16 als auch 21 sind Modi. Seite 44 2.5 2.5. Streuungsmaÿe In der Aufgabe 12 zeigte sich, dass sehr unterschiedliche Datensätze denselben Mittelwert aufweisen können. Um Daten adäquat mit wenigen Kennzahlen zu beschreiben, benötigen wir mindestens noch ein weiteres Maÿ für die Streuung der Daten um den Mittelwert. 2.5.1. Varianz und Standardabweichung Die empirische Varianz ist durch b2 (x ) = Pn k =1 (xk n x )2 deniert, also durch die mittlere quadratische Abweichung der Datenpunkte von ihrem Mittelwert. Seite 45 2.5 b2 (x ) ist immer nicht-negativ und null nur dann, wenn alle xk gleich sind. Wie schon im Falle des Mittelwerts gibt es eine oftmals kürzere Variante, die mit Hilfe der relativen Häugkeiten formuliert wird: 1 b2 (x ) = n X m 2M X (m x )2 n(m): Meistens ist folgende alternative Formel leichter zu berechnen: b2 (x ) = (x 2 ) (x )2 : Die emp. Varianz ist nicht linear, aber es gilt aber b2 (ax + b) = a2 b2 (x ): Speziell ist die Varianz translationsinvariant. Die Standardabweichung ist deniert als b (x ) = b2 (x ): p Seite 46 2.5 Die Standardabweichung hat dieselbe Einheit, wie die Originaldaten. Es gilt die einprägsame Formel b) = ab (x ). b (ax + Vorteile und Nachteile der Varianz (Standardabweichung) als Streuungsmaÿ: Einleuchtende Interpretation. Leicht zu berechnen und mathematisch handhabbar. Anwendbar nur bei hinlänglich symmetrischen und möglichst eingipfeligen Verteilungen der Daten. Die emp. Varianz und die Standardabweichung reagieren empndlich auf Ausreiÿer. Seite 47 2.5 In der Statistik benötigt man neben der oben beschriebenen empirischen Varianz noch die Stichprobenvarianz (korrigierte Varianz) und die Stichprobenstandardabweichung (korrigierte Standardabweichung): b2 (x ) = Pn k =1 (xk p n 1 b(x ) = b2 (x ): x )2 ; Es gilt oenbar n b2 (x ) = n 1 b2 (x ): Die Stichprobenvarianten der Varianz und der Standardabweichung werden in der Schätztheorie verwendet, weil sie sog. erwartungstreue Schätzer liefern. Für groÿe Werte von n sind beide Varianten etwa gleich. Seite 48 2.5 Beispiel B2.40: x = 67:73633; b2 (x ) = 472:267; b(x ) = 21:73171; Fn (x + b (x )) Fn (x b (x )) = 0:7 Beispiel B2.41: Seite 49 2.5 x = 60:44387 b2 (x ) = 452:3576; b(x ) = 21:2687; Fn (x + b (x )) Fn (x b (x )) = 0:56 Beispiel B2.42: x = 65:37265 b2 (x ) = 4082:81; b(x ) = 63:89687; Fn (x + b (x )) Fn (x b (x )) = 0:84 Seite 50 2.5 2.5.2. Varianz für gepoolte Daten (Varianzzerlegung) Bei mehreren Stichproben Stichprobe 1: Stichprobe 2: x11 ; x12 ; : : : ; x1n x21 ; x22 ; : : : ; x2n 1 2 . . . Stichprobe m: mit . . . . . . xm1 ; xm2 ; : : : ; xmnm verschiedenen Mittelwer- x 1; x 2; : : : ; x m und Varianzen 2 2 2 b (x1 ); b (x2 ); : : : ; b (xm ) ergibt sich ten m m 2 X b (xk ) nk X (x k x )2 nk 2 + : b (x ) = n n k =1 k|=1 {z } | {z } interne V arianz externe V arianz (Varianzzerlegung). Seite 51 2.5 Beispiel B2.43: Gegeben seien die Stichproben xki nk x k b2 (xk ) 1 1,3,2,5,4 5 3.0 2.0 2 5,5,5 3 5.0 0.0 3 6,1,4,5 4 4.0 3.5 Gepoolter 3:83. Mittlerwert: 5+44 = x = 53+3 5+3+4 Pm b (xk )nk = 2:0 k =1 n Pm (x k x ) nk Varianz: = 0:638. k =1 n 2 Interne Varianz: Externe Varianz: 2 b2 (x ) = 2 + 0:63 = 2:638. 2.5.3. Spannweite und Interquartilsab- stand Als Spannweite bezeichnet man den Abstand zwischen Minimum und Maximum der Stichprobe: Rx = x(n) x(1) : Seite 52 2.5 Nur wenige Daten ieÿen in die Berechnung ein. Oenbar ist die Spannweite nicht robust gegenüber Ausreiÿern. Der Interquartilsabstand misst den Abstand zwischen oberem und unterem Quartil: IQRx = xeo xeu : Robust in Bezug auf Ausreiÿer. Seite 53 2.5 2.5.4. Variationskoezient Der Variationskoezient setzt die durch die Standardabweichung gemessene Streuung ins Verhältnis zu ihrem Mittelwert: b (x ) V (x ) = x Relatives Streuungsmaÿ 0 V (x ) p n . Deniert für positive metrische Daten. Es her gilt deniert man den Da- normierten Variationskoezienten b (x ) V (x ) = p nx mit Werten im Intervall [0; 1]. 2.5.5. Weitere Streuungsmaÿe Der Median der absoluten Abweichungen (MAD) MADx = med (jx xej) Seite 54 2.5 ist unempndlich in Bezug auf Ausreiÿer (viele Varianten). Die mittlere absolute Abweichung vom Mittel jx x j und die mittlere absolute Abweichungen vom Median jx xej sind weniger robust. Beispiel B2.44)B2 :18 : Für sechs Monate wird die Anzahl der Unfälle an einer befahrenen Ausfahrtstraÿe in einer Statistik erfasst: x1 = 5; x2 = 1; x3 = 3; x4 = 2; x5 = 1; x6 = 6 Es ist x = 18=6 = 3 und daher Seite 55 2.5 (5 3)2 + (1 3)2 + : : : + (6 3)2 6 4 + 4 + 0 + 1 + 4 + 9 = 22 = 3:3: = 6 6 b2 (x ) = Alternative Formel: b2 (x ) = x 2 (x )2 2 + 12 + 32 + 2 2 + 1 2 + 62 5 2 = 3 6 22 76 = 6 9 = 6 = 3:3: Für die Standardabweichung ergibt sich b (x ) = b2 (x ) 1:92 p Die Stichprobenvarianz ist entsprechend etwas gröÿer als die empirische Varianz: n 22 b2 (x ) = n 1 b2 (x ) = 5 = 4:4 Seite 56 2.5 Dementsprechend ist p b(x ) = 4:4 2:1 Die Spannweite der Daten ist oenbar Rx = 6 1 = 5: Zur Berechnung des Interquartilabstands benötigen wir das untere und das obere Quartil. Es ist x(1) = 1; x(2) = 1; x(3) = 2; x(4) = 3; x(5) = 5; x(6) = 6 Also ergibt sich xe0:25 = x(b6=4c+1) = x(2) = 1; xe0:75 = x(b18=4c+1) = x(5) = 5: Dann erhalten wir IQRx = 5 1 = 4: Seite 57 2.5 Variationskoezient: 22=6 b (x ) V (x ) = x = 3 0:64 V (x ) V (x ) = p 0:26 p 6 MAD: MADx = med (2:5; 1:5; 0:5; 0:5; 1:5; 3:5) = 1:5 Mittlere absolute Abweichung vom Mittel: jx x j = (2; 2; 0; 1; 2; 3) = 10 6 1:67 Mittlere absolute Abweichungen vom Median ( xe = 2:5): jx xej = (2:5; 1:5; 0:5; 0:5; 1:5; 3:5) = 10 6 Seite 58 2.5 Im siebten Monat geschehen 20 Unfälle. Nun ergibt sich: b2 (x ) b (x ) Rx IQRx MADx Alt Neu 3.67 38.53 1.91 6.21 5 19 4 5 1.5 2 Beispiel B2.45: IT-Unternehmen in Österreich mit mehr als 99 Mitarbeitern (Quelle:http://data.opendataportal.at) Name Umsatz Mitarbeiter 1 A1 Telekom Austria AG 256 16240 2 Raiffeisen Informatik GmbH 172 3000 3 KAPSCH Group 361 5250 Wir betrachten die Umsatzwerte für 67 FirSeite 59 2.5 men mit weniger als 50 Mio Euro Umsatz. Histogramm: Arithmetisches Mittel und Median: U = 21:8394 Ue = 19: Seite 60 2.5 Varianz, Standardabweichung: b2 (U ) = 90:90 b (U ) = 9:53 b2 (U ) = 92:28 b(U ) = 9:61 Seite 61 2.5 Quartile: 0% 25% 50% 75% 100% 8.70 13.93 19.00 28.40 48.00 Spannweiter und Interquartilsabstand: RU = 48 8:7 = 39:3 IQRU = 28:4 13:93 = 14:47 Seite 62 2.6 2.6. Boxplots In einem Boxplot werden die wichtigsten Lage- und Streuungsmaÿe grasch zusammengefasst. Vorgehensweise: Eine horizontale Linie wird auf der Höhe des Median eingezeichnet. Das oberes und untere Quartil bestimmen die obere und untere Seite der Box. Die Länge (Whiskers) 1.5-fachen oberen- der beiden entspricht des bzw. IQR Antennen maximal dem (gerechnet vom unteren Quartil aus). Die Antennen enden aber beim letzten tatsächlich vorliegenden Datenwert unter- bzw. oberhalb dieser Marke. Alle Datenpunkte auÿerhalb der Antennen werden als Ausreiÿer als Punkte eingezeichnet. Seite 63 2.6 x = (4; 7; 9; 11; 12; 14; 14; 15; 22; 27). Hier e = 13, xeu = 9, xeo = 15, ist n = 10, x IQRx = 6 und 1:5 IQR = 9. Beispiel: Seite 64 2.7 Beispiel B2.46: Bürgerschaftswahlen in Hamburg (2009) Stimmanteile für die CDU in den Wahllokalen 2.7. Konzentrationsmaÿe 2.7.1. Die Lorenz-Kurve Beispiel B2.47)B2 :45 : Mitarbeiterzahl Unternehmen. tion für die von und österreichischen Empirische Umsätze Umsatz im IT- VerteilungsfunkBeispiel B2.45: Seite 65 2.7 Ein relativ groÿer Teil der Umsatzgesamtsumme entfällt auf wenige Firmen (sog. Konzentration). Um eine solche darzustellen, Konzentration verwendet Lorenz-Kurve. Berechne zunächst für man grasch häug i = 1; 2; : : : ; n die die Werte Li = = Summe der kleinsten i Umsätze Gesamtsumme der Umsätze Pi x Pkn =1 (k ) : k =1 x(k ) Interpretation: 100 i=n Prozent der klein- sten Beobachtungen machen in der Summe 100 Li Prozent der Gesamtsumme der Beobachtungen aus. Seite 66 2.7 Zeichne dann eine Kurve, die im Einheitsquadrat die Punkte (i=n; Li ) miteinander verbindet (Polygonzug) Seite 67 2.7 Beispiel B2.48: Sechs Mitarbeiter einer Firma haben folgende jährliche Gehälter (in tsd. Euro): Gehalt: Orderst.: Li : i=n: 30 20 0.1 1/6 20 20 0.2 2/6 30 30 0.35 3/6 70 30 0.5 4/6 30 30 0.65 5/6 20 70 1.0 6/6 Seite 68 2.7 Beispiel B2.49)B2 :45 : Interpretation: Auf die oberen 20% der Firmen entfallen etwa 90% der Umsätze 2.7.2. Das Gini-Maÿ Um eine Konzentration auch quantitativ zu erfassen, kann man das Gini-Maÿ berechnen: Gx = Pn i =1 (2i n2 x 1)x(i ) 1: Das Gini-Maÿ entspricht der doppelten Fläche zwischen der Lorenz-Kurve und der Winkelhalbierenden. Seite 69 2.8 Je gröÿer Gx ausfällt, desto gröÿer ist die Konzentration. Es gilt 0 Gx (n 1)=n, daher berech- net man auch das normierte Gini-Maÿ n Gx = n 1 Gx : mit Werten im Intervall [0; 1]. Beispiel B2.50)B2 :48 &B2 :45 : Gx = 0:23; Gx = 0:28: Gx = 0:8645807; Gx = 0:8654585: Seite 70 2.8 2.8. Bivariate Daten Häug interessiert man sich in der Statistik gleichzeitig für mehrere Merkmale. Insbesondere versucht man etwas über die Abhängigkeit der Merkmale untereinander herauszunden. Wir beschäftigen uns in diesem Paragraphen mit der Statistik bivariater Daten, also mit dem Fall zweier Merkmale. Seien im Folgenden X male Funktionen (deniert als und Y zwei Merkauf dem- selben Stichprobenraum/derselben Grundgesamtheit). Die entsprechenden Merkmalsausprägungen seien MX = fa1 ; a2 ; : : :g MY = fb1 ; b2 ; : : :g: Bivariate Daten lassen sich besonders einfach Seite 71 2.8 im Streudiagramm darstellen. B2.51)B2 :45 : Beispiel und Mitarbeiterzahl schen als IT-Unternehmen 100 Mill. Euro von Umsatz österreichi- mit Umsatz weniger (Quel- le:http://data.opendataportal.at). 2.8.1. Häugkeiten und Kontingenztabellen Wir betrachten jetzt Stichproben der Form (xi ; yi ), genauer f(xi ; yi ); i = 1; 2; : : : ; n; Xi 2 MX ; yi 2 MY g: Wie schon bei den univariaten Daten denieren wir die absolute bivariate Häugkeit der Seite 72 2.8 Ausprägung (ai ; bj ).: nij = n(ai ; bj ) = ]fk : xk = ai ; yk = bj g: Als absolute Randhäugkeit bezeichnen wir die Werte ni = ]fk : xk = ai g; nj = ]fk : yk = bj g: Entsprechend ist n hij = nij die relative bivariate Häugkeit der Ausprägung (ai ; bj ) und n hi = ni ; n hj = nj die relative Randhäugkeit. lich vieler Im Falle end- Merkmalsausprägungen werden die bivariaten Häugkeiten am übersichtlichSeite 73 2.8 sten durch sogenannte Kontingenztafeln bzw. Kontingenztabellen dargestellt. Dort werden die bivariaten Häugkeiten nij in der i-ten Zei- le und j-ten Spalte eingetragen. Beispiel B2.52: Für 40 Studierende werden das Geburtsjahr und der gewünschte Studienabschluss (B/M/D) ermittelt. Kontingenztabelle mit absoluten Häugkeiten: B M D ni 1990-1994 1 9 5 15 1995-1999 15 9 1 25 16 18 6 40 Studienabschluss: Geburtsjahr nj Kontingenztabelle mit relativen Häugkeiten: Studienabschluss: Geburtsjahr 1990-1994 1995-1999 hj B M D hi 1/40 3/8 2/5 9/40 9/40 9/20 1/8 1/40 3/20 3/8 5/8 1 Seite 74 2.8 Die relative Häugkeit für die Ausprägung (1990 1994; D) ist h1;3 = 1=8 = 12:5% Die relative Randhäugkeit für den Bachelor-Studienabschluss ist h1 = 2=5 = 40%: 2.8.2. Unabhängige Merkmale Die Merkmale X und Y heiÿen unabhängig, wenn h(ai ; bj ) = h(ai ; ) h(; bj ) für jede Kombination bj 2 MY (ai ; bj ) mit ai 2 MX und gilt. Wir können das auch kurz als hij = hi hj ; 8i; j : 1 i k; 1 j l Seite 75 2.8 oder n n nij = i n j ; 8i; j : 1 i k; 1 j l schreiben. 8 ist der sog. Allquantor und be- deutet für alle. Beispiel B2.53)B2 :52 : Im obigen Beispiel, Studienabschluss: Geburtsjahr 1990-1994 1995-1999 hj B M D hi 1/40 3/8 2/5 9/40 9/40 9/20 1/8 1/40 3/20 3/8 5/8 1 sind die Merkmale gewiss nicht unabhängig, denn es gilt z.B. h1;2 = 9=40 6= h1 h;2 = 3=8 9=20 = 27=160: Seite 76 2.8 2.8.3. Zusammenhangsmaÿe für nominale Daten Die über alle Kombinationen von i und j summierte quadrierte Abstand ni nj 2 n nij kann als Maÿ für die Unabhängigkeit der beiden untersuchten Merkmale gelten. Um Tests noch später entsprechende durchführen durch ni nj n zu können, und Chi-Quadrat-Koezienten statistische teilt man deniert den (auch einfach nur Chi-Quadrat) als: k l XX 2 = i =1 j =1 nij ni nj 2 n : ni nj n Seite 77 2.8 Zwei alternative Formeln (häug einfacher zu verwenden): 2 = n nij2 n n i =1 j =1 i j l k X X ! 1 hij2 h h i =1 j =1 i j ! ! ! und 2 = n l k X X 1 : Auch für nominalskalierte Merkmale deniert. Schwer vergleichbar, da von der Dimension der Kontingenztafel abhängig. Korrektur: Der Pearsonsche Kontingenzkoezient ist gegeben durch C= s 2 2 + n : Seite 78 2.8 Weitere Verbesserung: korrigierter Pearsonsche Kontingenzkoezient C = s minfk; l g C: minfk; l g 1 Dann gilt 0 C 1: Beispiel B2.54)B2 :52 : Gegeben Sei folgende Kontingenztabelle: A B ni C 4 2 6 D 1 8 9 5 10 15 nj nij ni nj 2 Wir tragen die Werte für ein: A B C 8/15 1/15 D 1/45 32/45 Seite 79 2.8 2 = 15 24 + 3 + 1 + 32 1 = 5: 45 Es ist C= s 2 2 + n 5 =1 = 20 2 r und C = s minfk; l g C = p2 1 = 0:7071 minfk; l g 1 2 Deutet eher auf einen stärkeren Zusammenhang der beiden Merkmale hin. Seite 80 2.8 2.8.4. Zusammenhangsmaÿe für metri- sche Daten Gibt es einen positiven Zusammenhang zwischen X und Y , so gilt: (xi für (yi Ist (xi für (yi x ) positiv, so gilt das häug auch y ). x ) negativ, so gilt das häug auch y ). Also gilt für viele Datenpaare (x1 ; yi ): (xi x ) (yi y ) > 0. Ist Daher wählt man als Maÿzahl die empirische Kovarianz n X 1 sxy = n (xi x ) (yi y ) i =1 bzw. die Stichprobenkovarianz n X 1 sbxy = n 1 (xi x ) (yi y ): i =1 Seite 81 2.8 B2.55)B2 :45 : Beispiel Mitarbeiterzahl von Umsatz österreichischen und IT- Unternehmen mit weniger als 100 Mill. Euro Umsatz. sxy = 730:9737; sbxy = 731:7472: Alternative Berechnungsformel: sxy = xy x y: Seite 82 2.8 Es gilt: sxy = syx ; s(ax +b)(cx +d ) = a c syx ; sxx = b2 (x ) und die Cauchy-Schwarzsche Ungleichung: jsxy j b(x )b(y ). Man verwendet daher den (empirischen) Korrelationskoezienten (Bravais/Pear- son) s rxy = b (x )xyb (y ) mit Werten im Intervall rxy [ 1; 1]. kann als Maÿ für einen linearen Zusam- menhang gelten: rxy =1 x = ay + b a > 0 2 [0:5; 1) 2 [0; 0:5) 2 [ 0:5; 0) 2 [ 1; 0:5) = 1 x = ay + b a < 0 , , perfekte pos. Korrelation starke positive Korrelation schwache positive Korrelation schwache negative Korrelation starke negative Korrelation , , perfekte neg. Korrelation Seite 83 2.8 Ein unmittelbarer kausaler Zusammenhang kann nicht erkannt werden. Wir werden später noch sehen, wie man einen möglichen linearen Zusammenhang genauer untersuchen kann (Abschnitt Lineare Regression) Seite 84 2.8 2.8.5. Zusammenhangsmaÿe für ordinale Daten Beispiel B2.56: Zehn Studierende werden MX = f; g) Statistikklausurnote Y (MY = nach ihrer Motivation Y ( und der f1; 2; : : : ; 5g) gefragt. Motivation: Note: 4 4 2 3 5 1 3 4 1 5 Gibt es einen Zusammenhang? Kontingenztabelle: 1 2 3 4 5 2 1 2 1 1 7 0 0 0 2 1 3 2 1 2 3 2 10 R(xi ) einer Beobachtung x1 ist Zahl m deniert, für die x(m) = xi Der Rang als die gilt. Ist der Rang Bindungen), so schnittswert der nicht bildet in eindeutig man Frage den (sog. Durch- kommenden Ränge. Seite 85 2.8 Beispiel B2.57)B2 :56 : Im obigen Beispiel ergeben sich die folgenden Ränge für die beiden Merkmale: Motivation: R(xi ): Note: R(yi ): Motivation: R(xi ): Note: R(yi ): 2 7 7 7 2 4 4 2 3 5 7 7 3 4.5 9.5 7 7 2 7 7 1 3 4 1 5 1.5 4.5 7 1.5 9.5 Es gilt für den Mittelwert der Ränge n+1 R= 2 : Gauÿsche Summenformel: 3 + ::: + n = n(n+1) 1+2+ 2 Seite 86 2.8 Idee: Man verwendet die ermittelten Ränge um den sog. Rangkorrelationskoezienten (Spearman) zu berechnen: Rxy = Pn 2 R ( x ) R ( y ) nR i i k =1 q q Pn 2 nR2 Pn R(yi )2 R ( x ) i k =1 k =1 Es gilt wieder Rxy 2 [ 1; 1]. Perfekter Zusammenhang, wenn nR2 : jRxy j = 1 gilt, abnehmend mit abnehmendem Absolutbetrag des Koezienten. Seite 87 3.0 3. Wahrscheinlichkeitsrechnung Beispiel B3.1)B1 :1 : Im Beispiel B1.1 wurde ein Spielwürfel 120 Mal gewürfelt. Es ergaben sich folgende Augenzahlen: Häugkeitstabelle: Augenzahl: Häugkeit: 1 15 2 18 3 30 4 18 5 21 6 18 Seite 88 3.1 Neben den statistischen Fragestellungen, die unmittelbar die erhobenen Daten betreen, können wir noch vom konkreten Experiment abstrahieren und uns allgemeinere Fragen stellen: Wie wahrscheinlich sind die verschiedenen Augenzahlen bei einem Würfelwurf ? Wie wahrscheinlich sind die hier vorliegenden Augenzahlenhäugkeiten bei 120 Würfen? Was ist Wahrscheinlichkeit über- haupt? Frequentistische Interpretation: Die Wahr- scheinlichkeit eines Ereignisses ist der Zahlenwert, gegen die relative Häugkeit mit wachsendem Stichprobenumfang konvergiert. Seite 89 3.1 3.1. Ereignisse und Wahrscheinlichkeiten Die axiomatische Wahrscheinlichkeitstheorie lässt die philosophischen Fragen hinter sich und betrachtet Ereignisse und Wahrscheinlichkeiten als mathematische Objekte mit bestimmten Eigenschaften. Das Grundgerüst kennen wir bereits aus der Statistik: Die Grundgesamtheit wird nun Wahrscheinlichkeitsraum genannt. Die Merkmale heiÿen nun Zufallsvariablen. Die Teilmengen von heiÿen Ereignisse. Seite 90 3.1 Die gesamte Menge repräsentiert das sichere Ereignis, ; das unmögliche Ereignis. Die Vereinigungsmenge A [ B repräsentiert die leere Menge das Eintreten von A oder von B (dabei wird zugelassen, dass beide Ereignisse eintreten). A \ B repräsentiert das gleichzeitige Eintreten von A und B . Die Schnittmenge A und B unvereinbar, wenn A und B sind, d.h. es gilt A \ B = ;. Zwei Ereignisse heiÿen disjunkt Seite 91 3.1 Die Dierenzmenge A bei Eintreten von B . Eintreten von A=B repräsentiert das gleichzeitigem Nicht- A Nicht-Eintreten von A. Das Komplement Jedem Ereignis P repräsentiert das A kann man eine Zahl (A), seine Wahrscheinlichkeit, zuordnen. In der mathematischen Wahrschein- lichkeitstheorie stellt sich heraus, dass man nicht jedem Ereignis eine Wahrscheinlichkeit zuordnen kann. Das führt zu einigen Komplikationen, die wir hier ignorieren wollen ! ( Vitali-Mengen, Banach-Tarski-Paradoxon). Seite 92 3.1 Das Wahrscheinlichkeitsmaÿ P muss dabei folgende Bedingungen erfüllen: ( ) = 1, P (A [ B ) = P (A) + P (B ), wenn A 1. P 2. und B unvereinbar sind. Folgende Regeln gelten dann automatisch: (A) = 1 P A . P (; ) = 0 . P (A) P (B ) wenn A ) B . P Additionsregel: P (A [ B ) = P (A) + P (B ) P (A \ B) : Seite 93 3.1 3.1.1. Laplace-Experimente Wir sprechen von einem Laplace-Experiment, = f!1; !2; : : : ; !n g endlich ist und 1 P (! ) = P (! ) = : : : = P (! ) = wenn 1 2 n n gilt. Bei Laplace-Experimenten kann man Wahrscheinlichkeiten abzählen: Satz 3.2 (Laplace-Experiment) Im Laplace-Experiment gilt für jedes Ereignis A P (A) = ]A n: Seite 94 3.1 Beispiel B3.2: Ein Würfel wird geworfen. Es sei Dann = f1; 2; 3; 4; 5; 6g: handelt es sich um ein Laplace- Experiment mit P Es sei (!) = 61 ; 8! 2 : A = f2; 4; 6g das Ereignis, dass die Augenzahl gerade ist. Dann gilt P (A) = 63 = 12 : Liegt kein Laplace-Experiment vor, so gilt allgemein nur noch P (A) = X ! 2A P (! ) : Beispiel B3.3: Ein Würfel werde zweimal geworfen. Wir wählen = f(i; j )ji; j 2 f1; 2; 3; 4; 5; 6gg: Dann handelt es sich um ein LaplaceSeite 95 3.1 Experiment mit P Es sei 1 ; 8 ! 2 : (!) = 36 A = f(i; j ) 2 ji < j g das Ereignis, dass der zweite Wurf eine höhere Augenzahl anzeigt, als der erste Wurf. Dann ist P 3 + 2 + 1 = 15 = 5 : (A) = 5 + 4 +36 36 12 Seite 96 3.1 3.1.2. Bedingte Wahrscheinlichkeiten Als bedingte Wahrscheinlichkeit bezeichnet man die Wahrscheinlichkeit eines Ereignisses A, unter der Voraussetzung, dass der Eintritt eines zweiten Ereignisses B (mit P (B ) 6= 0) schon bekannt ist: P (AjB) = P (A; gegeben B) : Satz 3.3 Es gilt P (AjB) = P (PA(B\ )B) ; Daraus ergibt sich unmittelbar P (A) = P (AjB) P (B) : Seite 97 3.1 Beispiel B3.4: Es werde ein Würfel geworfen. Es sei A B = = = f2; 4; 6g; Die Augenzahl kleiner als 5 = f1; 2; 3; 4g: Die Augenzahl ist gerade Dann gilt (AjB) = P (Pf1(f; 22;; 34;g4) g) = 12 ; P (f2; 4g) 2: = P (B jA) = P (f2; 4; 6g) 3 P Seite 98 3.1 3.1.3. Unabhängigkeit Zwei Ereignisse A und B heiÿen stochastisch unabhängig, wenn P (A \ B) = P (A) P (B) gilt. Die obige Bedingung ist gleichbedeutend mit P (AjB) = P (A) bzw. P Nicht mit (BjA) = P (B) : Unvereinbarkeit verwechseln: Zwei unvereinbare Ereignisse sind fast immer abhängig. Seite 99 3.1 Beispiel B3.5)B3 :4 : Es sei wieder A B = = = f2; 4; 6g; Die Augenzahl kleiner als 5 = f1; 2; 3; 4g: Die Augenzahl ist gerade Die beiden Ereignisse sind stochastisch unabhängig: P (A \ B) = P (f2; 4g) = 31 = P (A) P (B) : Die Ereignisse P A und A sind nicht unabhängig: 1 A \ A = P (;) = 0 6= 4 = P (A)2 : Seite 100 3.2 3.2. Kombinatorik 3.2.1. Permutationen Aus einem Gefäÿ mit n Kugeln werden alle Kugeln gezogen. Wieviele Möglichkeiten der Anordnung (sog. Permutationen) dieser gezogenen Kugeln gibt es? Satz 3.4 Es gibt n! verschiedene Möglichkeiten n Objekte anzuordnen. Seite 101 3.2 3.2.2. Variationen und Kombinationen Als nächstes ziehen wir nur k der n Kugeln. Seite 102 3.2 Unterscheidet gezogenen man Kugeln, die so Reihenfolge spricht man der von Variationen. Legt man die Kugeln nicht wieder zurück, so kommt man auf n! n (n 1) (n k + 1) = (n k )! Möglichkeiten. Legt man die Kugeln nach dem Ziehen jeweils wieder zurück, so ergeben sich n n n = nk verschiedene Möglichkeiten. Seite 103 3.2 Unterscheidet man die Reihenfolge der gezogenen Kugeln nicht, so spricht man von Kombinationen. Möglichkeiten ohne Zurücklegen: n! (n k )! | {z } V ariationen 1 k! |{z} Anordnungen = kn : Möglichkeiten mit Zurücklegen (ohne Beweis): n+k 1 : k Seite 104 3.2 Zurücklegen Ohne Zurücklegen Reihenfolge Reihenfolge V kn = nk Vnk = n! (n k )! Zurücklegen Ohne Zurücklegen Ohne Reihenfolge Ohne Reihenfolge C kn = n+k k 1 Cnk = n k Seite 105 3.3 3.3. Zufallsvariablen und ihre Verteilungen 3.3.1. Zufallsvariablen Zufallsvariablen sind die wahrscheinlichkeitstheoretischen Pendants metrischer Merkmale, also Abbildungen ! R. Wir unterscheiden wie bei den Merkmalen diskrete und stetige Zufallsvariablen. Eine Zufallsvariable ist diskret, wenn sie nur abzählbar viele Werte annehmen kann. Ein Zufallsvariable heiÿt stetig, wenn ihr Wertebereich ein Intervall oder die ganze Zahlengerade ist und eine weiter Bedingung erfüllt ist, die wir später betrachten. Wir schreiben im Folgenden kurz P (X x ) an Stelle der korrekteren aber umständlicheren Schreibweise P (f! 2 jX (!) x g). Seite 106 3.3 3.3.2. Verteilungsfunktionen Die Verteilungsfunktion einer Zufallsvariablen X ist gegeben durch die Funktion FX (x ) = P (X x ) : Wir schreiben kurz F statt FX , wenn klar ist, welche Zufallsvariable gemeint ist. F F ist stets nicht-fallend, ist rechtsseitig stetig, limx ! 1 F (x ) = 0, limx !1 F (x ) = 1. Die stochastischen Eigenschaften einer Zufallsvariablen werden durch Angabe der Verteilungsfunktion vollständig beschrieben. Mit Hilfe der Verteilungsfunktion kann man Wahrscheinlichkeiten berechnen: Seite 107 3.3 (X > x ) = 1 F (x ) P (y < X x ) = F (x ) F (y ) P (X = x ) = F (x ) F (x ) P (X < x ) = F (x ) P (X x ) = 1 F (x ) P (y X x ) = F (x ) F (y ) P . . . . . . . . . F (x ) bezeichnet den linksseitigen Grenzwert F (x ) = lim F (u ): u "x Es gibt noch weitere Möglichkeiten die stochastischen Eigenschaften einer Zufallsvariablen zu beschreiben: Seite 108 3.3 Für eine Werten diskrete Zufallsvariable MX = fx1 ; x2 ; : : :g X mit deniert man die Wahrscheinlichkeitsfunktion: p (x ) = P (X = x ) = Für dass stetige F renzierbar ; x 62 Mx P (X = xi ) ; x = xi 0 ( Zufallsvariablen stetig ist. und Man fordern stückweise deniert wir, die- dann die Wahrscheinlichkeitsdichte als die Ableitung f (x ) = F 0 (x ) an den Stellen, wo F dierenzierbar ist (an allen anderen Stellen kann man f (x ) belie- big denieren). Seite 109 3.3 Beispiel B3.6)B3 :4 : Es sei wieder X die Augenzahl beim einmaligen Wurf mit einem fairen Würfel. Verteilungsfunktion: Wahrscheinlichkeitsfunktion: p (x ) = 0 ; x 62 f1; 2; 3; 4; 5; 6g 1=6 ; x 2 f1; 2; 3; 4; 5; 6g ( Diskreten und stetigen Zufallsvariablen ist also die Verteilungsfunktion F (x ) = P (X x ) gemeinsam. Seite 110 W.-Dichte für stetige ZV. Symbol Nicht-Negativität x 2A\MX f (x ) p (x ) 0 f (x ) 0 pP(x ) = 0; 8x 62 MX R 1 1 p (x ) = 1 Normierung i P i =1 1 f (x )Rdx = 1 Wahrscheinlichkeiten P (A) = p(x ) P (A) = x 2A f (x ) dx W.-Funktion für diskrete ZV. p (x ) = P (X = x ) Sie unterscheiden sich bei der Wahrscheinlichkeits- bzw. Dichtefunktion: 3.3 Seite 111 3.4 3.4. Erwartungswert und Varianz Der Erwartungswert ist das wahrscheinlichkeitstheoretische Gegenstück zum arithmetischen Mittel. Für diskrete Zufallsvariablen: E (X ) = 1 X i =1 xi p(xi ): Für stetige Zufallsvariablen: E (X ) = Z 1 1 x f (x ) dx: Allgemeiner kann man den Erwartungswert von Funktionen g:R!R einer Zufallsva- riablen erklären: Seite 112 3.4 Für diskrete Zufallsvariablen: E (g (X )) = 1 X i =1 g (xi ) p(xi ): Für stetige Zufallsvariablen: E (g (X )) = Z 1 1 g (x ) f (x ) dx: Natürlich ist der Erwartungswert nur deniert, wenn die entsprechende Summe oder das entsprechende Integral deniert sind. Auf den Fall, wo diese Gröÿen deniert aber unendlich sind, gehen wir hier nicht näher ein. Seite 113 3.4 Die Varianz und die Standardabweichung einer Zufallsvariable sind deniert als Var (X ) = E (X = E X2 (X ))2 2 E (X ) : E und b (X ) = p Var (X ): Beide Gröÿen beschreiben die Streuung der Zufallsvariablen X. Es gelten die schon vom arithmetischen Mit- (aX + b) = a (X ) + b, 2 Var (aX + b ) = a Var (X ), b (aX + b) = ab (X ), E (X + Y ) = E (X ) + E (Y ). tel vertrauten Rechenregeln: E E Seite 114 3.5 3.5. Das Gesetz der groÿen Zahlen Beispiel B3.7)B1 :1 : Im Beispiel B1.1 ergab sich ein arithmetisches Mittel von x = 3:55. Das liegt verdächtig nahe beim theoretischen Erwartungswert E (X ) = 3:5 der Augenzahlen-Zufallsvariable Wir betrachten 1 Pn n i =1 xi den der ersten X. Mittelwert n Würfe: xn = Man kann zeigen: Das ist kein Spezialfall, sondern einer der wesentlichen Grenzwertsätze der Wahrscheinlichkeitstheorie. Seite 115 3.6 Satz 3.6 (Das starke Gesetz der groÿen Zahlen) Es seien X1 ; X2 ; : : : unabhängige und identisch verteilte Zufallsvariablen mit dem gemeinsamen Erwartungswert und Xn = Pn i =1 Xi : n Dann ist die Wahrscheinlichkeit dafür, dass lim X n = n!1 gilt, eins. Xn ist also bei groÿen Stichprobenumfän- gen ein guter Schätzer für den u.U. unbekannten Erwartungswert (ein sog. stark konsistenter Schätzer). Seite 116 3.6 3.6. Unabhängigkeit und Korrelation Zwei Zufallsvariablen X und Y hei- ÿen stochastisch unabhängig, wenn die gemeinsame Verteilungsfunktion FX;Y (x; y ) = P (X x und Y y ) = P (X x; Y y ) die Produktgleichung FX;Y (x; y ) = FX (x )FY (y ): erfüllt. Für unabhängige Zufallsvariablen X und Y gilt Var (X + Y ) = Var (X ) + Var (Y ) : Seite 117 3.6 Als Maÿ für den Zusammenhang zweier Zufallsvariablen kann die Kovarianz (X; Y ) = E ((X E (X )) (Y E (Y ))) = E (XY ) E (X ) E (Y ) Cov verwendet werden. Der Korrelationskoezient Cov(X; Y ) %(X; Y ) = b (X )b (Y ) nimmt Werte im Intervall [ 1; 1] an und gibt Auskunft über den linearen Zusammenhang der beiden Zufallsvariablen. Gilt E (XY ) = E (X ) E (Y ), so nennt man X und Y unkorreliert. Unabhängige Zufalls- variablen sind immer unkorreliert. Seite 118 3.7 3.7. Fünf wichtige Verteilungen 3.7.1. Die Bernoulli-Verteilung Eine Bernoulli-verteilte nimmt nur die (Misserfolg) an. Sie ist beiden und dann Werte x2 = 1 das X Zufallsvariable Ergebnis x1 = 0 (Erfolg) eines sog. Bernoulli-Experiments. P (X = 1) = p; P (X = 0) = 1 p: Oenbar gilt E (X ) = (1 p) 0 + p 1 = p und Var (X ) = E X 2 E (X )2 = (1 p) 02 + p 12 p2 = p(1 p): Seite 119 3.7 3.7.2. Die Binomialverteilung n Bernoulli-Experimente unabhängig voneinander mit Ergebnissen X1 ; X2 ; : : : ; Xn Werden durchgeführt, so hat die Zufallsvariable K = Anzahl der Erfolge eine Binomialverteilung und es gilt (K = k ) = kn pk (1 p)n k : P Dann ergibt sich (K ) = nE (X1) = np; Var (K ) = n Var (X1 ) = np (1 p): E n = 10; p = 0:5 Seite 120 3.7 n = 10; p = 0:3 3.7.3. Die geometrische Verteilung Es werden Bernoulli-Experimente solange ausgeführt, bis zum ersten Mal Erfolg eintritt. Es sei Z der Index, für den zum ersten Mal XZ = 1 gilt. Dann hat Z eine geometrische Verteilung (Typ I): P (Z = k ) = (1 p)k 1p; k = 1; 2; 3; : : : : Die Anzahl der Misserfolge M=Z 1 hat eine geometrische Verteilung vom Typ II: P (M = k ) = (1 p)k p; k = 0; 1; 2; 3; : : : : Es gilt Seite 121 3.7 E Typ I Typ II () 1 p 1 p p Var () 1 p p 1 p 2 p 2 p = 0:3 p = 0:8 p = 0:5 Seite 122 3.7 p = 0:1 Seite 123 unbegrenzt unbegrenzt Geometrisch II n 1 Experimente Anzahl Geometrisch I Binomial Bernoulli Verteilung Index mit letztem Misserfolg Index mit erstem Erfolg Anzahl der Erfolge Ausgang (0=Misserfolg, 1=Erfolg) Gefragt 3.7 Übersicht: Seite 124 3.7 3.7.4. Die Multinomialverteilung Gegeben seien eine Folge diskreter Zufalls- X1 ; X2 ; : : : ; Xn mit Werten in der Menge fx1 ; x2 ; : : : ; xm g und jeweils gleicher Wahrscheinlichkeitsfunktion p . Es sei Ki die absolute Häugkeit der X -Zufallsvariablen mit Wert xi . Dann gilt für die gemeinsame variablen Wahrscheinlichkeitsfunktion (K1 = k1; K2 = k2; : : : ; Km = km ) n = k k k p(x1)k p(x2)k p(xm )km ; P 1 1 2 wobei 2 m Pm i =1 ki = n gelten muss. (Multinomialkoezient) n! = k1 k2 kn k1 !k2 ! kn ! : n Seite 125 3.7 Beispiel B3.8)B1 :1 : Es sei Ai die Augen- zahl im i-ten Wurf mit einem fairen Würfels und Xi = Dann besitzen die Verteilung mit E (Xi ) = 61 ; 1 ; Ai = 6; 0 ; Ai 6= 6: ( p= Xi jeweils eine Bernoulli- 1 6 , d.h. Var 5: (Xi ) = p(1 p) = 36 Es gilt z.B. 6 P (X1 = 1; X2 = 2; : : : ; X6 = 6) = 16 1 : = 46656 K die Anzahl der 6er bei 120 Würfen. Dann ist K binomialverteilt, d.h. Es sei 120 k n k P (K = k ) = (1 = 6) (5 = 6) : k Seite 126 3.7 Zum Beispiel ist 120 18 102 P (K = 18) = 18 (1=6) (5=6) 0:09 und P (K 18) = P (K 30) = B Es sei 18 X 120 j (1=6)j (5=6)120 j = 0:3657 j (1=6)j (5=6)120 j = 0:0129 j =0 120 X 120 j =30 das Ereignis, dass folgende Häu- gkeiten beobachtet werden: Augenzahl: 1 2 3 4 5 6 Häugkeit: 15 18 30 18 21 18 Dann ist P (B ) = 120 120 1 6 10 7 : 15 18 30 18 21 18 6 Seite 127 3.7 Wollen wir die Wahrscheinlichkeit einer Abweichung von der zu erwartenden Tabelle Augenzahl: Häugkeit: 1 20 2 20 3 20 4 20 5 20 6 20 berechnen, müssen wir tiefer in die Trickkiste greifen. Mehr dazu später. Seite 128 3.7 Wie lange dauert es im Mittel, bis eine 6 gewürfelt wird? Die Zufallsvariable Z = ] Versuche, bis eine 6 gewürfelt wird: Dann hat Z eine geometrische Verteilung, d.h. k 1 P (Z = k ) = 56 1 ; k = 1; 2; 3; : : : : 6 Als Erwartungswert erhalten wir E (Z ) = p1 = 6: Seite 129 3.7 3.7.5. Die stetige Gleichverteilung Ist X gleichverteilt auf dem Intervall so liegt X [a; b], quasi maximal zufällig verteilt in dem Intervall. Handelsübliche über eine Taschenrechner verfügen RND -Taste, die gleichverteilte Zufallszahlen erzeugt. Mit Hilfe gleichverteilter Zufallsvariablen kann man anders verteilte Zufallszahlen erzeugen (Inversionsmethode, Monte-CarloSimulation) Verteilungs- und Dichtefunktion der stetigen Gleichverteilung sind gegeben durch Seite 130 3.7 0 x ;x < a a F (x ) = ; x 2 [a; b) b a 1 ;x b ( 1 ; x 2 [a; b) f (x ) = 0 ; x 62 [a; b) a = 0; b = 1 Es gilt für eine auf [a; b] gleichverteilte Zu- fallsvariable (X ) = a +2 b ; (b a )2 : Var (X ) = 12 E Seite 131 3.8 3.8. Die Normalverteilung und ihre Verwandten 3.8.1. Die Standardnormalverteilung Die wichtigste Verteilung der Statistik ist die Standardnormalverteilung. Die Standardnormalverteilung besitzt die Dichtefunktion 1 '(x ) = p e 2 Die zugehörige x =2 : 2 Verteilungsfunktion lässt sich nicht in geschlossener Form angeben: Z x 1 (x ) = p e 2 1 Verteilungsfunktion '(x ): u =2 du: 2 (x ) und Dichtefunktion Seite 132 3.8 = 0; = 1 Wir schreiben malverteilung N (0; 1) für die Standardnorund X N (0; 1) für eine standardnormalverteilte Zufallsvariable. X N (0; 1) Var (X ) = 1. Für gilt E (X ) = 0 und Seite 133 3.8 3.8.2. Tabellen und Quantile Die Werte (x ) sind tabellarisch gege- ben oder können mit Taschenrechnern und Computern abgerufen werden (s. Tabelle Seite ??). Beispiel: (1:16) = 0:877 Seite 134 3.8 Für negative Argumente kann man die Umformungsregel ( x ) = 1 (x ) verwenden. Beispiel: ( 1:0) = 1 0:8413 = 0:1587, Seite 135 3.8 -Quantil bezeichnet den Wert z für den (z ) = gilt. Man verwendet die Bezeichnung z für diesen Wert. Als Die Quantile kann man ebenfalls aus der Tabelle auf Seite Beispiel: ?? entnehmen. z0:6 = 0:25. Seite 136 3.8 3.8.3. Der zentrale Grenzwertsatz Beispiel B3.9)B1 :1 : Wir wiederholen das Würfelexperiment aus dem Beispiel B1.1 eintausend Mal und betrachten für jeden Durchgang das arithmetische Mittel: Standardabweichung 0:159. Wir würfeln nun dieser Mittelwerte: n = 1000 Mal und wieder- holen das Experiment 1000 Mal: Standardabweichung der Mittelwerte: 0:054. Seite 137 3.8 Wir beobachten: Die Standardabweichung wird mit wachsendem Es seien n immer kleiner. X1 ; X2 ; X3 ; : : : unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert und Standardabweichung und n X 1 X n = n Xi i =1 ihr arithmetisches Mittel. Dann gilt E n X 1 X n = n E (Xi ) = ; i =1 n X 1 2 X n = n2 Var (Xi ) = n ; i =1 q b (X n ) = Var X n = p : n Var Seite 138 3.8 Satz 3.8 Das arithmetische Mittel Xn der Zu- X1 ; X2 ; : : : besitzt den Erwartungswert und die Standardabweip chung = n . fallsvariablen Es folgt, dass die standardisierte Zufallsvariable p Xn Xn = n den Erwartungswert weichung 1 besitzt. Wir können auch mit 0 und die Standardab- n erweitern und schrei- ben: X = n Pn i =1 X pi n Welche Verteilung besitzt n : Xn ? 120 Würfe, 100 Mal wiederholt: Seite 139 3.8 = 0; = 1 10 000 Würfe, 10 000 Mal wiederholt: = 0; = 1 Seite 140 3.8 Satz 3.9 (Zentraler Grenzwert- satz) Gegeben seien identisch verteilte X1 ; X2 ; : : : und die mit Varianz unabhängige 2. Verteilung und Zufallsvariablen Erwartungswert Dann der konvertiert standardisierten Zufallsvariablen p Xn Xn = n n ! 1 gegen die Standardnormalverteilung (x ). für = 0; = 1 Seite 141 3.8 3.8.4. Abschätzungen Mit Hilfe des zentralen Grenzwertsatzes können wir Wahrscheinlichkeiten für den Mittelwert und Summen von unabhängigen und identisch verteilten Zufallsvariablen abschätzen. Satz 3.10 (Zentraler Grenzwertsatz, Teil II) Für groÿe Werte von P n X n gilt x n Xi x p : n i =1 ! und P x p Xn x : = n Beispiel B3.10)B1 :1 : War der gewürfelte Mittelwert im Beispiel B1.1 signikant abweichend vom Erwartungswert? Wie groÿ ist die Wahrscheinlichkeit, bei 120 Seite 142 3.8 Würfen mit einem Spielwürfel, einen Mittelwert P X n > 3:55 zu erhalten? X 120 > 3:55 = 1 P X 120 3:55 3:55 3:5 1 q 35 =p120 12 = 1 (0:3207135) S: = 1 0:6255 = 0:3745 ?? Die Wahrscheinlichkeit für einen Mittelwert 3:55 37:5%. über beträgt bei 120 Würfen etwa Beispiel B3.11: Bei einem Spiel verliert der Spieler mit Wahrscheinlichkeit 0.7 fünf Euro und gewinnt mit Wahrscheinlichkeit 0.3 acht Euro. Es sei Xi der Gewinn bzw. Verlust im i-ten Spiel (sog. Irrfahrt/Random Walk). Wie groÿ ist die Wahrscheinlichkeit, dass der Spieler nach 30 Spielen einen (positiven) Gewinn verzeichnet? Seite 143 3.8 = E (X ) = 0:7 5 + 0:3 8 = 1:1 Var (X ) = 0:7 25 + 0:3 64 1:12 = Es gilt und 35:49. Damit erhalten wir P 30 X k =1 ! Xk > 0 = 1 P 30 X k =1 Xk 0 ! 0 30 ( 1 : 1) 1 p35:49 30 = 1 (1:011) = 1 0:8438 = 0:1562: Seite 144 3.8 3.8.5. Die allgemeine Normalverteilung Wenn X N (0; 1) gilt, dann besitzt X + eine sog. Normalverteilung. Die Normalverteilung besitzt die Dichtefunktion '; (x ) = p Die lässt zugehörige sich 1 e 2 1=2( x ) 2 : Verteilungsfunktion wieder nicht in ; geschlossener Form angeben. Wir schreiben N (; ) für die Normalver- teilung. In vielen Büchern bezeichnet N (; s ) ei- ne Normalverteilung mit Erwartungswert und Varianz s. Seite 145 3.8 = 0; = 1 = 5; = 1 = 5; = 2 = 5; = 1=3 Seite 146 3.8 3.8.6. Rechenregeln und Transformationen für die Normalverteilung Angenommen X N (; ). Dann gilt aX + b N (a + b; jaj ): Speziell erhalten wir, wenn wir und b = = wählen, a = 1 X N (0; 1): Umgekehrt folgt aus X N (0; 1) X + N (; ): Die Summe von zwei normalverteilten Zufallsvariablen ist wieder normalverteilt. Falls Y N (; ) und N (; ) unabhängig sind, gilt X X + Y N ( + ; 2 + 2 ): p Wenn X1 ; X2 ; : : : ; Xn unabhängig sind Seite 147 3.8 und Xi N (; ) gilt, so ergibt sich n X i =1 p Xi N (n; n) und p X n N (; = n): Seite 148 3.8 3.8.7. Die Chi-Quadrat-Verteilung Wenn X1 ; X2 ; : : : ; Xn standardnormalverteil- te unabhängige Zufallsvariablen sind, so besitzt die Summe der Quadrate n X 2 = Xi2 i =1 eine sog. Chi-Quadrat-Verteilung mit n Freiheitsgraden. n=3 -Quantil n; der Chi-QuadratVerteilung mit n Freiheitsgraden ist der Werte z für den F (z ) = gilt, wenn F die Chi-Quadrat-Verteilungsfunktion beDas zeichnet. Seite 149 3.8 Die Quantile sind aus der Tabelle auf Seite ?? zu entnehmen. Zum Beispiel ist 6;0:99 = 16:81: Das bedeutet, dass P 6 X i =1 ist, wenn die ! Xi2 16:81 = 0:99 Xi unabhängige standardnor- malverteilte Zufallsvariablen sind. Seite 150 3.8 3.8.8. Die t-Verteilung Wenn X und X1 ; X2 ; : : : ; Xn standardnormal- verteilte unabhängige Zufallsvariablen sind, dann besitzt die Zufallsvariable T=q eine X 1 Pn X 2 n i =1 i (Student)-t-Verteilung n mit Freiheitsgraden . n=3 Das n -Quantil tn; Freiheitsgraden den F (z ) = der t-Verteilung mit ist gilt, der Werte wenn F z die für t- Verteilungsfunktion bezeichnet. Seite 151 3.8 Die Quantile sind aus der Tabelle auf Seite ?? zu entnehmen. Beispielsweise ergibt sich t20;0:9 = 1:325; d.h. P (T 1:325) = 0:9: Seite 152 3.8 3.8.9. Die F-Verteilung Es seien X1 und X2 zwei Chi-Quadrat- verteilte unabhängige Zufallsvariablen mit bzw. n m Freiheitsgraden. Dann hat die Zufalls- variable X F = X1 2 eine F-Verteilung mit n und m Freiheitsgraden . n = 10, m = 5 -Quantil F(n;m); der F-Verteilung mit n und m Freiheitsgraden ist der Werte z für den F (z ) = gilt, wenn F die entspreDas chende Verteilungsfunktion bezeichnet. Seite 153 3.8 Die Quantile ndet man in den Tabellen ab Seite ??. Es ist z.B. F(10;5);0:95 = 4:735; d.h. P (F 4:735) = 0:95: 3.8.10. Ein Beispiel zum Schluss Beispiel B3.12: In einer Fabrik wird Obst verpackt. Die Packungsgröÿe soll dabei jeweils 500g betragen, allerdings kommt es naturgemäÿ zu kleinen Schwankungen. Das Gewicht X einer Obstpackung sei nor- = 500g und einer Standardabweichung von = malverteilt mit einem Mittelwert von 3: Seite 154 3.8 Stichprobe, Stichprobe, Stichprobe, n = 30 n = 100 n = 5000 Nach einer Norm für den Obsthandel darf die Packungsgröÿe der Ware nicht um mehr als fünf Gramm vom angegebenen Gewicht abweichen. Seite 155 3.8 Wie groÿ ist die Wahrscheinlichkeit einer solchen unzulässigen Abweichung? Wir transformieren X in eine standardnormal- verteilte Zufallsvariable: (X > 505 oder X < 495) = 1 P (X 2 [495; 505]) X 500 495 500 505 500 =1 P 2 ; 3 3 3 = 1 P X 3500 2 [ 5=3; 5=3] = 1 ((5=3) ( 5=3)) = 2(1 (5=3)) = 0 P Seite 156 3.8 In einem 2430 LKW 3 3 3 90 = sollen der Obstpackungen transportiert wer- den, aber höchstens 1230 Kilogramm. Mit welcher Wahrscheinlichkeit ist das möglich? Das Gesamtgewicht Y der 2430 Packungen (Y ) = 0:5 2430 = 1215 kg und b(Y ) = 0:003 2430 = 7:29. ist normalverteilt mit E 1215 1230 1215 P (Y 1230) = P 7:29 7:29 = (2:058) = 0:98 Y Seite 157 4.1 4. Induktive Statistik 4.1. Punktschätzer Beispiel B4.1: Bei einem Spiel ist dem Spieler die Wahrscheinlichkeit zu gewinnen nicht bekannt. In 20 Spielen hat er fünf Mal gewonnen. Wie kann der Spieler die Gewinnwahrscheinlichkeit schätzen? Beispiel B4.2: In zehn Würfen mit einem u.U. nicht fairen Würfel ist die Augensumme 41. Wie kann man den Erwartungswert der Augenzahl schätzen? Wie kann man die Varianz schätzen? Seite 158 4.1 Gegeben seien unabhängige und identisch verteilte Zufallsvariablen X1 ; X2 ; X3 ; : : : ; Xn ; eine sog. Stichprobe. Die gemeinsame Verteilung der Xi nennen wir auch Verteilung der Grundgesamtheit. Wir schreiben = E (X 1 ) für den gemeinsamen Erwartungswert und 2 = Var (X1 ) = b (X1 ) für die Varianz und die Standardabweichung der Stichprobenelemente. ble Eine Zufallsvaria- S , die aus den Zufallsvariablen X1 bis Xn gebildet wird heiÿt Statistik. Seite 159 4.1 Beispiele für Statistiken: Pn i =1 Xi , P X = n1 ni=1 Xi , 1 Pn 2 n i =1 (Xi X ) , 1 Pn 2 n i =1 (Xi E (X )) , mini =1;2;:::;n Xi , maxi =1;2;:::;n Xi . Punktschätzer sind Statistiken, die geeignet sind, einzelne Parameter der zugrundeliegenden Verteilung zu schätzen. Solche Parameter sind z.B. Die Erfolgswahrscheinlichkeit p der Bernoulli-Verteilung, n oder p bei der Binomialverteilung, p bei der geometrischen Verteilung, den Erwartungswert oder die Varianz 2. Seite 160 4.1 b für einen Punktschätzer des b für einen PunktParameters , also z.B. b schätzer des Erwartungswertes , oder Wir schreiben für einen Punktschätzer der Standardabweichung. 4.1.1. Punktschätzer für den Erwartungswert der Erwartungswert der Zufallsvariablen X1 ; X2 ; X3 ; : : :. Es sei Ein naheliegender Schätze für ist der Mit- telwert n X 1 b = X = X: n i =1 Dabei ist zu beachten, dass satz zur Zahl , i b, im Gegen- weiterhin eine Zufallsva- riable ist, also eine Verteilung, einen Erwartungswert und eine Varianz besitzt. Seite 161 4.1 Wir haben schon früher den Erwartungswert der Zufallsvariablen X berechnet. Es ergab sich E Wir sagen: b ist (b) = : erwartungstreu , bzw. unverzerrt: Der geschätzte Wert ist im Mittel gleich dem zu schätzenden Wert. Beispiel B1.1: b für n = 20, 1000 Mal wiederholt. ) Satz 3.8.3) Es gilt ( b (b) = p ; n d.h. die Standardabweichung nimmt mit wachsendem n immer weiter ab Seite 162 4.1 Auÿerdem gilt lim b (b) = 0: n!1 Wir sagen dann, dass b ein konsistenter Schätzer ist. Im allgemeinen ist die Verteilung von b nicht einfach zu beschreiben. Es gilt aber nach dem zentralen Grenzwertsatz b N (; pn ) annähernd für groÿe Werte von n. Ist die Grundgesamtheit normalverteilt mit bekanntem und bekanntem , dann er- gibt sich, wie bereits oben gezeigt, b N (; p ): n Seite 163 4.1 4.1.2. Punktschätzer für die Varianz bei bekanntem Erwartungswert Ist der Erwartungswert bekannt, so ist die empirische Varianz b2 = ein n 1X 2 ( X i ) n konsistenter i =1 und erwartungstreuer Schätzer, d.h. E b2 = Var (X ) und b2 = 0: lim Var n!1 Ist die Grundgesamtheit normalverteilt, so besitzt die Zufallsvariable b2 n 2 hat eine Chi-Quadrat-Verteilung mit n Frei- heitsgraden. Seite 164 4.1 4.1.3. Punktschätzer für die Varianz bei unbekanntem Erwartungswert Wenn man bei unbekanntem den Ansatz n 2 1X X i X n i =1 als Punktschätzer für die Varianz verwendet, so stellt sich heraus, dass der Erwartungswert dieses Schätzers n 1 2 n ist. Um einen erwartungstreuen Schätzer der Varianz zu erhalten, müssen wir also den Schätzer b2 = b2 (X ) = 1 n X n 1 i =1 Xi X 2 verwenden. Seite 165 4.1 Dieser neue Schätzer ist erwartungstreu, E b2 = 2 ; und konsistent: lim Var b2 = 0: n!1 Ist die Grundgesamtheit normalverteilt, so hat die Zufallsvariable 2 (n 1) b2 eine Chi-Quadrat-Verteilung mit (n 1) Freiheitsgraden. Seite 166 4.2 4.2. Intervallschätzer 4.2.1. Intervallschätzer für den Erwar- tungswert bei bekannter Varianz Wir haben gesehen, dass der Mittelwert b ein erwartungstreuer und konsistenter Schätzer für den Erwartungswert ist. Es wäre interessant zu wissen, was man über die Abweichung j bj sagen kann. Der Einfachheit halber gehen wir nun davon aus, dass 1. die Grundgesamtheit ist, d.h. es gilt 2. die Varianz normalverteilt Xi N (; ) und 2 bekannt ist. Seite 167 4.2 Dann ist wert d.h. b normalverteilt mit Erwartungsp Standardabweichung = n , und b b +cp = P P pn c = (c ) n ! für jedes Zahl Wenn wir c 2 R. c = z1 =2 (Quantil der Normal- verteilung) wählen, so gilt b + z1 =2 p = 1 2 : n P Ebenso kann man zeigen: P b z1 =2 p = 2 n Es ergibt sich dann b P z1 b + z1 =2 pn =2 pn = 1 : Seite 168 4.2 Das zufällige Intervall heiÿt b z1 =2 p ; b + z1 n =2 p n (1 ) 100%-Kondenzintervall. Es enthält (als Zufallsgröÿe verstanden, also solange es noch nicht konkret anhand vorliegender mit Daten ausgerechnet Wahrscheinlichkeit schätzenden Parameter 1 . wurde) den zu Beispiel B4.3: Die Temperaturen an einem Ort werden 100 Jahre lang jeweils am 1.Juni gemessen. Angenommen die Standardabweichung der Temperaturen betrage 4 Grad und die Temperaturen seien normalverteilt. Seite 169 4.2 Es ergibt sich als Schätzer für den Erwartungswert der Temperatur b = 22:6 = 0:05) Als 95%-Kondenzintervall ( erhalten wir dann b z0:975 p ; b + z0:975 p n n 4 ; 22:6 + 1:96 4 = 22:6 1:96 10 10 = [21:82; 23:38] : = 0:1) Als 90%-Kondenzintervall ( be- rechnen wir b z0:95 p ; b + z0:95 p n n 1 :645 4 1 :645 4 = 22:6 10 ; 22:6 + 10 = [21:94; 23:26] : Seite 170 4.2 Der Erwartungswert liegt nicht mit 90% bzw. 95% Wahrscheinlichkeit in diesen Intervallen! ist eine feste Zahl, keine Zu- fallsvariable. 4.2.2. Intervallschätzer für den Erwar- tungswert bei unbekannter Varianz Ist die Varianz unbekannt, so muss sie geschätzt werden: b2 = Um allerdings 1 n 1 i =1 Xi X 2 b b b + c p = P b p c n = n P n X zu berechnen, benötigen wir die Verteilung der Zufallsvariablen b T=bp : = n Man kann zeigen, dass T eine t-Verteilung mit (n-1)-Freiheitsgraden besitzt. Seite 171 4.2 Wenn wir c = tn 1;1 =2 (Quantil der t- Verteilung) wählen, so gilt b b + tn 1;1 =2 p = 1 2 : n P und b b tn 1;1 =2 p = 2 : n P Wir erhalten das (1 ) 100%- Kondenzintervall b b tn 1;1 =2 p ; b + tn 1;1 n b =2 p ; n dass den zu schätzenden Parameter Wahrscheinlichkeit 1 mit enthält (solan- ge noch kein konkretes Intervall berechnet wurde). Seite 172 4.2 Beispiel B4.4)B4 :3 : Die Temperaturen an einem Ort werden 100 Jahre lang jeweils am 1.Juni gemessen. Angenommen die Temperaturen seien normalverteilt mit unbekanntem und unbekanntem 2. Die Punktschätzer für den Erwartungswert und die Varianz (Standardabweichung) der Temperatur sind b = 22:6 b2 = 12:25; (b = 3:5) Als 95%-Kondenzintervall ( = 0:05) erhal- Seite 173 4.2 ten wir dann b b b t99;0:975 p ; b + t99;0:975 p n n 1 :984 3:5 1 :984 3:5 = 22:6 10 ; 22:6 + 10 = [21:91; 23:29] : 4.2.3. Intervallschätzer für die Varianz bei bekanntem Erwartungswert Ist bekannt, so ist b2 unser erwartungs- treuer Schätzer für die Varianz und es gilt b2 = P P 2 c wobei F b2 n n 2 c = 1 F (n=c ); die Verteilungsfunktion einer Chi- Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. Seite 174 4.2 n c = n;= Wir setzen 2 bzw. c = n; n = 1 2 und erhalten nb2 ; P = 1 n;=2 2 nb2 2 P = n;1 =2 2: 2 Dann ergibt sich P Wir nb2 n;1 =2 erhalten 2 das nb2 n;=2 = 1 : (1 ) 100%- Kondenzintervall nb2 nb2 n;1 =2 ; n;=2 : Seite 175 4.2 4.2.4. Intervallschätzer für die Varianz bei unbekanntem Erwartungswert unbekannt, so verwenden den Schätb2 . zer Ist Es gilt dann, ganz ähnlich wie im Fall bekannten Erwartungswertes, P b c b = P (n 1) n 1 = 1 F ((1 n)=c ); c 2 wobei 2 2 2 F die Verteilungsfunktion einer Chi- Quadrat-Verteilung mit (n 1) Freiheits- graden bezeichnet. Wie oben ergibt sich das (1 ) 100%- Kondenzintervall (n 1)b2 ; (n 1)b2 : n 1;1 =2 n 1;=2 Seite 176 4.2 Beispiel B4.5: Es seien X1 ; X2 ; : : : ; X20 die Ausgaben von zwanzig Kunden in einem bestimmten Supermarkt. Wir gehen von einer Normalverteilung Xi N (; ) der Grundge- samtheit aus. Die Punktschätzer für den Erwartungswert und die Varianz (Standardabweichung) sind: b = 36:23 b2 = 327:94 (b = 18:11) Wir erhalten die Intervallschätzer ( b b tn 1;1 =2 p ; b + tn 1;1 n = [29:23; 43:23] = 10%) b =2 p n Seite 177 4.2 für den Erwartungswert und (n 1)b2 ; (n 1)b2 n 1;1 =2 n 1;=2 = [206:70; 615:87] ([14:3; 24:82]) für die Varianz (bzw. Standardabweichung). 90%-Kondenzintervalle für für 100 Supermärkte: 4.2.5. Schätzen ohne Zurücklegen Wird eine Stichprobe ohne Zurücklegen aus einer endlichen Grundgesamtheit der Grö- N gezogen, so sind die Zufallsvariablen X1 ; X2 ; : : : ; Xn nicht mehr unabhängig. ÿe Seite 178 4.2 b = X Der Mittelwert ist weiterhin ein erwartungstreuer konsistenter Schätzer für den wahren Erwartungswert . Allerdings ist der Schätzer für die Varianz nicht länger erwartungstreu. Ein erwartungstreuer und konsistente Schätzer ist nun n N 1 1 X b2 = N n 1 Xi X 2 : i =1 Oensichtlich liegt der Korrekturfaktor (N 1)=N nahe bei eins, wenn N sehr groÿ ist. Seite 179 4.3 4.3. Hypothesentests 4.3.1. Idee Bei einem statistischen Test versucht man anhand von Daten, den Wahrheitsgehalt von Hypothesen zu bestimmen. Meistens handelt es sich um Hypothesen, die die wahre Verteilung der Stichprobe betreen, z.B. die Hypothesen über den Erwartungswert, über die Varianz, über den Median oder Quartile, über die Verteilung. Es kann auch eine Hypothese über den Zusammenhang oder über Unabhängigkeit von Merkmalen getestet werden. Meistens wird zunächst eine Nullhypothese H0 formuliert, z.B., dass der Erwartungs- wert einen bestimmten Wert 0 hat: H0 : = 0 : Seite 180 4.3 Eine einfache Hypothese liegt vor, wenn wir, wie im Fall oben, annehmen, dass ein Verteilungsparameter einen bestimmten Wert annimt. Ansonsten ist die Hypothese zusammengesetzt. Die Alternative H1 beschreibt eine zweite Hypothese (die Gegenhypothese), die nur dann eintreten kann, wenn H0 nicht ein- tritt, z.B. oder H1 : > 0 H1 : = 6 0: Häug handelt es sich bei sche Komplement von H0 . H1 um das logi- Seite 181 4.3 Die generelle Vorgehensweise bei einem Hypothesentest ist: 1. Wir stellen eine Hypothese auf und formulieren sie mathematisch. 2. Wir nden eine passende Teststatistik T. 3. Wir nden einen Ablehnungsbereich A sinnvollen derart, dass wir die Hypothese dann ablehnen, wenn T nach A liegt. Auswertung der Stichprobe in Beispiel B4.6)B1 :1 : Wir haben den Verdacht, dass bei unserem Würfelexperiment zu Beginn der Vorlesung die Drei häuger erschien, als gewöhnlich. Es sei X1 ; : : : ; X120 eine Stichprobe von Augenzahlen. 1. Es sei p die Wahrscheinlichkeit einer Drei. Dann stellen wir die Nullhypothese H0 : p = 1=6: Seite 182 4.3 auf. Die Alternative wäre H1 : p > 1=6. 2. Als Teststatistik wählen wir die Anzahl T der Dreier bei n Würfen: T = ]fXi jXi = 3g 3. und lehnen ab, wenn T > 20 + C ist, C noch passend wählen müssen. Es ist also A = (20 + C; 1). wobei wir 4.3.2. Wahl des Ablehnungsbereiches Es stellt sich die Frage, wie wir einen passenden und sinnvollen Ablehnungsbereich nden können. Meistens ergeben sich aus der Hypothese bereits Ansatzpunkte, z.B., dass A, wie im obigen Beispiel, ein bestimmtes Intervall ist, bei dem noch die Intervallgrenzen zu bestimmen sind. Nach welchen Kriterien soll man A wählen? Seite 183 4.3 Wir überlegen uns, dass wir insgesamt zwei wichtige Fehler machen können: 1. Fehler erster Art: Wir lehnen die Hypothese ab, obschon sie zutrit. 2. Fehler zweiter Art: Wir lehnen die Hypothese nicht ab, obschon sie nicht zutrit. Üblicherweise wird nun bei einem statistischen Hypothesentest der Ablehnungsbereich A so festgelegt, dass die Wahrschein- lichkeit eines Fehlers erster Art eine bestimmte, vorher festgelegte Schwelle, das Signikanzniveau , nicht überschreitet. Dazu benötigt man natürlich die Verteilung von T unter H0 (d.h. wenn H0 gilt). Warum sollte man nicht versuchen, A so festzulegen, dass die Wahrscheinlichkeit eines Fehlers erster Art minimal wird? Seite 184 4.3 4.3.3. Vorgehensweise 1. Formulierung der Hypothese 2. Finden einer geeigneten T, deren Verteilung unter Teststatistik H0 bekannt ist. 3. Festlegen eines Signikanzniveaus . 4. Angabe eines Ablehnungsbereiches mit P (T 2 AjH0) = : 5. Konkrete Berechnung der Teststatistik t anhand der Daten. 6. Ablehnen der Hypothese genau dann, wenn t 2 A gilt. Seite 185 4.3 Beispiel B4.7)B1 :1 : Die Anzahl T der Dreier bei 120 Würfen ist binomialverteilt mit Erfolgswahrscheinlichkeit = 0:01. Wir lehnen die Hypothese T > 20 + C ist. p. Wir setzen p = 1=6 ab, wenn Die Wahrscheinlichkeit eines Fehlers erster Art ist: P (T > 20 + C jH0 ) = 120 X 120 k =20+C Es ist sehr aufwendig C k 120 k (1=6) (5=6) k so zu bestimmen, dass P (T > 20 + C jH0) = 0:01 gilt. Seite 186 4.3 Wir verwenden den zentralen Grenzwertsatz in folgender sehr bekannter Form: Satz 4.1 (Satz von Moivre- Laplace) Ist T binomialverteilt, so konvergiert die Verteilung von T np np(1 p) p für n ! 1 gegen eine Standardnormal- verteilung. Entsprechend haben wir die Näherung P (T x ) x np : np(1 p) ! p Also gilt P (T > 20 + C jH ) 1 q 0 =1 n 1 6 C (1 100=6 p C 1 6 ! ) = 0:01 ! Seite 187 4.3 genau dann, wenn C = 100=6 z0:99 = 4:0825 2:3264 = 9:4973 p ist, d.h. unser Ablehnugsbereich ist A = (29:4973; 1): Bei 30 Dreiern, wie im Beispiel B1.1, würden wir also zum 1%-Niveau die Hypothese p = 1=6 zu Gunsten der Alternative p > 1=6 ablehnen! 4.3.4. Die Gütefunktion Angenommen unsere Hypothese beinhaltet (z.B. den Erwartungswert oder die Varianz 2 ). einen Parameter Die Gütefunktion G (x ) = P (T 2 Aj = x ) beschreibt die Wahrscheinlichkeit, die Hypothese abzulehnen, wenn =x ist. Seite 188 4.3 Bei einem Signikanzniveau gilt G (x ) wenn x in dem Bereich liegt, wo die Nullhypothese gilt. 4.3.5. Der p-Wert Bei einem Hypothesentest beschreibt der p-Wert die Wahrscheinlichkeit, bei einer erneuten Stichprobe eine Teststatistik T zu be- obachten, die unplausibler ist, als die konkret beobachtete Statistik Ist t. A = [a; 1) (rechtsseitiger Test), so ergibt sich p = P (T t jH0 ) : Ist A = ( 1; b] (linksseitiger Test), so ergibt sich p = P (T t jH0 ) : Ist A = ( 1; b] [ [b; 1) (zweiseitiger Seite 189 4.3 Test), so ergibt sich p = P (jT j jt j jH0 ) : Ist der p-Wert klein, so ist der Wert t der Teststatistik als extrem anzusehen und daher die Nullhypothese abzulehnen. Ist der p-Wert groÿ, so ist der Wert t der Teststatistik als eher durchschnittlich anzusehen und daher die Nullhypothese nicht abzulehnen. Bei einem Signikanztest zum Signikanzniveau (vor dem Test festzulegen) lehnen wir die Nullhypothese genau dann ab, wenn p ist. Computersoftware berechnet heute bei Hypothesentests immer auch den zugehörigen p-Wert. Eine Kenntnis des Wertes der Teststatistik und des Ablehnungsbereichs ist dann in der Regel nicht mehr notwendig. Seite 190 4.3 Beispiel B4.8)B1 :1 : Für das Würfelbeispiel B1.1 ergibt sich die Gütefunktion G (x ) = P (T > 29:4973jp = x ) ! 29 : 4973 120 x 1 p : 120x (1 x ) Unsere Teststatistik T = Anzahl der Dreier hatte den konkreten Wert t = 30 angenom- men. Es ergibt sich der p-Wert 10 p = P (T > 30) 1 p = 0:0072; 100=6 ! Seite 191 4.3 d.h. wir würden die Hypothese jedem Niveau p = 1=6 > 0:72% ablehnen. zu 4.3.6. Einstichprobentests für den Erwartungswert bei normalverteilter Grundgesamtheit Wir gehen wieder von einer normalverteilten Grundgesamtheit aus und wollen die Hypothese = 0 gegen die Alternative 6= 0 (zweiseitiger Test) bzw. > 0 (rechtsseitiger Test) oder < 0 (linksseitiger Test) testen. Dabei ist 0 ein fester vorgegebener Wert (der hypothetische Erwartungswert). Seite 192 4.3 (1) Test bei bekannter Varianz In dem eher unrealistischen Fall bekannter Varianz 2 wählen wir als Teststatistik p X T = n 0 N (0; 1): Es ergeben sich die Ablehnungsbereiche A = ( 1; z1 =2 ) [ (z1 A = (z1 ; 1); A = ( 1; z1 ): =2 ; 1); Wir lehnen also in folgenden Fällen ab: jT j > z1 =2 ; T > z1 ; T < z1 : Seite 193 4.3 Für die p-Wert ergibt sich p = P (jT j > jt j jH0 ) = 2(1 (jt j)); p = P (T > t jH0 ) = 1 (t ); p = P (T < t jH0 ) = (t ): Gütefunktion ( 0 = 0, = 1, = 10%): (2) Test bei unbekannter Varianz (t-Test) Im Normalfall wird die Varianz, wie der Erwartungswert, nicht bekannt sein. In dem Fall schätzen wir 2 b2 en Schätzer durch den erwartungstreu- und verwenden die t-verteilte Teststatistik p X T = n b 0 t (n 1): Seite 194 4.3 Es ergeben sich die Ablehnungsbereiche A = ( 1; tn 1;1 =2 ) [ (tn 1;1 A = (tn 1;1 ; 1); A = ( 1; tn 1;1 ): =2 ; 1); Wir lehnen also in folgenden Fällen ab: jT j > tn T T 1;1 =2 ; > tn 1;1 ; < tn 1;1 : Wir erhalten die p-Werte p = P (jT j > jt j jH0 ) = 2(1 Fn 1 (jt j)); p = P (T > t jH0 ) = 1 Fn 1 (t ); p = P (T < t jH0 ) = Fn 1 (t ): Fn 1 die Verteilungsfunktit-Verteilung mit (n 1) Freiheits- Hier bezeichnet on der graden. Seite 195 4.3 Beispiel B4.9: Tägliche Renditen für den DAX, 2016 (Quelle: Yahoo) Wir wollen zum Niveau 10% testen, ob = 0 gilt: H0 : = 0; H1 : 6= 0: Es ergibt sich in diesem Fall p X 0 b p 3:085 = 0:484; = 255 101 :84 t = n Seite 196 4.3 mit dem Schätzer für die Standardabwei- chung b = Es ist sP n k =1 (xk n 1 )2 = 101:84: t254;0:95 = 1:651 also jt j < t254;0:95 d.h. H0 wird nicht abgelehnt. Alternative: Als p-Wert ergibt sich p = 2 (1 F254 (0:412)) = 0:629 so dass wir zu allen üblichen Signikanzniveaus H0 nicht ablehnen. Seite 197 4.3 4.3.7. Einstichprobentests für die Varianz bei normalverteilter Grundgesamtheit Wir gehen von einer normalverteilten Grundgesamtheit aus und wollen die Hypothese 2 = 02 gegen die Alternative 2 6= 02 (zweiseitiger Test) bzw. 2 > 02 (rechtsseitiger Test) oder 2 < 02 (linksseitiger Test) testen. Die hypothetische Varianz 0 ist dabei ein fest vorgegebener Wert. (1) Test bei bekanntem Erwartungswert Bei bekanntem stik wählen wir als Teststati- b2 T = n 2 2 (n): 0 Seite 198 4.3 Es ergeben sich die Ablehnungsbereiche A = [0; n;=2 ) [ (n;1 A = (n;1 =2 ; 1); A = [0; n;=2 ): =2 ; 1); Wir lehnen also in folgenden Fällen ab: T < n;=2 oder T > n;1 T > n;1 ; T < n; : =2 p-Werte: p = (komplizierter) p = P (T > t jH0 ) = 1 Fn (t ); p = P (T < t jH0 ) = Fn (t ): Hier bezeichnet Fn die Verteilungsfunkti- on der Chi-Quadrat-Verteilung mit n Frei- heitsgraden. Seite 199 4.3 Beispiel B4.10: Jahresmitteltemperaturen in Sachsen, 1881-2016 (Quelle: DWD): Dies ist ein Beispiel für eine Zeitreihe. Offenbar existiert ein gewisser Trend, den man mit Hilfe der Zeitreihenanalyse (Kleinste- Quadrate-Methode) herausrechnen kann. Jahresmittelwerte ( x1 ; x2 ; : : : ; x136 ): ohne Trend Seite 200 4.3 Wir wollen die Hypothese 2 = 0 :4 H0 : Var (X ) = (=Varianz der Daten für Bay- ern) mit einem zweiseitigen statistischen Test zum Signikanzniveau = 5% untersuchen. Dabei können wir für den Erwartungswert E (X ) = = 0 annehmen. Als erstes schätzen wir die Varianz mit Hilfe der empirischen Varianz b2 = Pn k =1 (xk n )2 P136 2 k =1 xk = 136 = 0:495: Dann bestimmen wir den Wert der Teststatistik: b2 t = n 2 = 168:2: 0 Für die beiden relevanten Quartile ergibt sich 136;0:025 = 105:61 und 136;0:975 = 170:18. Da t 2 [105:61; 170:18], lehnen wir H0 , d.h. die Hypothese, dass die Varianz 0:4 ist, nicht ab. Seite 201 4.3 (2) Test bei unbekanntem Erwartungswert Bei nicht bekanntem ergibt sich als Test- statistik b2 T = (n 1) 2 2 (n 1): 0 Es ergeben sich die Ablehnungsbereiche A = [0; n 1;=2 ) [ (n 1;1 A = (n 1;1 =2 ; 1); A = [0; n 1;=2 ): =2 ; 1); Wir lehnen also in folgenden Fällen ab: T < n 1;=2 oder T > n 1;1 T > n 1;1 ; T < n 1; : =2 Seite 202 4.3 p-Werte: p = (komplizierter) p = P (T > t jH0 ) = 1 Fn 1 (t ); p = P (T < t jH0 ) = Fn 1 (t ): Fn 1 die Verteilungsfunktion der Chi-Quadrat-Verteilung mit (n 1) Hier bezeichnet Freiheitsgraden. 4.3.8. Zweistichprobentest auf gleiche Erwartungswerte (t-Test) Wir betrachten normalverteilter nun den Fall unabhängiger zweier Stichpro- X1 ; X2 ; : : : ; Xn N (1 ; ) und Y1 ; Y2 ; : : : ; Ym N (2 ; ) mit gleichen, ben unbekannten Varianzen. Das Problem Tests mit chen Varianzen eines entsprechenden möglicherweise ist schwerer ungleizu lösen (Behrens-Fisher-Problem, Welch-Test). Seite 203 4.3 Wir wollen also die Hypothese H0 : 1 = 2 gegen die Alternative H1 : 1 6= 2 testen. Wir verwenden die Teststatistik T X Y =p (n 1)b + (m 1)b die unter 2 1 r 2 2 nm(n + m n+m 2) ; H0 eine t-Verteilung mit (n + m 2) Freiheitsgraden besitzt. Ablehnungsbereich: A = ( 1; tn+m 2;1 =2 ) [ (tn+m 2;1 =2 ; 1): d.h. wir lehnen ab, falls jT j > tn+m 2;1 =2 ist. Seite 204 4.3 P-Wert: p = P (jT j > jt j jH0 ) = 2(1 Fn+m 2 (jt j)): Beispiel B4.11: Zwei Maschinen stellen Bauteile mit einem Gewicht X Y bzw. her (Angaben in Gramm). Es ist bekannt, dass beide Maschinen bei der Produktion Fehler mit derselben (unbekannten) Varianz 2 ma- chen. Es wird eine Stichprobe von 30, bzw. 20 Bauteilen untersucht. Wir wollen zu einem Signikanzniveau von 10% die Hypothese untersuchen, dass die Mittelwerte der Bauteilgewichte für beide Maschinen identisch sind. Seite 205 4.3 Wir erhalten x = 2197:571; y = 2206:815 b12 = 320:3355; b22 = 323:2014 9:244066 p t = 124:2198 24 = 1:786 p = 2 (1 F48 (1:786)) = 0:08042 H0 wird zu jedem Niveau > 0:08042 abgelehnt, also auch in unserem Fall. 4.3.9. Zweistichprobentest auf gleiche Varianzen (F-Test) Wir betrachten malverteilter den Fall unabhängiger zweier Stichpro- X1 ; X2 ; : : : ; Xn N (1 ; 1 ) Y1 ; Y2 ; : : : ; Ym N (2 ; 2 ). ben nor- und Seite 206 4.3 Wir wollen nun die Hypothese H0 : 12 = 22 gegen die Alternative H1 : 12 = 6 22 testen. Die Teststatistik b2 T = b12 2 besitzt eine F -Verteilung mit n 1 und m 1 Freiheitsgraden. Ablehnungsbereich: A = [0; F(n 1;m 1);=2 ) [ (F(n 1;m 1);1 =2 ; 1): Wir lehnen ab, wenn T < F(n 1;m 1);=2 oder T > F(n 1;m 1);1 ist. Seite 207 =2 4.3 Beispiel B4.12: Fünf bzw. sieben Wochen lang wird jeden Tag von 16 bis 17 Uhr die Verkehrsdichte (Fahrzeuge/h) an zwei Ausfahrtstraÿen einer Groÿstadt aufgezeichnet. Es ist b12 = 749347:3; b22 = 913983 Wir wollen zum Signikanzniveau = 10% testen, ob die Varianzen gleich sind: H0 : 12 = 22 ; H1 : 12 = 6 22: Es ist b2 T = b12 = 0:82 2 Seite 208 4.3 und F(34;48);0:05 = 0:582; F(34;48);0:95 = 1:672: Wir lehnen also die Hypothese nicht ab. Mit Hilfe von Statistiksoftware kann man den pWert p = 0:548 berechnen. 4.3.10. Chi-Quadrat-Anpassungstest Wir wollen jetzt Hypothesen der Form F = F0 testen. Dabei ist F H0 : die (wahre und unbekannte) Vertei- lungsfunktion der Grundgesamtheit, F0 unsere hypothetische Verteilungs- funktion. Gegeben seien eine Stichprobe X1 ; X2 ; : : : ; Xn von un- abhängigen Beobachtungen, Klassen K1 ; K2 ; : : : ; Km (u.U. auch aus einzelnen Ausprägungen bestehend), Seite 209 4.3 absolute Häugkeiten n(Ki ) und zu er- wartende Klassenhäugkeiten für den Fall, dass P H0 (X 2 Ki ). zutrit, ne (Ki ) = n Beispiel B4.13)B1 :1 : Für unser ursprüngliches Würfelbeispiel ergibt sich, wenn unsere Hypothese die diskrete Gleichverteilung betrit: Augenzahl: n(Ki ): ne (Ki ): 1 15 20 2 18 20 3 30 20 4 18 20 5 21 20 6 18 20 Als Testvariable könnten wir die absoluten Abstände m X k =1 jn(Ki ) ne (Ki )j verwenden. Es stellt sich heraus, dass eine etwas anders gewählte Statistik besser geeignet ist. Seite 210 4.3 Die Chi-Quadrat-Statistik ist gegeben durch T= ne (Ki ))2 : ne (Ki ) m X (n(Ki ) k =1 T besitzt unter H0 asymptotisch (also für n ! 1) eine Chi-Quadrat-Verteilung mit (m 1) Freiheitsgraden. Für jede Schätzung eines weiteren Parameters verringert sich diese Zahl um eins. Wir lehnen die Hypothese ab, wenn m 1;1 T > ist. Als p-Wert ergibt sich p = P (T > t jH0 ) = 1 Fm 1 (t ); wo Fm 1 die Verteilungsfunktion der Chi- Quadrat-Verteilung ist. Seite 211 4.3 Beispiel B4.14)B1 :1 : Augenzahl: n(Ki ): ne (Ki ): 1 15 20 2 18 20 3 30 20 4 18 20 5 21 20 6 18 20 Es ist t= 25 + 4 + 100 + 4 + 1 + 4 = 6:9 20 und p = 1 F5 (6:9) = 0:2281843 Wir lehnen die Hypothese zu keinem vernünftigen Signikanzniveau ab und gehen dementsprechend bis auf weiteres von einer diskreten Gleichverteilung (fairer Würfel) aus. Seite 212 4.3 Beispiel B4.15)B4 :10 : Jahresmitteltemperaturen in Sachsen, 1881-2016, ohne Trend: Einteilung in Klassen: (-3,-2] (-2,-1] (-1,0] (0,1] (1,2] 1 11 50 69 5 Liegt eine Normalverteilung vor? Es ist b = 0 und b = 0:703, also ergibt sich für unsere Hypothese H0 : X N (0; 0:703): Ki n(Ki ) (ai =b ) (bi =b ) (bi =b ) (ai =b ) ne (Ki ) (-3,-2] 1 0.001 0.023 0.021 2.9 (-2,-1] 11 0.023 0.159 0.136 18.5 (-1,0] 50 0.159 0.500 0.341 46.4 (0,1] 69 0.500 0.841 0.341 46.4 (1,2] 5 0.841 0.977 0.136 18.5 Seite 213 4.3 t= Die ne (Ki ))2 = 25:42 ne (Ki ) m X (n(Ki ) k =1 Teststatistik T hat Quadrat-Verteilung mit etwa eine Chi- 5 1 1 = 3 Frei- heitsgraden (wir haben ja die Varianz geschätzt!). Es ist p = 1 F3 (25:42) = 1:26 10 5 : Wir lehnen die Hypothese zu allen gängigen Signikanzniveaus ab. 4.3.11. Weitere Tests auf Normalität Es gibt noch eine Reihe weiterer Tests auf Normalität, für die allerdings die Anwendung von Statistiksoftware notwendig ist. Der Shapiro-Wilks-Test liefert für das obige Beispiel: Seite 214 4.3 Test Name : + Shapiro - Wilk normality test Data : t Test Statistic : W + = 0.9774639 P - value : + 0.02354978 Beim Lilliefors-Test ergibt sich: Test Name : + Lilliefors ( Kolmogorov + Smirnov ) normality test Data : Test Statistic : + = 0.07416185 P - value : + 0.0641023 t D 4.3.12. Q-Q-Plots Optisch sich mit besteht Hilfe eines die sog. Möglichkeit Q-Q-Plots (Quantil-Quantil-Plot) von der Normalität der Daten zu überzeugen. Seite 215 4.3 Dabei werden die Quantile der Normalverteilung und die empirischen Quantile der vorliegenden Daten in einem Diagramm aufgetragen. Auÿerdem wird eine Hilfsgerade berechnet und aufgetragen. Im Fall einer vorliegenden Normalverteilung liegen die Punkte etwa auf der angegebenen Geraden. Etwa normalverteilte Daten (oben: n=5000, unten: n=25): Seite 216 4.3 Rechtsschiefe Daten: Linksschiefe Daten: Seite 217 4.3 Bimodale Daten: Beschränkter Träger: Seite 218 4.3 Wir erhalten im obigen Beispiel: Seite 219 4.3 4.3.13. Der Chi-Quadrat-Homogenitäts- test Wir wollen hängige jetzt testen ob zwei X1 ; X2 ; : : : ; Xn Stichproben unabund Y1 ; Y2 ; : : : ; Ym ein und dieselbe Verteilung besitzen: H0 : F1 = F2 : Wir verwenden folgende Gröÿen: Klassen K1 ; K2 ; : : : ; Kk (u.U. auch aus einzelnen Ausprägungen bestehend), absolute Häugkeiten: Klasse: X Y 1 2 ... n1;1 n1;2 . . . n2;1 n2;2 . . . n1 n2 . . . k n1;k n1 = n n2;k n2 = m n k n + m Seite 220 4.3 Als Teststatistik dient der Chi-QuadratKoezient 2 = der etwa eine k 2 X X nij i =1 j =1 ni nj 2 n+m ni nj n +m 2 -Verteilung mit k 1 Frei- heitsgraden besitzt. Ablehnung k 1;1 der ist. P-Wert, falls Hypothese, 2 = c falls 2 > ist: p = P 2 > c = 1 Fk 1 (c ); wobei Fk 1 die entsprechende Chi- Quadrat-Verteilungsfunktion ist. Beispiel B4.16: Die Besuchszahlen des Oktoberfestes werden für zwei Jahre (X,Y) an jeweils 30 Tagen verglichen. Klassen: 0-30 30-50 50-70 70-90 90-110 ni X 2 9 10 6 3 30 Y 0 1 12 15 2 30 nj 2 10 22 21 5 60 Seite 221 4.3 Liegen für vor? von X und Y identische Verteilungen Wir testen bei einem Signikanzniveau = 0:01. Es ist 2 = 12:639 und 4;0:99 = 13:2767 wir lehnen also H0 nicht ab. Alternativ können wir den p-Wert berechnen und erhalten: p = 1 F4 (12:639) = 0:01318: Seite 222 4.3 4.3.14. Der Chi-Quadrat- Unabhängigkeitstest Wir wollen jetzt testen ob zwei Merkmale und Y X unabhängig sind: H0 : X und Y unabhängig Voraussetzungen: Stichproben Y1 ; Y2 ; : : : ; Ym , Klassen X1 ; X2 ; : : : ; Xn oder K1 ; K2 ; : : : ; Kk und Ausprägungen und L1 ; L2 ; : : : ; Lr , absolute Häugkeiten: K1 K2 L1 n1;1 n1;2 . . . . . . . . . Lr nr;1 nr;2 Y n1 n2 ... ... . . . ... ... Kk n1;k . . . n1 . . . nr;k nr nk n + m Seite 223 4.3 Als Teststatistik dient erneut der Chi- Quadrat-Koezient r k nij XX 2 = i =1 j =1 ni nj 2 n+m ni nj n +m 2 -Verteilung mit ` = (r der etwa eine 1) (k 1) Freiheitsgraden besitzt. Ablehnung `;1 der ist. P-Wert, falls Hypothese, falls 2 > c die berechnete Teststatistik ist: p = P 2 > c = 1 F` (c ); wobei F` die entsprechende Chi-Quadrat- Verteilungsfunktion ist. Beispiel B4.17: (Vergleiche mit Aufgabe 140 46) An einer Studierende können zwischen ins 3 Hochschule erste starten Semester. Studiengängen Sie A,B,C und D wählen. Sind die beiden Merkmale X = Studiengang und Y = Geschlecht unabhängig? Seite 224 4.3 A B C D m 10 30 10 5 55 w 20 20 40 5 85 30 50 50 10 140 Wir testen zum Niveau = 0:1. Wir erhal- ten 2 = 17:718 und 3;0:9 = 6:251389: Wir lehnen also ab. In der Tat ist p = 0:0005028544 < 0:01: Seite 225 4.3 4.3.15. Test auf Ausreiÿer Ein Ausreiÿer ist ein Datenwert, der auÿergewöhnlich weit von den übrigen, bzw. von den meisten anderen Daten entfernt liegt. Es gibt keine genaue mathematische Denition. Der Grubbs-Test kann Ausreiÿer feststellen. Dazu wird angenommen, dass die Grundgesamtheit normalverteilt ist und die Teststatistik T= maxi =1;:::;n jxi x j b berechnet. Die Nullhypothese es liegt kein Ausreiÿer vor wird abgelehnt, wenn tn2 2;=2n n 1 t > c = p n n 2 + tn2 2;=2n s ist. Seite 226 4.3 Wird die Hypothese abgelehnt, so kann man den verdächtigen Datenwert entfernen und einen neuen Test starten. Dieses Verfahren wird solange durchge- führt, bis kein Ausreiÿer mehr erkannt wird Das Entfernen sich aus dem von Datenpunkten jeweiligen muss Zusammenhang rechtfertigen lassen. Im Normalfall dürfen keine Daten entfernt werden! Beispiel B4.18: Ein handschriftlich notierter ursprünglich normalverteilter Datensatz weist u.U. Zahlendreher auf: 13:3; 31:1; 10:0; 60:2; 33:7; 15:2; 16:2; 14:9; 17:7; 21:1; 29:8; 13:6; 11:4; 18:7; 41:1 Wir verwenden den Grubbs-Test zum Niveau 10%. Seite 227 4.3 Es ist x = 23:2, b(x ) = 13:748 und 37 t = 13:748 = 2:691; s tn2 2;=2n np 1 c = = 2:409: n n 2 + tn2 2;=2n Wir lehnen also die Nullhypothese ab. Wir entfernen den Datenwert 60:2 und erhal- ten im zweiten Durchlauf t = 2:157; c = 2:372: Wir lehnen die Nullhypothese nicht ab, belassen also alle übrigen Werte im Datensatz. Seite 228 4.4 4.4. Einfache lineare Regression In der einfachen linearen Regression versucht man lineare Zusammenhänge zwischen zwei Gröÿen X X und Y eine nachzuweisen. Dabei ist für uns nicht zufällige, also deterministische Gröÿe (die erklärende Variable, exogene Regressor), Stichprobe eine oder Ermittlung einer konkret Datenpunkte Y nach Variable gegeben x1 ; x2 ; : : : ; xn und zufällige Gröÿe durch (die zu erklärende Variable, endogene Variable oder Regressand), konkret gegeben y1 ; y2 ; : : : ; yn . Zu jedem Datenelement xi gehört eindeutig eine Stichprobe yi . durch eine Stichprobe Seite 229 4.4 Idealerweise läge ein linearer Zusammenhang vor: Y = 0 + 1 X mit zwei Regressionsparametern unbekannten 0 ; 1 . Tatsächlich werden allerdings noch gewisse Fehler- oder Störterme Z auftreten, so dass dann Y = 0 + 1 X + Z; gilt. Wenn wir annehmen, dass E (Z ) = 0 ist, dann können wir auch schreiben: E (Y jX = x ) = 0 + 1 x: Seite 230 4.4 Beispiel B4.19: Wir betrachten die Jahresmitteltemperaturen in Deutschland für den Zeitraum 1970-2016 (Quelle: DWD): Es ist hier X Y = = Zeit seit 1970 (on Jahren) Jahresmitteltemperatur Deutschland Wir nehmen an, es gäbe einen linearen Trend. Seite 231 4.4 Mathematische Formulierung: E (Y jX = x ) = 0 + 1 x: Die beiden Regressionsparameter 1 0 und sind prinzipiell unbekannt und können statistisch niemals mit 100%er Sicherheit ermittelt werden. Wir werden sie schätzen müssen... Seite 232 4.4 In der Praxis x1 ; x2 ; : : : ; xn und liegen konkrete y1 ; y2 ; : : : ; yn Daten vor und es gilt i.A. nicht yk = 0 + 1 xk ; sondern yk = 0 + 1 xk + zk ; mit konkreten, aber prinzipiell unbekannten Fehlern z1 ; z2 ; : : : ; zn . Seite 233 4.4 4.4.1. Die Kleinste-Quadrate-Methode Wie müssen die unbekannten Parameter und 1 schätzen, also anhand der Daten möglichst gute Schätzer Die 0 Ausgleichs- oder b0 ; b1 berechnen. Regressionsgerade sollte so verlaufen, dass sie die Daten möglichst gut beschreibt. Was bedeutet möglichst gut? Wir versuchen die Regressionsparameter so zu wählen, dass der quadratische Fehler n X Q2 = i =1 yi (b0 + b1x ) 2 möglichst klein wird. Seite 234 4.4 Die auf diese Art und Weise minimierten Fehler zbi = yi (b0 + b1 x ) (4.1) nennen wir Residuen. Wir minimieren also die Summe der Residuenquadrate: n X Q2 = zbi2 : i =1 Seite 235 4.4 Mit Hilfe der Analysis (Extremwertbestimmung bei Funktionen mit mehreren Variablen, s.Mathe-Vorlesung) kann man die Funktion Q2 (b0 ; b1 ) minimieren. Seite 236 4.4 Es ergibt sich dann für die Steigung der Regressionsgeraden b1 = x y x y sxy = 2 b2 (x ) x2 x und für den Achsenabschnitt (Intercept) b0 = y b1 x: Speziell liegt der Schwerpunkt (x; y ) immer auf der Regressionsgeraden. Beispiel B4.20)B4 :19 : x y = 208:464; x = 23; y = 8:794 x y x y = 6:211; x 2 x 2 = 184 x y x y b1 = 2 2 = 0:0338; b0 = y b1 x: = 8:017: x x Seite 237 4.4 Interpretation: Die Temperatur steigt mit jedem Jahr um 0:0338 Grad. 4.4.2. Prognosen Mit Hilfe der K-Q-Schätzer für das lineare Modell können wir für ein beliebiges einen Schätzer gehörige yb x für das unbekannte zu- y berechnen: yb = b0 + b1 x : Dabei machen wir naturgemäÿ einen Fehler, den Prognosefehler = yb y Seite 238 4.4 Beispiel B4.21)B4 :19 : Jahresmitteltemperaturen in Deutschland, 1970-2016: Für das obige Beispiel ergibt sich für die Jahresmitteltemperatur des Jahres 2020: yb = 8:017 + 0:0338 50 = 9:705 also knapp 9:7 Grad Celsius. Seite 239 4.4 4.4.3. Standardbedingungen und Güte der Schätzer Normalerweise fordert man von den Residuen folgende Eigenschaften: 1. Zi N (0; ) res (Normalverteilung der Störterme, mit Erwartungswert null und Homoskedasitizität, identische Varianzen 2. rZi Zj = 0 für 2 ), i 6= j res d.h. (keine Autokorrelation). Wir wollen das ab jetzt voraussetzen. Unter diesen Bedingungen sind b0 und b1 jeweils normalverteilt: s b0 N 0 ; 2 res 1 + x 2 ; n nb2 (x ) 2 b1 N 1 ; nb2 (x ) : s ! res Die beiden Koezienten sind nicht stochastisch unabhängig! Seite 240 4.4 Satz 4.2 Unter den genannten Voraussetzungen sind die beiden K-Q-Schätzer b0 und b1 erwartungstreu und konsistent, d.h b0 = 0 ; E b1 = 1 ; E lim Var b0 = 0; n!1 b1 = 0: lim Var n!1 Auÿerdem besitzen sie die sog. BLUEEigenschaft, d.h. die Varianzen der beiden Schätzer sind jeweils kleiner als die Varianzen aller anderen linearen erwartungstreuer Schätzer (die Schätzer sind ezient). Seite 241 4.4 4.4.4. Das Bestimmtheitsmaÿ y -Datenwerte besitzen für die verschiedenen xi jeweils unterschiedliche Werte. Die Die resultierende Streuung um den Mittelwert wird durch die Stichprobenvarianz beschrieben: b2 (y ) = 1 n X n 1 i =1 (yi y )2: Die erklärte Varianz b2 (y ) = e 1 n X n 1 i =1 (ybi y )2: misst Abweichungen der Schätzungen vom y-Mittelwert. Seite 242 4.4 Die nicht erklärte Varianz der Residuen bu2 (y ) = 1 n X n 1 i =1 (yi yb)2 misst die Streuung um die Regressionsgerade. Seite 243 4.4 Satz 4.3 (Varianzzerlegung) Es gilt b2 (y ) = be2 (y ) + bu2 (y ): Je höher der Anteil der erklärten Varianz an der Gesamtvarianz ausfällt, desto besser ist unser Modell angepasst. Der Anteil be2 (y ) 2 R = b2 (y ) der erklärten Varianz an der Gesamtvarianz y ist ein Maÿ für die Güte des Modells. 2 Man nennt R das Bestimmtheitsmaÿ. 2 Je höher R ausfällt, desto besser ist das von Modell an die vorliegenden Daten angepasst, d.h. desto besser erklärt riable y. x die Va- Seite 244 4.4 Es gibt keine generelle Richtlinie, wie hoch R2 ausfallen muss, damit von einer gu- ten Anpassung geredet werden kann. Werte < 0 :3 deuten allerdings eine schlechte Anpassung an. R2 nimmt zu, wenn weitere erklärende Variablen hinzugezogen werden, auch wenn sich das Modell durch die Hinzunahme nicht verbessert. In diesem Fall verwendet man auch das korrigierte/adjustierte Bestimmtheitsmaÿ n 1 R2 = 1 (1 R2 ) n k 1 ; mit k = Anzahl der erklärenden Variablen. 4.4.5. Intervallschätzer Mit b0 und b1 besitzen wir zwei Punkt- schätzer für die unbekannten Regressionsparameter. Seite 245 4.4 Wie kennen, unter den Standardbedingungen, sogar ihre Verteilung: s b0 N 0 ; 2 res 1 + x 2 ; n nb2 (x ) 2 b1 N 1 ; nb2 (x ) : s ! res Allerdings muss vorher noch die Varianz 2 res der Residuen geschätzt werden. Wir verwenden den erwartungstreuen Schätzer 1 n X b2 = n 2 (yi ybi )2 : i =1 res Damit lässt sich problemlos ein 100%-Kondenzintervall für 0 I0 = b1 tn 2;1 h und für (1 ) b(b0 ); b1 + tn 2;1 =2 b(b0 ) =2 i : b(b1 ); b0 + tn 2;1 =2 b(b1 ) =2 i : 1 I1 = b0 tn 2;1 h bestimmen. Seite 246 4.4 Dabei benutzen wir die Schätzer b(b0 ) = s b2 nb2 (x ) ; res s b(b1 ) = b2 res 1 + x 2 : n nb2 (x ) 4.4.6. Tests zur Anpassungsgüte Wenn wir die Güte unserer Schätzungen beurteilen wollen, können wir entsprechende Hypothesentests verwenden. Als Hypothese bietet sich an, jeweils die Nullhypothesen H0 : 0 = 0; H1 : 0 6= 0 und H0 : 1 = 0; H1 : 1 6= 0 zu testen. Seite 247 4.4 Werden die Hypothesen abgelehnt, so spricht das für unser lineares Modell. Anderenfalls muss ggf. über ein anderes Modell nachgedacht werden. Wir wissen bereits, dass unsere Schätzer unter den Standardannahmen normalverteilt sind, d.h. unter der Hypothese bzw. 1 = 0 gilt s b0 N 0; 2 res 0 = 0 1 + x 2 ; n nb2 (x ) 2 b1 N 0; nb2 (x ) : s ! res Dementsprechend können wir die ersten beiden Hypothesen mit dem uns bekannten t-Test testen (s. Abschnitt (2)). Seite 248 4.4 Zum testen der Hypothese i = 0 ( i 2 0; 1) verwenden wird die Teststatistik T= bi b(bi ) und lehnen ab, wenn jT j > tn 2;1 =2 ist. Als p-Wert ergibt sich also p = P (jT j > jt j) = 2 (1 Fn 2 (jt j)) ; mit der Verteilungsfunktion Verteilung mit Fn 2 der t- (n 2) Freiheitsgraden. Seite 249 4.4 4.4.7. Beispielregression mit R Beispiel B4.22)B4 :19 : Wir betrachten wieder die Jahresmitteltemperaturen in Deutschland für den Zeitraum 1970-2016 (Quelle: DWD): > tb = read . table ( " DWD . txt " , sep = " ; " , dec = " + . " , header =T , fill = T ) > tb = tb [90:136 ,] > x = tb $ Jahr -1970 > t = tb $ Deutschland > x [1] 0 1 2 3 4 5 6 7 8 9 10 + 11 12 13 14 15 16 17 18 19 20 21 + 22 23 24 [26] 25 26 27 28 29 30 31 32 33 34 35 + 36 37 38 39 40 41 42 43 44 45 46 > t [1] 7.7 8.4 7.8 8.2 8.8 8.9 8.5 + 8.7 7.8 7.7 7.6 8.2 8.9 + 9.0 8.0 [16] 7.4 7.9 7.4 9.1 9.5 9.5 8.3 + 9.4 8.5 9.7 8.9 7.2 8.9 + 9.1 9.5 [31] 9.9 9.0 9.6 9.4 8.9 9.0 9.5 + 9.9 9.5 9.2 7.8 9.6 9.1 + 8.7 10.3 [46] 9.9 9.5 > plot (x ,t , col = col , pch =20 , cex =1.4 , ylab = + " Jahresmittel " ) Seite 250 4.4 > cor (x , t ) [1] 0.5895415 > lin = lm ( t ~ x ) > abline ( lin , col = " red " ) > lin Call : lm ( formula = t ~ x ) Coefficients : ( Intercept ) 8.01729 x 0.03375 Seite 251 4.4 > plot (x , lin $ residuals , col = col , pch =20 , + cex =1.4 , ylab = " Residuen " ) > abline ( h =0 , col = " red " ) > mean ( lin $ residuals ) [1] -2.406021 e -17 > sd ( lin $ residuals ) [1] 0.6340938 > summary ( lin $ residuals ) Min . 1 st Qu . Median + rd Qu . Max . -1.69500 -0.32610 0.08145 + 0.49010 0.87260 Mean 3 0.00000 > par ( mar = c (2 ,4 ,1 ,1) , mfrow = c (1 ,2) ) > plot ( density ( lin $ residuals ) , main = " " , + lwd =2 , col = " red " ) > qqnorm ( lin $ residuals , pch =16 , main = " " ) > qqline ( lin $ residuals , col = " red " , lwd =2) Seite 252 4.4 > summary ( lin ) Call : lm ( formula = t ~ x ) Residuals : Min 1Q Median + Max -1.69488 -0.32611 0.08145 + 0.87263 3Q 0.49014 Coefficients : Estimate Std . Error t value + Pr ( >| t |) ( Intercept ) 8.017287 0.184083 43.553 + < 2e -16 * * * x 0.033753 0.006894 4.896 + 1.3 e -05 * * * --Signif . codes : 0 ` * * * ` 0.001 ` * * ` 0.01 + ` * ` 0.05 ` . ` 0.1 ` ` 1 Residual standard error : 0.6411 on 45 + degrees of freedom Multiple R - squared : 0.3476 , + Adjusted R - squared : 0.3331 F - statistic : 23.97 on 1 and 45 DF , p + value : 1.299 e -05 Seite 253 0.0 > par ( mfrow = c (2 ,3) , mar = c (3 ,3 ,3 ,3) ) > for ( i in 1:6) plot ( lin , which = i ) Seite 254 1.1 A. Übungsaufgaben A.1. Aufgaben Übung 1 Aufgabe 1: Es sei x = (6; 1; 3; 4; 1). rechnen Sie: a) b) 1 P5 x 5 k =1 k P5 l =1 (xl c) 3)2 d) P5 i =1 i Q5 j =1 ( Aufgabe 2: Die Gauÿklammer Be- x6 i 1)xj bx c ist als die x ist, deniert. Es sei n = 8. Geben Sie bn c für = 0:1; 0:4; 0:7 an. gröÿte ganze Zahl, die kleiner oder gleich Aufgabe 3: Berechnen Sie 6. 2 Aufgabe 4: Gelten die folgenden Rechenregeln? Seite 255 1.1 a) (x y )b = x b y b b) (x + y )b = x b + f) c) e (x ) = (e x )2 g) d) x 2 = jx j e) yb 2 p log(x + y ) = h) log(x ) + log(y ) log(x y ) = log(x ) log(y ) log(x y ) = log(x ) + log(y ) Pn a = Pk =1 k n 1 k =0 ak +1 Aufgabe 5: Vereinfachen Sie: a) b) 3a 3b 3c a3 b 3 c 3 Aufgabe 6: Skizzieren Sie die folgenden Funktionen: a) f (x ) = 2x 3 b) f (x ) = log(x ) c) f (x ) = e x d) f (x ) = e x e) f (x ) = e f) f (x ) = e (x 1) g) f (x ) = e x 2 2 x ( 2 2) 4 Seite 256 1.1 Übung 2 Aufgabe 7: Im Rahmen einer Wahlumfrage wird für 700 am Telefon Befragte das Alter und die bevorzugte Partei (A,B,C oder D) ermittelt. Geben Sie ein passendes an und beschreiben Sie die Merkmale mathematisch durch Angabe der Merkmalsausprägungen. Aufgabe 8: Geben Sie für das Beispiel B1.1 eine Tabelle an, die die relativen und absoluten Häugkeiten, sowie die kumulativen relativen und kumulativen absoluten Häugkeiten enthält. Aufgabe 9: Warum gelten die Gleichungen 2.12.3? Aufgabe 10: Geben Sie jeweils ein weiteres Beispiel für die besprochenen vier Merkmalsskalen an. Aufgabe 11: Auf der Straÿe werden 20 erwachsene Passanten im Rahmen einer Umfrage befragt. Eines der erfassten Merkmale ist Seite 257 1.1 die Kinderzahl K. Folgende Beobachtungen werden notiert: 1; 2; 0; 0; 2; 0; 0; 2; 1; 0; 3; 1; 0; 0; 0; 1; 1; 1; 0; 1 a) Geben Sie die Menge der Merkmalsausprägungen für das Merkmal K an. b) Stellen Sie eine Tabelle auf, die die relativen und absoluten Häugkeiten, sowie die kumulativen relativen und kumulativen absoluten Häugkeiten enthält. c) Zeichnen Sie die empirische Vertei- lungsfunktion. Übung 3 Aufgabe 12: a) Berechnen Sie das arithmetische Mittel der folgenden drei Datenreihen. (i) 4, 6, 9, 10, 13, 18 50 (ii) 0, 2, 2, 3, 3, (iii) 1, 2, 3, 17, 18, 19 Seite 258 1.1 b) Worin unterscheiden sich die Datensätze hinsichtlich der Lage der Datenwerte in Bezug auf ihren Mittelwert? Aufgabe 13: Zeichnen Sie ein Histogramm für das Beispiel B2.20. Aufgabe 14: Für 200 Hotels in Sachsen werden die monatlichen Übernachtungszahlen in klassierter Form betrachtet: Klasse: ]Hotels: 0-100 100-500 500-2000 2000-5000 20 90 40 50 a) Zeichnen Sie ein Histogramm. b) Zeichnen Sie ein Diagramm, das die zugehörige empirische Dichte zeigt. c) Berechnen Sie das arithmetische Mittel für die klassiert vorliegenden Übernachtungszahlen. Aufgabe 15: Wann wird das arithmetische Mittel bei Hinzunahme eines weiteren Datenpunktes groÿer? Argumentieren Sie unter Zuhilfenahme von Gleichung (2.5). Seite 259 1.1 Aufgabe 16: Betrachten Sie die Daten aus Aufgabe 11. a) Zeichnen Sie ein Balkendiagramm und ein Kreisdiagramm. b) Berechnen Sie das arithmetische Mittel der Kinderzahl. c) Geben Sie die Ordnungsstatistik an. d) Berechnen Sie den Median. e) Berechnen Sie das für = 0; 1. -getrimmte Mittel f ) Geben Sie das obere Quartil an. Aufgabe 17: Zeigen Sie, dass die Formel ax + b = ax + b für beliebige Zahlen a; b 2 R gilt (Linearität des arithmetischen Mittels). Übung 4 Aufgabe 18: Auf einer Insel werden drei Jahre lang Erdbeben und ihre Stärke registriert. Seite 260 1.1 Dabei werden folgende Jahresmittelwerte und Varianzen beobachtet. Jahr ] Beben x Var (x ) 2012 6 2 1 2013 3 4 4 2014 7 3 2 Berechnen Sie den gepoolten Mittelwert und die gepoolte Varianz der Erdbebenstärken. Aufgabe 19: Betrachten Sie die Daten aus dem Beispiel B1.1. a) Berechnen Sie die Varianz und die Standardabweichung des beobachteten Merkmals Augenzahl. b) Wieviele Daten liegen im Intervall b (x ); x + b (x )]? [x c) Berechnen Sie den Median, die Quartile und den IQR. Aufgabe 20: Entwerfen Sie eine Stichprobe von n = 6 Daten mit folgenden Anforderun- gen: Seite 261 1.1 a) x = 0, c) b) x = 5, b (x ) = d) 1, Aufgabe 21: xe:25 = xe:75 = 4 3, xe = 7, Rx = 10. Gegeben seien die folgenden Schlusskurse des DAX an sieben aufeinander folgenden Tagen. Tag 2016-10-26 2016-10-25 2016-10-24 2016-10-21 2016-10-20 a) Berechnen Sie Schlusskurs 10710 10757 10761 10711 10701 die Stichprobenvari- anz und die Stichprobenstandardabweichung der Schlusskurse. b) Geben Die die Spannweite, den IQR, sowie den Variationskoezienten an. c) Berechnen Sie den MAD. Seite 262 1.1 Übung 5 Aufgabe 22: Sind alle Werte in einer Kon- tingenztafel eindeutig bestimmt, wenn nur die absoluten Randhäugkeiten angegeben sind? Aufgabe 23: Geben Sie ktive absolute Häugkeiten für eine 3 2-Kontingenztabelle für zwei unabhängige Merkmale an. Aufgabe 24: Ein neues Produkt kommt in drei Varianten I,II und III auf den Markt. Es ergeben sich an einem Tag an drei verschiedenen Standorten A,B und C in Deutschland folgende Verkaufszahlen: a) Geben I II III A 8 8 4 B 10 20 5 C 22 32 11 Sie die relativen Häugkeiten und die Randhäugkeiten an. b) Sind die beiden Merkmale Version und Seite 263 1.1 Standort unabhängig? c) Berechnen Sie 2 und beide Varian- ten des Pearsonschen Kontingenzkoefzienten. d) Interpretieren Sie das Ergebnis. Aufgabe 25: fünf gröÿten In einem Land besitzen die Städte 3 000 000, 1 000 000, 500 000, 250 000 und 250 000 Einwohner. Zeichnen Sie eine Lorenz-Kurve und geben Sie den Gini-Koezienten an. Aufgabe 26: Warum ist der gröÿtmögliche Wert des Gini-Maÿes n 1? n Übung 6 Aufgabe 27: 14 Tage lang werden die Verkaufszahlen für ein Buch in einer Buchhandlung notiert: 7, 11, 12, 8, 10, 9, 9, 8, 0, 6, 13, 18, 5 und 11. Zeichnen Sie einen Boxplot für die Daten. Aufgabe 28: Für 6 Straÿen werden die Durchschnittsgeschwindigkeit und die Anzahl Seite 264 1.1 der Unfälle in einem Jahr angegeben: Geschw.: 50 60 100 70 50 40 Unfälle: 2 2 7 4 2 1 : Geben Sie die für die beiden Merkmale die empirische Kovarianz und den Korrelationskoezienten an un interpretieren Sie das Resultat. Aufgabe 29: An zwei Hochschulen setzt man unterschiedliche Benotungssysteme ein. Während die Hochschule A die Benotungsskala I ! II ! III ! IV verwendet, mit als bester Note, ist an der Hochschule Skala I B die a ! b ! c , mit a als bester Note, in Gebrauch. Für 20 Studierende, die von A nach B wechselten, wird die letzte Note an der Hochschule A mit der ersten Note an der Hochschule B verglichen: A B A B I a II a I I I I I I II II II a a a a b b a a a II II III III III III IV IV b b a b b c b b IV c Berechnen Sie den Rangkorrelationskoezi- Seite 265 1.1 enten und interpretieren Sie das Ergebnis. Übung 7 Aufgabe 30: Ein Würfel wird dreimal ge- worfen. Bestimmen Sie die Wahrscheinlichkeit,. . . a) . . . , dass keine Sechs fällt, b) . . . , dass die Augenzahlen gleich sind, c) . . . , dass die Augensumme 8 ist, d) . . . , dass die Augensumme 8 ist, gegeben, dass keine Sechs fällt. e) . . . , dass genau zwei Sechsen fallen. Aufgabe 31: In einem Raum benden sich 12 Stühle. Fünf Personen kommen in den Raum, wählen sich zufällig einen Stuhl aus und setzen sich. a) Wie groÿ ist die Wahrscheinlichkeit, dass fünf vorher ausgewählte Stühle besetzt sind? Seite 266 1.1 b) Wie groÿ ist die Wahrscheinlichkeit, dass die vorher ausgewählten Stühle mit vorher genau benannten Personen besetzt sind? Aufgabe 32: Eine Zufallsvariable X nimmt die Werte -2,-1,0,1 und 2 mit den Wahrscheinlichkeiten 0.2,0.1,0.4,0.1,0.2 an. Zeichnen Sie die Wahrscheinlichkeitsfunktion und Var berechnen Sie P (X 0:7), (X ) und E (jX j). Übung 8 Aufgabe 33: Die Zufallsvariable E (X ), X beschrei- be die Dauer zwischen zwei aufeinanderfolgenden Ankünften von Kunden in einer Bank (Einheit: Minuten). funktion F (x ) = X besitze die Verteilungs- 0 1 e ( x=2 ;x < 0 ;x 0 a) Zeichnen Sie die Verteilungsfunktion. b) Geben Sie die zugehörige Dichtefunktion an und zeichnen Sie sie. Seite 267 1.1 c) Wie groÿ ist die Wahrscheinlichkeit, dass zwischen zwei Kundenankünften weniger als fünf Minuten vergehen? d) Ein Kunde erreicht die Bank um 12 Uhr. Wie groÿ ist die Wahrscheinlichkeit, dass der nächste Kunde nach 12:01 Uhr, aber vor 12:03 ankommt? e) Berechnen Sie den Erwartungswert für die Zwischenankunftszeiten. f ) Mit welcher Wahrscheinlichkeit ist eine Zwischenankunftszeit länger als der oben berechnete Erwartungswert? Aufgabe 34: Angenommen zehn Prozent aller Autos seien weiÿ, 60 Prozent schwarz und 30 Prozent besäÿen eine andere Lackierung. a) Auf einem Parkplatz stehen 30 Autos. Wie groÿ ist der Erwartungswert der Anzahl weiÿer Autos? b) Wie groÿ ist die Wahrscheinlichkeit, Seite 268 1.1 dass unter den Wagen auf dem Parkplatz weniger als drei weiÿe Autos sind? c) Wie dass groÿ an nicht-weiÿe ist die einer Wahrscheinlichkeit, Kreuzung Autos erst 15 vorbeifahren, be- vor schlieÿlich ein weiÿes Auto vorbeikommt? d) Wie lange muss man im Durchschnitt auf ein weiÿes Auto warten? e) Wie groÿ ist die Wahrscheinlichkeit unter zehn Autos zwei weiÿe, fünf schwarze und drei andersfarbige Wagen zu nden? Seite 269 1.1 Übung 9 Aufgabe 35: Angenommen X besitze eine Standardnormalverteilung. Berechnen Sie die folgenden Wahrscheinlichkeiten. (X 1), ( 1 X 1), P (X > 2), P (X > 2 oder X < 2). a) P b) P c) d) Welche Verteilung besitzen die folgenden Zufallsvariablen? e) f) g) X=10, 3 X + 2, 5 (X 6). Aufgabe 36: Der jährliche Gewinn X einer Firma sei normalverteilt mit Erwartungswert 70 Mill. Euro und Standardabweichung 12 Mill. Euro. Seite 270 1.1 Berechnen Sie die Wahrscheinlichkeit, dass der Gewinn a) gröÿer als 80 Millionen Euro ist, b) kleiner als 50 Millionen Euro ist, c) zwischen 50 und 80 Millionen liegt. Eine zweite Firma macht Y N (40; 5) Mil- lionen Euro Gewinn. d) Wie groÿ ist die Wahrscheinlichkeit, dass die Summe der Gewinne beider Firmen die 100-Millionen-Euro-Marke überschreitet? X N (; ) Aufgabe 37: Es gelte . Wie groÿ sind folgende Wahrscheinlichkeiten? a) P (X > + ), b) P (X ), c) P (X 2 [ ; + ]), x gilt P (X > + x ) = 0:1, P (X x) = 0:1, P (X 2 [ x; + x]) = 0:9 ? Für welchen Wert g) h) i) Seite 271 1.1 Übung 10 Aufgabe 38: Das Einkommen von Arbeitern in einem Land sei normalverteilt mit und = 0:8 (tsd.Euro monatlich). a) Wie groÿ ist die = 3:5 Wahrscheinlichkeit, dass ein Arbeiter mehr 3500, aber weniger als 5000 Euro verdient? b) Ein Arbeiter sagt, 80% seiner Kollegen verdienten mehr als er. Wieviel zusätzliches Gehalt müsste er bekommen, damit nur noch 50% der Kollegen mehr verdienten? c) Wie groÿ ist der Erwartungswert und die Standardabweichung des arithmetischen Mittels von 100 zufällig ausgewählten Arbeitern? Aufgabe 39: Ein Würfel werde 120 Mal gewürfelt. a) Geben Sie ein genähertes Intervall an, in dem die Augensumme mit 90% Wahrscheinlichkeit liegt. Seite 272 1.1 b) Wir betrachten das konkrete Beispiel B1.1. Geben Sie Schätzer für den Erwartungswert und die Varianz der Augenzahlen an. c) Schätzen Sie die Standardabweichung des Schätzers für den Erwartungswert. Aufgabe 40: Wir betrachten das Beispiel B4.1. Stellen Sie einen geeigneten Schätzer auf und überlegen Sie, ob der Schätzer erwartungstreu und konsistent ist. Übung 11 Aufgabe 41 : Eine Firma verkauft in 6 Monaten 18,17,19,10,14 und 15 Fahrzeuge. Bestimmen Sie a) das arithmeti- c) den Median, sche Mittel, d) das 0:2-Quantil und b) die Stichpro- benvarianz, e) den IQR. Seite 273 1.1 Aufgabe 42: Geben Sie für die Daten in Aufgabe 41 ein 99%-Kondenzintervall für den Erwartungswert und die Varianz an. Gehen Sie von normalverteilten Daten aus. Aufgabe 43: Berechnen Sie für das Beispiel B1.1 ein genähertes 95%-Kondenzintervall für den Erwartungswert und für die Varianz. Aufgabe 44: Ein Spieler gewinnt einen Euro, wenn er bei einem Münzwurf die richtige Seite vorhersagt, ansonsten verliert er zwei Euro. Der Spieler startet mit einem Guthaben von 40 Euro. a) Geben Sie ein genähertes Intervall an, in dem das verbliebene Guthaben des Spielers nach 100 Spielen mit 99% Wahrscheinlichkeit liegt. b) Geben Sie eine genäherte Wahrscheinlichkeit dafür an, dann noch ein positives Guthaben aufzuweisen. Seite 274 1.1 Übung 12 Aufgabe 45 : Für zwei Studiengänge A und B werden 2016 an einer Hochschule insgesamt 1000 Studenten eingeschrieben. Davon entfallen auf die verschiedenen Studiengänge und Geschlechter: m w A 250 450 B 100 200 a) Sind die beiden Merkmale Studiengang (=X) und Geschlecht (=Y) unabhängig? b) Berechnen Sie den Pearsonschen Kontingenzkoezienten. c) Interpretieren Sie das Ergebnis. Aufgabe 46: dierenden in sei ben Die der normalverteilt. sich Anzahl Vorlesung In folgende 10 der Stu- Statistik Jahren erge- Studierendenzahlen: 88; 75; 72; 87; 99; 80; 70; 59; 69; 84: Seite 275 1.1 a) Geben Sie Schätzer für den Erwar- tungswert und die Standardabweichung an. b) Die wahre Standardabweichung sei von nun an = 10. Geben Sie ein 90%- Kondenzintervall für den Erwartungswert an. c) Jemand stellt die Hypothese auf, dass = 80 ist. Diese Hypothese wird zu- gunsten der Alternative < 80 abge- b < D ist. Bestimmen Sie die Konstante D so, dass der Fehler er- lehnt, wenn ster Art kleiner als 5% wird. d) Der wahre Erwartungswert sei in der Tat = 80. Wie groÿ ist die Wahr- scheinlichkeit, dass ein Raum mit 90 Sitzplätzen zu klein für die Vorlesung ist? Seite 276 1.1 Übung 13 Aufgabe 47 : Die Körpergröÿe der Bevölkerung sei in Deutschland normalverteilt mit Erwartungswert abweichung = 170 cm und Standard- = 10 cm. a) Wie groÿ ist die Wahrscheinlichkeit dafür, dass eine zufällig ausgewählten Person über 190 cm groÿ ist? b) Wie groÿ ist die Wahrscheinlichkeit unter 50 zufällig ausgewählten Probanden weniger als zwei mit einer Körpergröÿe über 190 cm zu nden? c) Für einen Film wird ein Statist mit einer Gröÿe zwischen 190cm und 195cm gesucht. Wie viele zufällig ausgewählte Kandidaten muss man im Durchschnitt einladen, bis ein passender Kandidat gefunden ist? Seite 277 1.1 Aufgabe 48: Gegeben seien folgende Daten aus einer normalverteilten Grundgesamtheit: 12; 6; 8; 15; 14; 10; 25; 11; 10; 9: a) Testen Sie zum Niveau 10% die Hypo- H0 : = 11 gegen die Alternative H1 : > 11. these b) Testen Sie zum Niveau 2 these H0 : 2 tive 6= 30. 10% die Hypo- = 30 gegen die Alterna- Für eine zweite normalverteilte Stichprobe m = 10 ergibt sich ein arithmetisches Mittel y = 10 und eine Stichprob2 (y ) = 25. benvarianz von vom Umfang c) Testen Sie zum Niveau 10% die Hypo- these gleicher Erwartungswerte. d) Testen Sie zum Niveau 10% die Hypo- these gleicher Varianzen. Aufgabe 49 : Der Preis W eines Pro- duktes sei normalverteilt mit Erwartungswert = 120 Euro und Varianz 2 = 100 Euro. Seite 278 1.1 Bestimmen Sie die Wahrscheinlichkeiten für folgende Ereignisse: a) W > 120 b) W < 120 c) W > 130 d) W < 130 e) f) Übung 14 Aufgabe 50 : Der Preis 110 < W < 130 W > 140 W < 100 W oder eines Pro- duktes sei normalverteilt mit Erwartungswert = 120 Euro und Varianz 2 = 100 Euro. Geben Sie im folgenden jeweils eine passende Zahl z an. a) P (W > z ) = 0:1, c) P (W < z ) = 0:99, d) P (jW 120j > z ) = b) P (W < z ) = 0:05, 0:2. Aufgabe 51: Angeblich wählen 30% aller Wähler eines Landes die Partei A, 20% Partei B, 20% Partei C und 15% die Partei D (die übrigen Wähler sind Nichtwähler). Eine Umfrage mit 80 Befragten ergibt folgende Häugkeiten: Seite 279 1.1 A B C D N 20 14 11 19 16 : Testen Sie mit einem Signikanztest zum Niveau 10%, ob die obige Aussage plausibel ist. Aufgabe 52: An vier Standorten A,B,C und D einer Lebensmittelkette werden drei verschiedene Varianten (I,II,III) eines Nahrungsmittels verkauft. An einem Wochenende ergeben sich folgende Verkaufszahlen. A B C D I 10 34 40 25 II 25 29 37 39 III 27 25 26 40 a) Testen Sie zum Niveau 5% die Unabhängigkeit der beiden Merkmale Standort und Variante. b) Testen Sie zum Niveau 10% die Hypothese, die drei Nahrungsmittelvarianten würden im Verhältnis 3:5:4 verkauft. Seite 280 1.1 Aufgabe 53: Statistiknote X Für 10 Studierende wird die und die Mathematiknote Y verglichen (Noten: 0 bis 15). xi 3 7 12 11 15 14 11 13 5 7 yi 5 9 11 7 11 12 11 13 6 8 Zeichnen Sie ein Streudiagramm. Übung 15 Aufgabe 54: Bei einem Hypothesentest zum Signikanzniveau 10% der Nullhypothe- H0 : = 0 gegen die Alternative H1 : < 0 wird für die Teststatistik T = 8 berechse net. Was genau bedeutet der p-Wert in Höhe von 0:07? Seite 281 1.2 Aufgabe 55 : (s. Aufgabe 53) Für 10 Studierende wird die Statistiknote thematiknote Y X und die Ma- verglichen (Noten: 0 bis 15). xi 3 7 12 11 15 14 11 13 5 7 yi 5 9 11 7 11 12 11 13 6 8 a) Berechnen Sie die Schätzer für die Regressionskoezienten. b) Geben Sie auch die Residuen an. Aufgabe 56 : Angenommen die Grundge- samtheit in Aufgabe 55 besäÿe eine Normalverteilung. a) Geben Sie für die x -Daten ein 99%- Kondenzintervall für den Erwartungswert an. x -Daten zum Signikanzniveau 10% die Hypothese H0 : = 12 gegen H1 : > 12. b) Testen Sie für die Seite 282 1.2 A.2. Musterlösungen Lösung 41: a) x = 18+17+6 :::+15 = 15:5 b) Zwei mögliche Rechenwege: 6 182 + 172 + : : : + 152 15:52 = 10:7 5 6 2 + : : : + (15 15:5)2 (18 15 : 5) b2 (x ) = = 10:7 5 b2 (x ) = c) Ordnungsstatistik: 10, 14, 15, 17, 18, 19 x(3) + x(4) e x= 2 = 16: d) x(0:2) = x(b1:2c+1) = x(2) = 14 e) x(0:25) = x(b1:5c+1) = x(2) = 14 x(0:75) = x(b4:5c+1) = x(5) = 18 Lösung 45: Es ergeben sich folgende Randhäugkeiten: m w A 250 450 700 B 100 200 300 350 650 1000 Seite 283 1.2 a) Nein, denn es ist z.B. h11 = 0:25 6= 0:35 0:7 = 0:245 = h1 h1 b) Wir berechnen zunächst den Chi-QuadratKoezienten: nij2 2 = n 1 = 0:5232862 n n i =1 j =1 i j k X l X Damit ergibt sich C= s 2 2 + n = 0:02286947 und dann der Pearsonsche Kontingenzkoezient: C = s minfk; l g 2 minfk; l g 1 C = 1 0:02286947 = 0:03 r c) Da C sehr nahe bei 0 liegt, können wir von einer weitgehenden Unabhängigkeit der beiden Merkmale ausgehen. Lösung 47: a) Es sei X die Körpergröÿe einer zufällig ausgeSeite 284 1.2 wählten Person. Dann ist P (X 190 170 10 10 = P (X > 2) = 1 (2) = 0:0228 > 190) = P X 170 > b) Es sei N die Anzahl von Kandidaten mit einer Körpergröÿe über 190cm. N besitzt eine Binomialverteilung mit p = 0:0228 und n = 50. Es gilt also P (N < 2) = P (N = 0) + P (N = 1) 0 (1 p)50 + 50 p1 (1 p)49 = 50 p 0 1 = 0:6847559: c) Es sei M die Anzahl der Kandidaten, die eingeladen werden müssen. Dann ist M geometrisch verteilt mit Erfolgswahrscheinlichkeit q =P (190 < X < 195) = P 190 10 170 < X < 195 10 170 = (2:5) (2) = 0:01654047 Es gilt (s. Seite 235) E (M ) = 1=q = 60:45779. Lösung 49: a) P (W > 120) verteilung) = 0:5 (Symmetrie der NormalSeite 285 1.2 b) P (W < 120) verteilung) = 0:5 e) f) P W 10120 > 13010120 = (1) = 0:1586553 P (W < 130) = 1 P (W > 130) = 1 0:158655 = 0:8413447 P (110 < W < 130) = P ( 1 < W < 1) = (1) ( 1) = 0:6826895 P (W > 140 oder W < 100) = P (W > 140)+ P (W < 100) = P (W > 2) + P (W < 2) = 2(1 (2)) = 0:04550026 c) P (W > 130) = P (W > 1) = 1 d) (Symmetrie der Normal Seite 286 1.2 Lösung 50: a) P (W > z ) = 0:1 z 120 , P W > 10 = 0:1 , z 120 , z = 120 + z0:9 10 = 132:8155: b) c) 10 = z0:9 120 =0 P (W < z ) = 0:05 , 10 , z 10120 = z0:05 , z = 120 + z0:05 10 = 103 z P W < P (W < z ) = 0:99 , P W < z 10120 = 0:99 , z 10120 = z0:99 , z = 120 + z0:99 10 = d) , , P (jW 120j > z ) = 0:2 P (W < 120 z ) + P (W > 120 + z ) = 0:2 z z P W < + P W > 10 10 = 0:2 z z , 2P W > 10 = 0:2 , P W > 10 = 0:1 z , 10 = z0:9 = 1:281552 , z = 12:81552: Seite 287 2.1 B. Anhang B.1. Kleine Formelsammlung B.1.1. Notationen (Deskriptive Statistik) x b (x ); b 2 b (x ); b 2 2 2 b (x ); b b(x ); b sxy rxy Arithmetisches Mittel Empirische Varianz (früher Var(x)) \) Stichprobenvarianz (früher Var(x) Empirische Standardabweichung (früher (x )) Stichprobenstandardabweichung Empirische Kovarianz Empirischer Korrelationskoezient B.1.2. Wahrscheinlichkeitstheorie Seite 288 2.1 P A = 1 P (A) P (A [ B) = P (A) + P (B) P (A \ B) P (A [ B) = P (A) + P (B) falls A; B unvereinbar P (A \ B) = P (A) P (B) falls A; B unabhängig P (AjB) = P (A \ B) =P (B) P (AjB) = P (A) falls A; B unabhängig E (aX + b) = aE (X ) + b a; b 2 R E (X + Y ) = E (X ) + E (Y ) X; Y nicht notw. unabhängig E (X Y ) = E (X ) E (Y ) falls X; Y unkorelliert E Pni Xi = n falls E (X ) = E (X ) = : : : = E X = falls E (X ) = E (X ) = : : : = =1 1 1 1 1 Seite 289 2.1 Var (X ) = E (X E (X )) = E p b (X ) = Var (X ) Var (aX + b) = a Var (X ) 2 X 2 E (X ) 2 a; b 2 R 2 a; b 2 R b (aX + b) = jaj b (X ) Var (X + Y ) = Var (X ) + Var (Y ) + 2Cov(X; Y ) p b (X + Y ) = b (X ) + b (Y ) + 2Cov(X; Y ) Var (X + Y ) = Var (X ) + Var (Y ) falls X; Y unk p falls X; Y una b (X + Y ) = b (X ) + b (Y ) 2 2 2 2 B.1.3. Schätzer und Kondenzintervalle Schätzer für.. b = X b KI für.. KI h h 2 h 2 b z b t 1 1 2 = Pn i =1 (Xi n 1 X )2 1 + z = pbn ; b+t b =2 pn ; =2;n Eigenschaften erwartungstreu, konsistent erwartungstreu, konsistent i nb2 nb2 n;1 =2 ; n;=2 h i b2 b2 (n 1) (n 1) n 1;1 =2 ; n 1;=2 1 1 2 pn i =2;n 1 pbn i Voraussetzung Xi normalvert Xi normalvert Xi normalvert Xi normalvert Seite 290 3.1 C. Hinweise zur Klausur C.1. Hilfsmittel Als Hilfsmittel sind zugelassen: Taschenrechner Eine gedruckte oder handschriftliche Formelsammlung Das komplette Vorlesungsskript, auch mit handschriftlichen Notizen, aller- dings nicht mit Notizen zu den Lösungen, die wir in der Übung erarbeitet haben. Generell nicht zugelassen sind Aufzeichnungen aus den Übungen. Seite 291 3.3 C.2. Welche Abschnitte und Gegenstände werden nicht abgefragt? Kombinatorik (3.2) Schätzen ohne Zurücklegen (4.2.5) Beispielregression mit R (4.4.7) Der Satz von Moivre-Laplace (S. 187) Die Gütefunktion. Im Kapitel Einfache lineare Regression (4.4): Testverfahren und Kondenzintervalle. C.3. Grundsätzliches Lesen Sie sich die Aufgaben genau durch! Beantworten Sie nur die Aufgabenstellung! Geben Sie den Rechenweg an! Sie können in 120 Minuten insgesamt 120 Punkte erreichen (also maximal 1 Seite 292 3.3 Punkt/Minute). Als bestanden gilt eine Klausur bei einer erreichten Punktzahl 60. Folgefehler nur dann negativ bewertet, wenn sich aus dem begangenen Fehler eine deutliche Vereinfachung der übrigen Aufgaben ergibt. Seite 293