Vorlesungsfolien zu „Statistik für Bachelor- und Masterstudenten – Eine Einführung für Wirtschafts- und Sozialwissenschaftler“ Oleg Nenadić ( [email protected] ), Walter Zucchini ( [email protected] ), Institut für Statistik und Ökonometrie, Georg-August-Universität Göttingen Version WS 1.032009/10 (17. Aug.- 2010) Statistik, Organisatorisches 0 Kapitel 1 Der Zufall in unserer Welt – Einführende Beispiele und Grundbegriffe Kapitel I – Einführende Beispiele und Grundbegriffe I-0 Was ist Statistik Statistik beinhaltet nicht nur Tabellen und Graphiken! Deskriptive Statistik: Beschreibung von Datensätzen mit Hilfe von Tabellen, Graphiken und Kennzahlen. Induktive Statistik: Ziehen von Schlussfolgerungen aus vorliegenden Datensätzen auf größere Gesamtheiten. Kapitel I – Einführende Beispiele und Grundbegriffe I-1 Deterministische und Stochastische Modelle Ein Modell lässt sich als eine vereinfachte Beschreibung der Realität definieren. Im Rahmen der Statistik ist folgende Definition sinnvoller: Ein Modell ist die Beschreibung eines quantitativ erfassbaren Phänomens. Die Beschreibung kann dabei beispielsweise durch Formeln, Zahlen und/oder Graphiken erfolgen. Kapitel I – Einführende Beispiele und Grundbegriffe I-2 Schwingungsdauer eines Pendels Beispiel 1.1, „Schwingungsdauer eines Pendels“: Die Schwingungsdauer T eines Pendels mit Länge L lässt sich durch folgende Gleichung beschreiben: s L T = 2π . g Die Erdbeschleunigung g beträgt z.B. für Göttingen 9.81 m/s2; somit erhält man für ein 7.5 Meter langes Pendel folgende Schwingungsdauer: s 7.5 m T = 2π = 5.5 s . 2 9.81 m/s Kapitel I – Einführende Beispiele und Grundbegriffe I-3 Schwingungsdauer eines Pendels Das (mathematische) Pendel ist ein Beispiel für eine deterministische Beziehung, d.h. dass es für jeden Wert der Länge L genau einen Wert für die Schwingungsdauer T gibt: 8 Schwingungsdauer (s) 7 6 5.5 5 4 3 2 1 0 0 1 2 3 4 5 6 7 7.5 8 9 10 Länge (m) Kapitel I – Einführende Beispiele und Grundbegriffe I-4 Schwingungsdauer eines Pendels Für das Pendel können die Formel und die Graphik als Modell für die Schwingungsdauer benutzt werden. Hierbei handelt es sich um eine deterministische Beziehung zwischen zwei Größen: Die Schwingungsdauer ist durch die Länge des Pendels determiniert. Für jeden Wert von L gibt es genau einen Wert von T, somit liegt keine Unsicherheit oder Unbestimmtheit vor. Kapitel I – Einführende Beispiele und Grundbegriffe I-5 Blockzeiten von Linienflügen Beispiel 1.2, „Blockzeiten von Linienflügen“: Im Folgenden werden die Blockzeiten t (die Zeit vom Losrollen bis zum Stillstand am Ziel) in Abhängigkeit von der Flugstrecke d (in nautischen Meilen) von 100 zufällig ausgewählten Flügen von American Airlines im Februar 2006 betrachtet: d t d t d t d t d t d t d t 258 64 748 126 1 145 204 1 171 173 569 89 551 82 762 141 1 189 1 145 258 403 612 175 733 337 761 783 468 762 195 178 72 78 146 46 138 70 144 100 79 175 733 416 1 437 950 888 1 121 1 235 988 1 055 583 1 217 868 105 98 220 154 143 193 193 168 174 106 207 160 1 062 1 389 733 1 045 1 440 190 175 1 313 175 950 868 190 203 197 148 158 210 67 50 182 53 147 155 63 1 045 236 583 1 035 1 471 867 1 162 1 017 1 055 1 171 551 1 235 142 65 124 179 195 126 185 172 183 196 102 181 1 431 190 733 1 464 1 235 177 190 247 786 551 1 055 592 243 49 131 199 165 62 59 82 124 96 162 115 1 302 1 372 448 190 867 762 987 678 334 964 612 1 144 182 197 86 58 167 128 164 110 86 140 142 167 612 603 1 456 1 189 861 522 1 005 733 1 438 128 95 222 177 149 114 159 149 212 1 017 888 137 150 1 235 1 171 170 182 1 205 551 199 115 641 1 068 118 168 1 182 1 213 189 166 177 551 59 96 (Quelle: http://www.transtats.bts.gov) Kapitel I – Einführende Beispiele und Grundbegriffe I-6 Blockzeiten von Linienflügen Die Beziehung zwischen Flugstrecke und Flugdauer ist anders als im Fall des Pendels. So gibt es z.B. 5 Flüge mit einer Flugstrecke von 733 Meilen und dazugehörigen Blockzeiten von 138, 105, 148, 131 und 149 Minuten: 250 Blockzeit (Minuten) 200 150 100 50 0 733 0 500 1000 1500 Entfernung (Meilen) Kapitel I – Einführende Beispiele und Grundbegriffe I-7 Blockzeiten von Linienflügen Die Flugdauer ist nicht eindeutig durch die Flugstrecke bestimmt! Es gibt unterschiedliche Flugdauern für die gleiche Strecke; die Punkte liegen nur annähernd auf einer Geraden. Die Flugdauer unterliegt zufälligen Schwankungen, somit ist die Beziehung nicht deterministisch, sondern stochastisch! Auch wenn die tatsächlichen Blockzeiten schwanken, ist es dennoch nützlich, die annähernde Gerade zu kennen. Somit kann z.B. die Flugdauer ungefähr abgeschätzt werden. Kapitel I – Einführende Beispiele und Grundbegriffe I-8 Blockzeiten von Linienflügen, II Blockzeiten von 174 Flügen von Dallas / Fort Worth nach Philadelphia: [150;160] (160;170] (170;180] (180;190] (190;200] (200;210] (210;220] (220;230] (230;240] 7 24 42 54 29 11 5 1 1 – Es gab z.B. 7 Flüge mit einer Blockzeit zwischen 150 und 160 Minuten, 24 Flüge mit einer Blockzeit zwischen 160 und 170 Minuten, usw. Darstellung der Blockzeiten als Histogramm: relative Häufigkeit / Klassenbreite 0.04 0.03 0.02 0.01 0.00 140 160 180 200 220 240 Blockzeit (Minuten) Kapitel I – Einführende Beispiele und Grundbegriffe I-9 Blockzeiten von Linienflügen, II Ein Histogramm vermittelt einen Eindruck von der Verteilung der Blockzeiten. (Histogramme werden in Kapitel 2 näher besprochen.) Laut Flugplan betrug die Blockzeit zwischen 180 und 189 Minuten bei einer Flugstrecke von 1302 Meilen. Zwar schwanken die tatsächlichen Blockzeiten, jedoch weisen sie gewisse Muster auf: – Viele Beobachtungen liegen in der Mitte und – relativ wenige Beobachtungen liegen am Rand. Es ist wahrscheinlicher, dass die tatsächliche Blockzeit zwischen 180 und 190 Minuten beträgt, als dass sie unter 160 Minuten oder über 210 Minuten liegt. Kapitel I – Einführende Beispiele und Grundbegriffe I - 10 Zusammenfassung, deterministisch und stochastisch Beispiel 1.1 („Schwingungsdauer eines Pendels“): Für jeden Wert der Länge gibt es genau einen Wert für die Schwingungsdauer, somit ist dieser Zusammenhang deterministisch! Beispiel 1.2 („Blockzeiten von Linienflügen“): Für eine gegebene Flugstrecke gibt es unterschiedliche Flugdauern, d.h. dass die Flugdauer für eine Strecke nicht nur von der Strecke, sondern auch von anderen Einflüssen abhängt. Dieser Zusammenhang ist stochastisch! Deterministisches Modell: Zufällige Schwankungen spielen keine Rolle. Stochastisches Modell: Treten bei den betrachteten Phänomenen zufällige Schwankungen auf, so ist damit der Begriff Wahrscheinlichkeiten verbunden. Zur Beschreibung ist ein stochastisches Modell erforderlich. Kapitel I – Einführende Beispiele und Grundbegriffe I - 11 Zusammenfassung, deterministisch und stochastisch Viele interessante Phänomene sind von Natur aus eher stochastisch, wie z.B. – – – – – das wirtschaftliche Wachstum, die Entwicklung der Arbeitslosigkeit, die Zahl der zukünftigen Auftragseingänge, die Inflationsrate oder der morgige Wechsel- oder Aktienkurs. Werden beispielsweise potentielle Käufer eines Produktes betrachtet, weiß man nicht, wie sie auf – – – – eine bestimmte Werbung, eine neue Verpackung des Produkts, eine Preisänderung oder eine andere Platzierung des Produkts im Regal reagieren werden. Kapitel I – Einführende Beispiele und Grundbegriffe I - 12 Zusammenfassung, deterministisch und stochastisch Beispiele für deterministische und für stochastische Aussagen: Deterministische Aussage: „Dieses Individuum wird positiv auf die Behandlung reagieren.“ Stochastische Aussage: „Mit einer Wahrscheinlichkeit von 0.9 (= 90 %) wird dieses Individuum positiv auf die Behandlung reagieren.“ Kapitel I – Einführende Beispiele und Grundbegriffe I - 13 Aspirin und Herzanfälle Beispiel 1.3 („Aspirin und Herzanfälle“): Eine Schlagzeile von der Titelseite der New York Times vom 27.01.1988: Berichtet wird über die Ergebnisse einer Untersuchung, ob geringe Dosen Aspirin vorbeugend gegen Herzanfälle bei gesunden Männern mittleren Alters wirken. Kapitel I – Einführende Beispiele und Grundbegriffe I - 14 Aspirin und Herzanfälle In diesem Fall wurde an 22071 Männern eine Doppelblindstudie durchgeführt: Die Personen wurden zufällig in zwei Gruppen eingeteilt, wobei einer Gruppe, der Behandlungsgruppe, regelmäßig Aspirin verabreicht wurde. Die andere Gruppe, die Placebogruppe, erhielt eine Substanz ohne Wirkstoffe. Sowohl die Probanden als auch die behandelnden Ärzte wussten nicht, ob das Präparat Aspirin enthielt oder nicht („Doppelblind“). Aufgezeichnet wurde, wer welche Behandlung erhielt und bei wem im Laufe der Zeit ein Herzanfall aufgetreten war: Aspirin-Gruppe Placebo-Gruppe Personen 11 037 11 034 Herzanfälle 104 189 Herzanfälle pro 1 000 Personen 9.4 17.1 Es scheint einen stochastischen Zusammenhang zwischen Behandlung und Häufigkeit von Herzanfällen zu geben. (Jedoch sollten mache Zusammenhänge vorsichtig interpretiert werden!) Kapitel I – Einführende Beispiele und Grundbegriffe I - 15 Weinkonsum und Herzkrankheiten Beispiel 1.4 („Weinkonsum und Herzkrankheiten“): – Die folgende Abbildung zeigt den Zusammenhang zwischen dem jährlichen Weinkonsum (Liter pro Person) und der Todesrate durch Herzkrankheiten (Anzahl / 100 000 Einwohner) in 21 Industrienationen: Herzkrankheiten (Todesfälle p.a. / 100 000 Personen) 350 Irland 300 Großbritannien 250 USA 200 Deutschland (West) 150 Belgien 100 Spanien Italien Frankreich 50 0 0 2 4 6 8 10 jährlicher Weinkonsum (Liter Alkohol / Person) Hinweis: Stochastische Beziehungen müssen nicht automatisch auch kausal sein! Kapitel I – Einführende Beispiele und Grundbegriffe I - 16 Fettkonsum und Brustkrebsrisiko Beispiel 1.5 („Fettkonsum und Brustkrebsrisiko“): – Die folgende Abbildung zeigt den Zusammenhang zwischen dem täglichen Fettkonsum (Gramm pro Person) und der Todesrate durch Brustkrebs (Anzahl / 100 000 Einwohner) in 39 Ländern: Brustkrebsrisiko (Todesfälle p.a. / 100 000 Personen) 30 Großbritannien 25 Irland USA Belgien 20 Deutschland (West) Frankreich Italien 15 10 Spanien 5 Japan Thailand 0 0 50 100 150 200 täglicher Fettkonsum (Gramm / Person) Kapitel I – Einführende Beispiele und Grundbegriffe I - 17 Entwicklung von Aktienkursen Beispiel 1.6 („Entwicklung von Aktienkursen“) – Betrachtung der Entwicklung des Deutschen Aktienindex (DAX) sowie des Aktienkurses der Deutschen Bank von Anfang 2006 bis Ende 2007: Datum 02. Jan 03. Jan 04. Jan 05. Jan 06. Jan 09. Jan 10. Jan 11. Jan 12. Jan 13. Jan ... 06 06 06 06 06 06 06 06 06 06 DAX 5 449.98 5 460.68 5 523.62 5 516.53 5 536.32 5 537.11 5 494.71 5 532.89 5 542.13 5 483.09 ... Deutsche Bank 81.93 81.74 83.47 83.50 84.24 84.55 84.70 86.71 86.78 85.64 ... Datum ... 12. Dez 13. Dez 14. Dez 17. Dez 18. Dez 19. Dez 20. Dez 21. Dez 27. Dez 28. Dez 07 07 07 07 07 07 07 07 07 07 DAX ... 8 076.12 7 928.31 7 948.36 7 825.44 7 850.74 7 837.32 7 869.19 8 002.67 8 038.60 8 067.32 Deutsche Bank ... 91.16 88.75 89.15 87.79 87.73 87.45 87.15 87.87 89.14 89.40 Einige Fragestellungen in diesem Zusammenhang: – Wie entwickelt sich der Kurs der Deutsche Bank Aktie mit der Zeit? – Wie entwickelt sich der Stand des DAX mit der Zeit? – Hängt die Entwicklung von DAX und Deutsche Bank Aktie zusammen? Kapitel I – Einführende Beispiele und Grundbegriffe I - 18 Entwicklung von Aktienkursen Graphische Darstellung der zeitlichen Entwicklung des DAX: 9000 I/06 II/06 III/06 IV/06 I/07 II/07 III/07 IV/07 DAX Schlussstand 8000 7000 6000 5000 100 200 300 400 500 Handelstag (02.01.06 - 28.12.07) Kapitel I – Einführende Beispiele und Grundbegriffe I - 19 Entwicklung von Aktienkursen Graphische Darstellung der zeitlichen Entwicklung der Deutsche Bank Aktie: Deutsche Bank Schlusskurs (€) 120 I/06 II/06 III/06 IV/06 I/07 II/07 III/07 IV/07 110 100 90 80 100 200 300 400 500 Handelstag (02.01.06 - 28.12.07) Kapitel I – Einführende Beispiele und Grundbegriffe I - 20 Entwicklung von Aktienkursen Zusammenhang zwischen Eröffnungskurs und Schlusskurs am Vortag (Deutsche Bank Aktie): 120 Eröffnungskurs (€) 110 100 19. Sep. 07 90 16. Aug. 07 80 80 90 100 110 120 Schlusskurs am Vortag (€) Dieser Zusammenhang ist stochastisch; der Markt reagiert z.B. auf Nachrichten, deren Vorkommen und Auswirkungen auf die Kursentwicklung sich nicht exakt abschätzen lassen. Kapitel I – Einführende Beispiele und Grundbegriffe I - 21 Entwicklung von Aktienkursen 120 120 110 110 Eröffnungskurs (€) Eröffnungskurs (€) Zusammenhang zwischen Eröffnungskurs der Deutschen Bank Aktie und dem Schlusskurs vor 2 Tagen (links) und vor 5 Tagen (rechts): 100 100 90 90 80 80 80 90 100 110 Schlusskurs 2 Tage zuvor (€) 120 80 90 100 110 120 Schlusskurs 5 Tage zuvor (€) Die Abweichungen von der Winkelhalbierenden scheinen größer zu werden, je mehr Tage zwischen Eröffnungs- und Schlusskurs liegen. Kapitel I – Einführende Beispiele und Grundbegriffe I - 22 Entwicklung von Aktienkursen Ein weiterer Aspekt liegt in der Betrachtung von Renditen, d.h. der täglichen Veränderungen in Prozent. Zum Beispiel ergibt sich für die Rendite der Deutschen Bank Aktie am 04.01.2006 folgender Wert: – Schlussstand am 03.01.2006: – Schlussstand am 04.01.2006: – Differenz (= Gewinn): einfache Rendite = 100 · 81.74 € 83.47 € 1.56 € (83.47 − 81.74) ≈ 2.12 % . 81.74 In der Statistik und Finanzwirtschaft werden stattdessen oft die kontinuierlichen Renditen verwendet: µ ¶ 83.47 kontinuierliche Rendite = 100 · log ≈ 2.09% . 81.74 Kapitel I – Einführende Beispiele und Grundbegriffe I - 23 Entwicklung von Aktienkursen Darstellung der Renditen als Histogramm: relative Häufigkeit / Klassenbreite 0.4 0.3 0.2 0.1 0.0 -6 -4 -2 0 2 4 6 Deutsche Bank Tagesrendite (%) – Die Renditen sind nicht deterministisch, sondern sie variieren zufällig. – Die Renditen zeigen bestimmte Muster: Z.B. sind Werte nahe Null am häufigsten, und die Häufigkeit nimmt ab, je weiter die Renditen von Null entfernt sind. Kapitel I – Einführende Beispiele und Grundbegriffe I - 24 Entwicklung von Aktienkursen Vergleich der Entwicklung der Deutschen Bank Aktie und der Entwicklung des DAX: Deutsche Bank Tagesrendite (%) 6 4 2 0 -2 -4 -6 -6 -4 -2 0 2 4 6 DAX Tagesrendite (%) (Betrachtung des Aktienindex als Maßstab zur Messung der Kursentwicklung einzelner Aktien; vgl. Capital Asset Pricing Model [CAPM].) Kapitel I – Einführende Beispiele und Grundbegriffe I - 25 Versicherungen und stochastische Modelle Stochastische Modelle spielen auch im Versicherungsbereich eine bedeutende Rolle, z.B. in der Krankenversicherung: Mit welcher Wahrscheinlichkeit wird eine Person krank? Kfz-Haftpflichtversicherung: Mit welcher Wahrscheinlichkeit verursacht eine Person einen Unfall? Rückversicherung: Mit welcher Wahrscheinlichkeit treten Naturkatastrophen auf? → Stochastische Modelle als Grundlage für die Risiko- und Prämienkalkulation. Kapitel I – Einführende Beispiele und Grundbegriffe I - 26 Erdbeben und Tsunamis Beispiel 1.7 („Erdbeben und Tsunamis“): – Die folgenden Histogramme zeigen die Zeit zwischen zwei Tsunamis (oben) sowie die Zeit zwischen zwei Erdbeben der Stärke 7.0 oder größer (unten): relative Häufigkeit / Klassenbreite 0.020 0.015 0.010 0.005 0.000 0 50 100 150 200 250 300 Tage zwischen zwei Tsunamis relative Häufigkeit / Klassenbreite 0.04 0.03 0.02 0.01 0.00 0 50 100 150 Tage zwischen zwei Erdbeben der Stärke ≥ 7 Kapitel I – Einführende Beispiele und Grundbegriffe I - 27 Erdbeben und Tsunamis Darstellung der Anzahl an monatlich beobachteten Erdbeben der Stärke 7.0 oder größer und eine angepasste Poissonverteilung: 150 Häufigkeit beobachtet Modell 100 50 0 0 1 2 3 4 5 6 7 monatliche Anzahl von Erdbeben der Stärke ≥ 7 Kapitel I – Einführende Beispiele und Grundbegriffe I - 28 Preis und Absatz von Traubensaft Beispiel 1.8 („Preis und Absatz von Traubensaft“): – Die folgende Abbildung stellt den Absatz einer Traubensaftsorte in Abhängigkeit des Verkaufspreises dar (Erhebung von 1992 bis 1996 in einem Supermarkt im Großraum Chicago; es werden nur die Wochen ohne Werbeaktionen betrachtet): 50 Verkaufsmenge 40 30 20 10 0 0.95 1.00 1.05 1.10 1.15 1.20 Verkaufspreis (US$) Kapitel I – Einführende Beispiele und Grundbegriffe I - 29 Verkaufspreis bei Online-Auktionen Beispiel 1.9 („Verkaufspreis bei Online-Auktionen“): Betrachtet werden alle erfolgreichen Auktionen neuer Handys (Nokia 8310) auf der Online-Plattform ricardo.ch im Zeitraum von Oktober 2001 bis Januar 2002. Es werden nur diejenigen Auktionen berücksichtigt, bei denen genau ein neues Handy erfolgreich zum Verkauf angeboten wurde. Einige Fragestellungen in diesem Zusammenhang: – Wie hängt die Höhe des Maximalgebots von der Zeit ab? – Hängt die Höhe des Maximalgebots vom Wochentag ab? Kapitel I – Einführende Beispiele und Grundbegriffe I - 30 Verkaufspreis bei Online-Auktionen Darstellung des Maximalgebots in Abhängigkeit von der Zeit: erfolgreiches Maximalgebot (CHF) 800 700 600 500 400 0 20 40 60 80 100 120 Tage seit der ersten beobachteten Auktion Kapitel I – Einführende Beispiele und Grundbegriffe I - 31 Verkaufspreis bei Online-Auktionen Darstellung des Maximalgebots in Abhängigkeit vom Wochentag: erfolgreiches Maximalgebot (CHF) 800 700 600 500 400 Mo Di Mi Do Fr Sa So Wochentag Kapitel I – Einführende Beispiele und Grundbegriffe I - 32 Anrufe in einem Call-Center Beispiel 1.10 („Anrufe in einem Call-Center“): Betrachtet werden 711 Anrufe im Call-Center einer israelischen Bank am Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr: - Anzahl der Anrufe pro 5 Minuten: Anzahl Anrufe Häufigkeit 4 6 5 6 7 8 8 11 13 11 9 3 10 9 11 8 12 13 6 4 14 3 15 1 16 1 Summe 711 - Dauer der Anrufe in Sekunden: [0;100] 271 (100;200] 160 (200;300] 65 (300;400] 36 (400;500] 18 (500;600] 15 (600;700] 9 (700;800] 2 (800;1 400] 14 Der Anteil extrem langer Anrufe beträgt 14/711 = 2 %, d.h. im Durchschnitt dauert jeder 50. Anruf extrem lang. Kapitel I – Einführende Beispiele und Grundbegriffe I - 33 Anrufe in einem Call-Center Darstellung der Anzahl der Anrufe und angepasste Poissonverteilung: 14 beobachtet Modell 12 Häufigkeit 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Anzahl der Anrufe Kapitel I – Einführende Beispiele und Grundbegriffe I - 34 Anrufe in einem Call-Center Darstellung der Anrufdauer mit angepasster Exponentialverteilung: relative Häufigkeit / Klassenbreite 0.006 0.005 0.004 0.003 0.002 0.001 0.000 0 200 400 600 800 Anrufdauer (Sekunden) Kapitel I – Einführende Beispiele und Grundbegriffe I - 35 Arbeitslosenquote in Deutschland Beispiel 1.11 („Entwicklung der Arbeitslosenquote in Deutschland“): 13 Arbeitslosenquote (%) 12 11 10 9 8 7 2002 2003 2004 2005 2006 2007 Die Untersuchung von Zeitreihen (z.B. die Zerlegung einer Zeitreihe in Komponenten wie Trend und Saison) wird in Kapitel 13 betrachtet. Kapitel I – Einführende Beispiele und Grundbegriffe I - 36 Brenndauer von Glühbirnen Beispiel 1.12 („Brenndauer von Glühbirnen“): – Die folgende Tabelle gibt die Brenndauer in Stunden von 30 Glühbirnen an: 699 1 049 1 197 756 1 055 1 204 814 1 058 1 222 827 1 061 1 252 863 1 063 1 255 889 1 068 1 262 924 1 085 1 303 956 1 134 1 310 1 003 1 160 1 550 1 028 1 178 1 562 – Alternativ können die Daten auch gruppiert dargestellt werden: [600;800] (800;1 000] (1 000;1 200] (1 200;1 400] 2 6 13 7 (1 400;1 600] 2 In diesem Zusammenhang stellt sich folgende Frage: „Wie groß ist die Brenndauer einer Glühbirne?“ Kapitel I – Einführende Beispiele und Grundbegriffe I - 37 Brenndauer von Glühbirnen Graphische Darstellung der Brenndauer als Histogramm: relative Häufigkeit / Klassenbreite 0.0020 0.0015 0.0010 0.0005 0.0000 500 1000 1500 2000 Brenndauer (Stunden) Kapitel I – Einführende Beispiele und Grundbegriffe I - 38 Brenndauer von Glühbirnen Die Frage nach der Brenndauer lässt sich nicht mit einer Zahl beantworten; jede Glühbirne hat eine andere bzw. zufällige Brenndauer. Somit kann die Frage nur mit Aussagen über Wahrscheinlichkeiten beantwortet werden. Eine statistische Analyse besteht in der Regel aus dem Suchen, Anpassen, Überprüfen und Interpretieren stochastischer Modelle. Grundbegriffe: – Zufall – Wahrscheinlichkeit – Variation – Schätzung – UNCERTAINTY - Unbestimmtheit - Unsicherheit - Ungewissheit Kapitel I – Einführende Beispiele und Grundbegriffe I - 39 Brenndauer von Glühbirnen Viele wichtige Entscheidungen werden unter Ungewissheit getroffen: – – – – Ist eine gewisse Maßnahme zum Umweltschutz effektiv oder nicht? Ist ein neuer Impfstoff verträglich genug, um freigegeben zu werden? Sollte man in ein bestimmtes Projekt investieren oder nicht? Wie wird der Markt auf eine gewisse Produktänderung reagieren? Auch im praktischen Leben tauchen Entscheidungen unter Ungewissheit auf, wie z.B. – Ist es sinnvoll, Lotto zu spielen? – Lohnt sich die Investition in bestimmte Zertifikate? – Wie groß ist die Chance, Karten für die WM zu bekommen? Kapitel I – Einführende Beispiele und Grundbegriffe I - 40 Schwingungsdauer eines Pendels In Beispiel 1.1 wurde die Schwingungsdauer eines (mathematischen Pendels) als deterministischer Zusammenhang betrachtet. In der Realität unterliegt die Bewegung des Pendels jedoch auch zufälligen Einflüssen (z.B. Wind): Schwingungsdauer (s) 8 6 4 2 0 0 2 4 6 8 10 Länge (m) Dennoch funktioniert das deterministische Modell in der Praxis „gut“ (vgl. die Anwendung in der Zeitmessung). Kapitel I – Einführende Beispiele und Grundbegriffe I - 41 Grundgesamtheit und Stichprobe Zwei möglich Antworten auf „Wie lange wird diese Glühbirne brennen?“: – Es ist nicht möglich, die Frage nach der Brenndauer für eine bestimmte Glühbirne zu beantworten, weil jede Glühbirne eine andere Lebensdauer hat! – Erst wenn die Glühbirne durchgebrannt ist, kann die Frage eindeutig beantwortet werden! Beide Antworten sind nicht besonders hilfreich. Eine Möglichkeit besteht darin, ähnliche Glühbirnen zu testen, um Schlussfolgerungen über unsere Glühbirne zu ziehen. Zu diesem Zweck muss entschieden werden, welche Glühbirnen der betrachteten Glühbirne ähnlich sind. Kapitel I – Einführende Beispiele und Grundbegriffe I - 42 Grundgesamtheit und Stichprobe Die Grundgesamtheit ist die Menge der Objekte, Personen oder anderer Dinge, über die man Informationen gewinnen möchte. Die Abgrenzung der Grundgesamtheit ist jedoch nicht nicht immer einfach, z.B. kommen als Grundgesamtheit in diesem Beispiel in Frage: – Alle Glühbirnen dieses Typs, die jemals hergestellt wurden. – Nur diejenigen Glühbirnen, die in einem bestimmten Jahr produziert wurden. – Nur diejenigen Glühbirnen, die in einer bestimmten Produktionsperiode hergestellt wurden. – Alle Glühbirnen (eines Herstellers / aller Hersteller), die es in einem bestimmten Geschäft gibt. Weiterhin stellt sich die Frage, wie viele Glühbirnen untersucht werden sollen. In der Regel wird nur eine Teilmenge untersucht (z.B. aus Kostengründen); der Umfang der Stichprobe ergibt sich aus den Kosten und der gewünschten Genauigkeit. Kapitel I – Einführende Beispiele und Grundbegriffe I - 43 Grundgesamtheit und Stichprobe Angenommen, man hat sich für eine Stichprobengröße von 30 Glühbirnen aus einer Grundgesamtheit von 100 Glühbirnen im Regal eines Supermarktes entschieden. Die Frage ist, welche 30 Glühbirnen für die Stichprobe ausgewählt werden: – Alle 30 von vorne? – 30 Glühbirnen von hinten? – 15 von vorne und 15 von hinten? Ein Ansatz besteht darin, die Glühbirnen zufällig auszuwählen, um somit systematische Verfälschungen zu vermeiden (z.B. wenn nur alte Glühbirnen vorne im Regal liegen). Bei einer einfachen Zufallsstichprobe haben alle Mitglieder der Grundgesamtheit die gleiche Chance in die Stichprobe zu kommen; einfache Zufallsstichproben sind in der Regel repräsentativ. Kapitel I – Einführende Beispiele und Grundbegriffe I - 44 Grundgesamtheit und Stichprobe Schematische Darstellung der Grundgesamtheit (links) und der Stichprobe (rechts): 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 91 92 93 94 95 96 97 98 99 100 Kapitel I – Einführende Beispiele und Grundbegriffe I - 45 Lebensmittelausgaben Göttinger Studenten Beispiel 1.13 („Lebensmittelausgaben Göttinger Studenten“). Grundgesamtheit: „Göttinger Studenten“ – Sollen alle Studenten betrachtet werden? Also auch diejenigen, die in der letzten Woche nicht in Göttingen waren oder die, die bei ihren Eltern leben? Angenommen, es sollen 50 Studenten befragt werden. Welche 50 Göttinger Studenten sollten in die Stichprobe kommen? – Die ersten 50 vor der Mensa? In diesem Fall werden z.B. diejenigen nicht erfasst, die nicht zu Mittag bzw. woanders zu Mittag essen. Benötigt wird ein Verfahren zur Zufallsauswahl, welches praktisch durchführbar und nicht systematisch verfälscht ist. Kapitel I – Einführende Beispiele und Grundbegriffe I - 46 Stichprobentheorie Die Stichprobentheorie befasst sich mit den unterschiedlichen Möglichkeiten, Stichproben zu ziehen, ohne einen systematischen Fehler zu begehen (oder diesen zumindestens zu kontrollieren). Einige Möglichkeiten sind – – – – Einfache Zufallsstichprobe Geschichtete Zufallsstichprobe Klumpenstichprobe Bewusste Auswahlverfahren (Simple random sampling) (Stratified sampling) (Cluster sampling) (quota sampling) Vorgehen bei der geschichteten Zufallsstichprobe: – Die Grundgesamtheit wird in Gruppen („Strata“) zerlegt, z.B. MännlichWeiblich, BWL-VWL, Deutsche-Ausländer, etc. – Aus jeder Gruppe wird eine einfache Zufallsstichprobe gezogen. Der Vorteil hierbei ist, dass die betrachteten Gruppen im repräsentativen Verhältnis in die Stichprobe gelangen. Dazu muss allerdings das Verhältnis der Teilgruppen in der Grundgesamtheit bekannt sein! Kapitel I – Einführende Beispiele und Grundbegriffe I - 47 Stichprobentheorie Vorgehen bei der Klumpenstichprobe: – Die Grundgesamtheit wird in geographische Gruppen zerlegt, z.B. die Ortsteile in Göttingen oder die Wälder in Niedersachsen. – Eine einfache Zufallsstichprobe von Gruppen wird gezogen. – Aus jeder der gezogenen Gruppen wird eine einfache Zufallsstichprobe gezogen. In vielen Fällen ist dieses Vorgehen kostengünstiger als eine einfache Stichprobe der gleichen Größe. Jedoch werden zur Analyse kompliziertere Methoden benötigt. Bei den bewussten Auswahlverfahren werden bestimmte Quoten in der Stichprobe von vornherein festgelegt. Wenn z.B. bekannt ist, dass 40 % der Göttinger Studenten weiblich sind, wäre es möglich, genau 20 Frauen und 30 Männer in die Stichprobe aufzunehmen. Jedoch besteht die Gefahr, dass nicht alle Merkmale erfasst werden und die Stichprobe die Grundgesamtheit somit nicht repräsentiert. Kapitel I – Einführende Beispiele und Grundbegriffe I - 48 Stichprobentheorie In einigen Fällen kann es zu teuer sein, eine große Stichprobe zu ziehen; auch kann es unmöglich sein, eine repräsentative Stichprobe zu ziehen. Im Beispiel der Flugzeiten können beispielsweise nur die vergangenen Flüge beobachtet werden, aber die Aussagen sollen über zukünftige Flüge getroffen werden. Die Wahl der Grundgesamtheit bestimmt die Allgemeingültigkeit der Ergebnisse und Schlussfolgerungen: – Wenn die Grundgesamtheit zu stark eingegrenzt wird, sind die Ergebnisse u.U. uninteressant. – Führt man die Aspirin-Studie (Beispiel 1.3) nur mit 40-jährigen, männlichen, ledigen Linkshändern aus Niedersachsen durch, sind die Ergebnisse für die meisten Personen irrelevant. Kapitel I – Einführende Beispiele und Grundbegriffe I - 49 Zufallsvariablen Eines der wichtigsten statistischen Konzepte ist das der Zufallsvariablen. Im Folgenden wird wieder das Glühbirnen-Beispiel (Beispiel 1.12) betrachtet. Die folgende Abbildung zeigt ein Histogramm der Brenndauer mit einer angepassten glatten Kurve: relative Häufigkeit / Klassenbreite 0.0020 0.0015 0.0010 0.0005 0.0000 500 1000 1500 2000 Brenndauer (Stunden) Kapitel I – Einführende Beispiele und Grundbegriffe I - 50 Zufallsvariablen Die glatte Kurve ist unsere Vorstellung bzw. unser Modell für die Brenndauer in der Grundgesamtheit, das wir aus der Stichprobe erhalten. Diese Kurve kann als geglättete Version des Histogramms aufgefasst werden. Die Kurve sagt uns (wie auch das Histogramm), wo die Punkte konzentriert („dicht“) sind. Diese Kurve ist eine Dichtefunktion. Charakteristisch für eine Dichtefunktion ist, dass die Fläche zwischen ihr und der x - Achse immer genau 1 beträgt. Kapitel I – Einführende Beispiele und Grundbegriffe I - 51 Zufallsvariablen Dichtefunktion der Brenndauer: 0.0020 Dichte 0.0015 0.0010 Fläche = 1 0.0005 0.0000 500 1000 1500 Brenndauer (Stunden) Kapitel I – Einführende Beispiele und Grundbegriffe I - 52 Zufallsvariablen Angenommen, man möchte schätzen wie viele Glühbirnen eine Brenndauer zwischen 1000 und 1500 Stunden haben. Dieser Wert wird durch die Fläche unter der Kurve zwischen 1000 und 1500 bestimmt: 0.0020 Dichte 0.0015 0.0010 0.0005 Fläche = 0.65 0.0000 500 1000 1500 Brenndauer (Stunden) In diesem Fall schätzt man, dass ca. 65 % (= 0.65) der Glühbirnen eine Brenndauer zwischen 1000 und 1500 Stunden haben werden. Kapitel I – Einführende Beispiele und Grundbegriffe I - 53 Zufallsvariablen „Wie lange wird diese Glühbirne brennen?“: – Die Antwort auf diese Frage ist keine einzelne Zahl. – Die Antwort auf diese Frage ist eine Zufallsvariable. – Das Verhalten dieser Zufallsvariable wird durch eine Dichtefunktion beschrieben. Die Zufallsvariable X ist hier die Brenndauer einer Glühbirne. Bevor die Glühbirne nicht durchgebrannt ist, kann man keine eindeutige Antwort geben. Die Brenndauer X hat einen ganzen Bereich möglicher Werte. Das Verhalten der Zufallsvariable X kann durch Wahrscheinlichkeiten beschrieben werden (Dichtefunktion). Kapitel I – Einführende Beispiele und Grundbegriffe I - 54 Zufallsvariablen Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne mindestens 1 600 Stunden brennt? 0.0020 Dichte 0.0015 0.0010 0.0005 Fläche = 0.01 0.0000 500 1000 1500 Brenndauer (Stunden) Die Wahrscheinlichkeit beträgt ca. 1 %. Kapitel I – Einführende Beispiele und Grundbegriffe I - 55 Zufallsvariablen Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne mindestens 800 Stunden brennt? 0.0020 Dichte 0.0015 0.0010 0.0005 Fläche = 0.92 0.0000 500 1000 1500 Brenndauer (Stunden) Die Wahrscheinlichkeit beträgt ca. 92 %. Kapitel I – Einführende Beispiele und Grundbegriffe I - 56 Zufallsvariablen Die Frage nach der Brenndauer einer Glühbirne wird durch Wahrscheinlichkeiten beschrieben (Brenndauer als Zufallsvariable). Nachdem die Glühbirne durchgebrannt ist, ist die Antwort auf diese Frage eine einfache Zahl; d.h. man hat eine Realisation einer Zufallsvariablen. Somit gibt es zwei Antworten auf die Frage nach der Brenndauer: – Bevor die Glühbirne kaputt geht, kann die Antwort nur durch das Nennen möglicher Werte und ihrer Wahrscheinlichkeiten gegeben werden (Brenndauer als Zufallsvariable). – Nachdem die Glühbirne kaputt ist, wird die Antwort zu einer gewöhnlichen Zahl (Realisation einer Zufallsvariablen). Kapitel I – Einführende Beispiele und Grundbegriffe I - 57 Investition von 1000 € Beispiel 1.14 („Investition von 1000 €“): Angenommen, man möchte 1000 € für ein Jahr anlegen: (i) Feste (sichere) Anlage zu 5% Zinsen (deterministisch), oder (ii) Anlage in Aktien (stochastisch). 0.0030 1050 € 0.0025 Dichte 0.0020 0.0015 0.0010 0.0005 Großes Pech hier Großes Glück hier Pech Glück 0.0000 500 1000 1500 2000 Auszahlung (€) Kapitel I – Einführende Beispiele und Grundbegriffe I - 58 Investition von 1000 € X (der Wert der Aktien in einem Jahr) ist eine Zufallsvariable. Angenommen, man hätte am 02.01.2006 in Aktien der Deutschen Bank investiert (d.h. 12.21 Aktien zu 81.93 €), dann wäre der Wert der Aktien am 29.12.2006 um 236.91 € auf 1236.91 € gestiegen. Hätte man andererseits erst am 02.01.2007 Aktien der Deutschen Bank gekauft (9.72 Aktien zu 102.89 €), dann wäre das Aktienpaket am 28.12.2007 nur noch 868.89 € Wert gewesen. Kapitel I – Einführende Beispiele und Grundbegriffe I - 59 Kapitel 2 Fakten in Zahlen – Deskriptive Statistik Kapitel II – Deskriptive Statistik II - 0 Deskriptive Statistik Die deskriptive Statistik beinhaltet alle Methoden, Formeln und graphische Verfahren zur Beschreibung beobachteter Werte eines Merkmals in einer Grundgesamtheit oder Stichprobe. Die Grundgesamtheiten (Populationen) oder Stichproben bestehen aus (Untersuchungs-) Einheiten, z.B. Menschen, Glühbirnen oder Aktien. Von Interesse sind ein oder mehrere Merkmale dieser Einheiten: Beispiel – Glühbirnen – Aspirin Kapitel II – Deskriptive Statistik Merkmal Brenndauer Aspirin (Ja - Nein), Herzanfall (Ja - Nein) II - 1 Merkmale Die Merkmale lassen sich wie folgt klassifizieren: qualitativ rangskaliert quantitativ nominalskaliert ordinalskaliert metrisch Geschlecht Augenfarbe Automarke Schulnote Rangplatz Güteklasse Gewicht Verkaufszahl Lebensdauer Qualitative Merkmale sind Eigenschaften, die nur der Qualität nach bestimmt werden können. Rangskalierte Merkmale besitzen eine eindeutige Ordnung, jedoch lässt sich kein absoluter Zahlenwert zuordnen. Die Ausprägungen von quantitativen Merkmalen lassen sich durch Zahlen beschreiben. Je nach Art des Merkmals werden verschiedene statistische Methoden eingesetzt. Kapitel II – Deskriptive Statistik II - 2 Merkmale Quantitative Merkmale können weiterhin in diskrete und stetige Merkmale eingeteilt werden: – Diskrete Merkmale haben eine abzählbare Anzahl möglicher Ausprägungen. – Stetige Merkmale haben eine nicht abzählbare (= überabzählbare) Anzahl möglicher Ausprägungen. Merkmale mit endlich vielen Ausprägungen sind diskret, also sind auch qualitative und rangskalierte Merkmale diskret. Manche Merkmale können, je nach Kontext, sowohl als stetig als auch als diskret betrachtet werden (z.B. Alter und Geld): – Stetige Merkmale, die stark abgerundet sind, werden auch als diskret betrachtet. – Diskrete Merkmale, die viele Ausprägungen haben, werden auch als stetig betrachtet. Kapitel II – Deskriptive Statistik II - 3 Merkmale Beispiel 2.1 („6 Kinder mit 3 Merkmalen“): Folgende Merkmale von 6 Kindern wurden aufgezeichnet: – Merkmal 1: Geschlecht (nominal-skaliert) – Merkmal 2: Reaktion auf Fischgerichte (ordinal-skaliert) – Merkmal 3: Alter (quantitative Variable) Zusammenfassende Darstellung der Daten: Merkmal / Kind Geschlecht (nominal) Reaktion auf Fischgerichte (ordinal) Alter (quantitativ) Kapitel II – Deskriptive Statistik Lars Laura Tilman Tina Julia Leon M W M W W M º∙ ¹¸ 13 º∙ ¥ ¹̈¸ 13 º∙ §¦ ¹¸ 15 º∙ §¦ ¹¸ 15 º∙ §¦ ¹¸ 15 º∙ ¹¸ 16 II - 4 Häufigkeiten Für das Alter wurden 6 Werte aufgezeichnet, darunter sind aber nur 3 unterschiedliche Werte : x1 = 13, x2 = 15, x3 = 16. Diese Werte kommen mit unterschiedlichen Häufigkeiten Ni vor: N1 = 2, N2 = 3, N3 = 1. Die Summe der Häufigkeiten, also die Anzahl der Mitglieder der Grundgesamtheit, wird mit N bezeichnet: N = N1 + N2 + N3 = 3 X Ni = 2 + 3 + 1 = 6 . i=1 Die relativen Häufigkeiten sind die Anteile Ni / N : N1/N = 2/6, Kapitel II – Deskriptive Statistik N2/N = 3/6, N3/N = 1/6. II - 5 Häufigkeiten Die kumulierten absoluten Häufigkeiten zeigen, wie viele Werte der Grundgesamtheit kleiner oder gleich einem bestimmten Wert xi sind: K1 = N1 = 2 , K2 = N1 + N2 = 2 + 3 = 5 , K3 = N1 + N2 + N3 = 2 + 3 + 1 = 6 . Also ist Ki = i P j=1 Nj für i = 1, 2, 3. Die kumulierten relativen Häufigkeiten sind als Ki / N, i = 1, 2, ..., k, definiert: K1/N = 2/6, Kapitel II – Deskriptive Statistik K2/N = 5/6, K3/N = 6/6. II - 6 Häufigkeiten Tabellarische Zusammenfassung der Häufigkeitsarten für die Grundgesamtheit der 6 Kinder: i Alter Alter (xi) abs. Häufigk. (Ni) rel. Häufigk. (Ni/N ) kum. abs. Häufigk. (Ki) kum. rel. Häufigk. (Ki/N ) 1 2 3 13 15 16 2 3 1 2/6 3/6 1/6 2 5 6 2/6 5/6 6/6 Die absoluten und relativen Häufigkeiten können als Säulendiagramm dargestellt werden. Die kumulierten absoluten oder relativen Häufigkeiten werden als Treppenkurve dargestellt. Kapitel II – Deskriptive Statistik II - 7 Grafische Darstellungen Säulendiagramme zeigen auf der x - Achse die möglichen Werte und auf der y - Achse die entsprechenden Häufigkeiten: 6 1.0 5 relative Häufigkeit 0.8 Häufigkeit 4 3 2 0.6 0.4 0.2 1 0 0.0 10 11 12 13 14 15 16 17 18 19 20 10 11 12 13 14 15 16 17 18 19 20 Alter Alter Zur Darstellung relativer Häufigkeiten wird nur die Skala der y - Achse geändert. Kapitel II – Deskriptive Statistik II - 8 Grafische Darstellungen Kumulierte Häufigkeiten werden als Treppenkurve dargestellt; auch hier erhält man durch eine Transformation der y - Achse die Treppenkurve der kumulierten relativen Häufigkeiten: 6 kumulierte relative Häufigkeit 1.0 kumulierte Häufigkeit 5 4 3 2 0.8 0.6 0.4 0.2 1 0 0.0 10 11 12 13 14 15 16 17 18 19 20 10 11 12 13 14 15 16 17 18 19 20 Alter Alter Kapitel II – Deskriptive Statistik II - 9 Statistiken Kennzahlen beschreiben den Datensatz auf jeweils unterschiedliche zusammenfassende Art. Solche Kennzahlen werden als Statistiken bezeichnet. Lage-Statistiken beschreiben „typische Werte“ (d.h. die Lage) der Beobachtungen: – Mittelwert , – Modalwert und – Median . Streuungsparameter beschreiben die Streuung der Beobachtungen: – Spannweite, – Varianz und Standardabweichung . Kapitel II – Deskriptive Statistik II - 10 Lage-Statistiken Der Mittelwert wird mit µ oder Ma bezeichnet; in unserem Beispiel erhalten wir für das Alter folgenden Mittelwert: μ (oder Ma) = (13 + 13 + 15 + 15 + 15 + 16)/6 = (2 · 13 + 3 · 15 + 1 · 16)/6 = 87/6 = 14.5 . Das durchschnittliche Alter (d.h. der Mittelwert) liegt bei 14.5 Jahren. Mit den bereits vorgestellten Symbolen erhält man folgenden Ausdruck: 3 1 X μ = (N1 · x1 + N2 · x2 + N3 · x3)/N = Nixi . N i=1 Im allgemeinen Fall (d.h. bei k statt nur 3 möglicher Werte) ergibt sich für den Mittelwert: k 1 X μ= N i xi . N i=1 Kapitel II – Deskriptive Statistik II - 11 Lage-Statistiken Der Modalwert MM ist definiert als der am häufigsten vorkommende Wert. In unserem Beispiel kommt das Alter 15 am häufigsten vor, d.h.: MM = 15 . Der Modalwert (als Wert mit der größten Häufigkeit) sagt etwas über die Lage der Daten aus. In manchen Fällen kann es mehr als einen Modalwert geben, z.B. bei 13 13 15 15 15 16 16 16 sind die 15 und die 16 die häufigsten Werte, da beide drei Mal vorkommen. Folglich ist hier der Modalwert nicht eindeutig. Kapitel II – Deskriptive Statistik II - 12 Lage-Statistiken Der Median (bzw. Zentralwert) MZ ist der Wert, der „in der Mitte liegt“, wenn alle Werte der Größe nach geordnet sind. Falls N (die Anzahl der Beobachtungen) ungerade ist, gibt es genau einen Wert, der in der Mitte liegt. Falls N gerade ist, nimmt man den Mittelwert von den zwei Werten, die in der Mitte liegen. Für das Alter erhält man folgenden Median: geordnete Werte: 13 13 15 15 15 16 MZ = (15 + 15)/2 = 15 . Da (etwa) 50 % der Werte kleiner und 50 % der Werte größer als der Median sind, beschreibt dieser auch die Lage der Beobachtungen. Kapitel II – Deskriptive Statistik II - 13 Lage-Statistiken Die drei Statistiken Mittelwert, Modalwert und Median haben etwas mit dem Begriff „typischer Wert“ (d.h. Lage) zu tun. Jedoch beschreiben die drei Lage-Statistiken unterschiedliche Aspekte. Der Mittelwert lässt sich auch als Schwerpunkt der Werte in der Grundgesamtheit oder der Stichprobe auffassen: 13 14 14.5 15 16 Der Mittelwert muss keiner der ursprünglichen Werte sein. Kapitel II – Deskriptive Statistik II - 14 Lage-Statistiken Der Median hat die Eigenschaft, dass er nicht empfindlich auf Ausreißer (ungewöhnliche, extreme Werte) reagiert; der Median ist robust gegenüber Ausreißern. Der Unterschied zwischen Mittelwert und Median kann interessante Informationen liefern, z.B. wenn der Median des Einkommens einer bestimmten Region 125 $ bei einem Mittelwert von 2050 $ beträgt. Wird ein Mitglied zufällig aus der Grundgesamtheit ausgewählt, so hat man mit dem Modalwert die besten Chancen für eine richtige Voraussage. Kapitel II – Deskriptive Statistik II - 15 Streuungsparameter Die Spannweite bzw. Spanne ist als Differenz zwischen dem größten und dem kleinsten Wert definiert: Spanne = max(xi) − min(xi) . Die Spanne ist nicht robust gegen Ausreißer, sie kann täuschen, wenn es ungewöhnlich extreme Werte in der Population gibt. Ein weiterer, wichtiger Streuungsparameter ist die Varianz σ 2. Zur Betrachtung der Varianz definieren wir die Werte des Alters wie folgt: z1 = 13 = x1, z2 = 13 = x1 z3 = 15 = x2, z4 = 15 = x2, z5 = 15 = x2 z6 = 16 = x3 Kapitel II – Deskriptive Statistik II - 16 Streuungsparameter Die Abweichungen der einzelnen Werte vom Mittelwert charakterisieren die Streuung der Daten: z1 − μ = 13 − 14.5 = −1.5 z2 − μ = 13 − 14.5 = −1.5 z3 − μ = 15 − 14.5 = 0.5 z5 − μ = 15 − 14.5 = 0.5 z4 − μ = 15 − 14.5 = 0.5 z6 − μ = 16 − 14.5 = 1.5 Dabei ist die Summe der Abweichungen gleich Null, da sich die Werte gegenseitig aufrechnen: S= 6 X (zi − μ) = 0 . i=1 Kapitel II – Deskriptive Statistik II - 17 Streuungsparameter Alternativ können die quadratischen Abweichungen betrachtet werden: (z1 − μ)2 = (13 − 14.5)2 = (−1.5)2 = 2.25 (z2 − μ)2 = (13 − 14.5)2 = (−1.5)2 = 2.25 (z3 − μ)2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z5 − μ)2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z4 − μ)2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z6 − μ)2 = (16 − 14.5)2 = (1.5)2 = 2.25 Die Summe der quadratischen Abweichungen (SQ) ist gegeben durch: SQ = 6 X (zi − μ)2 = 7.5 . i=1 Kapitel II – Deskriptive Statistik II - 18 Streuungsparameter Der Durchschnitt der quadratischen Abweichungen beträgt SQ/N = 7.5/6 = 1.25 . Diese Zahl wird als Varianz bezeichnet, allgemein ist sie definiert als N 1 X 2 σ = (zi − μ)2 = 1.25 . N i=1 Alternativ lässt sich die Varianz in unserem Beispiel auch wie folgt berechnen: o 1n 2 2 2 2 · (13 − 14.5) + 3 · (15 − 14.5) + 1 · (16 − 14.5) 6 = 1.25 . σ2 = Kapitel II – Deskriptive Statistik II - 19 Streuungsparameter Somit kann die Varianz auch wie folgt definiert werden: 3 X 1 σ2 = Ni · (xi − μ)2 , N i=1 bzw. im allgemeinen Fall für k statt 3 unterschiedlicher Werte: k X 1 σ2 = Ni · (xi − μ)2 . N i=1 Die Berechnung der Varianz ist i.d.R. mit der folgenden Formel einfacher: ⎛ ⎞ k X 1 2 ⎠ σ2 = ⎝ Nix2 i −μ . N i=1 Die Wurzel aus der Varianz bezeichnet man als Standardabweichung σ : Standardabweichung = Kapitel II – Deskriptive Statistik √ Varianz . II - 20 Streuungsparameter Übersicht zur Berechnung der Varianz: N X 1 σ2 = (zi − μ)2 N i=1 k 1 X = Ni · (xi − μ)2 N i=1 ⎛ ⎞ k X 1 2 ⎠ = ⎝ Nix2 i −μ . N i=1 Kapitel II – Deskriptive Statistik II - 21 Streuungsparameter Berechnung der Varianz für das Alter: σ2 = 1 [(13 − 14.5)2 + (13 − 14.5)2 + (15 − 14.5)2 6 +(15 − 14.5)2 + (15 − 14.5)2 + (16 − 14.52)] 1 = [2 · (13 − 14.5)2 + 3 · (15 − 14.5)2 + 1 · (16 − 14.5)2] 6 = µ ¶ 1 [2 · 132 + 3 · 152 + 1 · 162] − 14.52 6 = 1.25 . Kapitel II – Deskriptive Statistik II - 22 Besonderheiten für nominal- und ordinal-skalierte Merkmale Gegenüberstellung von Merkmalsarten und deskriptiven Instrumenten: Geschlecht (nominal) Reaktion auf Fischgerichte (ordinal) Alter (quantitativ) ja ja ja kum. Häufigkeiten kum. rel. Häufigkeiten Treppenkurve nein ja ja Mittelwert nein nein ja Median nein ja ja ja ja ja Spanne nein ja ja Varianz Standardabweichung nein nein ja Häufigkeiten rel. Häufigkeiten Säulendiagramm Modalwert Kapitel II – Deskriptive Statistik II - 23 Besonderheiten für nominal- und ordinal-skalierte Merkmale Für das Merkmal Geschlecht erhalten wir folgende Häufigkeiten: Ausprägung männlich weiblich Häufigkeit relative Häufigkeit 3 3 0.5 0.5 Für das Merkmal „Reaktion auf Fischgerichte“ ergeben sich folgende Häufigkeiten: Ausprägung Häufigkeit º∙ ¥ ¹̈¸ kum. Häufigkeit rel. Häufigkeit kum. rel. Häufigk. 1 1 1/6 1/6 º∙ 2 3 2/6 3/6 º∙ 3 6 3/6 6/6 ¹¸ §¦ ¹¸ Kapitel II – Deskriptive Statistik II - 24 Besonderheiten für nominal- und ordinal-skalierte Merkmale Darstellung der absoluten Häufigkeiten und der kumulierten relativen Häufigkeiten als Säulendiagramm (links) und als Treppenkurve (rechts): 6/6 kumulierte relative Häufigkeit 5 Häufigkeit 4 3 2 1 4/6 3/6 2/6 1/6 0 0 Reaktion Kapitel II – Deskriptive Statistik 5/6 Reaktion II - 25 Besonderheiten für nominal- und ordinal-skalierte Merkmale Bestimmung des Medians und des Modalwertes von ordinal-skalierten Merkmalen am Beispiel des Merkmals „Reaktion auf Fischgerichte“: Die 6 Beobachtungen geordnet nach Größe (bzw. Präferenz) : º∙ º∙ º∙ º∙ º∙ º∙ ¥ §¦ §¦ §¦ ¹̈¸ ¹¸ ¹¸ ¹¸ ¹¸ ¹¸ Somit liegt der Median zwischen º∙ ¹¸ und º∙ §¦ ¹¸ . Der Modalwert, also der am häufigsten vorkommende Wert, ist in diesem Beispiel º∙ §¦ ¹¸ Kapitel II – Deskriptive Statistik . II - 26 Müsli Beispiel 2.2 („Anzahl gekaufter Müslipakete“): Betrachtet wird die Anzahl der von 2000 Konsumenten in einem Zeitraum von 13 Wochen gekauften Müslipakete: Anzahl Häufigk. rel. Häufigk. (%) kum. Häufigk. kum. rel. Häufigk. (%) 0 1 2 3 4 5 6 7 8 ... 30 39 52 1 149 199 129 87 71 43 49 46 44 ... 1 1 1 57.45 9.95 6.45 4.35 3.55 2.15 2.45 2.30 2.20 ... 0.05 0.05 0.05 1 149 1 348 1 477 1 564 1 635 1 678 1 727 1 773 1 817 ... 1 998 1 999 2 000 57.45 67.40 73,85 78.20 81.75 83.90 86.35 88.65 90.85 ... 99.90 99.95 100.00 Kapitel II – Deskriptive Statistik II - 27 Müsli Grafische Darstellung der Häufigkeiten als Säulendiagramm (links) und modifizierte Darstellung (rechts): 250 1200 1149 1000 200 Häufigkeit Häufigkeit 800 600 150 100 400 Zusätzliche Werte: 1x39 1x52 50 200 0 0 0 10 20 30 40 50 Anzahl gekaufter Müslipakete Kapitel II – Deskriptive Statistik 60 0 5 10 15 20 25 30 Anzahl gekaufter Müslipakete II - 28 Müsli Darstellung der kumulierten relativen Häufigkeiten als Treppenkurve: kumulierte relative Häufigkeit 1.0 0.9 0.8 0.7 0.6 0.5 0 5 10 15 20 25 Anzahl verkaufter Müslipakete Kapitel II – Deskriptive Statistik II - 29 Müsli Einige Statistiken für die Müsli-Untersuchung: Mittelwert: 2.3 – Im Durchschnitt kauften die Konsumenten 2.3 Pakete in 13 Wochen. – Wie muss eine geeignete Werbestrategie aussehen, um den Mittelwert von 2.3 auf 3.5 zu erhöhen? Säulendiagramm, Median oder Modalwert: – Der Mittelwert charakterisiert nicht den typischen Konsumenten. – Die meisten Konsumenten haben kein Müsli gekauft, weshalb? → Nie von Müsli gehört oder schlechtes Image? → Werbestrategie ändern, um Bekanntheitsgrad zu erhöhen oder das Image zu verbessern. – Es gibt einen Konsumenten, der sehr große Mengen kauft. Kapitel II – Deskriptive Statistik II - 30 Deskriptive Statistik für stetige Merkmale Histogramm der Brenndauer von Glühbirnen (Beispiel 1.12): 14 12 Häufigkeit 10 8 6 4 2 0 400 600 800 1000 1200 1400 1600 1800 Brenndauer (Stunden) – Auf der y - Achse ist die absolute Häufigkeit abgetragen, die für die Intervalle der x - Achse beobachtet wurden. – Alle Intervalle besitzen die gleiche Breite. Kapitel II – Deskriptive Statistik II - 31 Deskriptive Statistik für stetige Merkmale Beispiel 2.3 („Anbaufläche landwirtschaftlicher Betriebe“): Die folgende Tabelle zeigt die Häufigkeiten für Anbauflächen (in ha) in bestimmten Intervallen (landwirtschaftliche Betriebe in der Wesermarsch in 1995): Anbaufläche in ha xi Absolute Häufigkeit Ni 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 421 127 134 302 365 159 38 14 5 0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032 1 565 1.0000 Summe Kapitel II – Deskriptive Statistik Relative Häufigkeit Ni/N II - 32 Deskriptive Statistik für stetige Merkmale Darstellung der Größe landwirtschaftlicher Anbauflächen als Säulendiagramm: 400 Diese Darstellung Häufigkeit 300 ist irreführend 200 100 0 0 20 40 60 80 100 120 140 160 180 200 Anbaufläche Kapitel II – Deskriptive Statistik II - 33 Deskriptive Statistik für stetige Merkmale Beim Säulendiagramm sind die Höhen der Rechtecke proportional zu den absoluten Häufigkeiten. Das Säulendiagramm gibt einen verfälschten Eindruck, da die Klassen unterschiedlich breit sind. Das Auge assoziiert die Fläche mit der Häufigkeit und nicht die Höhe. Die absoluten Häufigkeiten sind durch die entsprechenden Klassenbreiten zu dividieren. – Dann entspricht die Fläche einer Säule der absoluten bzw. relativen Häufigkeit. Ein Histogramm ist eine flächenproportionale Darstellung der Häufigkeiten. Kapitel II – Deskriptive Statistik II - 34 Deskriptive Statistik für stetige Merkmale Zwei unterschiedliche Säulendiagramme für identische Daten: Fall A: Klassen gleich breit 3.0 2.5 2.5 2.0 2.0 Häufigkeit Häufigkeit 3.0 1.5 1.5 1.0 1.0 0.5 0.5 0.0 0.0 0.0 0.5 1.0 1.5 Werte Kapitel II – Deskriptive Statistik 2.0 Fall B: Klassen unterschiedlich breit 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Werte II - 35 Deskriptive Statistik für stetige Merkmale Histogramme der Anbauflächen mit absoluten (oben) und relativen (unten) Häufigkeiten: Häufigkeit / Klassenbreite 40 Gesamtfläche = N = 1565 30 20 10 0 0 20 40 60 80 100 120 140 160 180 200 140 160 180 200 relative Häufigkeit / Klassenbreite Anbaufläche 0.025 Gesamtfläche = 1 0.020 0.015 0.010 0.005 0.000 0 20 40 60 80 100 120 Anbaufläche Kapitel II – Deskriptive Statistik II - 36 Deskriptive Statistik für stetige Merkmale Die Konstruktion eines Histogramms ergibt sich wie folgt: Höhe der Rechtecke = Häufigkeit/Klassenbreite Höhe des i-ten Rechtecks = Ni/bi für i = 1, 2, . . . , k, (bi: Breite der Klasse i.) Tabelle zur Konstruktion eines Histogramms der Anbaufläche: xi Ni Ni/N bi Ni/bi (Ni/N )/bi 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 421 127 134 302 365 159 38 14 5 0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032 10 10 10 20 25 25 25 25 50 42.10 12.70 13.40 15.10 14.60 6.36 1.52 0.56 0.10 0.0269 0.0081 0.0086 0.0096 0.0093 0.0041 0.0010 0.0004 0.0001 Kapitel II – Deskriptive Statistik II - 37 Deskriptive Statistik für stetige Merkmale Histogramme können zur Schätzung von absoluten und relativen Häufigkeiten verwendet werden. Bei absoluten Häufigkeiten ist die Fläche des Histogramms gleich N, somit kann diese Skala zur Schätzung von Häufigkeiten benutzt werden: – Die Anzahl der Anbauflächen zwischen z.B. 80 und 110 ha wird durch die Fläche über diesem Intervall geschätzt: 6.36 · 20 + 1.52 · 10 = 142.2 Bei relativen Häufigkeiten ist die Fläche des Histogramms gleich Eins. – Der Anteil der Anbauflächen zwischen z.B. 80 und 110 ha wird durch die Fläche über diesem Intervall geschätzt: 0.0041 · 20 + 0.001 · 10 = 0.092 = 9.2 % der Betriebe. R-Befehle für Histogramme: hist(x) hist(x, prob = TRUE) Kapitel II – Deskriptive Statistik # absolute Häufigkeiten # relative Häufigkeiten II - 38 Deskriptive Statistik für stetige Merkmale Anzahl und Anteil von Anbauflächen zwischen 80 und 110 ha: Häufigkeit / Klassenbreite 40 30 Fläche = 142.4 20 10 0 0 20 40 60 80 100 120 140 160 180 200 180 200 relative Häufigkeit / Klassenbreite Anbaufläche 0.025 0.020 Fläche = 0.092 = 9.2% 0.015 0.010 0.005 0.000 0 20 40 60 80 100 120 140 160 Anbaufläche Kapitel II – Deskriptive Statistik II - 39 Deskriptive Statistik für stetige Merkmale Das Pendant zur Treppenkurve im diskreten Fall ist die Summenkurve für stetige Daten: Die Summenkurve kumuliert die Fläche unter dem Histogramm von links nach rechts. Übersicht über die grafische Darstellung von Häufigkeiten für diskrete bzw. stetige Merkmale: Häufigkeiten kumulierte Häufigkeiten Kapitel II – Deskriptive Statistik Diskrete Merkmale Stetige Merkmale Säulendiagramm Treppenkurve Histogramm Summenkurve II - 40 Deskriptive Statistik für stetige Merkmale Tabelle zur Konstruktion der Summenkurve für die Anbaufläche: xi Ni Ni/N Ki 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 421 127 134 302 365 159 38 14 5 0.2690 0.0812 0.0856 0.1930 0.2332 x 0.1016 0.0243 0.0089 0.0032 421 548 682 984 1 349 1 508 1 546 1 560 1 565 Ki/N 0.2690 0.3502 0.4358 0.6288 0.8620 0.9636 0.9879 0.9968 1.0000 Der Wert der Summenkurve an der Stelle x ist gleich der Fläche unter dem Histogramm im Bereich (− ∞, x] . Kapitel II – Deskriptive Statistik II - 41 Deskriptive Statistik für stetige Merkmale relative Häufigkeit / Klassenbreite Bestimmung des Anteils der Betriebe mit einer Fläche kleiner oder gleich 40 ha: 0.025 0.020 Fläche = 0.53 0.015 0.010 0.005 0.000 0 20 40 60 80 100 120 140 160 180 200 120 140 160 180 200 Anbaufläche kum. rel. Häufigkeit 1.0 0.8 0.6 0.53 0.4 0.2 0.0 0 20 40 60 80 100 Anbaufläche Ca. 53 % (0.53) der Betriebe sind kleiner oder gleich 40 ha. Kapitel II – Deskriptive Statistik II - 42 Deskriptive Statistik für stetige Merkmale relative Häufigkeit / Klassenbreite Anteil der Betriebe zwischen 80 und 110 ha: 0.025 0.020 0.015 Fläche = 0.09 0.010 0.005 0.000 0 20 40 60 80 100 120 140 160 180 200 120 140 160 180 200 kum. rel. Häufigkeit Anbaufläche 0.97 1.0 0.88 0.8 0.6 0.4 0.2 0.0 0 20 40 60 80 100 Anbaufläche Ca. 9 % (0.97 – 0.88 = 0.09) der Betriebe. Kapitel II – Deskriptive Statistik II - 43 Statistiken für stetige Daten Der Modalwert kann für stetige Daten die nur in Gruppen vorliegen nicht bestimmt werden. Die Modalklasse ist die Klasse mit den meisten Beobachtungen je x - Einheit, d.h. die Modalklasse besitzt das höchste Rechteck des Histogramms, wenn durch die Klassenbreite dividiert wurde. Da die Ausgangsdaten nicht vorliegen, kann auch der Median nicht exakt bestimmt werden. Der Median kann mit der Summenkurve geschätzt werden: Der Median ist der x - Wert, für den die Summenkurve den Wert 0.5 annimmt. Für die Anbauflächen ergibt sich ein Median von 36.65 ha, d.h. die Hälfte der Betriebe besitzt eine Anbaufläche kleiner/gleich 36.65 ha. Kapitel II – Deskriptive Statistik II - 44 Statistiken für stetige Daten Die Hälfte (= 50 %) der Betriebe besitzt eine Anbaufläche kleiner oder gleich dem Median. Die Quartile sind analog konzipiert: Das 1. Quartil (Symbol Q1) ist der x - Wert, für den die Summenkurve den Wert 0.25 annimmt; d.h. 25 % der Werte sind kleiner/gleich Q1. Das 2. Quartil (Symbol Q2) ist der Median. Das 3. Quartil (Symbol Q3) ist der x - Wert, für den die Summenkurve den Wert 0.75 annimmt; d.h. 75 % der Werte sind kleiner/gleich Q3. Kapitel II – Deskriptive Statistik II - 45 Statistiken für stetige Daten Bestimmung der Quartile für die Anbaufläche: 1.0 0.8 kum. rel. Häufigkeit 0.75 0.6 0.5 1. Quartil = 9.3 0.4 Median = 36.7 3. Quartil = 63.0 0.25 0.2 0.0 0 20 Q1 40 Median 60 80 100 120 140 160 180 200 Q3 Anbaufläche Kapitel II – Deskriptive Statistik II - 46 Boxplots Eine weitere Möglichkeit zur Darstellung von stetigen Daten sind Boxplots. Es besteht eine enge Verbindung zu dem Konzept der Quartile. 240 Rechts ist ein Boxplot der Blockzeiten (Beispiel 1.2) dargestellt. Das erste und das dritte Quartil bestimmen die Grenzen der Box. Der Median ist als horizontaler Strich in der Box eingezeichnet. Maxima und Minima werden als als horizontaler Strich bzw. als Punkte dargestellt. Ausreißer werden als Punkte dargestellt. Kapitel II – Deskriptive Statistik Blockzeit (Minuten) 220 200 180 160 140 II - 47 Boxplots Boxplots sind besonders nützlich zum Vergleich von Verteilungen, z.B. zum Vergleich der Blockzeiten für Hin- und Rückflüge: 300 280 Blockzeit (Minuten) 260 240 220 200 180 160 140 DFW - PHL Kapitel II – Deskriptive Statistik PHL - DFW II - 48 Boxplots Darstellung der Ankunftsverspätung in Abhängigkeit vom Wochentag (Flüge von Dallas nach Philadelphia): Ankunftsverspätung (Minuten) 100 80 60 40 20 0 -20 Mo Kapitel II – Deskriptive Statistik Di Mi Do Fr Sa So II - 49 Statistiken für gruppierte Daten Der Mittelwert lässt sich für gruppierte Daten nicht exakt bestimmen. Den Mittelwert kann man aber approximieren, indem man sich vorstellt, dass die Werte einer Klasse durch den Wert, der in der Mitte liegt, „gut“ repräsentiert werden: Repräsentativer Wert für die Klasse i: xM i k 1 X μ= NixM i . N i=1 Analog lässt sich auch die Varianz bei gruppierten Daten approximativ bestimmen: k ³ ´2 X 1 2 M σ = Ni xi − μ N i=1 Kapitel II – Deskriptive Statistik bzw. ⎛ ⎞ k ³ ´2 X N i 2 M ⎠ − μ2 . σ =⎝ xi i=1 N II - 50 Statistiken für gruppierte Daten Bestimmung des approximativen Mittelwertes der⎞Anbaufläche: ⎛ 9 9 X 1 X Ni M ⎠ M ⎝ xi μ = Ni x i oder μ = N i=1 i=1 N 1 (421 · 5 + 127 · 15 + . . . + 14 · 137.5 + 5 · 175) ≈ 40.4ha = 1565 Arbeitstabelle zur Berechnung des approximativen Mittelwertes: xi Ni/N 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032 5.0 15.0 25.0 40.0 62.5 87.5 112.5 137.5 175.0 Ni/N · xM i 1.3450 1.2173 2.1406 7.7188 14.5767 8.8898 2.7316 1.2300 0.5591 1.0000 – 40.4090 Summe Kapitel II – Deskriptive Statistik xM i II - 51 Statistiken für gruppierte Daten Berechnung der approximativen Varianz der Anbaufläche: k X Ni ³ M ´2 2 σ = xi − μ2 i=1 N 421 127 = · 52 + · 152 + . . . + 14 5 · 137.52 + · 1752 − 40.4092 1565 1565 1565 1565 = 2650.431 − 40.4092 ≈ 1017.5ha2 . Arbeitstabelle zur Berechnung der approximativen Varianz: ³ ´2 M xi xi Ni/N xM i 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032 5.0 15.0 25.0 40.0 62.5 87.5 112.5 137.5 175.0 25.00 225.00 625.00 1 600.00 3 906.25 7 656.25 12 656.25 18 906.25 30 625.00 1.0000 – – Summe Kapitel II – Deskriptive Statistik ³ ´2 M Ni/N · xi 6.7250 18.2588 53.5144 308.7540 911.0423 777.8554 307.3083 169.1294 97.8435 2 650.4310 II - 52 Notation in Grundgesamtheit und Stichprobe Die betrachteten Methoden gelten sowohl für Grundgesamtheiten als auch für Stichproben. Die Notation wird allerdings bezüglich des betrachteten Sachverhalts unterschieden: Statistik Mittelwert Varianz Kapitel II – Deskriptive Statistik Grundgesamtheit μ σ2 Stichprobe μ̂ σ̂ 2 oder oder x̄ s2 II - 53 Kapitel 3 Den Zufall quantifizieren – Wahrscheinlichkeiten Kapitel III – Wahrscheinlichkeiten III - 0 Wahrscheinlichkeiten Wahrscheinlichkeiten – Den Zufall quantifizieren Viele interessierende Phänomene sind eher stochastischer als deterministischer Art. Bei stochastischen Phänomenen sind zufällige Variation und Ungewissheit, im Sinne des englischen Wortes „uncertainty“, beteiligt. Wir können stochastische Phänomene durch Wahrscheinlichkeiten beschreiben. Kapitel III – Wahrscheinlichkeiten III - 1 Gliederung Gliederung: Zufallsexperimente, Ereignismenge, Ergebnisse, zufällige Ereignisse. Definition der Wahrscheinlichkeit. Berechnung der Wahrscheinlichkeit. Interpretation der Wahrscheinlichkeit. Bedingte Wahrscheinlichkeiten. Unabhängigkeit. Kapitel III – Wahrscheinlichkeiten III - 2 Wahrscheinlichkeiten Wahrscheinlichkeiten im täglichen Sprachgebrauch: „Es ist unwahrscheinlich, dass es morgen regnet.“ „Deutschland hat eine Chance, Weltmeister zu werden.“ „Es ist sicherer, mit einem Flugzeug als mit einem Auto zu reisen.“ „Alle, die fleißig üben, können zu 99 % sicher sein, die Klausur zu bestehen.“ Kapitel III – Wahrscheinlichkeiten III - 3 Zufallsexperiment Ein Zufallsexperiment ist ein „gedachtes“ oder tatsächliches Experiment, dessen Ausgang nicht mit Sicherheit vorhergesagt werden kann. Die Menge aller möglichen Ausgänge eines Zufallsexperiments heißt Ergebnismenge und wird mit dem Symbol Ω bezeichnet. Teilmengen der Ergebnismenge Ω werden zufällige Ereignisse genannt. Beispiel: Würfel Ω = {1, 2, 3, 4, 5, 6, } A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6} F = {Die Augenzahl ist Fünf} = {5} Beispiel: Glühbirne Ω = {x|x ≥ 0} = [0, ∞) B = {Die Brenndauer ist länger als 500 Stunden} = (500, ∞) D = {Die Brenndauer liegt unter 200 Stunden} = [0, 200) Kapitel III – Wahrscheinlichkeiten III - 4 Zufallsexperiment Beispiele für Zufallsexperimente: Eine normale Münze mit zwei Ausgängen: Ω = {Kopf,Zahl} Ein normaler Würfel mit sechs Ausgängen: Ω = {1,2,3,4,5,6,} Eine Münze, die so dick ist, dass sie auch auf der Kante landen kann: Ω = {Kopf,Zahl,Kante} Ein Flug nach Rom mit zwei Ausgängen: Ω = {Ich lande in Rom, Ich lande nicht in Rom} Anzahl der Fahrraddiebstähle, die im Jahr 2001 in Göttingen begangen wurden: Ω = {0,1,2,3,...} Die Brenndauer einer Glühbirne, die überabzählbar viele mögliche Ausgänge hat: Ω = {x|x ≥ 0} = [0, ∞) Kapitel III – Wahrscheinlichkeiten III - 5 Ereignisse Ω heißt (auch) sicheres Ereignis. Elemente von Ω heißen (auch) Ergebnisse. Die leere Menge ∅ heißt unmögliches Ereignis. Eine Teilmenge A von Ω heißt zufälliges Ereignis. Man sagt, das Ereignis A sei eingetreten, wenn der Ausgang des Zufallsexperiments einem Element der Teilmenge A entspricht. Bezeichnungen in der Mengenlehre und der Wahrscheinlichkeitsrechnung: Mengenlehre Wahrscheinlichkeitsrechnung Element Menge Gesamtmenge leere Menge Ergebnis zufälliges Ereignis sicheres Ereignis oder Ergebnismenge unmögliches Ereignis Kapitel III – Wahrscheinlichkeiten III - 6 Elementarereignisse Zufällige Ereignisse, die nur aus einem Element bestehen, heißen Elementarereignisse. Ergebnismenge mit n (endlich vielen) Ausgängen: Ergebnismenge: Ω = {e1, e2, ..., en} Elementarereignisse: {e1}, {e2}, . . . , {en} Ergebnismenge und Elementarereignisse im Würfelbeispiel: Ergebnismenge: Ω = {1, 2, 3, 4, 5, 6} Elementarereignisse: {1} {2} {3} {4} {5} {6} Kapitel III – Wahrscheinlichkeiten III - 7 Komplementäres Ereignis Das komplementäre Ereignis Ā eines Ereignisses A tritt genau dann ein, wenn A nicht eintritt. In manchen Büchern wird Ac oder auch A′ statt Ā geschrieben. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} D̄ = {2, 4, 6} F = {5, 6} ∅ = {} Kapitel III – Wahrscheinlichkeiten F̄ = {1, 2, 3, 4} ¯ = Ω = {1, 2, 3, 4, 5, 6} ∅ III - 8 Teilmenge Wenn jedes a ∈ A auch in B liegt, schreibt man A ⊂ B und sagt, A ist eine Teilmenge von B, oder auch A impliziert B. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} D impliziert E D ⊂E F impliziert E F ⊂ E G impliziert D nicht G 6⊂ D Kapitel III – Wahrscheinlichkeiten F = {5, 6} G = {2, 4} III - 9 Durchschnitt Der Durchschnitt A ∩ B zweier Ereignisse tritt genau dann ein, wenn A und B gleichzeitig eintreten. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} F = {5, 6} G = {2, 4} D ∩ E = {1, 3, 5} F ∩ D = {5 } F ∩G = ∅ Kapitel III – Wahrscheinlichkeiten III - 10 Vereinigung Die Vereinigung A ∪ B zweier Ereignisse tritt genau dann ein, wenn A oder B eintritt. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} F = {5, 6} G = {2, 4} D ∪ E = {1, 3, 5, 6} F ∪ G = {2, 4, 5, 6} E ∪ G = {1, 2, 3, 4, 5, 6} = Ω Kapitel III – Wahrscheinlichkeiten III - 11 Differenz Die Differenz zweier Ereignisse A \ B = A ∩ B̄ tritt ein, wenn A aber nicht B eintritt. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} F = {5, 6} G = {2, 4} E \ D = {6} D\E = ∅ F \ G = {5, 6} Kapitel III – Wahrscheinlichkeiten III - 12 Disjunkte Ereignisse Zwei Ereignisse heißen disjunkt, wenn ihr Durchschnitt leer ist, die Ereignisse sich also gegenseitig ausschließen. Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} F = {5, 6} E ∩ G = ∅, d.h. E und G sind disjunkt. F ∩ G = ∅, d.h. F und G sind disjunkt. D ∩ E = {1, 3, 5} 6= ∅, Kapitel III – Wahrscheinlichkeiten G = {2, 4} d.h. D und E sind nicht disjunkt. III - 13 Wahrscheinlichkeit Eine Wahrscheinlichkeit ist eine Funktion P, die allen Ereignissen aus Ω eine reelle Zahl zuordnet. Dabei muss P die drei folgenden Axiome erfüllen: A1: 0 ≤ P (A) ≤ 1 A2: P (Ω) = 1 A3: Wenn A ∩ B = ∅, gilt P (A ∪ B) = P (A) + P (B) Beispiele mit Ω = {1, 2, 3, 4, 5, 6}: D = {1, 3, 5} E = {1, 3, 5, 6} F = {5, 6} G = {2, 4} Da F ∩ G = ∅, gilt P (F ∪ G) = P (F ) + P (G) = P ({5, 6}) + P ({2, 4}) Kapitel III – Wahrscheinlichkeiten III - 14 Beispiel: Münzwurf Betrachtet wird eine Münze mit zwei Ausgängen: Ω = {Kopf, Zahl}. Wahrscheinlichkeiten für Ereignisse: Ereignisse ∅ {Kopf} {Zahl} Ω Wahrscheinlichkeit P (∅) P ({Kopf}) P ({Zahl}) P (Ω) Fall 1 0.0 0.5 0.5 1.0 ok Fall 2 0.0 0.6 0.4 1.0 ok Fall 3 0.0 0.0 1.0 1.0 ok Fall 4 0.0 0.5 0.6 1.0 falsch Fall 5 0.1 0.4 0.5 1.0 falsch Kapitel III – Wahrscheinlichkeiten III - 15 Endlicher Ergebnisraum Bei endlichen Ergebnismengen reicht es aus, wenn man die Wahrscheinlichkeiten für die Elementarereignisse kennt. Alle anderen Wahrscheinlichkeiten kann man dann nach Axiom A3 berechnen. Beispiel Elemente (n) Münze Würfel Dicke-Münze Flug nach Rom (n = 2) (n = 6) (n = 3) (n = 2) Ω = {e1, e2, . . . , en} {Kopf, Zahl} {1,2,3,4,5,6} {Kopf, Zahl, Kante} {Ich lande in Rom, ich lande da nicht} Zu überprüfen ist: A1: 0 ≤ P ({ei}) ≤ 1 A2: P ({e1}) + P ({e2}) + ... + P ({en}) = 1 Kapitel III – Wahrscheinlichkeiten für i = 1, 2, . . . , n III - 16 Beispiel: Würfelexperiment Beispiel: Ω = {1, 2, 3, 4, 5, 6}. Elementarereignisse: {1} {2} {3} {4} {5} {6} Wahrscheinlichkeiten P : 0.1 0.3 0.1 0.4 0.1 0.0 Mit den Wahrscheinlichkeiten der Elementarereignisse können die Wahrscheinlichkeiten aller anderen Ereignisse berechnet werden, z.B.: P ({1, 2, 6}) = P ({1})+P ({2})+P ({6}) = 0.1+0.3+0.0 = 0.4 Kapitel III – Wahrscheinlichkeiten III - 17 Folgerungen aus den Axiomen Satz: P (Ā) = 1 − P (A) Beispiel: Ω = {1, 2, 3, 4, 5, 6} Elementarereignisse: {1 } { 2} {3 } {4 } { 5} {6 } Wahrscheinlichkeiten P : 1/6 1/6 1/6 1/6 1/6 1/6 A = {2, 4, 6} P (A) = 1/6 + 1/6 + 1/6 = 3/6 P (Ā) = 1 − P (A) = 1 - 3/6 = 3/6 B = {2, 3} P (B) = 1/6 + 1/6 = 2/6 P (B̄) = 1 − P (B) = 1 - 2/6 = 4/6 Kapitel III – Wahrscheinlichkeiten III - 18 Folgerungen aus den Axiomen Satz: Falls B ⊂ A, so gilt P (B) ≤ P (A) Beispiel: Ω = {1, 2, 3, 4, 5, 6} Elementarereignisse: {1} {2 } {3} {4} { 5} {6 } Wahrscheinlichkeiten P : 1/6 1/6 1/6 1/6 1/6 1/6 A = {1, 3, 4} P (A) = 1/6 + 1/6 + 1/6 = 3/6 B = {1, 4} = 1/6 + 1/6 = 2/6 P (B) P (B) ≤ P (A) Kapitel III – Wahrscheinlichkeiten III - 19 Folgerungen aus den Axiomen Satz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beispiel: Ω = {1, 2, 3, 4, 5, 6} Elementarereignisse: {1} {2 } {3} {4} { 5} {6 } Wahrscheinlichkeiten P : 1/6 1/6 1/6 1/6 1/6 1/6 A = {2, 4, 6} P (A) = 3/6 B = {1, 4} P (B) = 2/6 A∩B = {4} P (A ∩ B) = 1/6 A∪B = {1, 2, 4, 6} P (A ∪ B) = 4/6 P (A ∪ B) = 4/6 = 3/6 + 2/6 - 1/6 Kapitel III – Wahrscheinlichkeiten III - 20 Wie berechnet man Wahrscheinlichkeiten? (1) Vermutungen (Annahmen und theoretische Überlegungen) (2) Erfahrungen (Beobachtungen) Beispiel: Eine normale Münze mit Ω = {Kopf, Zahl} . Annahme (Symmetrie): P ({Kopf}) = P ({Zahl}) . Axiome: P ({Kopf}) + P ({Zahl}) = 1 . Theoretische Überlegung: P ({Kopf}) = P ({Zahl}) = 1/2 . Beispiel: Ein normaler Würfel mit Ω = {1, 2, 3, 4, 5, 6} . Annahme (Symmetrie): Axiome: Theoretische Überlegung: Kapitel III – Wahrscheinlichkeiten Alle 6 Augenzahlen sind gleich wahrscheinlich. Die Summe aller sechs Wahrscheinlichkeiten muss eins sein. P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1/6 . III - 21 Symmetrische Zufallsexperimente Ein Zufallsexperiment heißt symmetrisch, wenn alle Elementarereignisse dieselbe Wahrscheinlichkeit besitzen. Gegeben ist eine Ergebnismenge mit n (endlich vielen) Ausgängen: Ω = {e1, e2, ..., en} Elementarereignisse: {e1}, {e2}, . . . , {en} Ergebnismenge: Wahrscheinlichkeiten im symmetrischen Zufallsexperiment: P ({ei}) = 1/n, i = 1, 2, . . . , n. Beispiele: Münzwurf, Würfel, Lotto, Roulette, Kartenspiele, ... Kapitel III – Wahrscheinlichkeiten III - 22 Beispiel: Wurf mit zwei Münzen Beispiel: Wurf mit zwei Münzen Ω = {(K, K), (K, Z), (Z, K), (Z, Z)} P ({(K, K)}) = P ({(K, Z)}) = P ({(Z, K)}) = P ({(Z, Z)}) = 1/4. A = {Mindestens eine der beiden Münzen zeigt ,,Kopf”} P (A) = P ({(K, K)}) + P ({(K, Z)}) + P ({(Z, K)}) = 1/4 + 1/4 + 1/4 = 3/4 der Elementarereignisse in A P (A) = Anzahl Anzahl der Elementarereignisse in Ω Kapitel III – Wahrscheinlichkeiten III - 23 Wahrscheinlichkeiten schätzen (1) Vermutungen (Annahmen und theoretische Überlegungen) (2) Erfahrungen (Beobachtungen) Wenn man das Zufallsexperiment unter gleichen (oder ähnlichen) Bedingungen wiederholen kann, dann kann man beobachten, wie oft das interessierende Ereignis eintritt und somit dessen Wahrscheinlichkeit schätzen. Kapitel III – Wahrscheinlichkeiten III - 24 Interpretation von Wahrscheinlichkeiten Wie interpretiere ich die Aussagen: – Die Wahrscheinlichkeit, dass eine Münze Kopf zeigt, ist 0.53. – Die Wahrscheinlichkeit, dass ich heil nach Rom komme, ist 0.9998. Erweiterung der Notation: Sachverhalt Ergebnismenge Ereignis Anzahl der Wiederholungen Absolute Häufigkeit von A Relative Häufigkeit von A Kapitel III – Wahrscheinlichkeiten Notation Ω A n n(A) hn(A) = n(A)/n III - 25 Beispiel: Würfel Ergebnismenge Ω = {1,2,3,4,5,6} A = {2,4,6} F = {5} A ∪ F = {2,4,5,6} n = 30 Wiederholungen: 624164134561411513141215652143 Häufigkeiten: n(A) = 13 Relative Häufigkeiten: hn(A) = 13 30 hn(A ∪ F ) = hn(A) + hn(F ) hn(Ω) = 30/30 = 1 hn(∅) = 0/30 = 0 Kapitel III – Wahrscheinlichkeiten n(F ) = 4 n(A ∪ F ) = 17 4 hn(F ) = 30 hn(A ∪ F ) = 17 30 (A ∩ F = ∅) III - 26 Eigenschaften relativer Häufigkeiten Relative Häufigkeiten erfüllen die Axiome der Wahrscheinlichkeit: a1) 0 ≤ hn(A) ≤ 1 a2) hn(Ω) = 1 a3) hn(A ∪ B) = hn(A) + hn(B), wenn A ∩ B = ∅ Kapitel III – Wahrscheinlichkeiten III - 27 Entwicklung der relativen Häufigkeiten Die relative Häufigkeit des Elementarereignisses 6 bei zunehmender Anzahl von Wiederholungen: Ergebnis 6 2 4 1 6 4 1 3 4 5 6 1 4 1 1 n({6}) 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 1 1 1 2 1 3 1 4 2 5 2 6 2 7 2 8 2 9 2 10 3 11 3 12 3 13 3 14 3 15 hn({6}) Ergebnis 5 1 3 1 4 1 2 1 5 6 5 2 1 4 3 n({6}) 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 3 16 3 17 3 18 3 19 3 20 3 21 3 22 3 23 3 24 4 25 4 26 4 27 4 28 4 29 4 30 hn({6}) Kapitel III – Wahrscheinlichkeiten III - 28 Relative Häufigkeit: Interpretation Pfad der relativen Häufigkeiten des Ergebnisses „sechs“: Ergebnis: 6 2 4 1 6 4 1 3 4 5 6 1 4 1 1 5 1 3 1 4 1 2 1 5 6 5 2 1 4 3 1.0 0.9 relative Häufigkeit 0.8 0.7 0.6 0.5 0.4 0.3 0.2 1/6 0.1 0.0 0 5 10 15 20 25 30 Anzahl der Würfe Kapitel III – Wahrscheinlichkeiten III - 29 Subjektive Interpretation Relative Häufigkeitsinterpretation: Die Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist der Wert P (A), auf den sich die relative Häufigkeit hn(A) bei wachsender Anzahl der Versuchswiederholungen einpendelt. Subjektive Interpretation: Wahrscheinlichkeiten sind nur subjektiv zu interpretieren. Wir wägen die Information, über die wir verfügen, ab. Eine Wahrscheinlichkeit repräsentiert, in welchem Grad/Maß wir an das Eintreten eines bestimmten Ereignisses glauben oder nicht. Kapitel III – Wahrscheinlichkeiten III - 30 Interpretationen beim Münzwurf Mittels relativer Häufigkeiten: – Wenn ich diese Münze viele Millionen mal werfen würde, dann wäre der Anteil von „Kopf“ ungefähr 1/2. Mittels der Subjektivisten: – Niemand wird diese Münze viele Millionen mal werfen. Also, was soll dieser Unsinn? – Wenn ich Ihnen 1 € gebe, falls „Kopf“ erscheint, wäre die Wette fair, wenn Sie mir 1 € geben, falls „Zahl“ erscheint. Kapitel III – Wahrscheinlichkeiten III - 31 Axiome der Wahrscheinlichkeit Eine Wahrscheinlichkeit ist eine Funktion P, die allen Ereignissen aus Ω eine reelle Zahl zuordnet, wobei die Funktion die drei folgenden Axiome erfüllen muss: A1 : 0 ≤ P (A) ≤ 1 A2 : P (Ω) = 1 A3 : Wenn A ∩ B = ∅ , gilt P (A ∪ B) = P (A) + P (B) Wenn es unendlich viele Ereignisse gibt, muss man A 3 verallgemeinern: A3 : Wenn A1, A2, A3, ... alle disjunkt sind, d.h. Ai ∩ Aj = ∅ für alle i, j, so gilt P (A1 ∪ A2 ∪ A3 ∪ . . .) = P (A1) + P (A2) + P (A3) + . . . Kapitel III – Wahrscheinlichkeiten III - 32 Bedingte Wahrscheinlichkeit und Unabhägigkeit Beispiel „Flug nach Rom“: Betrachtet wird die Chance gut, heil in Rom zu landen. Doch, – einer der Motoren macht ein merkwürdiges Geräusch und – der Pilot torkelt durch die Kabine und grölt Schlagerlieder. Die Chance, heil in Rom zu landen, ist gesunken. – Ich habe Zusatzinformationen bekommen, die die Wahrscheinlichkeit verändert haben. – Ich muss jetzt die Wahrscheinlichkeit unter Berücksichtigung dieser Zusatzinformation neu einschätzen. – Diese modifizierte Wahrscheinlichkeit, nennt man eine bedingte Wahrscheinlichkeit. Kapitel III – Wahrscheinlichkeiten III - 33 Flug nach Rom, Zusammenfassung Zufallsexperiment: Flug nach Rom. Ereignis von Interesse: Ich komme heil in Rom an. Erste Einschätzung: Meine Chance, heil anzukommen, ist gut (hohe Wahrscheinlichkeit). Zusatzinformationen: – Ein Motor scheint defekt zu sein. – Der Pilot ist zweifelhaft. Neue Einschätzung: Kapitel III – Wahrscheinlichkeiten Meine Chancen sind schlechter geworden (geringere bedingte Wahrscheinlichkeit). III - 34 Definition der bedingten Wahrscheinlichkeit Ergebnismenge Ω Zwei zufällige Ereignisse A und B, wobei P (B) > 0 Die bedingte Wahrscheinlichkeit von A, gegeben B, ist definiert durch: P (A ∩ B) P (A|B) = P (B) Kapitel III – Wahrscheinlichkeiten mit P (B) > 0. III - 35 Bedingte Wahrscheinlichkeiten beim Würfeln Beispiel: Ein normaler Würfel: Ω = {1, 2, 3, 4, 5, 6} A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6} B = {Die Augenzahl ist nicht 6} = {1, 2, 3, 4, 5} A = {2, 4, 6} B = {1, 2, 3, 4, 5} A ∩ B = {2, 4} P (A) = 3/6 P (B) = 5/6 P (A ∩ B) = 2/6 P (A ∩ B) 2/6 P (A|B) = = = 2/5 P (B) 5/6 Kapitel III – Wahrscheinlichkeiten III - 36 Interpretation der bedingten Wahrscheinlichkeit Beispiel: Ein normaler Würfel: Ω = {1, 2, 3, 4, 5, 6} A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6} Ich werfe einen fairen Würfel, zeige Ihnen nicht das Ergebnis und frage Sie: — Frage: Wie groß ist die Wahrscheinlichkeit, dass A eingetreten ist? — Antwort: P (A) = 3/6 Jetzt sage ich Ihnen: Das Ergebnis ist keine 6, d.h., das Ereignis B = {1, 2, 3, 4, 5} ist eingetreten. — Frage: Wie groß ist die Wahrscheinlichkeit, dass A eingetreten ist, wenn Sie wissen, dass B eingetreten ist? — Antwort: P (A|B) = 2/5 Kapitel III – Wahrscheinlichkeiten III - 37 Interpretation der bedingten Wahrscheinlichkeit Je nach Informationsstand ist die Wahrscheinlichkeit für das Ereignis A verschieden: • Ohne Zusatzinformation ist die Wahrscheinlichkeit von A: P (A) = 0.5 • Mit Zusatzinformation (nämlich dass B eingetreten ist) ist die Wahrscheinlichkeit von A gegeben B: P (A|B) = 0.4 Die bedingte Wahrscheinlichkeit von A gegeben B, ist also die korrigierte Wahrscheinlichkeit von A, wenn wir die zusätzliche Information haben, dass B eingetreten ist. Kapitel III – Wahrscheinlichkeiten III - 38 Weitere Beispiele Zusatzinformation: C = {Die Augenzahl ist kleiner gleich 3} = {1, 2, 3} ist eingetreten. A = {2, 4, 6} C = {1, 2, 3} A ∩ C = {2} P (A) = 3/6 P (C) = 3/6 P (A ∩ C) = 1/6 Bedingte Wahrscheinlichkeit: P (A|C) = Kapitel III – Wahrscheinlichkeiten P (A ∩ C) 1/6 = = 1/3 P (C) 3/6 III - 39 Weitere Beispiele Zusatzinformation: D = {Die Augenzahl ist 2 oder 4} = {2, 4} ist eingetreten. A = {2, 4, 6} D = {2, 4} A ∩ D = {2, 4} P (A) = 3/6 P (D) = 2/6 P (A ∩ D) = 2/6 Bedingte Wahrscheinlichkeit: P (A ∩ D) 2/6 P (A|D) = = =1 P (D) 2/6 Kapitel III – Wahrscheinlichkeiten III - 40 Weitere Beispiele Zusatzinformation: E = {Die Augenzahl ist ungerade} = {1, 3, 5} ist eingetreten. A = {2, 4, 6} E = {1, 3, 5} A∩E = ∅ P (A) = 3/6 P (E) = 3/6 P (A ∩ E) = 0 Bedingte Wahrscheinlichkeit für A gegeben E: P (A ∩ E) 0 P (A|E) = = =0 P (E) 3/6 Kapitel III – Wahrscheinlichkeiten III - 41 P (A) bei unterschiedlichen Zusatzinformationen P (A) bei unterschiedlichen Zusatzinformationen: Zusatzinformation Keine Zusatzinformation Das Ergebnis ist keine 6 Das Ergebnis ist kleiner gleich 3 Das Ergebnis ist 2 oder 4 Das Ergebnis ist eine ungerade Zahl Kapitel III – Wahrscheinlichkeiten P (A|Zusatzinformation) P (A) = 0.5 P (A|B) = 0.4 P (A|C) = 0.3̄ P (A|D) = 1.0 P (A|E) = 0.0 III - 42 Beispiel Wahrscheinlichkeiten sind wichtig für Lebensversicherer. A = Die Person wird das 65. Lebensjahr erreichen Annahme: P (A) = 0.7 Wie ändert sich diese Wahrscheinlichkeit unter den folgenden Zusatzinformationen? 1. Die Person hat bereits das 20. Lebensjahr erreicht. 2. Die Person isst ungesund, raucht täglich 60 Zigaretten und praktiziert Bungee-Jumping. 3. Die Person ist weiblich. 4. Die Person ist deutsch. 5. Die Person hat schwere Herzprobleme. Kapitel III – Wahrscheinlichkeiten III - 43 Zusammenfassung, Bedingte Wahrscheinlichkeit Zusammenfassung, bedingte Wahrscheinlichkeit: • (Unbedingte) Wahrscheinlichkeit: P (A): Wahrscheinlichkeit für das Eintreten des Ereignisses A. • Bedingte Wahrscheinlichkeit: P (A|B) = P (A ∩ B)/P (B) Zusatzinformation B ist eingetreten; Wahrscheinlichkeit für das Eintreten des Ereignisses A gegeben, dass das Ereignis B eingetreten ist. Was passiert, wenn die Zusatzinformation gar nichts bringt? Kapitel III – Wahrscheinlichkeiten III - 44 Was passiert, wenn die Zusatzinformation gar nichts bringt? Zwei-Münzen-Beispiel: Ich werfe zwei Münzen, einen Euro und einen Cent, die fair sind. Elementarereignisse: (KK), (KZ), (Z,K) (Z,Z) Ereignis: A = {Der Euro zeigt ,,Kopf”} P (A) = 2/4 = 0.5 Zusatzinformation: B = {Der Cent zeigt ,,Kopf”} . P (A|B) = (1/4) (1/2) = 0.5 Also P (A) = P (A|B) = 0.5 ! Kapitel III – Wahrscheinlichkeiten III - 45 Unabhängigkeit von Ereignissen Die Zusatzinformation B hat die Wahrscheinlichkeit nicht verändert. Gilt P (A|B) = P (A) , so sind die Ereignisse A und B unabhängig: P (A ∩ B) P (A|B) = P (B) P (A ∩ B) = P (A|B)P (B) Aus der Unabhängigkeit von A und B, d.h. P (A|B) = P (A), folgt somit P (A ∩ B) = P (A)P (B). Kapitel III – Wahrscheinlichkeiten III - 46 Alternative Definition der Unabhängigkeit Die Ereignisse A und B sind unabhängig, wenn P (A ∩ B) = P (A)P (B) . Wenn die Ereignisse A und B unabhängig sind, dann sind die folgenden Ereignisse auch unabhängig: – A und B̄, – Ā und B, – Ā und B̄. Kapitel III – Wahrscheinlichkeiten III - 47 Weitere Beispiele Ist das Ereignis, dass ein Mensch einen Herzinfarkt erleidet, unabhängig davon, ob dieser Mensch einen hohen Cholesterinspiegel hat? Ist die Menge verkaufter Güter unabhängig von dem Betrag, der für Werbung ausgegeben wird? Ist die Chance, einen bestimmten Arbeitsplatz zu erhalten, unabhängig vom Geschlecht? Mit anderen Worten, sind die bedingten Wahrscheinlichkeiten, dass eine Person einen Arbeitsplatz erhält, gegeben, dass die Person eine Frau bzw. ein Mann ist, die gleichen? Ist das Ereignis, an Krebs zu erkranken, unabhängig davon, ob sich in der Nähe ein Kernkraftwerk befindet? Kapitel III – Wahrscheinlichkeiten III - 48 Kapitel 4 Wie viel sind meine Aktien morgen wert – Verteilungen und ihre Eigenschaften Kapitel IV – Verteilungen und ihre Eigenschaften IV - 0 Zufallsvariablen und ihre Verteilung Übersicht: Einführung: – Was ist eine Zufallsvariable, – Beispiel einer diskreten Zufallsvariable, – Beispiel einer stetigen Zufallsvariable. Stetige Zufallsvariablen: – Dichtefunktion, – Verteilungsfunktion, – Beispiele. Diskrete Zufallsvariablen: – Wahrscheinlichkeitsfunktion, – Verteilungsfunktion, – Beispiele. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 1 Beispiel: Glühbirne Frage: Wie lange wird diese Glühbirne brennen? Antwort: – Bevor die Glühbirne benutzt wird: Eine Zufallsvariable. – Nachdem die Glühbirne kaputt ist: Eine gewöhnliche Zahl. Wahrscheinlichkeiten über mögliche Brenndauern der Glühbirne können mit Hilfe der Dichtefunktion beantwortet werden. Bei allen Dichtefunktionen ist die Fläche unter der Kurve eins. Um die Wahrscheinlichkeit eines Ereignisses zu berechnen, ermittelt man die Größe der Fläche unterhalb der Dichtefunktion. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 2 Zufallsvariablen Zufallsvariablen werden mit großen lateinischen Buchstaben bezeichnet: Z.B. X sei die Brenndauer meiner Glühbirne. Eigenschaften von X: X steht für eine Reihe von möglichen Werten, nämlich die Ergebnismenge. Das Verhalten von X kann durch Wahrscheinlichkeiten beschrieben werden. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 3 Weitere Beispiele für Zufallsvariablen Sei X die Anzahl der Krankenhausbetten, die im nächsten Monat in Göttingen benötigt werden. Sei Y das Alter, in dem Sie Ihr Studium beenden werden oder eine Anstellung bekommen oder auch in Rente gehen. Sei Z die Menge Öl (Weizen, Papier, Waschmittel), die im nächsten Jahr in Deutschland verbraucht wird. Sei V der Gewinn (der Umsatz, die Steuer) eines Unternehmens im nächsten Jahr. Sei U die Anzahl der Autos (Tennisschläger, Atomkraftwerke), die im nächsten Jahr verkauft werden. ... Kapitel IV – Verteilungen und ihre Eigenschaften IV - 4 Weitere Beispiele Es gibt auch Zufallsvariablen, die sich auf Ereignisse beziehen, die schon stattgefunden haben: Sei V die Anzahl der Personen in Deutschland, die gestern ein bestimmtes Fernsehprogramm gesehen haben. Sei X die Anzahl der Personen in Europa, die eine bestimmte Eigenschaft haben (z.B. Diabetes haben, ein Fahrrad besitzen, gestern Müsli gegessen haben, ein Buch gelesen haben, usw.) Sei Y der Anteil der Buchen in Niedersachsen, die durch sauren Regen geschädigt sind, die durch Rehe verbissen sind, die höher als 5 Meter sind, usw. Sei Z die gesamte Arbeitszeit, die gestern in Deutschland durch Krankheit verlorengegangen ist. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 5 Zufallsvariable Jedes der Beispiele kann auf ein Zufallsexperiment zurückgeführt werden. Das Ergebnis, an dem wir interessiert sind, kann nicht vorhergesagt werden. Das interessierende Ergebnis ist in jedem Fall ein numerischer Wert. Mathematisch können wir eine Zufallsvariable durch eine Funktion beschreiben, die jedem möglichen Ergebnis des zugehörigen Zufallsexperiments eine reelle Zahl zuordnet. Eine Zufallsvariable ist eine Funktion, die jedem möglichen Ergebnis eines Zufallsexperiments eine reelle Zahl zuordnet. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 6 Münzwurf-Spiel Ich werde eine faire Münze einmal werfen. Ω = {Kopf, Zahl}. Spielregeln: Zeigt die Münze Kopf, zahle ich Ihnen 1 €, zeigt die Münze Zahl, zahlen Sie mir 3 €. Wie hoch ist mein Gewinn? → Eine Zufallsvariable! Sei X mein Gewinn: Ergebnis Kopf Zahl mein Gewinn X (Kopf) = —1 C X (Zahl) = +3 C Wahrscheinlichkeit 0.5 0.5 Die Zufallsvariable X ordnet jedem Ergebnis in der Ergebnismenge einen numerischen Wert (hier -1 € bzw. 3 €) zu, d.h. X ist eine Funktion: X : Ω → IR Kapitel IV – Verteilungen und ihre Eigenschaften IV - 7 Ihr Gewinn - Wahrscheinlichkeitsfunktion Ihr Gewinn ist ebenfalls eine Zufallsvariable. Sei Y Ihr Gewinn: Y = ( +1 C mit Wahrscheinlichkeit 0.5, −3 C mit Wahrscheinlichkeit 0.5. Die Wahrscheinlichkeitsfunktion gibt für jeden möglichen Wert der Zufallsvariablen die zugehörige Wahrscheinlichkeit an, d.h. die Wahrscheinlichkeit, mit der dieser Wert eintritt. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 8 Ihr Gewinn - Wahrscheinlichkeitsfunktion Wahrscheinlichkeit Wahrscheinlichkeitsfunktionen für das Münzwurf-Gewinnspiel: 1.0 0.8 0.6 0.4 0.2 Wahrscheinlichkeit 0.0 -2 -1 0 1 Mein Gewinn (€) 2 3 4 -4 -3 -2 -1 Ihr Gewinn (€) 0 1 2 1.0 0.8 0.6 0.4 0.2 0.0 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 9 Stetige Zufallsvariablen Dichtefunktion: f(x) . Für stetige Zufallsvariablen verwenden wir eine Dichtefunktion (englisch: probability density function), um Wahrscheinlichkeiten zu berechnen. Die Wahrscheinlichkeit des interessierenden Ereignisses wird durch die entsprechende Fläche unter der Dichtefunktion angegeben. Eine Fläche unterhalb der Dichtefunktion kann als Integral berechnet werden, z.B. P (100 ≤ X ≤ 200) = P (x1 ≤ X ≤ x2) = Kapitel IV – Verteilungen und ihre Eigenschaften Zx2 200 Z f (x) dx 100 f (x) dx x1 IV - 10 Dichtefunktion, Notation Zwei stetige Zufallsvariablen: X sei die Brenndauer der Glühbirne. W sei der Anschaffungspreis pro Brennstunde der Glühbirne: Preis der Glühbirne W = Brenndauer der Glühbirne Notation: – Dichtefunktion von X : fX (x) . – Dichtefunktion von W : fW (x) . Kapitel IV – Verteilungen und ihre Eigenschaften IV - 11 Berechnung der Fläche unterhalb der Dichtefunktion Um eine Wahrscheinlichkeit für eine stetige Zufallsvariable auszurechnen, muss man also eine Fläche unter der Dichtefunktion berechnen. Berechung der Fläche: – Integration - falls man f (x) integrieren kann, – Computerprogramme - falls verfügbar, – Spezielle Tabellen - falls verfügbar, – Abzählen von Rechtecken - falls alles andere nicht geht. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 12 Gauss'sche - oder Normalverteilung für die Brenndauer f (x) = √ 1 −(x−1092.9)2 /(2·206.12 ) e 2π · 206.1 P (1000 < X < 1500) = 1500 Z 1000 √ 2 /(2·206.12 ) 1 −(x−1092.9) e dx 2π · 206.1 Dies ist analytisch nicht zu integrieren! Kapitel IV – Verteilungen und ihre Eigenschaften IV - 13 Gauss'sche - oder Normalverteilung für die Brenndauer Wahrscheinlichkeiten als Fläche unterhalb der Dichtefunktion: 0.0020 0.0015 0.0010 Fläche = 0.65 0.0005 0.0000 400 600 800 1000 1200 1400 1600 1800 1400 1600 1800 Brenndauer (Stunden) 0.0020 0.0015 0.0010 Fläche = 0.7 0.0005 0.0000 400 600 800 1000 1200 Brenndauer (Stunden) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 14 Bestimmung der Fläche per Hand Dimension eines Rechtecks: Breite Höhe Fläche = 50 = 0.0001 = 50 · 0.0001 = 0.005 Einheiten Einheiten Einheiten2 Es gibt etwa 128 Rechtecke unter f (x) im Intervall (1000, 1500): P (1000 < X < 1500) ≈ 128 · 0.005 = 0.64 . (Mit R erhält man 0.65.) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 15 Dichtefunktion des Maximums dreier Zufallszahlen Drei Zufallszahlen sind gleichmäßig über [0,1] verteilt. Sei X das Maximum von drei solchen Zahlen. X hat die folgende Dichtefunktion: f (x) = ⎧ ⎨3x2 ⎩0 0≤x≤1 sonst P (0.1 < X < 0.5) = = Kapitel IV – Verteilungen und ihre Eigenschaften 0.5 Z f (x) dx = 0.1 · ¸0.5 0.5 Z 3x2 dx 0.1 3 3 x = 0.53 − 0.13 = 0.124 3 0.1 IV - 16 Dichtefunktion des Maximums dreier Zufallszahlen Dichtefunktion für das Maximum von drei Zufallszahlen aus dem Bereich [0, 1]: 3.0 2.5 Dichte 2.0 1.5 1.0 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x (Maximum von 3 Zufallszahlen) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 17 Weitere Wahrscheinlichkeiten, Maximum dreier Zufallszahlen P (X < 0.4) = = = = = = = = = Z0.4 P (1.2 < X < 1.5) f (x) dx −∞ Z0 = = 0 dx + −∞ · 3 3 0+ x 3 0.43 − 03 0.064 Z0.4 = 3x2 dx 0 = ¸0.4 = 0 P (X = 0.5) = = = Z1.5 f (x) dx 1.2 Z1.5 0 dx 1.2 0 Z0.5 f (x) dx 0.5 Z0.5 3x2 dx = 0 0.5 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 18 Eigenschaften einer Dichtefunktion Eigenschaften einer Dichtefunktion: (1) (2) f (x) ≥ 0 für alle x ∈ IR ∞ R −∞ f (x) dx = 1 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 19 Beispiel einer weiteren Dichtefunktion X sei die Dauer (in Sekunden) eines Call-Center-Anrufes (Beispiel 1.10), d.h X ist die Antwort auf die Frage: Wie lange wird ein beliebiger Anruf in dem Call-Center dauern? f (x) = ⎧ ⎨0.006e−0.006x ⎩0 x≥0 sonst Beispiel einer Exponentialverteilung: Überprüfung der Eigenschaften einer Dichtefunktion. Z∞ f (x) dx = −∞ = = Z0 −∞ 0 dx + Z∞ 0.006e−0.006x dx 0 · ¸ 0.006 −0.006x ∞ e = 0+ − 0.006 0 = [−e−0.006(∞)] − [−e−0.006(0)] = (−0) − (−e0) = 0 − (−1) = 1 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 20 Dichtefunktion für die Dauer von Anrufen Dichtefunktion für die Dauer von Call-Center-Anrufen: 0.006 0.005 0.004 0.003 0.002 0.001 0.000 0 200 400 600 800 1000 Anrufdauer (Sekunden) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 21 P(Dauer < 200 Sekunden) Bestimmung von P (X < 200): 200 Z P (X < 200) = = f (x) dx −∞ Z0 −∞ = · 0 dx + 200 Z 0.006e−0.006x dx 0 ¸ 0.006 −0.006x 200 − e 0.006 0 = [−e−0.006(200) ] − [−e−0.006(0)] = −0.301 − (−1) = 0.699 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 22 Verteilungsfunktion Verteilungsfunktion: F (t) = P (X ≤ t). Der Funktionswert der Verteilungsfunktion an der Stelle t entspricht der Fläche unterhalb der Dichtefunktion links von t. Die Summenkurve an der Stelle t gibt die Fläche unterhalb des Histogramms links von t an. Die Verteilungsfunktion an der Stelle t gibt die Fläche unterhalb der Dichtefunktion links von t an. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 23 Verteilungsfunktion Zusammenhang zwischen Dichte- und Verteilungsfunktion (Brenndauer von Glühbirnen): Dichtefunktion f(x) 0.0020 0.0015 0.0010 0.7 0.0005 0.0000 400 600 800 1000 1200 1400 1600 1800 1400 1600 1800 Brenndauer (Stunden) Verteilungsfunktion F(t) 1.0 0.8 0.7 0.6 0.4 0.2 0.0 400 600 800 1000 1200 Brenndauer (Stunden) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 24 Verteilungsfunktion, Beispiel Dichtefunktion: Verteilungsfunktion: Fall t < 0: F (t) = 0 ≤ t ≤ 1: F (t) = f (x) = ⎧ ⎨3x2 ⎩0 P (X ≤ t) = Rt −∞ R0 −∞ 0 dx = 0 0 dx + Rt 0 R0 für 0 ≤ x ≤ 1 sonst Zt (zwei Fälle) f (x) dx −∞ h it 3 2 3 3x dx = 3 x = t3 − 03 = t3 0 R1 Rt 2 Fall t > 1: F (t) = 0 dx + 3x dx + 0 dx = 0 + 1 + 0 = 1 −∞ 0 1 ⎧ ⎪ für t < 0 ⎪ ⎨0 F (t) = t3 für 0 ≤ t ≤ 1 (drei Fälle) ⎪ ⎪ ⎩ 1 Kapitel IV – Verteilungen und ihre Eigenschaften für t > 1 IV - 25 Verteilungsfunktion Dichte- und Verteilungsfunktion für das Maximum von drei Zufallszahlen: Dichte Dichtefunktion f(x) 3.0 2.5 2.0 1.5 1.0 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.0 1.2 x (Maximum von 3 Zufallszahlen) Verteilungsfunktion F(t) 1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 t (Maximum von 3 Zufallszahlen) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 26 Wahrscheinlichkeitsberechnung mit der Verteilungsfunktion Die Wahrscheinlichkeit, dass X zwischen 0.5 und 0.7 liegt ist die Fläche zwischen 0.5 und 0.7 unter der Dichtefunktion: P (0.5 < X < 0.7) = 0.7 Z f (x) dx 0.5 = 0.7 Z −∞ f (x) dx − 0.5 Z f (x) dx −∞ = F (0.7) − F (0.5) Um die Fläche zwischen 0.5 und 0.7 zu berechnen, subtrahiert man die Fläche links von 0.5 von der Fläche, die links von 0.7 liegt. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 27 Call-Center Beispiel: Exponentialverteilung ⎧ ⎨0.006e−0.006x Exponentialverteilung: f (x) = ⎩ Fall t < 0: Fall t ≥ 0: F (t) = Rt −∞ F (t) = = Zt 0 x≥0 . sonst 0 dx = 0 0.006e−0.006x dx 0 · ¸ 0.006 −0.006x t − e 0.006 0 = 1 − e−0.006 t Verteilungsfunktion: F (t) = Kapitel IV – Verteilungen und ihre Eigenschaften ⎧ ⎨0 ⎩1 − e−0.006 t t<0 . t≥0 IV - 28 Verteilungsfunktion Dichte- und Verteilungsfunktion für die Dauer von Call-Center-Anrufen: Dichtefunktion f(x) 0.006 0.005 0.004 0.003 0.002 0.001 0.000 0 200 400 600 800 1000 800 1000 Anrufdauer (Sekunden) Verteilungsfunktion F(t) 1.0 0.8 0.6 0.4 0.2 0.0 0 200 400 600 Anrufdauer (Sekunden) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 29 Wahrscheinlichkeitsberechnung mit der Verteilungsfunktion Berechnung der Wahrscheinlichkeit, dass ein Anruf im Call-Center zwischen 100 und 200 Sekunden dauert: • F (200) = 1 − e−0.006·(200) = 1 − e−1.2 = 0.699 • F (100) = 1 − e−0.006·(100) = 1 − e−0.6 = 0.451 • P (100 < X < 200) = F (200) − F (100) = 0.699 − 0.451 = 0.248 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 30 Eigenschaften einer Verteilungsfunktion Eigenschaften einer Verteilungsfunktion: F (t) = P (X ≤ t) = Rt −∞ f (x) dx (1) 0 ≤ F (t) ≤ 1 (2) F (t) ist eine nichtfallende Funktion (3) (4) (5) lim F (t) = 0 t→−∞ lim F (t) = 1 t→∞ f (x) = F 0(x) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 31 Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen gibt für alle möglichen Werte dieser Zufallsvariablen die Wahrscheinlichkeit an, dass dieser Wert angenommen wird: P (x) = P (X = x) Beispiel: Münzwurfspiel Spielregeln: ⎧ ⎨Kopf, zahle ich Ihnen 1 C, Zeigt die Münze ⎩Zahl, zahlen Sie mir 3 C. Die Zufallsvariable X sei mein Gewinn: Mögliche Werte von X −1 +3 Kapitel IV – Verteilungen und ihre Eigenschaften Wahrscheinlichkeit P (X = −1) = 0.5 P (X = +3) = 0.5 Wahrscheinlichkeitsfunktion P (−1) = 0.5 P (3) = 0.5 IV - 32 Eigenschaften einer Wahrscheinlichkeitsfunktion Eigenschaften einer Wahrscheinlichkeitsfunktion: 1. P (x) ≥ 0 für alle x (0 ≤ P (x) ≤ 1) 2. Wenn x1, x2, . . . , xn die möglichen Werte einer diskreten Zufallsvariablen sind, so gilt: P (x1) + P (x2) + . . . + P (xn) = n X P (xi) = 1 i=1 Auch wenn es eine unendliche Anzahl möglicher Werte gibt, x1, x2, x3, ..., muss die Summe aller Wahrscheinlichkeiten gleich 1 sein: P (x1) + P (x2) + P (x3) + . . . = ∞ X P (xi) = 1 i=1 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 33 Münzwurf bis zum 1. „Kopf“ Sei X die Anzahl der Würfe, bis die Münze zum ersten mal ,,Kopf" zeigt: P (1) = P (X = 1) = P ({Kopf beim 1. Wurf}) = 0.5 P (2) = P (X = 2) = P ({Zahl beim 1. Wurf} ∩ {Kopf beim 2. Wurf}) = P ({Zahl beim 1. Wurf}) · P ({Kopf beim 2. Wurf}) = (0.5)(0.5) = 0.52 P (3) = P (X = 3) = P ({Zahl beim 1. Wurf} ∩ {Zahl beim 2. Wurf} ∩{Kopf beim 3. Wurf}) = P ({Zahl beim 1. Wurf}) · P ({Zahl beim 2. Wurf}) ·P ({Kopf beim 3. Wurf}) = (0.5)(0.5)(0.5) = 0.53 ... = ... P (x) = ⎧ ⎨0.5x ⎩0 für x = 1, 2, 3, ... sonst Kapitel IV – Verteilungen und ihre Eigenschaften IV - 34 Münzwurf bis zum 1. „Kopf“ Wahrscheinlichkeitsfunktion für die Anzahl der Münzwürfe bis zum ersten Mal „Kopf“: 1.0 0.8 P(x) 0.6 0.4 0.2 0.0 0 1 2 3 4 5 6 7 8 9 x (Anzahl der Würfe) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 35 Verteilungsfunktion für diskrete Zufallsvariablen Die Verteilungsfunktion kumuliert die Wahrscheinlichkeiten der Wahrscheinlichkeitsfunktion, wenn t sich von links nach rechts bewegt: F (t) = P (X ≤ t) Beispiel: Mein Gewinn beim Münzwurfspiel F (t) = ⎧ ⎪ ⎪ ⎨0 ⎪ ⎪ ⎩ 0.5 1 für t < −1 für − 1 ≤ t < 3 für t ≥ 3 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 36 Verteilungsfunktion für diskrete Zufallsvariablen Wahrscheinlichkeits- und Verteilungsfunktion für meinen Gewinn: Wahrscheinlichkeitsfunktion P(x) P(x) 1.0 0.8 0.6 0.4 0.2 0.0 -2 -1 0 1 2 3 4 2 3 4 x (mein Gewinn in €) Verteilungsfunktion F(t) F(t) 1.0 0.8 0.6 0.4 0.2 0.0 -2 -1 0 1 t (mein Gewinn in €) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 37 Berechnung der Verteilungsfunktion 1. Die möglichen Werte der Zufallsvariablen X seien (der Größe nach vom kleinsten zum größten Wert) x1, x2, ..., xn. 2. Die zugehörigen Wahrscheinlichkeiten seien P (x1), P (x2), P (x3), ..., P (xn). 3. Dann ist ⎧ ⎪ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ P (x1) ⎪ ⎪ ⎪ ⎪ ⎨P (x ) + P (x ) 1 2 F (t) = ⎪ P (x1) + P (x2) + P (x3) ⎪ ⎪ ⎪ ⎪ ... ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩P (x ) + P (x ) + P (x ) + ... + P (xn) = 1 1 2 3 Kapitel IV – Verteilungen und ihre Eigenschaften für für für für ... für t < x1 x1 ≤ t < x2 x2 ≤ t < x3 x3 ≤ t < x4 xn ≤ t IV - 38 Eigenschaften einer Verteilungsfunktion Die Verteilungsfunktion F (t) = P (X ≤ t) einer diskreten Zufallsvariablen ist eine Treppenfunktion, die einer stetigen Zufallsvariablen ist eine stetige Funktion: 1. 0 ≤ F (t) ≤ 1 F (t) ist eine Wahrscheinlichkeit. 2. F (t) ist eine nichtfallende Funktion. Entweder wächst F (t) oder bleibt konstant. Sie wird aber niemals kleiner. 3. lim F (t) = 0 t→−∞ Je kleiner t wird, desto mehr nähert sich F (t) dem Wert 0 an. 4. lim F (t) = 1 t→∞ Je größer t wird, desto mehr nähert sich F (t) dem Wert 1 an. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 39 Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto: Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto: Beispiel: Lotto Lotto 6 aus 49 1 8 15 22 29 36 43 2 9 16 23 30 37 44 3 10 17 24 31 38 45 4 11 18 25 32 39 46 5 12 19 26 33 40 47 Kapitel IV – Verteilungen und ihre Eigenschaften 6 13 20 27 34 41 48 7 14 21 28 35 42 49 x P(x) 0 1 2 3 4 5 6 0.435 964 975 0.413 019 450 0.132 378 029 0.017 650 404 0.000 968 620 0.000 018 450 0.000 000 072 Summe 1.000 000 000 IV - 40 Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto Wahrscheinlichkeits- und Verteilungsfunktion für die Anzahl Richtiger im Lotto: Wahrscheinlichkeitsfunktion P(x) P(x) 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 5 6 5 6 x (Anzahl Richtige) Verteilungsfunktion F(t) F(t) 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 t (Anzahl Richtige) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 41 Summe der Augenzahlen von zwei Würfeln Sei X die Summe der Augenzahlen von zwei fairen Würfeln: (1, 1) (1, 2) (2, 1) . (3, 1) . (4, 1) . (5, 1) . (6, 1) . (1, 3) (2, 2) . (3, 2) . (4, 2) . (5, 2) . (6, 2) . Kapitel IV – Verteilungen und ihre Eigenschaften (1, 4) (2, 3) . (3, 3) . (4, 3) . (5, 3) . (6, 3) . (1, 5) (2, 4) . (3, 4) . (4, 4) . (5, 4) . (6, 4) . (1, 6) (2, 5) . (2, 6) (3, 5) . (3, 6) (4, 5) . (4, 6) (5, 5) . (5, 6) (6, 5) . (6, 6) IV - 42 Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen Die Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen: x 2 3 4 5 6 7 8 9 10 11 12 Summe Kapitel IV – Verteilungen und ihre Eigenschaften P(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36=1 IV - 43 Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen Wahrscheinlichkeits- und Verteilungsfunktion für die Summe der Augenzahlen: Wahrscheinlichkeitsfunktion P(x) P(x) 0.3 0.2 0.1 0.0 0 2 4 6 8 10 12 14 10 12 14 x (Augensumme) Verteilungsfunktion F(t) F(t) 1.0 0.8 0.6 0.4 0.2 0.0 0 2 4 6 8 t (Augensumme) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 44 Kennzahlen einer Zufallsvariablen Definitionen, Interpretationen und Beispiele für die wichtigsten Kennzahlen einer Zufallsvariable: Kennzahl Englisch Der Erwartungswert Expectation Die Varianz Die Schiefe Die Kurtosis Value at Risk“ ” E(X j ) : j-te Moment Kapitel IV – Verteilungen und ihre Eigenschaften Bezeichung Symbol E(X) μ Variance Var(X) Skewness Schiefe(X) Kurtosis Kurtosis(X) Value at Risk VaR σ2 α3 α4 E(X − μ)j : j-te zentrierte Moment IV - 45 Erwartungswert einer Zufallsvariablen Erwartungswert einer Zufallsvariablen: Diskrete Zufallsvariable X mit möglichen Werten x1, x2, ..., xn Wahrscheinlichkeitsfunktion P (x) Erwartungswert E(X) = n P i=1 Stetige Zufallsvariable X Dichtefunktion f (x) Erwartungswert E(X) = ∞ R xi P (xi) xf (x)dx −∞ Kapitel IV – Verteilungen und ihre Eigenschaften IV - 46 Erwartungswert meines Gewinns beim Münzwurf-Spiel Beispiel: Münzwurfspiel ⎧ ⎨Kopf, zahle ich Ihnen 1 C, Spielregeln: Zeigt die Münze ⎩Zahl, zahlen Sie mir 3 C. Zufallsvariable X Mögliche Werte -1 Wahrscheinlichkeiten 0.5 Erwartungswert E(X) = (−1) · 0.5 + (3) · 0.5 = 1 C Kapitel IV – Verteilungen und ihre Eigenschaften (Mein Gewinn) +3 0.5 IV - 47 Interpretationen des Erwartungswertes Zwei Interpretationen des Erwartungswertes: 1. Der Erwartungswert E(X) ist die x—Koordinate des Schwerpunktes der Wahrscheinlichkeitsfunktion P (x) 2. Der Erwartungswert E(X) ist der Mittelwert sehr vieler Realisationen von X . Kapitel IV – Verteilungen und ihre Eigenschaften IV - 48 Interpretationen des Erwartungswertes Ausbalancieren von Wahrscheinlichkeitsfunktionen auf den Erwartungswert: hält die Balance bei E(X)=1 kippt nach links kippt nach rechts 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.5 kg 0.5 kg 0.6 0.5 kg 0.5 kg 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 0.0 -2 -1 0 1 2 3 4 Kapitel IV – Verteilungen und ihre Eigenschaften -2 -1 0 1 2 3 4 0.5 kg -2 -1 0 0.5 kg 1 2 3 4 IV - 49 Durchschnittlicher Gewinn beim Münzwurf-Spiel Typische Folge von Spielergebnissen: Spiel Nr. 1 2 3 4 5 6 7 8 9 10 .. 998 999 1000 Mein Gewinn (C) -1 -1 3 3 -1 -1 3 -1 3 -1 .. 3 -1 3 Kapitel IV – Verteilungen und ihre Eigenschaften Kumulierter Durchschnittlicher Gewinn (C) Gewinn (C) -1 -1.00 -2 -1.00 1 0.33 4 1.00 3 0.60 2 0.33 5 0.71 4 0.50 7 0.78 6 0.60 .. .. 978 0.98 977 0.98 980 0.98 IV - 50 Durchschnittlicher Gewinn beim Münzwurf-Spiel Pfad des Durchschnitts der Variable „mein Gewinn“: durchschnittlicher Gewinn 2 E(X) = 1 € 1 0 -1 -2 1 5 10 50 100 500 1000 Anzahl der Würfe Kapitel IV – Verteilungen und ihre Eigenschaften IV - 51 Erwartungswert der Anzahl Richtiger im Lotto Erwartungswert der Anzahl Richtiger im Lotto: x 0 1 2 3 4 5 6 Summe E(X) = P(x) 0.435 964 975 0.413 019 450 0.132 378 029 0.017 650 404 0.000 968 620 0.000 018 450 0.000 000 072 1.000 000 000 0(0.435964975) + 1(0.413019450) + 2(0.132378029) +3(0.017650404) + 4(0.000968620) + 5(0.000018450) +6(0.000000072) = 0.7346939 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 52 Durchschnittliche Anzahl Richtiger im Lotto Ergebnisse im simulierten Lottospiel: Spiel Ergebnis: Nr. Anzahl Richtige“ ” 1 2 2 2 3 1 4 1 5 1 6 1 7 0 8 1 9 0 10 0 ... ... 998 3 999 3 1000 2 Kapitel IV – Verteilungen und ihre Eigenschaften Kumulierte Anzahl Richtige“ ” 2 4 5 6 7 8 8 9 9 9 ... 702 705 707 Durchschnittliche Anzahl Richtige“ ” 2.00 2.00 1.67 1.50 1.40 1.33 1.14 1.12 1.00 0.90 ... 0.70 0.71 0.71 IV - 53 Durchschnittliche Anzahl Richtiger im Lotto Ausbalancieren der Wahrscheinlichkeitsfunktion und Pfad der durchschnittlichen Werte für die Anzahl Richtiger bei 1 000 Lottospielen: P(x) 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 E(X)=0.735 3 x (Anzahl Richtige) 4 5 6 durchschnittliche Anzahl Richtige 2.0 1.5 1.0 E(X)=0.735 0.5 0.0 1 5 Kapitel IV – Verteilungen und ihre Eigenschaften 10 50 100 Anzahl der Spiele 500 1000 IV - 54 Erwartungswert der Augensumme bei zwei Würfeln Wahrscheinlichkeitsfunktion der Augensumme: x 2 3 4 5 6 7 8 9 10 11 12 Summe P(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36=1 E(X) = (2)(1/36) + (3)(2/36) + (4)(3/36) + (5)(4/36) +(6)(5/36) + (7)(6/36) + (8)(5/36) + (9)(4/36) +(10)(3/36) + (11)(2/36) + (12)(1/36) = 7 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 55 Wahrscheinlichkeiten: Den Zufall quantifizieren Ergebnisse im simulierten Würfelwurf (Augensumme): Spiel Nr. 1 2 3 4 5 6 7 8 9 10 .. 998 999 1000 Ergebnis: Kumulierte Durchschnittliche Augensumme Augensumme Augensumme 3 3 3.00 12 15 7.50 6 21 7.00 11 32 8.00 5 37 7.40 10 47 7.83 8 55 7.86 9 64 8.00 7 71 7.89 7 78 7.80 .. .. .. 2 7038 7.05 2 7040 7.05 3 7043 7.04 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 56 Wahrscheinlichkeiten: Den Zufall quantifizieren Ausbalancieren der Wahrscheinlichkeitsfunktion und Pfad der durchschnittlichen Werte für die Augensumme zweier Würfel: P(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 x (Augensumme) E(X)= 7 9 10 11 12 13 14 durchschnittliche Augensumme 9 8 E(X)=7 7 6 5 4 3 1 5 10 Anzahl der Würfe Kapitel IV – Verteilungen und ihre Eigenschaften 50 100 500 1000 IV - 57 Erwartungswert für das Maximum von drei Zufallszahlen Erwartungswert für das Maximum von drei Zufallszahlen: f (x) = E(X) = ⎧ ⎨3x2 ⎩0 Z ∞ −∞ = Z 0 = Z 1 = · −∞ 0 für 0 ≤ x ≤ 1 sonst xf (x)dx x · 0 dx + Z 1 0 x · 3x2 dx + Z ∞ 1 x · 0 dx 3x3 dx ¸ 3 3 4 1 = x 4 4 0 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 58 Durchschnittliches Maximum Drei Zufallszahlen: Maximum: 0.8913076 0.4247647 0.8913076. = 0.891 Spiel Ergebnis: Nr. Das Maximum 1 0.891 2 0.987 3 0.760 4 0.943 5 0.770 6 0.916 7 0.620 8 0.822 9 0.493 10 0.472 .. .. 998 0.996 999 0.996 1000 0.980 Kapitel IV – Verteilungen und ihre Eigenschaften 0.3165629 Kumulierte Durchschnitt Maxima der Maxima 0.891 0.891 1.878 0.939 2.638 0.879 3.581 0.895 4.351 0.870 5.267 0.878 5.887 0.841 6.709 0.839 7.202 0.800 7.674 0.767 .. .. 741.826 0.743 742.822 0.744 743.802 0.744 IV - 59 Durchschnittliches Maximum Ausbalancieren der Dichte des Maximums und Pfad des Durchschnitts des Maximums von drei Zufallszahlen: Dichte 3.0 2.5 2.0 1.5 1.0 0.5 0.0 durchschnittliches Maximum 0.0 0.2 0.4 0.6 0.8 x (Maximum von 3 Zufallszahlen) E(X)=0.75 1.0 1.2 1.0 0.9 0.8 E(X)=0.75 0.7 0.6 0.5 0.4 1 5 10 Anzahl der Maxima Kapitel IV – Verteilungen und ihre Eigenschaften 50 100 500 1000 IV - 60 Die Varianz einer Zufallsvariablen Notation: Var(X) oder σ 2 Die Varianz einer diskreten Zufallsvariable: Var(X) = n P (xi − E(X))2 P (xi) n P (xi − μ)2 P (xi) i=1 oder Var(X) = i=1 einer stetigen Zufallsvariable: Var(X) = ∞ R (x − E(X))2 f (x) dx ∞ R (x − μ)2 f (x) dx −∞ oder Var(X) = −∞ Kapitel IV – Verteilungen und ihre Eigenschaften IV - 61 Die Varianz für meinen Gewinn beim Münzwurf-Spiel Die Varianz für meinen Gewinn beim Münzwurf-Spiel: Mögliche Werte: x1 = −1 Wahrscheinlichkeiten: P (x1) = 0.5 Erwartungswert x2 = 3 P (x2) = 0.5 μ = (−1) 0.5 + (3) 0.5 = 1 Varianz: Var(X) = (x1 − μ)2 P (x1) + (x2 − μ)2 P (x2) = (−1 − 1)2 0.5 + (3 − 1)2 0.5 = 4 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 62 Interpretation der Varianz Die Varianz ist ein Maß für die Breite der Wahrscheinlichkeitsfunktion. • Spiel A sei die bisherige Version: Bei Kopf zahle ich Ihnen 1 C, bei Zahl zahlen Sie mir 3 C. Sei XA mein Gewinn im Spiel A. • Spiel B sei die neue Version: Bei Kopf zahle ich Ihnen 6 C, bei Zahl zahlen Sie mir 8 C. Sei XB mein Gewinn im Spiel B. Erwartungswert: E(XA) = (−1)0.5 + (3)0.5 = 1 E(XB ) = (−6)0.5 + (8)0.5 = 1 Varianz: Var(XA) = (−1 − 1)2 0.5 + (3 − 1)2 0.5 = 4 Var(XB ) = (−6 − 1)2 0.5 + (8 − 1)2 0.5 = 49 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 63 Interpretation der Varianz Unterschiedliche Varianz bei gleichem Erwartungswert: Mein Gewinn: Fall A 1.0 0.8 0.6 0.4 0.2 0.0 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 3 4 5 6 7 8 9 E(X)=1 Mein Gewinn: Fall B 1.0 0.8 0.6 0.4 0.2 0.0 -7 -6 -5 -4 -3 -2 -1 0 1 2 E(X)=1 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 64 Varianz für eine stetige Zufallsvariable Beispiel: Maximum von drei Zufallszahlen f (x) = ⎧ ⎨3x2 ⎩0 0≤x≤1 sonst Erwartungswert: μ = 0.75 Var(X) = = = Z∞ (x − μ)2 f (x) dx = −∞ Z1 µ 0 · Z1 µ 0 ¶ 3 2 x− 3x2 dx 4 ¶ 6 9 2 x − x+ 3x2 dx = 4 16 ¸1 Z1 0 18 3 27 2 3x − x + x dx 4 16 4 27 3 18 4 27 3 3 18 3 5 x − x + x + = = − 5 4·4 16 · 3 5 16 48 80 0 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 65 Rechenregel für die Varianz Rechenregel für die Varianz: Var(X) = E(X 2) − (E(X))2 Beispiel: Maximum von drei Zufallszahlen. 2= 9 E(X) = 3 =⇒ (E(X)) 4 16 E(X 2) = Z1 0 x2 · 3x2dx = Z1 0 · ¸1 3 3 4 5 3x dx = x = 5 5 0 9 48 − 45 3 3 = = Var(X) = − 5 16 80 80 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 66 Die Standardabweichung einer Zufallsvariable Die Standardabweichung ist die Quadratwurzel der Varianz: √ p Var(X) = σ 2 = σ Beispiel: Münzwurf-Spiel • Standardabweichung von XA : σA = 2 • Standardabweichung von XB : σB = 7 Beispiel: Maximum von drei Zufallszahlen • Standardabweichung von X : σ = Kapitel IV – Verteilungen und ihre Eigenschaften p (3/80) ≈ 0.194 IV - 67 Interpretation der Varianz Die Varianz beschreibt die Breite einer Wahrscheinlichkeitsfunktion bzw. einer Dichtefunktion. Die Breite ist ein Maß für die Unsicherheit, die mit einer Zufallsvariablen verbunden ist. Beispiel: Sei X der Gewinn einer Firma im kommenden Jahr (in Mio. €) und nehmen wir an, dass μ = 30. Fall A: Fall B: σ 2 = 402 σ 2 = 152 Je schmaler die Dichtefunktion ist, desto genauer kann man den Wert von X vorhersagen. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 68 Interpretation der Varianz Sei X der Gewinn einer Firma im kommenden Jahr (in Mio. €). Fall Fall Fall Fall A: B: C: D: σ2 σ2 σ2 σ2 = = = = 402 152 42 02 Der Wert von X ist sehr schwer vorherzusagen. Der Wert von X ist fast bekannt. Der Wert von X ist bekannt. (Deterministisch) Die Varianz beschreibt, ,,wie stochastisch" oder ,,wie deterministisch" ein betrachtetes Phänomen ist: • Wenn die Varianz groß ist, haben wir eher eine stochastische Situation. • Wenn die Varianz sehr klein ist, haben wir eher eine deterministische Situation. • Wenn die Varianz gleich Null ist, haben wir eine vollständig deterministische Situation. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 69 Interpretation der Varianz Gleicher Erwartungswert und unterschiedliche Varianz bei Dichtefunktionen: 0.10 2 2 2 2 A: σ = 40 0.08 B: σ = 15 2 2 C: σ = 4 f(x) 0.06 0.04 0.02 0.00 -100 -50 0 50 100 150 x (Gewinn) Kapitel IV – Verteilungen und ihre Eigenschaften IV - 70 Anwendungsgebiete für die Varianz bzw. Standardabweichung Anwendungsgebiete für die Varianz bzw. Standardabweichung: Risikomanagement: Beschreibung des Verhaltens von Renditen (Volatilität) Qualitätsmanagement: 1 Qualität ∝ Varianz — Eigenschaften von Produkten — Produktionsprozesse — Servicequalität Kapitel IV – Verteilungen und ihre Eigenschaften IV - 71 Die Schiefe einer Zufallsvariablen E(X−μ)3 α3 = . σ3 Die Schiefe einer Zufallsvariablen: Diskreter Fall: Stetiger Fall: n X E(X − μ)3 = (xi − μ)3P (xi) i=1 E(X − μ)3 = Z ∞ −∞ (x − μ)3f (x)dx Ist die Wahrscheinlichkeitsfunktion bzw. Dichtefunktion symmetrisch um ihren Erwartungswert, so ist α3 = 0. Ist α3 > 0, so sagt man, die Verteilung sei rechtsschief. Ist α3 < 0, so sagt man, die Verteilung sei linkssschief. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 72 Die Schiefe einer Zufallsvariablen Dichtefunktionen mit unterschiedlicher Schiefe: Schiefe > 0 (rechtsschief) Schiefe = 0 (symmetrisch) Schiefe < 0 (linksschief) 0.04 0.04 0.04 0.03 0.03 0.03 0.02 0.02 0.02 0.01 0.01 0.01 0.00 0.00 0.00 0 20 40 60 80 100 Kapitel IV – Verteilungen und ihre Eigenschaften 0 20 40 60 80 100 0 20 40 60 80 100 IV - 73 Die Kurtosis einer Zufallsvariablen Die Kurtosis einer Zufallsvariablen: Diskreter Fall: Stetiger Fall: E(X−μ)4 α4 = . σ4 Pn 4 E(X − μ) = i=1(xi − μ)4P (xi) . R∞ 4 E(X − μ) = −∞(x − μ)4f (x)dx . Die Kurtosis der Dichtefunktion einer beliebigen normalverteilten Zufallsvariablen ist 3. Ist α4 < 3, so ist die Dichtefunktion flacher als die einer Normalverteilung mit derselben Varianz. Ist α4 > 3, so ist die Dichtefunktion spitzer als die der Normalverteilung mit derselben Varianz. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 74 Die Kurtosis einer Zufallsvariablen Die Kurtosis einer Dichtefunktion: Kurtosis < 3 (platykurtic) Kurtosis = 3 (mesokurtic) Kurtosis > 3 (leptocurtic) 0.06 0.06 0.06 0.05 0.05 0.05 0.04 0.04 0.04 0.03 0.03 0.03 0.02 0.02 0.02 0.01 0.01 0.01 0.00 0.00 0 20 40 60 80 100 Kapitel IV – Verteilungen und ihre Eigenschaften 0.00 0 20 40 60 80 100 0 20 40 60 80 100 IV - 75 Beispiel für die Berechnung der Schiefe und Kurtosis Beispiel: Maximum von drei Zufallszahlen f (x) = ⎧ ⎨3x2 ⎩0 0≤x≤1 sonst μ = 3/4 und σ 2 = 3/80 ¶ Z µ E(X − μ)3 1 1 3 3 2 dx ≈ −0.861 α3 = = x − · 3x σ3 σ3 0 4 ¶ Z µ E(X − μ)4 1 1 3 4 2 dx ≈ 3.095 α4 = = x − · 3x σ4 σ4 0 4 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 76 Value at Risk: VaR Der Wert Ihres Aktienpakets heute: 1 000 C Der Wert am Folgetag ist eine Zufallsvariable: X Nominaler Wert am Folgetag: 1 000 C VaR = Verlust VaR = Nominaler Wert — realisierter Wert, wenn Sie Pech haben. Wie viel Pech? 95% VaR: Der Verlust, der mit einer Wahrscheinlichkeit von 95% nicht eintreten wird. 99% VaR: Der Verlust, der mit einer Wahrscheinlichkeit von 99% nicht eintreten wird. Kapitel IV – Verteilungen und ihre Eigenschaften IV - 77 Value at Risk: VaR Value at Risk für die Tagesrendite der Deutschen Bank Aktie: 0.4 Dichte 0.3 0.2 0.1 Fläche = 0.95 0.0 -4 -2 0 2 4 Deutsche Bank Tagesrendite (%) 95 % VaR = -2.27 % Kapitel IV – Verteilungen und ihre Eigenschaften IV - 78 Zusammenfassung: Zufallsvariablen und ihre Verteilung Es gibt zwei Arten von Zufallsvariablen, diskrete und stetige: Wahrscheinlichkeitsfunktion P (x) Dichtefunktion f (x) Verteilungsfunktion F (x) = P (X ≤ x) Erwartungswert μ oder E(X) Varianz σ 2 oder Var(X ) Schiefe α3 Kurtosis α4 Kapitel IV – Verteilungen und ihre Eigenschaften IV - 79 Funktionen zur Beschreibung einer Zufallsvariablen Funktionen zur Beschreibung von Zufallsvariablen im Überblick: Dichtefunktion f(x) Verteilungsfunktion F(x) 1.0 0.002 F(x) f(x) 0.8 0.001 0.6 0.4 0.2 0.000 0.0 400 600 800 1000 1200 1400 1600 1800 400 600 Wahrscheinlichkeitsfunktion P(x) 800 1000 1200 1400 1600 1800 Verteilungsfunktion F(x) 0.30 1.0 0.25 0.8 F(x) P(x) 0.20 0.15 0.6 0.4 0.10 0.05 0.2 0.00 0.0 0 1 2 3 4 5 6 7 8 Kapitel IV – Verteilungen und ihre Eigenschaften 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 IV - 80 Wie bekommt man die Dichte- oder Wahrscheinlichkeitsfunktion? Wie erhält man die Dichte- bzw. Wahrscheinlichkeitsfunktion? (1) Vermutungen, die man durch Überlegungen erhält bzw. durch (2) Erfahrungen, die auf Beobachtungen basieren, oder auch durch (3) eine Kombination aus (1) und (2). Kapitel IV – Verteilungen und ihre Eigenschaften IV - 81 Kapitel 5 Eins, Zwei oder Drei – Diskrete Verteilungen Kapitel V – Diskrete Verteilungen V-0 Diskrete Verteilungen Übersicht: Vier wichtige Modelle für die Wahrscheinlichkeitsfunktion: – Bernoulli-Verteilung, – Binomialverteilung, – Hypergeometrische Verteilung, – Poissonverteilung. Zu jedem Modell: Definition, Interpretation, Eigenschaften und Anwendung. Neue Begriffe: – Modelle für diskrete Zufallsvariablen, – Parameter einer Verteilung. Kapitel V – Diskrete Verteilungen V-1 Bernoulli-Verteilung Eine Zufallsvariable X heißt Bernoulli-verteilt, wenn sie zwei mögliche Werte annehmen kann: — X=1 — X=0 Erfolg“ ” Misserfolg“ ” Die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung: P (x) = ⎧ ⎪ ⎪ ⎨π ⎪ ⎪ ⎩ 1−π 0 für x = 1 für x = 0 sonst π ist der Parameter der Verteilung: – π ist eine Konstante aus dem Intervall [0,1]. – π ist die Erfolgswahrscheinlichkeit. X ∼ Be(π) steht für X ist Bernoulli-verteilt mit Parameter π. Kapitel V – Diskrete Verteilungen V-2 Bernoulli-Verteilung Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit π = 0.25: 1.0 0.8 P(x) 0.6 0.4 0.2 0.0 0 1 x Kapitel V – Diskrete Verteilungen V-3 Bernoulli-Verteilung Wahrscheinlichkeitsfunktionen einer Bernoulli-Verteilung mit verschiedenen π: π = 0.1 π = 0.5 π = 0.62 0.8 0.8 0.8 0.6 0.6 0.6 P(x) 1.0 P(x) 1.0 P(x) 1.0 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 0 x Kapitel V – Diskrete Verteilungen 1 0.0 0 x 1 0 x 1 V-4 Bernoulli-Verteilung: Beispiele und die Verteilungsfunktion Beispiele: Erfolg Misserfolg Kauft das Produkt Patient wird geheilt Wählt Kandidat A TV—Werbung gesehen Kunde zufrieden Kauft es nicht Patient wird nicht geheilt Wählt nicht Kandidat A TV—Werbung nicht gesehen Kunde unzufrieden Die Verteilungsfunktion einer Bernoulli-verteilten Zufallsvariable: F (t) = ⎧ ⎪ ⎪ ⎨0 1−π 1 ⎪ ⎪ ⎩ Kapitel V – Diskrete Verteilungen t<0 0≤t<1 t≥1 V-5 Bernoulli-Verteilung Wahrscheinlichkeits- und Verteilungsfunktion einer Bernoulli-Verteilung: Wahrscheinlichkeitsfunktion P(x) 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 0 1 x Verteilungsfunktion F(t) 1.0 F(t) 0.8 0.6 0.4 0.2 0.0 0 1 t Kapitel V – Diskrete Verteilungen V-6 Notation: „x Fakultät“ „x Fakultät“ ist wie folgt definiert: x! = x · (x − 1) · (x − 2) · . . . · 2 · 1 Einige Beispiele: 3! = 3 · 2 · 1 = 6 7! = 7 · 6 · 5 · 4 · 3 · 2 · 1 = 5040 1! = 1 0! = 1 Kapitel V – Diskrete Verteilungen (per Definition) V-7 Der Binomialkoeffizient n und x seien ganze Zahlen mit n > 0 und 0 ≤ x ≤ n. Notation: Definition: ³ ´ n x ³ ´ (,,n über x”) n n! = x x!(n−x)! Beispiele: ³5´ 2 ³4´ 4 ³52´ 20 = = = 5! 5! 5·4·3·2·1 = = = 10 2!(5 − 2)! 2!3! (2 · 1)(3 · 2 · 1) 4! 4! 4·3·2·1 = = =1 4!(4 − 4)! 4!0! (4 · 3 · 2 · 1)1 52! 52! 52 · 51 · . . . · 2 · 1 = = = 1.259 946·1014 20!(52 − 20)! 20!32! 20!32! Kapitel V – Diskrete Verteilungen V-8 Binomialverteilung mit den Parametern n und π Die Binomialverteilung hat zwei Parameter: — Eine positive ganze Zahl, n, Anzahl der Versuche — Eine Konstante 0 < π < 1, die Erfolgswahrscheinlichkeit X ∼ b(n, π) steht für X ist binomial-verteilt mit Parameter n und π. Die Wahrscheinlichkeitsfunktion von X ist: ⎧³ ´ ⎨ n π x(1 − π)n−x x P (x) = ⎩0 Kapitel V – Diskrete Verteilungen für x = 0, 1, 2, . . . , n sonst V-9 Beispiel einer binomial-verteilten Zufallsvariable Beispiel: Ich würfele einen fairen Würfel viermal. Wie oft erhalte ich eine 6? Sei X die Anzahl der Augenzahl 6. Wir werden später sehen, dass X ∼ b(4, 1 6 ). Die zwei Parameter in diesem Fall sind: – Anzahl der Versuch (Würfe): n = 4 – Die Erfolgswahrscheinlichkeit: π = 1/6 Die Wahrscheinlichkeitsfunktion: ⎧³ ´³ ´x ⎨ 4 1 (1 − 1 )4−x x 6 6 P (x) = ⎩0 Kapitel V – Diskrete Verteilungen für x = 0, 1, 2, 3, 4 sonst V - 10 Berechnung der Wahrscheinlichkeiten für das Würfelbeispiel Berechnung von Wahrscheinlichkeiten im Würfelbeispiel: P (0) ³ ´³ ´0 ³ ´4−0 ³ ´4 4 1 5 5 = 0 6 = 1 (1) 6 6 = 0.482 253 P (1) ³ ´³ ´1 ³ ´4−1 ³ ´³ ´3 4 1 5 1 5 = 4 = 1 6 6 6 6 = 0.385 802 P (2) ³ ´³ ´2 ³ ´4−2 ³ ´2³ ´2 4 1 5 1 5 = 2 6 = 6 6 6 6 = 0.115 741 P (3) ³ ´³ ´3 ³ ´4−3 ³ ´3³ ´1 4 1 5 1 5 = 4 = 3 6 6 6 6 = 0.015 432 P (4) ³ ´³ ´4 ³ ´4−4 ³ ´4 4 1 5 1 (1) = 4 6 = 1 6 6 = 0.000 772 Kapitel V – Diskrete Verteilungen V - 11 Wahrscheinlichkeitsfunktion für das Würfelbeispiel Wahrscheinlichkeitsfunktion einer Binomialverteilung mit n = 4 und π = 1/6: 0.5 0.4 P(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 x Kapitel V – Diskrete Verteilungen V - 12 Bedingungen für die Verwendung der Binomialverteilung Drei Bedingungen für die Verwendung der Binomialverteilung: (1) Ein Zufallsexperiment besteht aus n unabhängigen Versuchen. (2) Jeder Versuch hat zwei mögliche Ausgänge: Erfolg und Misserfolg. (3) Die Wahrscheinlichkeit für einen Erfolg ist in jedem Versuch die gleiche. Frage: Wie viele Erfolge wird es in n Versuchen geben? D.h. Sei X die Anzahl der Erfolge. Satz: Wenn (1) – (3) erfüllt sind, ist X ∼ b(n, π) . Kapitel V – Diskrete Verteilungen V - 13 Überprüfung der Bedingungen für das Würfelbeispiel Überprüfung der Bedingungen für das Würfelbeispiel: Zufallsexperiment – n = 4 Versuche (vier Würfe). – Unabhängigkeit? (s. nächste Folie) Jeder Versuch des Zufallsexperimentes hat zwei mögliche Ausgänge: – Erfolg ist hier das Ereignis, dass eine 6 gewürfelt wird. – Misserfolg ist das Ereignis, dass keine 6 gewürfelt wird. Der Würfel ist fair: – π = P (Erfolg) = 1/6 . Kapitel V – Diskrete Verteilungen V - 14 Überprüfung der Unabhängigkeit für das Würfelbeispiel Die Frage nach Unabhängigkeit bedeutet hier: Gibt mir das Ergebnis des ersten Versuchs irgendeine Information über die Erfolgswahrscheinlichkeit im zweiten Versuch? Ist P (Erfolg im 2. Versuch | Erfolg im 1. Versuch) 6= P (Erfolg im 2. Versuch | Misserfolg im 1. Versuch) ? Im Fall des mehrfachen Würfelns scheint die Annahme vernünftig zu sein, dass die Versuche unabhängig sind, d.h. dass keiner der Versuche durch das Ergebnis eines anderen Versuchs beeinflusst wird. Kapitel V – Diskrete Verteilungen V - 15 Zusammenfassung: Binomialverteilung Zusammenfassung: Binomialverteilung Die Binomialverteilung hat zwei Parameter n und π. Der Parameter n wird Anzahl der Versuche genannt und π heißt Erfolgswahrscheinlichkeit. Die interessierende Zufallsvariable X ist die Anzahl der Erfolge in n unabhängigen Versuchen. Die Wahrscheinlichkeitsfunktion von X ist: ⎧³ ´ ⎨ n π x(1 − π)n−x x P (x) = ⎩0 Kapitel V – Diskrete Verteilungen für x = 0, 1, 2, . . . , n sonst V - 16 Bedeutung der Begriffe „Erfolg“ und „Misserfolg“ Das Ergebnis eines Versuches wird genau in zwei mögliche Kategorien eingeordnet. Es ist völlig beliebig, welche der beiden Kategorien wir Erfolg und welche wir Misserfolg nennen, da — Sei X die Anzahl der Erfolge und sei X ∼ b(n, π). — Sei Y die Anzahl der Misserfolge: Y = n − X. — Dann ist Y ∼ b(n, 1 − π). Der Begriff Erfolg wird dem Versuchsergebnis zugewiesen, das von Interesse ist. Das muss kein wünschenswertes oder gutes Ergebnis sein und auch kein Erfolg in der herkömmlichen Bedeutung des Wortes. Kapitel V – Diskrete Verteilungen V - 17 Beispiele für die Verwendung der Begriffe Erfolg und Misserfolg Beispiele für „Erfolg“ und „Misserfolg“: Erfolg Misserfolg Kauft das Produkt Kauft es nicht Patient wird geheilt Patient wird nicht geheilt Wählt Kandidat A Wählt nicht Kandidat A TV—Werbung gesehen TV—Werbung nicht gesehen Kunde zufrieden Kunde unzufrieden Kapitel V – Diskrete Verteilungen V - 18 Anzahl funktionierender Prozessoren bei 5 Käufen Annahme: – 80 % aller Prozessoren sind einwandfrei – 20 % sind defekt Ich kaufe fünf Prozessoren und frage mich „Wie viele werden funktionieren?“ Somit haben wir fünf Versuche mit zwei möglichen Ausgängen: – Der Prozessor funktioniert (Erfolg) mit Wahrscheinlichkeit π = 0.8. – Der Prozessor ist defekt (Misserfolg) mit Wahrscheinlichkeit 1 – π = 0.2. Es gilt hier: X ∼ b(5, 0.8) . Kapitel V – Diskrete Verteilungen V - 19 Wahrscheinlichkeitsfunktion für die Anzahl Berechnung von Wahrscheinlichkeiten für die Anzahl funktionierender Prozessoren: P (0) = P (1) = P (2) = P (3) = P (4) = P (5) = Kapitel V – Diskrete Verteilungen ³5´ 0.80 0.25 = 0.000 32 0 ³5´ 0.81 0.24 1 ³5´ 0.82 0.23 2 ³5´ 0.83 0.22 3 ³5´ 0.84 0.21 4 ³5´ 0.85 0.20 5 = 0.006 40 = 0.051 20 = 0.204 80 = 0.409 60 = 0.327 68 V - 20 Wahrscheinlichkeitsfunktion für die Anzahl Binomialverteilung mit n = 5 und π = 0.8 für die Anzahl funktionierender Prozessoren: 0.5 0.4 P(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 5 x Kapitel V – Diskrete Verteilungen V - 21 Berechnung von Wahrscheinlichkeiten Wie groß ist die Wahrscheinlichkeit, dass mindestens 3 der 5 Prozessoren funktionieren? P (X ≥ 3) = P (3) + P (4) + P (5) = 0.204 80 + 0.409 60 + 0.327 68 = 0.942 08 Wie groß ist die Wahrscheinlichkeit, dass mindestens einer der Prozessoren funktioniert? P (X ≥ 1) = P (1) + P (2) + P (3) + P (4) + P (5) = 0.006 40 + 0.051 20 + 0.204 80 + 0.409 60 + 0.327 68 = 0.999 68 Kapitel V – Diskrete Verteilungen V - 22 Wahrscheinlichkeit, dass mindestens einer der Prozessoren funktioniert Die Wahrscheinlichkeit, dass mindestens einer der Prozessoren funktioniert ist: P (X ≥ 1) = P (1) + P (2) + P (3) + P (4) + P (5) = 0.006 40 + 0.051 20 + 0.204 80 + 0.409 60 + 0.327 68 = 0.999 68 Die Berechnung ist einfacher wenn man bedenkt, dass P (0) + P (1) + P (2) + P (3) + P (4) + P (5) = 1 gilt und somit auch P (1) + P (2) + P (3) + P (4) + P (5) = 1 − P (0) . Für die Berechnung der Wahrscheinlichkeit ergibt sich: P (X ≥ 1) = 1 − P (0) = 1 − 0.000 32 = 0.999 68 . Kapitel V – Diskrete Verteilungen V - 23 R-Befehle für die Binomialverteilung dbinom(x, size, prob): Berechnet die Wahrscheinlichkeit P (x) einer Binomialverteilung mit den Parametern n = size und π = prob. pbinom(q, size, prob): Berechnet den Wert der Verteilungsfunktion einer Binomialverteilung mit den Parametern n = size und π = prob an der Stelle q. rbinom(n, size, prob): Erzeugt n Zufallszahlen einer Binomialverteilung mit den Parametern n = size und π = prob. Beispiele: dbinom(1, 3, 0.5) liefert den Wert 0.375, pbinom(1, 3, 0.5) liefert den Wert 0.5, rbinom(3, 3, 0.5) liefert drei Werte, wie z.B. 3 Kapitel V – Diskrete Verteilungen 0 1. V - 24 Beispiel, in dem die Versuche nicht unabhängig sind Beispiel: Wir wählen 2 von 10 Prozessoren aus, von denen 7 funktionieren und 3 defekt sind. Wir wissen nicht, welches die defekten und welches die funktionierenden Prozessoren sind. Wir ziehen eine einfache Zufallsstichprobe der Größe 2. Frage: Wie viele der ausgewählten Prozessoren funktionieren? → Die Binomialverteilung ist hier nicht anwendbar! Kapitel V – Diskrete Verteilungen V - 25 Beispiel: Prozessoren Grundgesamtheit: N = 10 Prozessoren. Erfolg: „Funktioniert“ Ne = 7 Misserfolg: „Funktioniert nicht“ Nm = 3 Zufällige Stichprobe ohne Zurücklegen: n=2 Mögliche Werte von X: 0, 1, 2 Kapitel V – Diskrete Verteilungen V - 26 Warum ist die Biomialverteilung nicht anwendbar? Wir haben n = 2 Versuche mit zwei möglichen Ausgängen: – Prozessor funktioniert (Erfolg) – Prozessor funktioniert nicht (Misserfolg) Die Erfolgswahrscheinlichkeit ist in beiden Versuchen nicht gleich groß! Erfolgswahrscheinlichkeiten in den 2 Versuchen: 1. Versuch: Ω = {7 ok und 3 defekt} =⇒ π = 7/10 2. Versuch: Erfolg beim 1. Versuch: Ω = {6 ok und 3 defekt} =⇒ π = 6/9 Misserfolg beim 1. Versuch: Ω = {7 ok und 2 defekt} =⇒ π = 7/9 Kapitel V – Diskrete Verteilungen V - 27 Warum ist die Biomialverteilung nicht anwendbar? Die Wahrscheinlichkeit eines Erfolges im zweiten Versuch hängt vom Ausgang des ersten Versuchs ab: – Bei Erfolg im ersten Versuch: – Bei Misserfolg im ersten Versuch: 0.667 0.778 6= P (Erfolg im 2. Versuch | Erfolg im 1. Versuch) 6= P (Erfolg im 2. Versuch | Misserfolg im 1. Versuch) Daraus folgt: – Die Versuche sind nicht unabhängig. – Die Erfolgswahrscheinlichkeit ist nicht konstant. – Die Binomialverteilung gilt nicht, weil wir ohne Zurücklegen aus der Grundgesamtheit gezogen haben. Kapitel V – Diskrete Verteilungen V - 28 Ziehen mit und ohne Zurücklegen Es gibt Ne Erfolge und Nm Misserfolge in der Grundgesamtheit. Wir ziehen eine zufällige Stichprobe der Größe n. X bezeichnet die Anzahl der Erfolge in der Stichprobe. Wird die Stichprobe mit Zurücklegen gezogen, so gilt Ne X ∼ b(n, π) mit π = . Ne + Nm ohne Zurücklegen gezogen, so ist X nicht binomialverteilt, X ist dann hypergeometrisch verteilt: X ∼ h(Ne, Nm, n). Kapitel V – Diskrete Verteilungen V - 29 Die hypergeometrische Verteilung Die hypergeometrische Verteilung besitzt 3 Parameter: Ne die Anzahl der Erfolge in der Grundgesamtheit, Nm die Anzahl der Misserfolge in der Grundgesamtheit, n die Anzahl der Versuche. Die Anzahl der Individuen in der Grundgesamtheit ist N = Ne + Nm . Sei X die Anzahl der Erfolge, wenn man eine zufällige Stichprobe der Größe n ohne Zurücklegen zieht: X ist hypergeometrisch verteilt: X ∼ h(Ne, Nm, n) . Kapitel V – Diskrete Verteilungen V - 30 Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung Die Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung: P (x) = ⎧ Ne Nm ⎪ ( )( ⎪ ⎨ x n−x) ⎪ ⎪ ⎩0 (Nn ) max(0, n − Nm) ≤ x ≤ min(n, Ne), sonst Die möglichen Werte von X sind alle ganzen Zahlen zwischen max(0, n − Nm) und min(n, Ne) ??? Kapitel V – Diskrete Verteilungen . ??? V - 31 Mögliche Werte einer hypergeometrischen Verteilung Betrachtung der möglichen Werte einer hypergeometrischen Verteilung: X sei die Anzahl der Erfolge in einer Stichprobe von n Elementen aus einer Grundgesamtheit mit Ne Erfolgen und Nm Misserfolgen: 1. X ≤ Ne 2. X≤n 3. 0≤X 4. n − Nm ≤ X (weil n − X ≤ Nm) Daraus folgt: max(0, n − Nm) ≤ X ≤ min(n, Ne) Kapitel V – Diskrete Verteilungen V - 32 Fall n = 2 Grundgesamtheit: N = 10 Prozessoren. Erfolg: „Funktioniert“ Ne = 7 Zufällige Stichprobe ohne Zurücklegen Misserfolg: „Funktioniert nicht“ Nm = 3 n=2 Kleinstmöglicher Wert von X: Größtmöglicher Wert von X: max(0, n – Nm) = max(0, 2 - 3) min(n, Ne) = min(2, 7) Mögliche Werte von X: 0, 1, 2 Kapitel V – Diskrete Verteilungen =0 =2 V - 33 Fall n = 4 Grundgesamtheit: N = 10 Prozessoren. Erfolg: „Funktioniert“ Ne = 7 Zufällige Stichprobe ohne Zurücklegen Misserfolg: „Funktioniert nicht“ Nm = 3 n=4 Kleinstmöglicher Wert von X: Größtmöglicher Wert von X: max(0, n – Nm) = max(0, 4 - 3) min(n, Ne) = min(4, 7) Mögliche Werte von X: 1, 2, 3, 4 Kapitel V – Diskrete Verteilungen =1 =4 V - 34 Fall n = 8 Grundgesamtheit: N = 10 Prozessoren. Erfolg: „Funktioniert“ Ne = 7 Zufällige Stichprobe ohne Zurücklegen Misserfolg: „Funktioniert nicht“ Nm = 3 n=8 Kleinstmöglicher Wert von X: Größtmöglicher Wert von X: max(0, n – Nm) = max(0, 8 - 3) min(n, Ne) = min(8, 7) Mögliche Werte von X: 5, 6, 7 Kapitel V – Diskrete Verteilungen =5 =7 V - 35 Fall n = 10 Grundgesamtheit: N = 10 Prozessoren. Erfolg: „Funktioniert“ Ne = 7 Zufällige Stichprobe ohne Zurücklegen Misserfolg: „Funktioniert nicht“ Nm = 3 n = 10 Kleinstmöglicher Wert von X: Größtmöglicher Wert von X: max(0, n – Nm) = max(0, 10 - 3) = 7 min(n, Ne) = min(10, 7) =7 Mögliche Werte von X: 7 Kapitel V – Diskrete Verteilungen V - 36 Beispiele für die Hypergeometrische Verteilung Wahrscheinlichkeitsfunktionen für verschiedene hypergeometrischverteilte Zufallsvariablen: Fall 2: h(Ne=7; Nm =3; n=4) 1.0 1.0 0.8 0.8 0.6 0.6 P(x) P(x) Fall 1: h(Ne=7; Nm =3; n=2) 0.4 0.4 0.2 0.2 0.0 0.0 0 1 2 3 4 5 x (Anzahl der Erfolge) 6 7 0 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.2 0.0 0.0 1 Kapitel V – Diskrete Verteilungen 2 3 4 5 x (Anzahl der Erfolge) 6 6 7 0.4 0.2 0 2 3 4 5 x (Anzahl der Erfolge) Fall 4: h(Ne=7; Nm =3; n=10) P(x) P(x) Fall 3: h(Ne=7; Nm =3; n=8) 1 7 0 1 2 3 4 5 x (Anzahl der Erfolge) 6 7 V - 37 Samstags-Lotto: 6 aus 49 Grundgesamtheit: N = 49 Zahlen Erfolge: Ne = 6 Zufällige Stichprobe ohne Zurücklegen Misserfolge: Nm = 43 n=6 Wie viele meiner Zahlen werden richtig sein? Die Antwort ist eine Zufallsvariable X mit den möglichen Werten 0, 1, ..., 6. X ist hypergeometrisch verteilt: X ∼ h(6, 43, 6) . Kapitel V – Diskrete Verteilungen V - 38 Berechnung von P(2) beim Lotto Wahrscheinlichkeitsfunktion von X: ⎧³ ´³ ´ ³ ´ 43 49 ⎨ 6 / x 6−x 6 P (x) = ⎩0 für x = 0, 1, 2, 3, 4, 5, 6 sonst P (zwei „Richtige“): P (2) = ³6´³ 43 ´ ³49´ 2 Kapitel V – Diskrete Verteilungen 6−2 / 6 = 0.132378029 ≈ 13% V - 39 R-Befehle für die hypergeometrische Verteilung dhyper(x, m, n, k): Berechnet die Wahrscheinlichkeit P (x) einer hypergeometrischen Verteilung mit den Parametern Ne = m, Nm = n und n = k. phyper(q, m, n, k): Berechnet den Wert der Verteilungsfunktion einer hypergeometrischen Verteilung mit den Parametern Ne = m, Nm = n und n = k an der Stelle q. rhyper(n, m, n, k): Erzeugt n Zufallszahlen einer hypergeometrischen Verteilung mit den Parametern Ne = m, Nm = n und n = k. Beispiele: dhyper(2, 4, 6, 3) liefert den Wert 0.3, phyper(2, 4, 6, 3) liefert den Wert 0.9666667, rhyper(3, 4, 6, 3) liefert drei Werte, wie z.B. 2 Kapitel V – Diskrete Verteilungen 0 1. V - 40 Die Binomialverteilung als Approximation für die hypergeometrische Verteilung Grundgesamtheit mit Ne Erfolgen und Nm Misserfolgen. Zufällige Stichprobe der Größe n. X sei die Anzahl der Erfolge in der Stichprobe. Ziehen ohne Zurücklegen: X ist exakt hypergeometrisch verteilt: X ∼ h(Ne, Nm, n) Sind Ne und Nm groß im Vergleich zu n, ist X annähernd binomialverteilt: X ∼ b(n, π) Kapitel V – Diskrete Verteilungen mit Ne Ne = . π= (Ne + Nm) N V - 41 Wann ist die Approximation gut? Als Faustregel für eine „gute“ Approximation gilt: n ≤ 5% · min(Ne, Nm) . Zwei Beispiele für n = 10: 1. Ne = 200, Nm = 300 Dann ist 5% · min(Ne, Nm) = 10 2. Approximation gut“ ” Ne = 20, Nm = 30 Dann ist 5% · min(Ne, Nm) = 1 Kapitel V – Diskrete Verteilungen Approximation ungenau V - 42 Experiment A Experiment A: Gegeben sind 10 Prozessoren: 7 sind in Ordnung und 3 sind defekt. Experiment: n = 2 Prozessoren werden zufällig ausgewählt. X = Anzahl der ausgewählten, funktionierenden Prozessoren. Wahrscheinlichkeiten in den Versuchen: Ergebnis des 1. Versuchs Erfolg Misserfolg Inhalt der Box vor dem 2. Versuch 6 o.k. und 3 defekt 7 o.k. und 2 defekt P(Erfolg im 1. Versuch) = 7/10 = 0.7 P(Erfolg im 2. Versuch| Erfolg im 1. Versuch) = 6/9 = 0.6̄ P(Erfolg im 2. Versuch| Misserfolg im 1. Versuch) = 7/9 = 0.7̄ Kapitel V – Diskrete Verteilungen V - 43 Experiment B Experiment B: Gegeben sind 10000 Prozessoren: 7000 sind in Ordnung und 3000 sind defekt. Experiment: n = 2 Prozessoren werden zufällig ausgewählt. X = Anzahl der ausgewählten, funktionierenden Prozessoren. Wahrscheinlichkeiten in den Versuchen: Ergebnis des 1. Versuchs Erfolg Misserfolg Inhalt der Box vor dem 2. Versuch 6 999 o.k. und 3 000 defekt 7 000 o.k. und 2 999 defekt P(Erfolg im 1. Versuch) = 7 000/10 000 = 0.7 P(Erfolg im 2. Versuch| Erfolg im 1. Versuch) = 6 999/9 999 ≈ 0.7 P(Erfolg im 2. Versuch| Misserfolg im 1. Versuch) = 7 000/9 999 ≈ 0.7 Kapitel V – Diskrete Verteilungen V - 44 Wahrscheinlichkeiten für die Experimente A und B Wahrscheinlichkeiten für die beiden Experimente: P (0) P (1) P (2) Experiment A Experiment B 0.066 667 0.089 979 0.466 667 0.466 667 0.420 042 0.489 979 Binomialverteilung ³ ´ 2 0 2 0 (0.7) (0.3) = 0.09 ³ ´ 2 1(0.3)1 = 0.42 (0.7) 1 ³ ´ 2 2(0.3)0 = 0.49 (0.7) 2 Die Binomialverteilung galt nicht, weil wir ohne Zurücklegen aus der Grundgesamtheit gezogen haben. Ohne Zurücklegen bedeutet, dass wir das ausgewählte Stück nicht wieder in die Box zurückgelegt haben, so dass wir es beim zweiten Versuch nicht noch einmal auswählen können. Kapitel V – Diskrete Verteilungen V - 45 Wahrscheinlichkeiten für die Experimente A und B Vergleich der exakten Wahrscheinlichkeiten mit den Wahrscheinlichkeiten der Binomialverteilung: 0.5 0.4 Experiment A Experiment B Binomial P(x) 0.3 0.2 0.1 0.0 0 1 2 x (Anzahl der Erfolge) Kapitel V – Diskrete Verteilungen V - 46 Approximation der Hypergeometrischen Verteilung Approximation der Hypergeometrischen Verteilung durch die Binomialverteilung bei gültiger (oben) und bei ungültiger Faustregel (unten): P(x) 0.3 h(Ne=200; Nm=300; n=10) b(n=10; π=0.4) 0.2 0.1 0.0 0 1 2 3 4 5 6 x (Anzahl der Erfolge) 7 8 9 10 P(x) 0.3 h(Ne=20; Nm=30; n=10) b(n=10; π=0.4) 0.2 0.1 0.0 0 Kapitel V – Diskrete Verteilungen 1 2 3 4 5 6 x (Anzahl der Erfolge) 7 8 9 10 V - 47 Erwartungswert und Varianz für diskrete Zufallsvariablen Bestimmung von Erwartungswert und Varianz einer diskreten Zufallsvariable: Diskrete Zufallsvariable X mit den möglichen Werten x1, x2, x3, ...,xn. Erwartungswert: μ = E(X) = n P i=1 xi P (xi) = x1 P (x1) + x2 P (x2) + · · · + xn P (xn) Varianz: σ 2 = Var(X) = n P i=1 (xi − μ)2 P (xi) = (x1 − μ)2 P (x1) + · · · + (xn − μ)2 P (xn) Kapitel V – Diskrete Verteilungen V - 48 Erwartungswert und Varianz für die Bernoulli-Verteilung Erwartungswert und Varianz für die Bernoulli-Verteilung: ⎧ ⎪ ⎪ ⎨π x=1 x=0 sonst Wahrscheinlichkeitsfunktion: P (x) = ⎪1 − π ⎪ ⎩ 0 + 1 P(1) Erwartungswert: μ = 0 P(0) = 0 (1 − π) + 1 π = π Varianz: σ2 Erwartungswert: Varianz: Kapitel V – Diskrete Verteilungen = (0 − μ)2 P (0) = (0 − π)2 (1 − π) = π(1 − π) E(X) = μ2 Var(X) = σ 2 + + (1 − μ)2 P (1) (1 − π)2 π = π = π(1 − π) V - 49 Erwartungswert und Varianz für die Binomialverteilung Erwartungswert und Varianz für die Binomialverteilung: Wahrscheinlichkeitsfunktion: ⎧³ ´ ⎨ n π x(1 − π)n−x für x = 0, 1, 2, . . . , n x P (x) = ⎩0 sonst Erwartungswert: μ = 0 P(0) + 1 P(1) + 2 P(2) + . . . + n P(n) = n P x=0 Varianz: σ2 = n P ³ ´ x(1 − π)n−x = nπ x n π x (x − μ)2 P (x) x=0 n P ³ ´ 2 x(1 − π)n−x = nπ(1 − π) = (x − nπ) n π x x=0 Erwartungswert: E(X) = μ2 Varianz: Var(X) = σ 2 Kapitel V – Diskrete Verteilungen = nπ = nπ(1 − π) V - 50 Beispiele für die Binomialverteilung Einige Beispiele für die Wahrscheinlichkeitsfunktionen binomialverteilter Zufallsvariablen: b(10;0.1) -> E(X)=1 Var(X)=0.9 b(10;0.5) -> E(X)=5 Var(X)=2.5 b(10;0.9) -> E(X)=9 Var(X)=0.9 0.4 0.4 0.4 0.3 0.3 0.3 P(x) 0.5 P(x) 0.5 P(x) 0.5 0.2 0.2 0.2 0.1 0.1 0.1 0.0 0.0 0 2 4 6 x Kapitel V – Diskrete Verteilungen 8 10 0.0 0 2 4 6 x 8 10 0 2 4 6 8 10 x V - 51 Beispiele für die Binomialverteilung Weitere Beispiele für die Wahrscheinlichkeitsfunktionen binomialverteilter Zufallsvariablen: b(10;0.5) -> E(X)=5 Var(X)=2.5 P(x) 0.3 0.2 0.1 0.0 0 10 20 30 40 50 60 70 50 60 70 50 60 70 b(50;0.5) -> E(X)=25 Var(X)=12.5 P(x) 0.3 0.2 0.1 0.0 0 10 20 30 40 b(100;0.5) -> E(X)=50 Var(X)=25 P(x) 0.3 0.2 0.1 0.0 0 10 Kapitel V – Diskrete Verteilungen 20 30 40 V - 52 Die Poissonverteilung Die Poissonverteilung besitzt einen Parameter: λ > 0 . λ wird die „erwartete Rate“ von X genannt. Wahrscheinlichkeitsfunktion: ⎧ ⎨ λx e−λ P (x) = x! ⎩0 für x = 0, 1, 2, . . . sonst Dabei ist e ≈ 2.71828 die Eulersche Zahl. Notation: X ∼ P o(λ) Kapitel V – Diskrete Verteilungen V - 53 Beispiel: Anzahl schwerer Erdbeben (Beispiel 1.7) Erdbeben-Beispiel: X sei die Anzahl der weltweiten Erdbeben der Stärke 7.0 oder größer im nächsten Monat: ⎧ ⎨ 1.2x e−1.2 für x = 0, 1, 2, . . . x! X ∼ P o(1.2) P (x) = ⎩0 sonst P (0) = 1.20 e−1.2 0! P (1) = 1.21 e−1.2 1! P (2) = P (3) = P (4) = .. Kapitel V – Diskrete Verteilungen 1.22 2! 1.23 3! ≈ 0.3012 ≈ 0.3614 e−1.2 ≈ 0.2169 e−1.2 ≈ 0.0867 1.24 e−1.2 4! ≈ 0.0260 V - 54 Beispiel: Anzahl schwerer Erdbeben (Beispiel 1.7) Wahrscheinlichkeitsfunktion für die monatliche Anzahl starker Erdbeben: 0.4 P(x) 0.3 0.2 0.1 0.0 0 Kapitel V – Diskrete Verteilungen 1 2 3 4 x 5 6 7 8 V - 55 Beantwortung zweier Fragen über die Anzahl der Erdbeben Zwei Fragen über die Anzahl der Erdbeben: Wie groß ist die Wahrscheinlichkeit, dass sich im nächsten Monat höchstens ein starkes Erdbeben ereignen wird? P (X ≤ 1) = P (0) + P (1) = 0.3012 + 0.3614 = 0.6626 Wie groß ist die Wahrscheinlichkeit, dass sich im nächsten Monat zwei oder mehr starke Erdbeben ereignen werden? P (2) + P (3) + P (4) + . . . = P (X ≥ 2) P (0) + P (1) + P (2) + P (3) + P (4) + . . . = 1 P (X ≥ 2) = 1 − (P (0) + P (1)) = 1 − (0.3012 + 0.3614) = 0.3374 Kapitel V – Diskrete Verteilungen V - 56 R-Befehle für die Poissonverteilung dpois(x, lambda): Berechnet die Wahrscheinlichkeit P (x) einer Poissonverteilung mit Parameter λ = lambda. ppois(q, lambda): Berechnet den Wert der Verteilungsfunktion einer Poissonverteilung mit Parameter λ = lambda an der Stelle q. rpois(n, lambda): Erzeugt n Zufallszahlen einer Poissonverteilung mit Parameter λ = lambda. Beispiele: dpois(1, 3) liefert den Wert 0.1493612, ppois(1, 3) liefert den Wert 0.1991483, rpois(3, 3) liefert drei Werte, wie z.B. 5 Kapitel V – Diskrete Verteilungen 4 2 . V - 57 Erwartungswert und Varianz einer Poissonverteilung Erwartungswert und Varianz einer Poissonverteilung: Wahrscheinlichkeitsfunktion: Erwartungswert: Varianz: σ2 μ = ⎧ ⎨ λx e−λ P (x) = x! ⎩0 für x = 0, 1, 2, . . . sonst = 0 P(0) + 1 P(1) + 2 P(2) + . . . ∞ x P λ = x x! e−λ = λ x=0 ∞ P (x − μ)2 P (x) x=0 ∞ P x λ 2 (x − λ) x! e−λ = λ = x=0 Erwartungswert: E(X) = μ2 Varianz: Var(X) = σ 2 Kapitel V – Diskrete Verteilungen = λ = λ V - 58 Beispiele, Poissonverteilung Einige Beispiele für Wahrscheinlichkeitsfunktionen poissonverteilter Zufallsvariablen: Po(2) -> E(X) = Var(X) = 2 P(x) 0.3 0.2 0.1 0.0 0 5 10 15 20 25 30 35 25 30 35 25 30 35 Po(10) -> E(X) = Var(X) = 10 P(x) 0.3 0.2 0.1 0.0 0 5 10 15 20 Po(20) -> E(X) = Var(X) = 20 P(x) 0.3 0.2 0.1 0.0 0 Kapitel V – Diskrete Verteilungen 5 10 15 20 V - 59 Approximation der Binomialverteilung durch die Poissonverteilung Approximation der Binomialverteilung durch die Poissonverteilung: Sei X binomialverteilt: Wenn n groß und π klein ist, dann ist X annähernd poissonverteilt: X ∼ P o(λ) mit λ = nπ. Faustregel: Die Poissonapproximation der Binomialverteilung liefert eine hinreichend genaue Approximation für n ≥ 30 Kapitel V – Diskrete Verteilungen und π ≤ 0.1 . V - 60 Exakte und approximierte Wahrscheinlichkeiten (n = 10, π = 0.2) Exakte und approximierte Wahrscheinlichkeiten für n = 10 und π = 0.2: x P(x) 0 1 2 3 4 5 6 7 .. P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7) .. Kapitel V – Diskrete Verteilungen Binomial Poisson (exakte Verteilung) (angenäherte Verteilung) b(10, 0.2) Po(2) 0.11 0.14 0.27 0.27 0.30 0.27 0.20 0.18 0.09 0.09 0.03 0.04 0.01 0.01 0.00 0.00 .. .. V - 61 Approximation der Binomialverteilung durch die Poissonverteilung Beispiel einer Approximation der Binomial- durch die Poissonverteilung: 0.35 b(n=10; π =0.2) 0.30 Po(λ=2) P(x) 0.25 0.20 0.15 0.10 0.05 0.00 0 Kapitel V – Diskrete Verteilungen 2 4 x (Anzahl der Erfolge) 6 8 V - 62 Exakte und approximierte Wahrscheinlichkeiten (n = 20, π = 0.05) Exakte und approximierte Wahrscheinlichkeiten für n = 20 und π = 0.05: x P(x) 0 1 2 3 4 5 .. P(0) P(1) P(2) P(3) P(4) P(5) .. Kapitel V – Diskrete Verteilungen Binomial Poisson (exakte Verteilung) (angenäherte Verteilung) b(20, 0.05) Po(1) 0.36 0.37 0.38 0.37 0.19 0.18 0.06 0.06 0.01 0.02 0.00 0.00 .. .. V - 63 Approximation der Binomialverteilung durch die Poissonverteilung Beispiel für Approximationen der Binomial- durch die Poissonverteilung: b(n=20; π=0.05) Po(λ=1) P(x) 0.4 0.2 0.0 0 1 2 3 4 5 x (Anzahl der Erfolge) 6 8 b(n=200; π=0.005) Po(λ=1) 0.4 P(x) 7 0.2 0.0 0 Kapitel V – Diskrete Verteilungen 1 2 3 4 5 x (Anzahl der Erfolge) 6 7 8 V - 64 Exkurs: Binomialkoeffizienten (a + b)2 = b2 + 2ab + a2 = 1 a0 b2 + 2 a1 b1 + 1 a2 b0 = ³ ´ 2 0 b2 a 0 + ³ ´ 2 1 b1 a 1 + ³ ´ 2 2 b0 a 2 Allgemein gilt: ³1´ ³1´ 1 0 1 (a + b) = a b + a1 b0 0 ³2´ (a + b)2= 0 ³3´ (a + b)3= 1 a0 b2 + a0 b3 + ³2´ 1 ³3´ ³2´ 1 1 a b + a2 b0 2 a1 b2 + ³3´ ³3´ 2 1 a b + a3 b0 0 1 2 3 ³4´ ³4´ ³4´ ³4´ ³4´ 4 0 4 1 3 2 2 3 1 (a + b) = a b + a b + a b + a b + a4 b0 0 1 2 3 4 ³5´ ³5´ ³5´ ³5´ ³5´ ³5´ 5 0 5 1 4 2 3 3 2 4 1 (a + b) = a b + a b + a b + a b + a b + a5 b0 0 1 2 3 4 5 .. Kapitel V – Diskrete Verteilungen V - 65 Binomialkoeffizienten - Pascalsches Dreieck µ ¶ µ ¶ µ ¶ µ ¶ n n n n n 0 n 1 n−1 2 n−2 (a+b) = a b + a b + a b + . . .+ an b0 0 1 2 n µ ¶ n x n−x a b x x-ter Term: x = 0, 1, 2, . . . , n x n 0 0 1 2 3 4 5 6 .. 1 1 1 1 1 1 1 6 Kapitel V – Diskrete Verteilungen 1 2 3 4 5 2 1 3 6 10 15 1 1 4 10 20 3 4 1 5 15 5 1 6 6 1 · V - 66 Kapitel 6 Gaußglocke und andere Kurven – Stetige Verteilungen Kapitel VI – Stetige Verteilungen VI - 0 Modelle für stetige Zufallsvariablen Übersicht: Rechteckverteilung: X ∼ U (a, b) (Uniform distribution) Exponentialverteilung: X ∼ Exp(λ) (Exponential distribution) Normalverteilung: X ∼ N (μ, σ 2) (Normal distribution) Chiquadratverteilung: X ∼ χ2(ν) (Chi-squared distribution) F-Verteilung: X ∼ F (ν1, ν2) (Fisher‘s F distribution) t-Verteilung: X ∼ t(ν) (Student-t distribution) Lognormalverteilung: X ∼ LN (μ, σ 2) (Lognormal distribution) Kapitel VI – Stetige Verteilungen VI - 1 Die Rechteckverteilung mit den Parametern a und b (a < b) X sei rechteckverteilt mit Parametern a und b: X ∼ U (a, b) Dichtefunktion: ⎧ ⎪ ⎨ 1 f (x) = b − a ⎪ ⎩0 a≤x≤b sonst Verteilungsfunktion: F (t) = ⎧ ⎪ ⎪ 0 ⎪ ⎪ ⎨t − a ⎪ b−a ⎪ ⎪ ⎪ ⎩1 Kapitel VI – Stetige Verteilungen t<a a≤t≤b b<t<∞ VI - 2 Die Dichtefunktion der Rechteckverteilung Allgemeine Darstellung der Dichtefunktion einer Recheckverteilung: f(x) 1/(b-a) Fläche = 1 a b x Kapitel VI – Stetige Verteilungen VI - 3 Die Dichtefunktion der Rechteckverteilung Beispiele für die Dichtefunktion einer Rechteckverteilung: a = -0.5; b = 2.5 a = 0.2; b = 1.8 1.2 1.2 1.0 1.0 1.0 0.8 0.8 0.8 0.6 f(x) 1.2 f(x) f(x) a = 0; b = 1 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 -2 -1 0 1 x Kapitel VI – Stetige Verteilungen 2 3 0.0 -2 -1 0 1 x 2 3 -2 -1 0 1 2 3 x VI - 4 Dichte- und Verteilungsfunktion der Rechteckverteilung Dichte- und Verteilungsfunktion einer U(-1, 2)- verteilten Zufallsvariable: Dichtefunktion f(x) 1.0 f(x) 0.8 0.6 0.4 0.2 Fläche = 0.67 0.0 -2 -1 0 1 2 3 2 3 x Verteilungsfunktion F(t) F(t) 1.0 0.8 0.67 0.6 0.4 0.2 0.0 -2 -1 0 1 t Kapitel VI – Stetige Verteilungen VI - 5 Erwartungswert und Varianz der Rechteckverteilung E(X) = Z ∞ −∞ Z a x f (x) dx Z b Z ∞ 1 = x · 0 dx + x x · 0 dx dx + b−a −∞ a b Z b 1 = x dx b−a a 1 = b−a " #b 2 x 2 a ! 2 2 b −a 1 (b − a)(b + a) = = b−a 2 2(b − a) E(X) = à a+b 2 Z b 1 Var(X) = (x − E(X)) dx b−a a Kapitel VI – Stetige Verteilungen 2 (b − a)2 = 12 VI - 6 R-Befehle für die Rechteckverteilung dunif(x, min, max): Berechnet den Funktionswert der Dichtefunktion f (x) einer Rechteckverteilung mit den Parametern a = min und b = max. punif(q, min, max): Berechnet den Wert der Verteilungsfunktion einer Rechteckverteilung mit den Parametern a = min und b = max an der Stelle q. runif(n, min, max): Erzeugt n Zufallszahlen einer Rechteckverteilung mit den Parametern a = min und b = max. Beispiele: dunif(1, 0, 2) liefert den Wert 0.5, punif(1.5, 0, 2) liefert den Wert 0.75, runif(3, 0, 1) oder runif(3) liefert drei Werte, wie z.B. 0.054209 0.709255 0.432684. Kapitel VI – Stetige Verteilungen VI - 7 Die Exponentialverteilung mit Parameter λ (λ > 0) X sei exponentialverteilt mit Parameter λ: X ∼ Exp(λ) . Dichtefunktion: f (x) = ⎧ ⎨λe−λx ⎩0 für sonst x≥0 Verteilungsfunktion: F (t) = ⎧ ⎨0 ⎩1 − e−λt Kapitel VI – Stetige Verteilungen t<0 t≥0 VI - 8 Die Exponentialverteilung Einige Beispiele für die Dichtefunktion der Exponentialverteilung: λ=2 λ=4 4 4 3 3 3 2 f(x) 4 f(x) f(x) λ = 0.5 2 2 1 1 1 0 0 0 0 1 2 3 x Kapitel VI – Stetige Verteilungen 4 5 0 1 2 3 x 4 5 0 1 2 3 4 5 x VI - 9 Call-Center Beispiel: Dauer eines Anrufs Die Anrufdauer X sei exponentialverteilt mit λ = 0.006: X ∼ Exp(0.006) . Dichtefunktion: Verteilungsfunktion: f (x) = ⎧ ⎨0.006e−0.006x F (t) = ⎧ ⎨0 ⎩0 ⎩1 − e−0.006 t x≥0 sonst t<0 t≥0 Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden dauert: P (100 < X < 200) = F (200) − F (100) = ³ ´ ³ ´ −0.006·(200) −0.006·(100) 1−e − 1−e = 0.699 − 0.451 = 0.248 Kapitel VI – Stetige Verteilungen VI - 10 Call-Center Beispiel: Dauer eines Anrufs Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden dauert (Dichtefunktion): 0.006 0.005 0.004 Fläche = 0.248 0.003 0.002 0.001 0.000 0 200 400 600 800 1000 Anrufdauer (Sekunden) Kapitel VI – Stetige Verteilungen VI - 11 Call-Center Beispiel: Dauer eines Anrufs Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden dauert (Verteilungsfunktion): Dichtefunktion f(x) 0.006 0.005 0.004 Fläche = 0.248 0.003 0.002 0.001 0.000 0 200 400 600 800 1000 800 1000 Anrufdauer (Sekunden) Verteilungsfunktion F(t) 1.0 0.8 0.699 0.6 0.451 0.4 0.2 0.0 0 200 400 600 Anrufdauer (Sekunden) Kapitel VI – Stetige Verteilungen VI - 12 Erwartungswert und Varianz der Exponentialverteilung Erwartungswert: E(X) = Varianz: Z ∞ 0 = Z ∞ Var(X) = Z ∞ = 0 0 Z∞ 0 x f (x) dx x λe−λx dx = 1 λ (x − E(X))2 f (x) dx 1 2 −λx 1 (x − ) λe dx = 2 λ λ Im Call-Center Beispiel erhalten wir: 1 = 0.006 ≈ 167 Sekunden 1 2 ≈ 27778 Sekunden Var(X) = σ 2 = 0.006 2 E(X) = μ Standardabweichung(X) = σ Kapitel VI – Stetige Verteilungen 1 = 0.006 ≈ 167 Sekunden VI - 13 Wann ist eine Zufallsvariable X exponentialverteilt? Zur Erinnerung: Bedingungen für eine Binomialverteilung: (1) Das Zufallsexperiment besteht aus n unabhängigen Versuchen. (2) Jeder Versuch hat zwei mögliche Ausgänge: Erfolg oder Misserfolg. (3) Die Erfolgswahrscheinlichkeit ist in jedem Versuch die gleiche. Für die Exponentialverteilung sind die Bedingungen weniger einfach, denn – Sie lassen sich nicht leicht in die Alltagssprache übersetzen. – Selbst wenn man ihre Bedeutung verstanden hat, ist es schwierig zu entscheiden, ob die Bedingungen erfüllt sind oder nicht. Kapitel VI – Stetige Verteilungen VI - 14 Poissonapproximation der Binomialverteilung X sei binomialverteilt: X ∼ b(n, π). Wenn n groß und π klein ist, dann ist X annähernd poissonverteilt: X ∼ P o(λ) mit λ = nπ. Beispiel: Ist X ∼ b(50, 0.02) dann ist X annähernd poissonverteilt: X ∼ P o(1). b(50, 0.02) Po(1) 0 1 2 3 4 5 Kapitel VI – Stetige Verteilungen P(0) P(1) P(2) P(3) P(4) P(5) 0.364 0.372 0.186 0.061 0.015 0.003 0.368 0.368 0.184 0.061 0.015 0.003 VI - 15 Der Poisson-Prozess Ein Poisson-Prozess beschreibt das Eintreten von Ereignissen im Zeitablauf, die nicht gleichzeitig eintreten können: (1) Betrachtet man sehr kleine Zeitintervalle, gibt es entweder einen Erfolg oder einen Misserfolg. (2) Die Ereignisse sind unabhängig. (3) Die Erfolgswahrscheinlichkeit π ist konstant. Dann gilt: (a) Die Anzahl X der Erfolge in n Zeitintervallen ist eine binomialverteilte Zufallsvariable: X ∼ b(n, π) (b) Wenn π klein ist und n groß ist, haben wir X ∼ P o(λ) mit λ = nπ (c) Der Abstand zwischen zwei Ankünften (bzw. Ereignissen) ist eine stetige Zufallsvariable Y , die exponentialverteilt ist: Y ∼ Exp(λ) Kapitel VI – Stetige Verteilungen VI - 16 Beispiel: Ankünfte von Autos an einer Tankstelle Sei X das Intervall zwischen zwei Ankünften. Die Bedingungen (1) – (3) seien erfüllt und λ = 1/10 (Autos pro Minute). Die Wahrscheinlichkeit, dass der Abstand zwischen zwei Ankünften kleiner als 20 Minuten ist: P (X < 20) = F (20) = 1 − e = 0.86 Kapitel VI – Stetige Verteilungen −λ·20 =1−e 1 20 − 10 = 1 − e−2 VI - 17 R-Befehle für die Exponentialverteilung dexp(x, rate): Berechnet den Funktionswert der Dichtefunktion f (x) einer Exponentialverteilung mit Parameter λ = rate. pexp(q, rate): Berechnet den Wert der Verteilungsfunktion einer Exponentialverteilung mit Parameter λ = rate an der Stelle q. rexp(n, rate): Erzeugt n Zufallszahlen einer Exponentialverteilung mit Parameter λ = rate. Beispiel: Sei X ~ Exp(λ = 0.006) Gesucht: P (100 < X < 200) = F (200) – F (100) R-Befehl: pexp(200, 0.006) – pexp(100, 0.006) Ergebnis: 0.2476174 Kapitel VI – Stetige Verteilungen VI - 18 Die Normalverteilung bzw. Gaußverteilung X sei normalverteilt mit Parametern μ und σ2: X ∼ N (μ, σ 2) . Dichtefunktion: Erwartungswert: Varianz: f (x) = √ 1 2πσ E(X) = Var(X) = ∞ R −∞ ∞ R −∞ Schiefe: α3 = 0 (vgl. Kap. 4) Kurtosis: α4 = 3 (vgl. Kap. 4) Kapitel VI – Stetige Verteilungen (x−μ)2 − e 2σ2 x √1 2πσ für x ∈ IR (x−μ)2 − e 2σ2 dx (x − μ)2 √ 1 2πσ e =μ − (x−μ) 2 2σ 2 dx = σ 2 VI - 19 Die Normalverteilung Einige Beispiele für die Dichtefunktionen normalverteilter Zufallsvariablen: 1.4 2 μ = -6; σ = 2 2 μ = 0; σ = 1 1.2 2 μ = 7; σ = 0.09 1.0 f(x) 0.8 0.6 0.4 0.2 0.0 -10 -8 -6 -4 -2 0 2 4 6 8 10 x Kapitel VI – Stetige Verteilungen VI - 20 Sigma-Regeln für die Normalverteilung Sigma- Regeln für die Normalverteilung: Etwa 68 % der Fläche liegen zwischen μ – σ und μ + σ. Etwa 95 % der Fläche liegen zwischen μ – 2σ und μ + 2σ. Etwa 99.7 % der Fläche liegen zwischen μ – 3σ und μ + 3σ. Etwa 99.9997 % der Fläche liegen zwischen μ – 6σ und μ + 6σ. Der letzte Fall liegt in Beziehung zu den „six-sigma“ Methoden. Kapitel VI – Stetige Verteilungen VI - 21 Sigma-Regeln für die Normalverteilung Darstellung der 68 %- und der 95 %-Regel: 68%-Regel 0.12 0.10 f(x) 0.08 0.06 68% 0.04 0.02 0.00 -5 0 5 μ-σ 10 (11 - 4) 15 μ μ+σ (11) (11 + 4) 20 25 30 20 25 30 95%-Regel 0.12 f(x) 0.10 0.08 0.06 95% 0.04 0.02 0.00 -5 0 μ-2σ (11 - 2*4) Kapitel VI – Stetige Verteilungen 5 10 μ (11) 15 μ+2σ (11 + 2*4) VI - 22 Die Standardnormalverteilung Die Standardnormalverteilung ist die Normalverteilung mit Parametern μ = 0 und σ2 = 1: X ∼ N (0, 1) . Dichtefunktion: f (x) = √1 2π 2 x e− 2 für x ∈ IR . Die Verteilungsfunktion der Standardnormalverteilung wird mit Φ (statt F) bezeichnet: Rt √1 Φ(t) = P (X ≤ t) = 2π −∞ 2 e − x2 dx . Die Werte der Verteilungsfunktion Φ(t) werden – aus einer Tabelle abgelesen, oder – mit Software berechnet. Kapitel VI – Stetige Verteilungen VI - 23 Die Standardnormalverteilung Dichte- und Verteilungsfunktion der Standardnormalverteilung: Dichtefunktion f (x) 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -4 -3 -2 -1 0 x 1 2 3 4 2 3 4 Verteilungsfunktion Φ (t) 1.0 Φ (t) 0.8 0.6 0.4 0.2 0.0 -4 -3 Kapitel VI – Stetige Verteilungen -2 -1 0 t 1 VI - 24 Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung X sei standardnormalverteilt: X ∼ N (0, 1) . Gesucht: P (0.5 < X < 1.5) = P (X < 1.5) − P (X < 0.5) = Φ(1.5) − Φ(0.5) = 0.933 − 0.691 = 0.242 Gesucht: P (X > 1.7) = 1 Kapitel VI – Stetige Verteilungen − P (X ≤ 1.7) = 1 − Φ(1.7) = 1 − 0.955 = 0.045 (Tabelle) (Tabelle) VI - 25 Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung Bestimmung von P (0.5 < X < 1.5) mit Hilfe der Verteilungsfunktion der Standardnormalverteilung: Dichtefunktion f (x) 0.5 f(x) 0.4 0.3 Fläche = 0.242 0.2 0.1 0.0 -4 -3 -2 -1 0 1 2 3 4 2 3 4 x Φ (t) Verteilungsfunktion Φ (t) 1.0 0.933 0.8 0.691 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 t Kapitel VI – Stetige Verteilungen VI - 26 Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung Bestimmung von P (X > 1.7) mit Hilfe der Verteilungsfunktion der Standardnormalverteilung: Dichtefunktion f (x) 0.5 f(x) 0.4 0.3 Fläche = 1 - 0.955 = 0.045 0.2 Fläche = 0.955 0.1 0.0 -4 -3 -2 -1 0 1 2 3 4 2 3 4 x Verteilungsfunktion Φ (t) Φ (t) 1.0 0.955 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 t Kapitel VI – Stetige Verteilungen VI - 27 Berechnung von Wahrscheinlichkeiten für eine beliebige Normalverteilung Ein Modell für die Blockzeiten der American Airlines Flüge von Dallas nach Philadelphia sei: X ∼ N(183, 142). Frage: Wie groß ist die Wahrscheinlichkeit, dass die Blockzeit eines beliebigen Fluges zwischen 180 und 190 Minuten beträgt? Antwort: P(180 < X < 190) = F(190) – F(180) = ?? Problem: Für die N (185, 142) - Verteilung gibt es – keine Formel für die Verteilungsfunktion F – und keine Tabelle. Wir müssen trotzdem keine Rechtecke zählen! Kapitel VI – Stetige Verteilungen VI - 28 Berechnung von Wahrscheinlichkeiten für eine beliebige Normalverteilung Dichtefunktion der Blockzeiten und gesuchte Wahrscheinlichkeit: 0.04 f(x) 0.03 0.02 ≈ 0.27 0.01 0.00 140 150 Kapitel VI – Stetige Verteilungen 160 170 180 190 200 210 220 230 VI - 29 Die standardisierte Zufallsvariable F : Verteilungsfunktion der N (μ, σ2) – Verteilung, Φ: Verteilungsfunktion der N (0, 1) – Verteilung. Satz: Ist X ∼ N (μ, σ 2), so ist Z = X−μ ∼ N (0, 1) . σ X −μ Die standardisierte Zufallsvariable Z = besitzt eine σ Standardnormalverteilung. µ ¶ t−μ Satz: F (t) = Φ . σ F (t) kann mit Hilfe der Tabelle für Φ bestimmt werden. Kapitel VI – Stetige Verteilungen VI - 30 Wahrscheinlichkeit einer Blockzeit zwischen 180 und 190 Minuten Ein Modell für die Blockzeiten der American Airlines Flüge von Dallas nach Philadelphia sei: X ∼ N(183, 142). Frage: Wie groß ist die Wahrscheinlichkeit, dass die Blockzeit eines beliebigen Fluges zwischen 180 und 190 Minuten beträgt? Antwort: P (180 < X < 190) = F (190) – F (180) Aus F (t) = Φ µ t−μ σ µ ¶ folgt: 190 − 183 F (190) = Φ 14 µ 180 − 183 F (180) = Φ 14 ¶ = Φ(0.5) ¶ = Φ(−0.21) = 0.417 = 0.691 P (180 < X < 190) = 0.691 – 0.417 = 0.274. Kapitel VI – Stetige Verteilungen VI - 31 R-Befehle für die Normalverteilung dnorm(x, mean, sd): Berechnet den Funktionswert der Dichtefunktion f (x) einer Normalverteilung mit den Parametern μ = mean und σ = sd. pnorm(q, mean, sd): Berechnet den Wert der Verteilungsfunktion einer Normalverteilung mit den Parametern μ = mean und σ = sd an der Stelle q. rnorm(n, mean, sd): Erzeugt n Zufallszahlen einer Normalverteilung mit den Parametern μ = mean und σ = sd. Beispiel: Sei X ~ N (183, 142). Gesucht: P (180 < X < 190) = F (190) – F (180) R-Befehl: pnorm(190, 183, 14) – pnorm(180, 183, 14) Ergebnis: 0.2763003 Kapitel VI – Stetige Verteilungen VI - 32 Approximation der Binomialverteilung durch die Normalverteilung X sei binomialverteilt: X ∼ b(n, π). Wenn n groß und π klein ist, dann ist X annähernd Poisson-verteilt: X ∼ Po (λ) mit λ = n·π. Unter bestimmten Umständen lässt sich die Binomialverteilung auch durch die Normalverteilung approximieren: Wenn n groß und π nicht zu nahe bei 0 oder 1 liegt, dann ist X approximativ Normal-verteilt: X ∼ N (μ, σ2) mit μ = n·π und σ2 = n·π·(1 – π). Kapitel VI – Stetige Verteilungen VI - 33 Beispiel: Binomialverteilung mit Parametern n = 30 und π = 0.4 Beispiel: X sei binomialverteilt mit n = 30 und π = 0.4: X ∼ b (30, 0.4). X ist dann approximativ Normalverteilt N (μ, σ2) mit: μ σ2 σ = = = nπ nπ(1 − π) √ 7.2 = = 30 · 0.4 = 12.0 30 · 0.4 · 0.6 = 7.2 = 2.68 d.h. X ∼ N (12.0, 7.2). Kapitel VI – Stetige Verteilungen VI - 34 Beispiel: Approximation einer Binomialverteilung Approximation einer Binomialverteilung durch eine Normalverteilung für n = 30, π = 0.4 (oben) und für n = 200 und π = 0.56 (unten): 1.0 F(t) 0.8 0.6 0.4 b(n = 30; π = 0.4) 0.2 N(μ = 12; σ = 7.2 2 0.0 0 5 10 15 t 20 25 30 1.0 b(n = 200; π = 0.56) F(t) 0.8 2 N(μ = 112; σ = 49.28 0.6 0.4 0.2 0.0 0 Kapitel VI – Stetige Verteilungen 50 100 t 150 200 VI - 35 Beispiel aus der Meinungsforschung Beispiel: In der US-Präsidentenwahl 2001 im Bundesstaat New Jersey errangen Gore 56 % und Bush 40 % der Stimmen. Angenommen, in einer Meinungsumfrage sollen 200 Wähler befragt werden, d.h. sei X die Anzahl der Befragten, die Al Gore wählen wollen: X ∼ b(200, 0.56) . Gesucht ist die Wahrscheinlichkeit, dass unter den 200 befragten Personen weniger als 100 Al Gore wählen wollen: P (X < 100) = P (X ≤ 99) . Die exakte Wahrscheinlichkeit ist gegeben durch: P (X ≤ 99) = Kapitel VI – Stetige Verteilungen 99 X x=0 P (x) = 99 ³ X 200´ x=0 x (0.56)x(0.44)200−x = 0.038 VI - 36 Beispiel aus der Meinungsforschung Die exakte Verteilung X ∼ b(200, 0.56) mit n = 200 und π = 0.56 lässt sich durch eine Normalverteilung annähern: X ∼ N (μ, σ 2) mit = nπ μ X ∼ N (μ, σ 2) mit σ2 = 112, = nπ(1 − π) = 49.28 d.h. als Approximation erhalten wir X ∼ N (112, 49.28) . Somit ergibt sich als approximierte Wahrscheinlichkeit: µ 99 − μ P (X ≤ 99) = Φ σ ¶ = Φ(−1.852) à 99 − 112 =Φ √ 49.28 ! = 0.032 (vgl. Exakte Wahrscheinlichkeit: 0.038) Kapitel VI – Stetige Verteilungen VI - 37 Annäherung der Binomialverteilung durch Normalverteilung Sei X ∼ b(n, π). Wenn n groß und π nicht zu nah bei 0 oder 1 liegt, dann gilt: µ t−μ P (X ≤ t) ≈ Φ σ ¶ mit μ = n π und σ 2 = n π(1 − π) . Die genauesten Ergebnisse erhält man für π = 0.5, da die Binomialverteilung dann symmetrisch ist. Die Approximation ist auch für andere Werte von π in Ordnung, wenn n hinreichend groß ist. Je weiter π von 0.5 entfernt ist, desto größer muss n sein. Kapitel VI – Stetige Verteilungen VI - 38 Beispiel für eine schlechte Approximation n = 4 und π = 0.6 Beispiel für eine schlechte Approximation: Die exakte Verteilung sei X ∼ b(4, 0.6) , d.h. wir haben folgende (exakte) Wahrscheinlichkeiten: Wahrscheinlichkeitsfunktion b(4, 0.6) 0 P(0) 1 P(1) 2 P(2) 3 P(3) 4 P(4) ³ ´ 4 00.44 0.6 ³0´ 4 10.43 0.6 ³1´ 4 20.42 0.6 ³2´ 4 30.41 0.6 ³3´ 4 40.40 0.6 4 0.0256 0.1536 0.3456 0.3456 0.1296 Die Parameter der approximierenden Normalverteilung ergeben sich durch μ = nπ = 2.4 σ 2 = nπ(1 − π) = 0.96 d.h. X ∼ N (2.4, 0.96) . Kapitel VI – Stetige Verteilungen VI - 39 Beispiel für eine schlechte Approximation n = 4 und π = 0.6 Vergleich der exakten mit der approximierten Wahrscheinlichkeit: - Exakte Wahrscheinlichkeit: P (X ≤ 2) = P (0) + P (1) + P (2) = 0.5248 . - Approximierte Wahrscheinlichkeit durch N (μ = 2.4, σ2 = 0.96): µ ¶ 2 − 2.4 P (X ≤ 2) = Φ = Φ(−0.41) = 0.341 . 0.980 Verbesserung: Verteilungsfunktion um eine halbe Einheit nach links verschieben! Kapitel VI – Stetige Verteilungen VI - 40 Approximation mit Stetigkeitskorrektur Die ursprüngliche Approximation ist gegeben durch: µ x−μ P (X ≤ x) ≈ Φ σ ¶ . Die Approximation mit Stetigkeitskorrektur ist gegeben durch: µ x + 0.5 − μ P (X ≤ x) ≈ Φ σ ¶ . In beiden Fällen verwendet man μ = nπ Kapitel VI – Stetige Verteilungen und σ 2 = nπ(1 − π) . VI - 41 Approximation mit Stetigkeitskorrektur Verbesserung der Approximation durch eine Stetigkeitskorrektur: 1.0 0.8 F(t) 0.6 0.4 0.2 b(4; 0.6) N(2.4; 0.96) ohne Korrektur N(2.4; 0.96) mit Korrektur 0.0 0 1 2 3 4 5 t Kapitel VI – Stetige Verteilungen VI - 42 Beispiel für eine schlechte Approximation n = 4 und π = 0.6 Beispiel: Schlechte Approximation von X ∼ b(4, 0.6) . Die exakte Wahrscheinlichkeit beträgt: P (X ≤ 2) = P (0) + P (1) + P (2) = 0.5248 . Ohne Stetigkeitskorrektur erhalten wir durch die Approximation: µ ¶ 2 − 2.4 P (X ≤ 2) = Φ = Φ(−0.41) = 0.341 . 0.980 Mit Stetigkeitskorrektur hingegen erhalten wir mit der Approximation folgenden Wert: µ ¶ 2 + 0.5 − 2.4 P (X ≤ 2) ≈ Φ = Φ(0.10) = 0.540 . 0.980 Kapitel VI – Stetige Verteilungen VI - 43 Normalapproximation für einzelne Ausprägungen der Binomialverteilung Betrachtet wird jetzt die Approximation von Wahrscheinlichkeiten für einzelne Ausprägungen der Binomialverteilung, z.B.: P (X = 2) = 0.3456 . Die Approximation durch die Normalverteilung: P (X = 2) = P (X ≤ 2) − P (X ≤ 1) = F (2) − F (1) . Ohne Stetigkeitskorrektur erhalten wir: ³ ´ 2−μ F (2) ≈ Φ σ ³ ´ 1−μ F (1) ≈ Φ σ P (X = 2) = Φ(−0.41) = Φ(−1.43) = 0.076 0.341 − 0.076 = 0.265 ≈ = 0.341 Mit Stetigkeitskorrektur ergibt sich: ³ ´ 2.5−μ F (2) ≈ Φ ³ σ ´ F (1) ≈ Φ 1.5−μ σ P (X = 2) Kapitel VI – Stetige Verteilungen = Φ(−0.10) = Φ(−0.92) = 0.179 0.540 − 0.179 = 0.361 ≈ = 0.540 VI - 44 Normalapproximation für einzelne Ausprägungen der Binomialverteilung Approximation von P (X = 2) ohne (oben) und mit Stetigkeitskorrektur (unten): ohne Korrektur 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -2 -1 0 1 2 x 3 4 5 6 3 4 5 6 mit Korrektur 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -2 Kapitel VI – Stetige Verteilungen -1 0 1 2 x VI - 45 Approximation der Binomialverteilung durch die Normalverteilung Approximation von Wahrscheinlichkeiten für einzelne Ausprägungen von P (x) mit und ohne Stetigkeitskorrektur: — Binomialverteilung: b(4, 0.6) — Normalapproximation: N (2.4, 0.96) Tabellarische Zusammenfassung der exakten und approximierten Wahrscheinlichkeiten: Approximation durch Normalverteilung x P (x) exakt ohne Korrektur mit Korrektur 0 1 2 3 4 P(0) P(1) P(2) P(3) P(4) 0.026 0.154 0.346 0.346 0.130 0.007 0.069 0.265 0.388 0.219 0.025 0.153 0.361 0.329 0.115 Kapitel VI – Stetige Verteilungen VI - 46 Approximation der Binomialverteilung durch die Normalverteilung Approximation von P (x) ohne (links) und mit (rechts) Stetigkeitskorrektur: b(4; 0.6)-Verteilung 0.5 0.5 0.4 0.4 0.3 0.3 P(x) P(x) b(4; 0.6)-Verteilung 0.2 0.2 0.1 0.1 0.0 0.0 -2 -1 0 1 2 x 3 4 5 6 -2 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 -2 -1 0 Kapitel VI – Stetige Verteilungen 1 2 x 3 4 5 0 1 2 x 3 4 5 6 Approximation mit Korrektur f(x) f(x) Approximation ohne Korrektur -1 6 -2 -1 0 1 2 x 3 4 5 6 VI - 47 Die Chiquadratverteilung X sei χ2-verteilt mit Parameter ν : X ∼ χ2(ν) . Der Parameter ν ist eine natürliche Zahl (Freiheitsgrad FG bzw. degree of freedom df). Die Dichtefunktion ist gegeben durch: ⎧ ⎪ ⎨ xν/2−1 e−x/2 f (x) = 2ν/2 Γ(ν/2) ⎪ ⎩0 x≥0 sonst (Dabei steht Γ für die Gammafunktion.) Einige Resultate für die χ2-Verteilung: E(X) = ν Var(X) = 2ν - Wenn ν groß ist, dann ist X annähernd N(ν, 2ν)-verteilt. Kapitel VI – Stetige Verteilungen VI - 48 Die Chiquadratverteilung Einige Beispiele für Dichtefunktionen der χ2-Verteilung: ν=2 ν=4 ν = 10 0.4 0.4 0.4 0.3 0.3 0.3 f(x) 0.5 f(x) 0.5 f(x) 0.5 0.2 0.2 0.2 0.1 0.1 0.1 0.0 0.0 0 5 10 x Kapitel VI – Stetige Verteilungen 15 20 0.0 0 5 10 x 15 20 0 5 10 15 20 x VI - 49 R-Befehle für die Chiquadratverteilung dchisq(x, df): Berechnet den Funktionswert der Dichtefunktion f (x) einer χ2-Verteilung mit Parameter ν = df. pchisq(q, df): Berechnet den Wert der Verteilungsfunktion einer χ2-Verteilung mit Parameter ν = df an der Stelle q. qchisq(p, df): Berechnet den Wert der Umkehrfunktion der Verteilungsfunktion einer χ2Verteilung mit Parameter ν = df an der Stelle p. rchisq(n, min, max): Erzeugt n Zufallszahlen einer χ2-Verteilung mit Parameter ν = df. Beispiele: dchisq(1, 2) liefert den Wert 0.3032653, pchisq(1, 2) liefert den Wert 0.3934693, rchisq(3, 2) liefert drei Werte, wie z.B. 6.091237 1.054890 1.603789. Kapitel VI – Stetige Verteilungen VI - 50 Die F-Verteilung (Fisher-Verteilung) X sei F-verteilt mit Parametern ν1 und ν2 : X ∼ F (ν1, ν2) . Die Parameter ν1 und ν2 sind natürliche Zahlen (Freiheitsgrade FG bzw. degrees of freedom df). Die Dichtefunktion ist gegeben durch: ⎧ ³ ´ ν +ν 1 2 ⎪ ³ ´ ³ ´ ⎪ ⎨ Γ¡ ¢ 2 ¡ ¢ ν1 ν1/2−1 ν1/2−1 ν1x −(ν1 +ν2)/2 x 1+ ν f (x) = Γ ν21 Γ ν22 ν2 2 ⎪ ⎪ ⎩0 x>0 sonst R-Befehle zur F-Verteilung: df(x, df1, df2): Berechnet den Funktionswert der Dichtefunktion f (x) einer F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2. pf(q, df1, df2): Berechnet den Wert der Verteilungsfunktion einer F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2 an der Stelle q. qf(p, df1, df2): Berechnet den Wert der Umkehrfunktion der Verteilungsfunktion einer F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2 an der Stelle q. rf(n, df1, df2): Erzeugt n Zufallszahlen einer F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2. Kapitel VI – Stetige Verteilungen VI - 51 Die F-Verteilung Einige Beispiele für die Dichtefunktionen F-verteilter Zufallsvariablen: ν 1 = 2; ν 2 = 1 ν 1 = 4; ν 2 = 5 ν 1 = 9; ν 2 = 1 0.8 0.8 0.8 0.6 0.6 0.6 f(x) 1.0 f(x) 1.0 f(x) 1.0 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 -1 0 1 2 3 x Kapitel VI – Stetige Verteilungen 4 5 6 0.0 -1 0 1 2 3 x 4 5 6 -1 0 1 2 3 4 5 6 x VI - 52 Die Student t-Verteilung X sei t-verteilt mit Parameter ν : X ∼ t(ν) . Der Parameter ν ist eine natürliche Zahl (Freiheitsgrad FG bzw. degree of freedom df). Die Dichtefunktion ist gegeben durch: ³ ´ 2/ν)−(ν+1)/2 Γ ν+1 (1 + x 2 f (x) = √ νπΓ(ν/2) x ∈ IR R-Befehle zur t-Verteilung: dt(x, df): Berechnet den Funktionswert der Dichtefunktion f (x) einer t-Verteilung mit Parameter ν = df1. pt(q, df): Berechnet den Wert der Verteilungsfunktion einer t-Verteilung mit Parameter ν = df an der Stelle q. qt(p, df): Berechnet den Wert der Umkehrfunktion der Verteilungsfunktion einer t-Verteilung mit Parameter ν = df an der Stelle p. rt(n, min, max): Erzeugt n Zufallszahlen einer t-Verteilung mit Parameter ν = df1. Kapitel VI – Stetige Verteilungen VI - 53 Die Student t-Verteilung Einige Beispiele für Dichtefunktionen t-verteilter Zufallsvariablen: ν=1 ν=2 0.5 ν = 10 0.5 0.5 t(1) N(0;1) t(2) N(0;1) t(10) N(0;1) 0.3 0.3 0.3 f(x) 0.4 f(x) 0.4 f(x) 0.4 0.2 0.2 0.2 0.1 0.1 0.1 0.0 0.0 -6 -4 -2 0 x Kapitel VI – Stetige Verteilungen 2 4 6 0.0 -6 -4 -2 0 x 2 4 6 -6 -4 -2 0 2 4 6 x VI - 54 Die Lognormalverteilung X sei Lognormal-verteilt mit den Parametern μ und σ2 : X ∼ LN (μ, σ2) . Die Dichtefunktion ist gegeben durch: ⎧ 2 /2σ 2 −(log(x)−μ) ⎨ √1 e 2 x 2πσ f (x) = ⎩0 x>0 sonst Satz: X ∼ LN (μ, σ 2) =⇒ Y = log(X) ∼ N (μ, σ 2) R-Befehle zur Lognormalverteilung: dlnorm(x, meanlog, sdlog): Berechnet den Funktionswert der Dichtefunktion f (x) einer Lognormalverteilung mit den Parametern μ = meanlog und σ = sdlog. plnorm(q, meanlog, sdlog): Berechnet den Wert der Verteilungs-funktion einer Lognormalverteilung mit den Parametern μ = meanlog und σ = sdlog an der Stelle q. rlnorm(n, meanlog, sdlog): Erzeugt n Zufallszahlen einer Lognormalverteilung mit den Parametern μ = meanlog und σ = sdlog. Kapitel VI – Stetige Verteilungen VI - 55 Die Lognormalverteilung Beispiel für die Dichtefunktion einer lognormalverteilten Zufallsvariable: 0.5 0.4 f(x) 0.3 0.2 0.1 0.0 0 5 10 15 20 x Kapitel VI – Stetige Verteilungen VI - 56 Kapitel 7 Ein Modell für meine Daten – Modellanpassung und Parameterschätzung Kapitel VII – Modellanpassung und Parameterschätzung VII - 0 Anpassung von Modellen in der Praxis Das Verhalten von Zufallsvariablen wird durch eine Wahrscheinlichkeitsbzw. Dichtefunktion beschrieben: Dichtefunktion f(x) Verteilungsfunktion F(x) 1.0 0.002 F(x) f(x) 0.8 0.001 0.6 0.4 0.2 0.000 0.0 400 600 800 1000 1200 1400 1600 1800 400 600 Wahrscheinlichkeitsfunktion P(x) 800 1000 1200 1400 1600 1800 Verteilungsfunktion F(x) 0.30 1.0 0.25 0.8 F(x) P(x) 0.20 0.15 0.6 0.4 0.10 0.05 0.2 0.00 0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Wie bestimmt man die Wahrscheinlichkeits- bzw. Dichtefunktion in der Praxis? Kapitel VII – Modellanpassung und Parameterschätzung VII - 1 Bestimmung der Wahrscheinlichkeitsfunktion und der Dichtefunktion Wie werden diese Funktionen in der Praxis bestimmt? (a) Durch theoretische Überlegungen und Annahmen. (b) Durch Erfahrungen, d.h. Beobachtungen und Schätzungen. (c) Durch eine Kombination aus (a) und (b). Welche Familie von Modellen sollen wir wählen? Z.B. Normal, Exponential, Binomial? Wie bestimmt man den oder die Parameter des Modells? Z.B. μ und σ2 bei der Normalverteilung N (μ, σ2), λ bei der Exponentialverteilung Exp(λ), π bei der Binomialverteilung b(n, π)? Kapitel VII – Modellanpassung und Parameterschätzung VII - 2 Histogramme als Schätzer für Dichtefunktionen Neue Konzepte: – Die Parameter eines Histogramms. – Wie viele Klassen sollen gewählt werden? – Fehler durch Approximation und Fehler durch Schätzung. Beispiel: Der Benzinverbrauch eines Autos. Frage: Wie hoch ist der Benzinverbrauch meines Autos? Antwort: Er variiert von Zeit zu Zeit. Der Benzinverbrauch ist eine (stetige) Zufallsvariable. Welche Dichtefunktion beschreibt das Verhalten dieser Zufallsvariablen? Gegeben seien folgende Verbrauchsdaten nach 10-maligem Tanken (in Litern pro 100 km): 8.7 8.4 8.3 8.8 Kapitel VII – Modellanpassung und Parameterschätzung 8.8 7.8 9.2 8.2 9.1 7.9 VII - 3 Histogramm für den Benzinverbrauch Verbrauchsdaten nach 10-maligem Tanken (in Litern pro 100 km): 8.7 8.4 8.3 8.8 8.8 7.8 9.2 8.2 9.1 7.9 Der Größe nach geordnete Daten: 7.8 7.9 8.2 8.3 8.4 8.7 8.8 8.8 9.1 9.2 Ein Histogramm mit den Intervallen (7.5-8.0] (8.0-8.5] (8.5-9.0] (9.0-9.5] kann mit folgender Arbeitstabelle erstellt werden: Arbeitstabelle Intervall (7.5 − 8.0] Häufigkeit 2 rel. Häufigkeit 0.2 rel. Häuf./Klassenbreite 0.4 Kapitel VII – Modellanpassung und Parameterschätzung (8.0 − 8.5] 3 0.3 0.6 (8.5 − 9.0] 3 0.3 0.6 (9.0 − 9.5] 2 0.2 0.4 VII - 4 Histogramm für den Benzinverbrauch Histogramm für den Benzinverbrauch: relative Häufigkeit / Klassenbreite 1.0 0.8 0.6 0.4 0.2 0.0 7.0 7.5 8.0 8.5 9.0 9.5 10.0 Benzinverbrauch (Liter/100km) Kapitel VII – Modellanpassung und Parameterschätzung VII - 5 Normiertes Histogramm als Schätzer der Dichtefunktion Ein normiertes Histogramm besitzt die Eigenschaften einer Dichtefunktion: – Ein normiertes Histogramm ist nichtnegativ. – Die Fläche unter der Kurve ist gleich eins. Ein normiertes Histogramm kann somit als Schätzer der Dichtefunktion betrachtet werden. Notation: Dichtefunktion: f Geschätzte Dichtefunktion: fb Für den Benzinverbrauch erhalten wir: fb(x) = ⎧ ⎪ 0.4 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 0.6 0.6 ⎪ ⎪ ⎪ 0.4 ⎪ ⎪ ⎪ ⎩ 0 für 7.5 < x ≤ 8.0 für 8.0 < x ≤ 8.5 für 8.5 < x ≤ 9.0 für 9.0 < x ≤ 9.5 sonst Kapitel VII – Modellanpassung und Parameterschätzung VII - 6 Beantwortung von Fragen über den Benzinverbrauch Frage: Mit welcher Wahrscheinlichkeit wird mein Benzinverbrauch X zwischen 8.8 und 9.2 (l / 100 km) liegen? Antwort: Die Größe der Fläche des Histogramms zwischen 8.8 und 9.2: P (8.8 < X < 9.2) = (0.2 · 0.6) + (0.2 · 0.4) = 0.12 + 0.08 = 0.20 Kapitel VII – Modellanpassung und Parameterschätzung VII - 7 Beantwortung von Fragen über den Benzinverbrauch Die Wahrscheinlichkeit, dass der Benzinverbrauch zwischen 8.8 und 9.2 l / 100 km liegt, als Fläche unter dem Histogramm: relative Häufigkeit / Klassenbreite 1.0 0.8 0.6 0.4 0.20 0.2 0.0 7.0 7.5 8.0 8.5 9.0 9.5 10.0 Benzinverbrauch (Liter/100km) Kapitel VII – Modellanpassung und Parameterschätzung VII - 8 Parameter eines Histogramms Die Parameter eines Histogramms sind die Zahlen, die wir bestimmen müssen, um die Dichtefunktion zu spezifizieren. Die Parameter sind die Höhen der einzelnen Rechtecke des Histogramms. Im Benzinverbrauch-Beispiel haben wir folgende Parameter: ⎧ ⎪ θ1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ θ2 f (x) = θ3 ⎪ ⎪ ⎪ θ4 ⎪ ⎪ ⎪ ⎩ 0 7.5 < x ≤ 8.0 8.0 < x ≤ 8.5 8.5 < x ≤ 9.0 9.0 < x ≤ 9.5 sonst Ein normiertes Histogramm mit K Klassen hat K – 1 freie Parameter. Kapitel VII – Modellanpassung und Parameterschätzung VII - 9 Parameter eines Histogramms Die Parameter eines Histogramms: relative Häufigkeit / Klassenbreite 4 Parameter (davon 3 frei wählbar) 1.0 0.8 0.6 0.4 θ1 0.2 θ2 θ3 θ4 0.0 7.0 7.5 8.0 8.5 9.0 Benzinverbrauch (Liter/100km) 9.5 10.0 9.5 10.0 relative Häufigkeit / Klassenbreite 2 Parameter (davon 1 frei wählbar) 1.0 0.8 0.6 0.4 θ1 0.2 θ2 0.0 7.0 7.5 Kapitel VII – Modellanpassung und Parameterschätzung 8.0 8.5 9.0 Benzinverbrauch (Liter/100km) VII - 10 Wie groß ist P (8.8 < X < 9.2) - Antwort mit verschiedenen Histogrammen Verschiedene Schätzungen für P (8.8 < X < 9.2): Schätzung für P (8.8 < X < 9.2) 2 Klassen 4 Klassen 8 Klassen 0.5 · 0.4 = 0.20 0.6 · 0.2 + 0.4 · 0.2 = 0.20 0.8 · 0.2 + 0.8 · 0.2 = 0.32 Frage: Welche Antwort ist die richtige? Antwort: Keine Antwort ist exakt. Sie sind alle Schätzungen! Kapitel VII – Modellanpassung und Parameterschätzung VII - 11 Wie groß ist P (8.8 < X < 9.2) - Antwort mit verschiedenen Histogrammen Verschiedene Schätzungen für P (8.8 < X < 9.2): 4 Parameter 0.0 7.0 7.5 8.0 8.5 9.0 9.5 0.0 7.0 7.5 8.0 8.5 9.0 9.5 Benzinverbrauch (Liter/100km) Kapitel VII – Modellanpassung und Parameterschätzung Benzinverbrauch (Liter/100km) 0.8 0.8 0.8 0.2 0.0 0.32 0.4 0.0 0.2 0.6 0.4 0.4 0.4 0.8 0.4 0.6 0.6 0.6 relative Häufigkeit / Klassenbreite 0.2 0.20 0.4 0.8 0.20 0.5 0.6 1.0 0.4 0.8 relative Häufigkeit / Klassenbreite 1.0 0.5 relative Häufigkeit / Klassenbreite 1.0 8 Parameter 0.8 2 Parameter 0.0 7.0 7.5 8.0 8.5 9.0 9.5 Benzinverbrauch (Liter/100km) VII - 12 Schätzung einer Dichtefunktion - Zwei Möglichkeiten Zwei Möglichkeiten zur Schätzung einer Dichtefunktion: Das normierte Histogramm als Schätzer für die Dichtefunktion verwenden. Es bleibt folgendes Problem: Wie viele Klassen (Parameter) soll man wählen? Betrachtung der Form des Histogramms und Auswahl eines Modells, z.B. eine Normalverteilung oder eine Exponentialverteilung, das etwa die gleiche Form hat. Es bleibt zu klären, wie man die Parameter der Verteilung schätzt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 13 Schätzung einer Dichtefunktion Histogramm des Benzinverbrauchs und angepasste Normalverteilung: relative Häufigkeit / Klassenbreite 1.0 0.8 0.6 0.4 0.2 0.0 7.0 7.5 8.0 8.5 9.0 9.5 10.0 Benzinverbrauch (Liter/100km) Kapitel VII – Modellanpassung und Parameterschätzung VII - 14 Wie viele Klassen bzw. Parameter soll man für das Histogramm verwenden? Für die Anzahl der Klassen in einem Histogramm gibt es folgende Regel: L n1/3 Anzahl der Klassen = 3.49 S mit – L Länge eines geeigneten Intervalls, das alle Beobachtungen enthält. – n Anzahl der Beobachtungen – S ist die Standardabweichung der Beobachtungen, wobei n P 1 2 S =n (xi − x̄)2. i=1 Für den Benzinverbrauch erhalten wir: – Intervall (7.5, 9.5] → L = 2 – n = 10 – S2 = 0.2056 Kapitel VII – Modellanpassung und Parameterschätzung 1/3 L n ⇒ 3.49 S = 2.74 ≈ 3 VII - 15 Grundmodell - Fehler durch Approximation - Fehler durch Schätzung Neue Begriffe: - Grundmodell - Fehler durch Approximation - Fehler durch Schätzung - Gesamtfehler Grundmodell: - Die „wahre“ Dichtefunktion. - Die Dichte der Grundgesamtheit. Beispiel: - Approximation durch ein Histogramm. Grundmodell: - Die Altersverteilung in Göttingen, d.h. das Alter aller Bewohner Göttingens. Kapitel VII – Modellanpassung und Parameterschätzung VII - 16 Grundmodell Grundmodell: Die Altersverteilung (aller Bewohner) in Göttingen. 0.04 Dichte 0.03 0.02 0.01 0 0 10 20 30 Kapitel VII – Modellanpassung und Parameterschätzung 40 50 60 70 80 90 100 VII - 17 Fehler durch Approximation Approximationsfehler: Fehler durch Approximation entstehen, weil wir unpräzise Verfahren benutzen. In dem Beispiel approximieren wir eine Kurve durch gerade Linien. Je größer die Anzahl der Parameter ist, desto kleiner wird der Fehler durch Approximation. Kapitel VII – Modellanpassung und Parameterschätzung VII - 18 Fehler durch Approximation Approximationsfehler in Abhängigkeit von der Parameteranzahl: 20 Klassen 0.04 0.04 0.03 0.03 Dichte Dichte 50 Klassen 0.02 0.02 0.01 0.01 0 0 0 10 20 30 40 50 60 Alter 70 80 90 100 0 10 20 30 0.04 0.03 0.03 0.02 0.01 0 0 10 20 30 40 50 60 Alter 70 80 90 100 70 80 90 100 0.02 0.01 0 50 60 Alter 5 Klassen 0.04 Dichte Dichte 10 Klassen 40 70 Kapitel VII – Modellanpassung und Parameterschätzung 80 90 100 0 10 20 30 40 50 60 Alter VII - 19 Fehler durch Schätzung Wir können die Dichtefunktion nur schätzen, z.B. aus einer Stichprobe von 100 zufällig ausgewählten Bewohnern: Alter von 100 Bewohnern Göttingens in der Stichprobe: 26 61 70 95 40 27 10 70 33 48 44 42 28 64 83 19 27 65 4 26 27 59 26 26 25 32 4 28 26 30 35 28 37 29 31 57 50 23 57 79 1 42 10 49 58 33 86 52 27 32 23 88 50 47 77 5 60 23 33 48 Kapitel VII – Modellanpassung und Parameterschätzung 22 17 30 26 26 29 38 37 34 39 1 2 48 31 46 34 5 50 9 86 6 29 97 24 74 32 52 27 52 25 28 43 29 58 46 33 30 82 35 40 VII - 20 Fehler durch Schätzung Wir schätzen das Histogramm der Totalerhebung durch das Histogramm der Stichprobe mit der gleichen Klassenanzahl. Schätzfehler: Fehler, die durch Schätzung entstehen, weil wir nur unvollständige Informationen zur Verfügung haben. In diesem Beispiel kennen wir nur das Alter von 100 Personen in der Stichprobe. Je größer die Anzahl der Parameter ist, desto größer wird der durchschnittliche Fehler durch Schätzung. Kapitel VII – Modellanpassung und Parameterschätzung VII - 21 Fehler durch Schätzung Schätzfehler (durch unvollständige Informationen): 20 Klassen 0.04 0.04 0.03 0.03 Dichte Dichte 50 Klassen 0.02 0.02 0.01 0.01 0 0 0 10 20 30 40 50 60 Alter 70 80 90 100 0 10 20 30 0.04 0.03 0.03 0.02 0.01 0 0 10 20 30 40 50 60 Alter 70 80 90 100 70 80 90 100 0.02 0.01 0 50 60 Alter 5 Klassen 0.04 Dichte Dichte 10 Klassen 40 70 Kapitel VII – Modellanpassung und Parameterschätzung 80 90 100 0 10 20 30 40 50 60 Alter VII - 22 Der Gesamtfehler Je größer die Anzahl der Parameter, – desto kleiner wird der Approximationsfehler, – desto größer wird der durchschnittliche Schätzfehler. Der gesamte Fehler, der beim Schätzen entsteht, besteht also aus zwei Komponenten: dem Fehler durch Approximation, sichtbar als Abweichung des Histogramms der Grundgesamtheit vom Grundmodell, und dem Fehler durch Schätzung, sichtbar als Abweichung des Histogramms der Stichprobe vom Histogramm der Grundgesamtheit. Kapitel VII – Modellanpassung und Parameterschätzung VII - 23 Approximations-, Schätz- und Gesamtfehler Beide Fehlerkomponenten müssen ausbalanciert werden, um den Gesamtfehler zu minimieren. Übersicht über den Approximations-, Schätz- und den Gesamtfehler in Abhängigkeit von Stichprobenumfang und Parameterzahl: n↑ Approximationsfehler Schätzfehler Gesamt fehler — ↓ ↓ n↓ — ↑ ↑ Anzahl Parameter ↑ ↓ ↑ % & Anzahl Parameter ↓ Kapitel VII – Modellanpassung und Parameterschätzung ↑ ↓ % & VII - 24 Gesamtfehler Illustration des Gesamtfehlers (für n = 100): 20 Klassen 0.04 0.04 0.03 0.03 Dichte Dichte 50 Klassen 0.02 0.02 0.01 0.01 0 0 0 10 20 30 40 50 60 Alter 70 80 90 100 0 10 20 30 0.04 0.03 0.03 0.02 0.01 0 0 10 20 30 40 50 60 Alter 70 80 90 100 70 80 90 100 0.02 0.01 0 50 60 Alter 5 Klassen 0.04 Dichte Dichte 10 Klassen 40 70 Kapitel VII – Modellanpassung und Parameterschätzung 80 90 100 0 10 20 30 40 50 60 Alter VII - 25 Gesamtfehler Illustration des Gesamtfehlers (für n = 200): 20 Klassen 0.04 0.04 0.03 0.03 Dichte Dichte 50 Klassen 0.02 0.02 0.01 0.01 0 0 0 10 20 30 40 50 60 Alter 70 80 90 100 0 10 20 30 0.04 0.03 0.03 0.02 0.01 0 0 10 20 30 40 50 60 Alter 70 80 90 100 70 80 90 100 0.02 0.01 0 50 60 Alter 5 Klassen 0.04 Dichte Dichte 10 Klassen 40 70 Kapitel VII – Modellanpassung und Parameterschätzung 80 90 100 0 10 20 30 40 50 60 Alter VII - 26 Gesamtfehler Illustration des Gesamtfehlers (für n = 1000): 20 Klassen 0.04 0.04 0.03 0.03 Dichte Dichte 50 Klassen 0.02 0.02 0.01 0.01 0 0 0 10 20 30 40 50 60 Alter 70 80 90 100 0 10 20 30 0.04 0.03 0.03 0.02 0.01 0 0 10 20 30 40 50 60 Alter 70 80 90 100 70 80 90 100 0.02 0.01 0 50 60 Alter 5 Klassen 0.04 Dichte Dichte 10 Klassen 40 70 Kapitel VII – Modellanpassung und Parameterschätzung 80 90 100 0 10 20 30 40 50 60 Alter VII - 27 Schätzung von Parametern Beispiel: Benzinverbrauch. Das Histogramm ist symmetrisch und glockenförmig: – Beides sind typische Eigenschaften einer Normalverteilung. – Es liegt nahe, eine Normalverteilung an die Daten anzupassen. Wie schätzt man die Parameter μ und σ2 ? Zwei Methoden zur Schätzung von Parametern: Methode der Momente Maximum-Likelihood-Methode Kapitel VII – Modellanpassung und Parameterschätzung VII - 28 Ausgaben in einem Supermarkt Beispiel: Ausgaben in einem Supermarkt. Gegeben seien folgende Beobachtungen: 30.21 55.49 Ausgaben in US $ 10.57 25.99 84.22 11.16 9.39 29.58 3.01 0.58 Das Histogramm der Daten hat Ähnlichkeit mit der Dichtefunktion einer Exponentialverteilung: f (x) = ( λe−λx 0 für sonst x≥0 Erwartungswert und Schätzer für die Exponentialverteilung: 1 1 Erwartungswert: E(X) = =⇒ λ = λ E(X) 1 1 b x̄ = b =⇒ λ = Schätzer: x̄ λ Kapitel VII – Modellanpassung und Parameterschätzung VII - 29 Methode der Momente für einparametrige Verteilungen Vorgehensweise bei einparametrigen Verteilungen: (1) Schreibe den Erwartungswert als Funktion des Parameters: Für die Exponentialverteilung heißt das: E(X) = 1 . λ (2) Schreibe die gleiche Funktion für den Mittelwert in der Stichprobe und den Schätzer des Parameters. 1 Für die Exponentialverteilung heißt das: x̄ = 26.02 = b . λ (3) Löse die Gleichung aus (2) nach dem Parameterschätzer auf. b = Für die Exponentialverteilung: λ Kapitel VII – Modellanpassung und Parameterschätzung 1 ≈ 0.0384 . 26.02 VII - 30 Ausgaben in einem Supermarkt Histogramm der Ausgaben und angepasste Exponentialverteilung: relative Häufigkeit / Klassenbreite 0.05 0.04 0.03 0.02 0.01 0.00 0 20 40 60 80 100 120 Ausgaben ($) Kapitel VII – Modellanpassung und Parameterschätzung VII - 31 Methode der Momente für die Poissonverteilung Wahrscheinlichkeitsfunktion der Poissonverteilung: ( P (x) = λx e−λ x! 0 für x = 0, 1, 2, . . . sonst Bestimmung des Schätzer nach der Methode der Momente: Erwartungswert: E(X) = λ =⇒ λ = E(X) b =λ =⇒ b = x̄ λ x̄ Schätzer: Beispiel: Beobachtungen: 4 Schätzer: 6 6 5 7 14 λ̂ = x̄ = 42/6 = 7 Geschätzte Wahrscheinlichkeitsfunktion: P̂ (x) = ( 7x e−7 x! 0 für x = 0, 1, 2, . . . sonst Kapitel VII – Modellanpassung und Parameterschätzung VII - 32 Methode der Momente für die Binomialverteilung Wahrscheinlichkeitsfunktion der Binomialverteilung ( ³ ´ n x n−x π (1 − π) x P (x) = 0 Erwartungswert: für x = 0, 1, 2, . . . , n sonst E(X) = nπ =⇒ π = E(X) n b = nπ =⇒ b = x̄ π n b = nπ =⇒ Schätzer: x̄ Häufig steht nur ein einziger Wert x zur Verfügung, d.h. x b = x π n Die n Versuche lassen sich als n Wiederholungen eines BernoulliExperiments mit Erfolgswahrscheinlichkeit π auffassen. Kapitel VII – Modellanpassung und Parameterschätzung VII - 33 Reservierung von Sitzplätzen in Flugzeugen Beispiel: Reservierung von Sitzplätzen in Flugzeugen In der Regel werden nicht alle Personen, die einen Flug gebucht haben, tatsächlich fliegen. Fluggesellschaften verkaufen mehr Tickets als sie Sitzplätze zur Verfügung haben. Das Risiko dabei ist, dass unter Umständen mehr Personen zum Flug erscheinen als Sitzplätze vorhanden sind. Andererseits wären mehr Sitzplätze leer, wenn die Gesellschaften dieses Risiko nicht eingingen. Kapitel VII – Modellanpassung und Parameterschätzung VII - 34 Reservierung von Sitzplätzen in Flugzeugen Angenommen, für einen Flug mit 300 Sitzplätzen werden 320 Tickets verkauft. Die Anzahl der Passagiere, die kommen ist eine Zufallsvariable: X ∼ b(n, π) , d.h. wir betrachten: - Erfolg Passagier kommt zum Flug, - Misserfolg Passagier kommt nicht zum Flug, wobei die Anzahl der Versuche n = 320 beträgt. P (Überbuchungen)= P (X > 300) Gesucht ist die Erfolgswahrscheinlichkeit: π = ? Angenommen, bisher sind bei 40 000 Reservierungen nur 37 560 Passagiere zum Flug erschienen. Daraus ergibt sich folgender Schätzer: 560 = 0.939 π̂ = 37 40 000 Die geschätzte Verteilung ist somit: X ∼ b(320, 0.939) . Kapitel VII – Modellanpassung und Parameterschätzung VII - 35 Wahrscheinlichkeit von Überbuchungen Die geschätzte Wahrscheinlichkeitsfunktion von X lautet: Pb (x) = ( ³ ´ 320 x (1 − 0.939)320−x 0.939 x 0 für x = 0, 1, . . . , 320 sonst Somit erhält man für die gesuchte Wahrscheinlichkeit: Pb (Überbuchungen) = = ≈ Pb (X > 300) Pb (301) + Pb (302) + . . . + Pb (320) 0.5119 P (Überbuchungen) hängt von der Anzahl verkaufter Tickets ab: Tickets n Pb (X > 300) 305 310 315 320 325 0.0000 0.0078 0.1318 0.5119 0.8599 Kapitel VII – Modellanpassung und Parameterschätzung VII - 36 Wahrscheinlichkeit von Überbuchungen Die Wahrscheinlichkeit einer Überbuchung in Abhängigkeit von der Anzahl verkaufter Tickets: 1.0 P(X > 300) 0.8 0.6 0.4 0.2 0.0 300 305 310 315 320 325 330 n Kapitel VII – Modellanpassung und Parameterschätzung VII - 37 Methode der Momente für Verteilungen mit zwei Parametern Bei Verteilungen mit zwei Parametern benötigen wir jetzt zwei Gleichungen, um zwei Parameter zu schätzen: Gleichung 1: E(X) als Funktion der Parameter schreiben, und E(X) durch x̄ ersetzen. Gleichung 2: Var(X) als Funktion der Parameter schreiben, und Var(X) durch S 2 ersetzen. Beide Gleichungen zusammen sind dann nach den Parametern aufzulösen, um die Schätzer der Parameter zu erhalten. n 1 X x̄ = xi n i=1 n n X X 1 1 2 S2 = (xi − x̄)2 = x2 − x̄ n i=1 n i=1 i Kapitel VII – Modellanpassung und Parameterschätzung VII - 38 Angepasste Normalverteilung für den Benzinverbrauch Gegeben seien folgende Verbrauchsdaten nach 10-maligem Tanken: 8.7 8.4 8.3 8.8 8.8 7.8 9.2 8.2 9.1 7.9 E(X) = μ Gleichung 1: Var(X) = σ 2 Gleichung 2: b x̄ = μ b2 S2 = σ =⇒ =⇒ =⇒ b = 8.52 μ b 2 = 0.2056 σ b = 0.4534 σ b σ b 2), d.h. N (8.52, 0.45342) . Geschätzte Verteilung: N (μ, Die Wahrscheinlichkeit, dass der Verbrauch zwischen 8.8 und 9.2 Litern / 100 km liegt: µ ¶ µ ¶ 9.2 − μ̂ 8.8 − μ̂ Pb (8.8 < X < 9.2) = Φ −Φ σ̂ σ̂ = Φ(1.50) − Φ(0.62) = 0.20 Kapitel VII – Modellanpassung und Parameterschätzung VII - 39 Angepasste Normalverteilung für den Benzinverbrauch Mit der angepassten Normalverteilung geschätzte Wahrscheinlichkeit für einen Benzinverbrauch zwischen 8.8 und 9.2 Litern. relative Häufigkeit / Klassenbreite 1.0 0.8 0.6 0.4 0.20 0.2 0.0 7.0 7.5 8.0 8.5 9.0 9.5 10.0 Benzinverbrauch (Liter/100km) Kapitel VII – Modellanpassung und Parameterschätzung VII - 40 Schätzer nach der Methode der Momente Übersicht über einige Schätzer nach der Momentenmethode: Verteilungen E(X) Schätzer Exp(λ) E(X) = 1/λ λ̂ = 1/x̄ Po(λ) E(X) = λ λ̂ = x̄ b(n, π) E(X) = nπ π̂ = x/n N (μ, σ 2) E(X) = μ μ̂ = x̄ Var(X) = σ 2 σ̂ 2 = S 2 Kapitel VII – Modellanpassung und Parameterschätzung (Anteil der Erfolge) VII - 41 Maximum-Likelihood-Methode Beispiel: Asymmetrische Münze. Wie groß ist π = P („Kopf“) ? Gegeben seien folgende Beobachtungen: K 1 Z 0 K 1 K 1 Z 0 K 1 K 1 Z 0 Z 0 K (6 Erfolge und 4 Misserfolge) 1 (6 Erfolge und 4 Misserfolge) Die Wahrscheinlichkeit für dieses Ereignis nach der Binomialverteilung: ³10´ P (6) = π 6(1 − π)10−6 . 6 Die Wahrscheinlichkeit ist eine Funktion des unbekannten Parameters π. Kapitel VII – Modellanpassung und Parameterschätzung VII - 42 Likelihoodfunktion: Eine Funktion des Parameters Die Wahrscheinlichkeit für unsere Beobachtung, P (6), ist eine Funktion des unbekannten Parameters π. Früher kannten wir π und wollten die Wahrscheinlichkeit eines Ereignisses bestimmen. Jetzt kennen wir das Ergebnis, wir haben es beobachtet: sechs mal ''Kopf'' bzw. sechs Erfolge. Jetzt interessiert uns der Wert von π, der zu diesem Ergebnis geführt haben könnte. Wir wollen π, die Erfolgswahrscheinlichkeit, schätzen. → Likelihoodfunktion: Kapitel VII – Modellanpassung und Parameterschätzung L(π) = ³10´ 6 π 6(1 − π)10−6 . VII - 43 Werte der Likelihoodfunktion L(π) Likelihoodfunktion für verschiedene Werte von π: π 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 L(π) ³ ´ 10 6(1 − 0.1)4 (0.1) 6 ³ ´ 10 6(1 − 0.2)4 (0.2) 6 ³ ´ 10 6(1 − 0.3)4 (0.3) 6 ³ ´ 10 6(1 − 0.4)4 (0.4) 6 ³ ´ 10 6(1 − 0.5)4 (0.5) 6 ³ ´ 10 6(1 − 0.6)4 (0.6) 6 ³ ´ 10 6(1 − 0.7)4 (0.7) 6 ³ ´ 10 6 4 6 (0.8) (1 − 0.8) ³ ´ 10 6(1 − 0.9)4 (0.9) 6 Kapitel VII – Modellanpassung und Parameterschätzung = 0.0001 = 0.0055 = 0.0368 = 0.1115 = 0.2051 = 0.2508 = 0.2001 = 0.0881 = 0.0112 VII - 44 Maximum-Likelihood-Schätzer - Loglikelihood Der Maximum-Likelihood-Schätzer von π ist der Wert von π, der den Beobachtungen die größte Wahrscheinlichkeit zuordnet. b = 0.6 . Im Münzwurf-Beispiel erhalten wir: π b maximiert L(π) genau dann, wenn es log(L(π)) maximiert: π L(π) = ³10´ 6 π 6(1 − π)10−6 µ³ ¶ 10´ 6 log(L(π)) = log π (1 − π)10−6 6 ³10´ = log + 6 log(π) + 4 log(1 − π) 6 Kapitel VII – Modellanpassung und Parameterschätzung VII - 45 Maximum-Likelihood-Schätzer - Loglikelihood Vergleich: Likelihoodfunktion und Log-Likelihoodfunktion (für sechs Erfolge bei 10-maligem Werfen einer Münze): 0.30 Maximum 0.25 L(π ) 0.20 0.15 0.10 0.05 0.00 0.0 0.2 0.4 0.6 0.8 1.0 π log(L(π )) 0 Maximum -5 -10 -15 -20 0.0 0.2 0.4 0.6 0.8 1.0 π Kapitel VII – Modellanpassung und Parameterschätzung VII - 46 Münzwurfbeispiel: Bestimmung des Maximums der Loglikelihoodfunktion Maximierung der Loglikelihoodfunktion: ³10´ log(L(π)) = log + 6 log (π) + 4 log (1 − π) 6 Ableitung nach π: 1 −1 d log(L(π)) = 0+6 +4 dπ π 1−π 4 6 − = π 1−π Nullsetzen und Auflösen der Gleichung: d log(L(π)) ! =0 dπ =⇒ 6− 4 =0 π̂ 1−π̂ =⇒ 6 = 4 1−π̂ π b =⇒ 6(1 − π̂) = 4π̂ =⇒ 6 = 10 π̂ =⇒ b = 0.6 π Kapitel VII – Modellanpassung und Parameterschätzung VII - 47 Maximum-Likelihood-Schätzer des Parameters π der Binomialverteilung Anzahl der Versuche: n Anzahl der beobachteten Erfolge: x Likelihoodfunktion: ³ ´ x(1 − π)n−x . L(π) = n π x Log-Likelihoodfunktion: ³ ´ log(L(π)) = log n x + x log (π) + (n − x) log (1 − π) Schätzer des Parameters π: d log(L(π)) =0 dπ =⇒ x − n−x = 0 π̂ 1−π̂ =⇒ x(1 − π̂) = (n − x)π̂ =⇒ x = n π̂ =⇒ x b =n π Kapitel VII – Modellanpassung und Parameterschätzung VII - 48 Die Likelihoodfunktion Betrachtet wird die Likelihoodfunktion für eine Stichprobe unabhängiger Beobachtungen x1, x2, ..., xn . Diskreter Fall: Produkt von Wahrscheinlichkeitsfunktionen. Likelihoodfunktion = P (x1) · P (x2) · ... · P (xn) Stetiger Fall: Produkt von Dichtefunktionen. Likelihoodfunktion = f (x1) · f (x2) · ... · f (xn) Kapitel VII – Modellanpassung und Parameterschätzung VII - 49 ML-Schätzer für die Poissonverteilung Wahrscheinlichkeitsfunktion der Poissonverteilung: P (x) = ( λx e−λ x! für x = 0, 1, 2, . . . sonst 0 Likelihoodfunktion: L(λ) = à λx1 x1! e−λ ! à λx2 x2 ! e−λ ! ... à λxn xn! e−λ ! λx1+x2+...+xn e−nλ = x1 ! x2 ! · · · x n ! Log-Likelihoodfunktion: log(L(λ)) = (x1 + x2 + . . . + xn) log(λ) − λ n − = à n P i=1 xi Kapitel VII – Modellanpassung und Parameterschätzung ! log(λ) − λ n − n P i=1 log(xi!) n P i=1 log(xi!) VII - 50 ML-Schätzer für die Poissonverteilung Bestimmung des Schätzers für λ : P Pn log(L(λ)) = ( n x ) log(λ) − λ n − i=1 i i=1 log(xi!) Ableitung nach λ : Pn xi d log(L(λ)) = i=1 − n dλ λ Nullsetzen der Ableitung und Auflösen ergibt: d log(L(λ)) =0 dλ =⇒ =⇒ =⇒ Kapitel VII – Modellanpassung und Parameterschätzung n P i=1 b λ xi b = λ −n=0 n P i=1 xi n b = x̄ λ VII - 51 Likelihoodfunktion für die Exponentialverteilung Dichtefunktion der Exponentialverteilung: f (x) = ( λe−λ x 0 für sonst x≥0 Likelihoodfunktion: L(λ) = ³ λe−λ x1 −λ = λn e ´ ³ n P i=1 λe−λ x2 xi ´ ... ³ λe−λ xn ´ Log-Likelihoodfunktion: log(L(λ)) = n log(λ) − λ Kapitel VII – Modellanpassung und Parameterschätzung n X xi i=1 VII - 52 ML-Schätzer für die Exponentialverteilung Bestimmung des Schätzers für λ : log(L(λ)) = n log(λ) − λ n X xi i=1 Ableitung nach λ : n X d log(L(λ)) n xi = − dλ λ i=1 Nullsetzen der Ableitung und Auflösen: d log(L(λ)) =0 dλ =⇒ =⇒ n n− P x =0 i b λ i=1 b = n λ n P xi i=1 =⇒ Kapitel VII – Modellanpassung und Parameterschätzung b = 1/x̄ λ VII - 53 Beispiel: Ausgaben von 10 Kunden Beispiel: Anpassung einer Exponentialverteilung. Folgende Ausgaben von 10 Kunden wurden beobachtet: 30.21 10.57 25.99 84.22 11.16 55.49 9.39 29.58 3.01 0.58 Mittelwert der Stichprobe: x̄ = 26.02 Schätzer von λ : b = 0.0384 λ Angepasste Verteilung: Exp(0.0384) Angepasste Dichtefunktion: f (x) = ( 0.0384 e−0.0384 x 0 Kapitel VII – Modellanpassung und Parameterschätzung für sonst x≥0 VII - 54 Beispiel: Ausgaben von 10 Kunden Likelihood- und Log-Likelihoodfunktion der Exponentialverteilung für die zehn Beobachtungen der Ausgaben: 19 L(λ) [mal 10 ] 4 Maximum 3 2 1 0 0.00 0.02 0.04 0.06 0.08 0.10 λ log(L(λ)) -30 -40 Maximum -50 -60 -70 0.00 0.02 0.04 0.06 0.08 0.10 λ Kapitel VII – Modellanpassung und Parameterschätzung VII - 55 Eigenschaften von Schätzern Ein Schätzer ist eine Zufallsvariable! Zur Betrachtung des Verhaltens von Schätzern werden folgende Eigenschaften definiert: Der Standardfehler eines Schätzers (Engl.: Standard Error) SE(θ̂) Der Bias eines Schätzers (Engl.: Bias) Bias(θ̂) Der mittlere quadratische Fehler eines Schätzers (Engl.: Mean Squared Error) MQF(θ̂) Kapitel VII – Modellanpassung und Parameterschätzung VII - 56 Ausgaben von 10 Kunden im Supermarkt Beispiel: Ausgaben von 10 Kunden im Supermarkt. Ausgaben von 10 Kunden in der 1. Stichprobe: 1. Stichprobe x1 x2 x3 x4 x5 x6 x7 x8 x9 30.21 10.57 25.99 84.22 11.16 55.49 9.39 29.58 3.01 x̄ = 26.02 =⇒ x10 0.58 b = 1/26.02 = 0.0384 λ Ausgaben von 10 Kunden in der 2. Stichprobe: x1 3.37 x2 x3 53.95 1.88 x̄ = 18.46 =⇒ 2. Stichprobe x4 x5 x6 x7 11.16 34.89 27.04 10.89 x8 x9 x10 12.85 9.68 18.91 b = 1/18.46 = 0.0542 λ Kapitel VII – Modellanpassung und Parameterschätzung VII - 57 Ausgaben von 10 Kunden im Supermarkt relative Häufigkeit / Klassenbreite Histogramme und angepasste Exponentialverteilung für zwei Stichproben (Ausgaben in einem Supermarkt): ^ Stichprobe 1: λ = 0.0384 0.05 0.04 0.03 0.02 0.01 0.00 0 20 40 60 Ausgaben ($) 80 100 120 80 100 120 relative Häufigkeit / Klassenbreite ^ Stichprobe 2: λ = 0.0542 0.05 0.04 0.03 0.02 0.01 0.00 0 20 Kapitel VII – Modellanpassung und Parameterschätzung 40 60 Ausgaben ($) VII - 58 Ausgaben von zehn Kunden in einem Supermarkt - 1000 Stichproben Was passiert, wenn sehr viele (z.B. 1000) Stichproben gezogen werden: Stichprobe 1 2 3 4 5 ... 998 999 1 000 Beobachtungen 30.21 10.57 · · · 0.58 3.37 53.95 · · · 18.91 7.94 4.90 · · · 12.21 22.17 3.06 · · · 11.57 7.17 5.95 · · · 14.09 ... ... ... 74.23 13.15 · · · 35.11 27.44 15.23 · · · 19.57 35.54 6.95 · · · 23.52 Kapitel VII – Modellanpassung und Parameterschätzung Mittel- Schätzer wert x̄ λ̂ 26.02 0.0384 18.46 0.0542 12.21 0.0819 11.57 0.0864 14.09 0.0710 ... ... 35.11 0.0285 19.57 0.0511 23.52 0.0425 VII - 59 Ausgaben von zehn Kunden in einem Supermarkt - 1000 Stichproben relative Häufigkeit / Klassenbreite Histogramme von 1000 Schätzern aus Stichproben der Größe n = 10 bzw. n = 25: 0.00 relative Häufigkeit / Klassenbreite Stichproben der Größe n = 10 30 25 20 15 10 5 0 0.05 0.15 0.20 0.15 0.20 Stichproben der Größe n = 25 30 25 20 15 10 5 0 0.00 0.10 λ^ 0.05 Kapitel VII – Modellanpassung und Parameterschätzung 0.10 λ^ VII - 60 Ein Schätzer ist eine Zufallsvariable Es ist nicht möglich, im Voraus zu sagen, welchen Wert der Schätzer annehmen wird. b ist eine Zufallsvariable . Mit anderen Worten: λ Daher hat λ̂ eine Dichtefunktion, einen Erwartungswert, E(λ̂) , und eine Varianz, Var(λ̂) . Die Standardabweichung eines Schätzers heißt auch Standardfehler des Schätzers (Engl. Standard Error): b = SE(λ) q b Var(λ) Kapitel VII – Modellanpassung und Parameterschätzung VII - 61 Zusammenfassung: Schätzer eines Parameters Zusammenfassung, Schätzer eines Parameters: Der exakte Wert eines Parameters kann nur bestimmt werden, wenn alle Werte der Population bekannt sind. Wenn nur eine Stichprobe aus der Population bekannt ist, kann nur ein Schätzer des Parameters bestimmt werden. Verschiedene Stichproben führen zu verschiedenen Schätzern. Bevor man die Stichprobe zieht, kann man nicht sagen, welchen Wert des Schätzers man erhalten wird. Kapitel VII – Modellanpassung und Parameterschätzung VII - 62 Standardfehler des Schätzers von λ einer Poissonverteilung Standardfehler des Schätzers von λ einer Poissonverteilung: Die Poissonverteilung: Po (λ) Parameter: λ Schätzer: b = x̄ λ Varianz: Standardfehler: b Var(λ)= λ/n b SE(λ)= q b = d λ) Geschätzter Standardfehler: SE( Kapitel VII – Modellanpassung und Parameterschätzung λ/n q b λ/n = q x̄/n VII - 63 Standardfehler des Schätzers von μ bei einer Exponentialverteilung Standardfehler des Schätzers von μ einer Exponentialverteilung: Die Exponentialverteilung: Exp (λ = 1 / μ) Parameter: μ = 1/λ Schätzer: b = x̄ μ b 1/(λ2n) Var(μ)= √ b Standardfehler: SE(μ)= 1/(λ n) √ √ b d b = 1/(λ n) = x̄/ n Geschätzter Standardfehler: SE(μ) Varianz: Kapitel VII – Modellanpassung und Parameterschätzung VII - 64 Geschätzter Standardfehler: Poissonverteilung Beispiel Anpassung einer Poissonverteilung Po (λ) an folgende Beobachtungen: 7; 9; 12; 9 . 7 + 9 + 12 + 9 = 9.25 x̄ = 4 Parameter: λ Schätzer: b = x̄ = 9.25 λ Varianz: Standardfehler: λ b Var(λ)= n b SE(λ)= q b = d λ) Geschätzter Standardfehler: SE( Kapitel VII – Modellanpassung und Parameterschätzung λ/n q b λ/n = q 9.25/4 = 1.52 VII - 65 Geschätzter Standardfehler: Exponentialverteilung Beispiel Anpassung einer Exponentialverteilung Exp (λ) an folgende Beobachtungen: 30.21; 10.57; 25.99; 84.22; 11.16; 55.49; 9.39; 29.58; 3.01; 0.58. x̄ = (30.21 + 10.57 + 25.99 + . . . + 3.01 + 0.58)/10 = 26.02 Parameter: μ = 1/λ Schätzer: b = x̄ = 26.02 μ b Var(μ)= 1/(λ2n) √ b Standardfehler: SE(μ)= 1/(λ n) √ √ d b = x̄/ n = 26.02/ 10 = 8.23 Geschätzter Standardfehler: SE(μ) Varianz: Kapitel VII – Modellanpassung und Parameterschätzung VII - 66 Parameterschätzer, deren Standardfehler und Schätzer der Standardfehler Zusammenfassung: Parameterschätzer, deren Standardfehler und Schätzer der Standardfehler. Verteilung Normal Exponential Binomial Poisson Parameter Schätzer SE(θ̂) μ x̄ √σ n r d θ̂) SE( √S n r σ2 S2 σ 2 2(n−1) n2 S 2 2(n−1) n2 μ=1 λ x̄ 1 √μ = √ n λ n √x̄ n π λ Kapitel VII – Modellanpassung und Parameterschätzung x n x̄ r π(1−π) n q λ n r π̂(1−π̂) n q x̄ n VII - 67 Bedeutung des Standardfehlers eines Schätzers Der Standardfehler eines Schätzers ist ein Maß für die Breite der Verteilung eines Schätzers: Standardfehler groß → Verteilung des Schätzers breit. Standardfehler klein → Verteilung des Schätzers schmal. Mit steigender Stichprobengröße wird der Standardfehler des Schätzers kleiner. Kapitel VII – Modellanpassung und Parameterschätzung VII - 68 Der Bias eines Schätzers Der Bias eines Schätzers ist definiert durch: Bias(θ̂) = E(θ̂) − θ Der Bias misst die erwartete Abweichung des Schätzers vom zu schätzenden Parameter. Der Bias sagt aus, ob ein Schätzer den Parameter im Durchschnitt überbzw. unterschätzt. Ist der Bias Null, wird der Schätzer als erwartungstreu bezeichnet. Kapitel VII – Modellanpassung und Parameterschätzung VII - 69 Beispiel: Zwei Schätzer für den Parameter einer Poissonverteilung Betrachtet werden zwei Schätzer für den Parameter einer Poissonverteilung: Realisationen einer Poissonverteilung mit λ = 2.5 : 2 2 2 2 3 3 2 0 0 2 4 3 1 4 0 3 1 2 3 2 3 5 7 2 2 3 1 3 7 4 Schätzer A: b = Mittelwert der Stichprobe λ A b = 2.63 λ B Schätzer B: b = Durchschnitt von Maximum und Minimum der Stichprobe λ B b = (0 + 7)/2 = 3.5 λ B Kapitel VII – Modellanpassung und Parameterschätzung VII - 70 Eigenschaften der beiden Schätzer für den Parameter einer Poissonverteilung Es kann bewiesen werden, dass b ist kleiner als der von λ b . Der Standardfehler von λ A B b ist unverzerrt, Der Schätzer λ A b den Parameter im Durchschnitt um 0.6 überschätzt: während λ B Bias(λ̂A) = E(λ̂A) − λ = 2.50 − 2.50 = 0 Bias(λ̂B ) = E(λ̂B ) − λ = 3.14 − 2.50 = 0.64 Wir sollten λ̂A (statt λ̂B ) zur Schätzung verwenden, da er einen geringeren Standardfehler besitzt und zudem unverzerrt ist. Kapitel VII – Modellanpassung und Parameterschätzung VII - 71 Eigenschaften der beiden Schätzer für den Parameter einer Poissonverteilung relative Häufigkeit / Klassenbreite Histogramme von 1000 simulierten Schätzern A und B: Schätzer A 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 relative Häufigkeit / Klassenbreite 0 1 2 3 λ=2.5 E(λ^ A )=2.5 4 5 6 4 5 6 Schätzer B 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0 1 Kapitel VII – Modellanpassung und Parameterschätzung 2 λ=2.5 3 E(λ^B)=3.1 VII - 72 Der mittlere quadratische Fehler eines Schätzers Beide Maße, Standardfehler und Bias, sagen etwas über die Güte eines Schätzers aus. Wünschenswert wäre ein erwartungstreuer Schätzer mit möglichst kleinem Standardfehler. Er schätzt den Parameter im Mittel richtig und schwankt nur wenig um den wahren Wert des Parameters. Der mittlere quadratische Fehler ist definiert als M QF (θ̂) = E[(θ̂−θ)2]= [Bias(θ̂)]2 +Var(θ̂) = [Bias(θ̂)]2 +[SE(θ̂)]2 Beispiel (Schätzer A und B): M QF (λ̂A) = (0.00)2 + (0.29)2 = 0.08 M QF (λ̂B ) = (0.64)2 + (0.57)2 = 0.73 Kapitel VII – Modellanpassung und Parameterschätzung VII - 73 Beispiel: Gesamtwert des Holzes in einem Wald mit 1276 Bäumen Es soll der Gesamtwert eines Waldes geschätzt werden: Durchschnittlicher Wert der Bäume ( C) Gesamtwert aller Bäume ( C) μ 1276 · μ Stichprobe der Größe (n) 10 Stichprobenmittelwert x̄ ( C) 94 Geschätzter Gesamtwert ( C) 119 944 Wie genau ist die Schätzung? Könnte der Schätzfehler 1000 € oder etwa 10000 € sein? Kapitel VII – Modellanpassung und Parameterschätzung VII - 74 Resultate für eine normalverteilte Grundgesamtheit Einige Resultate für normalverteilte Grundgesamtheiten: Grundgesamtheit N (μ, σ 2) Stichprobe (n unabhängige Beobachtungen) x1, x2, . . . , xn Schätzer von μ x̄ Eigenschaften der Zufallsvariable x̄ : Erwartungswert E(x̄) μ E(x̄) − μ = 0 Bias Bias(x̄) Standardfehler SE(x̄) √σ n MQF(x̄) Bias(x̄)2 + SE(x̄)2 σ2 n Kapitel VII – Modellanpassung und Parameterschätzung VII - 75 Normalverteilung: Verteilung des Stichprobenmittelwerts Für den Stichprobenmittelwert einer normalverteilten Grundgesamtheit, Grundgesamtheit N (μ, σ 2) Stichprobe (n unabhängige Beobachtungen) x1, x2, . . . , xn Schätzer von μ x̄ erhalten wir folgende Verteilung der Zufallsvariable x̄ : x̄ ∼ N (μ, σ2 n) Beispiel: Stichproben aus einer N (15, 25)-verteilten Grundgesamtheit: n = 10 Beobachtungen: x̄ ∼ N (15, 25 10 ) = N (15, 2.5) n = 50 Beobachtungen: x̄ ∼ N (15, 25 50 ) = N (15, 0.5) Kapitel VII – Modellanpassung und Parameterschätzung VII - 76 Normalverteilung: Verteilung des Stichprobenmittelwerts Verteilung des Stichprobenmittelwertes einer normalverteilten Grundgesamtheit für n = 10 und n = 50: 0.6 n = 1: N(15;25/1) n = 10: N(15;25/10) n = 50: N(15;25/50) 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 0 5 10 15 20 25 30 x Kapitel VII – Modellanpassung und Parameterschätzung VII - 77 Schätzer der Varianz in einer normalverteilten Grundgesamtheit Für die Varianz in einer normalverteilten Grundgesamtheit ergibt sich: Grundgesamtheit N (μ, σ 2) Stichprobe (n unab. Beobachtungen) x1, x2, . . . , xn n 1 P 2 2 Schätzer von σ S = (xi − x̄)2 n i=1 Betrachtung des Bias der Zufallsvariable S 2: n−1 2 2 σ E(S ) = =⇒ Bias(S 2) = E(S 2) − σ 2 n n−1 2 n 2 σ − σ = n n 1 2 Nicht = − σ n erwartungstreu! Ein erwartungstreuer Schätzer der Varianz ist gegeben durch: n 1 P 2 S∗ = (xi − x̄)2 =⇒ E(S∗2) = σ 2 Erwartungstreu n − 1 i=1 Kapitel VII – Modellanpassung und Parameterschätzung VII - 78 Vergleich: S2 und S*2 Welcher Schätzer von σ2 ist besser? S 2 oder S∗2 ? Eigenschaft Bias Gewinner Bias(S 2) 6= 0 S∗2 SE(S 2) ≤ SE(S∗2) S2 MQF(S 2) ≤ MFQ(S∗2) S2 Standardfehler MQF Bias(S∗2) = 0 Kapitel VII – Modellanpassung und Parameterschätzung VII - 79 Der Stichprobenmittelwert als Schätzer des Mittelwerts der Grundgesamtheit Der Stichprobenmittelwert als Schätzer des Mittelwerts der Grundgesamtheit: Grundgesamtheit (beliebige Verteilung) E(X) = μ Var(X) = σ 2 Stichprobe (n unab. Beobachtungen) x1, x2, . . . , xn Schätzer von μ x̄ E(X) Var(X) Verteilung Abkürzung Normal X ∼ N(μ, σ 2) μ σ2 Poisson X ∼ Po(λ) μ=λ σ2 = λ Binomial X ∼ b(n, π) μ = nπ σ 2 = nπ(1 − π) Exponential X ∼ Exp(λ) 1 μ=λ σ 2 = λ12 Kapitel VII – Modellanpassung und Parameterschätzung VII - 80 Zentraler Grenzwertsatz Eigenschaften der Zufallsvariable x̄ als Schätzer von μ : 2 σ E(x̄) = μ Var(x̄) = n Zentraler Grenzwertsatz: x̄ ist asymptotisch normalverteilt: . x̄ ∼ σ2 N (μ, n ) x̄ ist exakt normalverteilt, wenn die Werte in der Grundgesamtheit normalverteilt sind. x̄ ist annährend normalverteilt, wenn die Werte in der Grundgesamtheit nicht normalverteilt sind: — Die Annäherung wird mit wachsendem n genauer. — Die Annäherung kann auch für ein kleineres n gut sein. Kapitel VII – Modellanpassung und Parameterschätzung VII - 81 Zentraler Grenzwertsatz - Beispiel: Fairer Würfel X sei die geworfene Augenzahl in einem Versuch. Wahrscheinlichkeitsfunktion von X : ⎧ ⎨1 P (x) = 6 ⎩0 x = 1, 2, 3, 4, 5, 6 sonst Erwartungswert: μ = 3.5 Varianz: σ 2 = 2.92 n P 1 Sei x1, x2, . . . , xn das Ergebnis von n Würfen und x̄ = n xi i=1 Zentraler Grenzwertsatz: x̄ ist asymptotisch normalverteilt. x̄ ∼ N (3.5; 2.92/n) Kapitel VII – Modellanpassung und Parameterschätzung VII - 82 Zentraler Grenzwertsatz - Beispiel: Fairer Würfel Wahrscheinlichkeitsfunktion für die Augenzahl eines fairen Würfels: 0.20 P(x) 0.15 0.10 0.05 0.00 1 2 3 4 5 6 Augenzahl x Kapitel VII – Modellanpassung und Parameterschätzung VII - 83 1000 Stichproben der Größe n = 5 für die Augenzahl eines fairen Würfels 1000 Stichproben (n = 5) für die Augenzahl eines fairen Würfels: Stichprobe 1 Stichprobe 2 Stichprobe 3 .. Stichprobe 1000 5 2 6 4 5 1 5 4 1 5 6 1 4 4 3 .. 3 3 3 4 2 x̄ = 4.4 x̄ = 3.2 x̄ = 3.6 .. x̄ = 3.0 Die Histogramme der Stichprobenmittelwerte haben ihren Schwerpunkt etwa an der Stelle μ = 3.5. Die Streuung der Stichprobenmittelwerte nimmt mit wachsendem Stichprobenumfang ab. Die Histogramme haben eine symmetrische, glockenförmige Gestalt. Je größer n ist, desto besser ist die Approximation durch die Normalverteilung. Kapitel VII – Modellanpassung und Parameterschätzung VII - 84 1000 Stichproben für die Augenzahl eines fairen Würfels relative Häufigkeit / Klassenbreite Histogramm von 1000 Stichprobenmittelwerten (n = 5 und n = 20): Stichproben der Größe n = 5 1.2 1.0 N(3.5;2.92/5) 0.8 0.6 0.4 0.2 0.0 relative Häufigkeit / Klassenbreite 1 2 3 4 Stichprobenmittelwert 5 6 5 6 Stichproben der Größe n = 20 1.2 1.0 N(3.5;2.92/20) 0.8 0.6 0.4 0.2 0.0 1 2 Kapitel VII – Modellanpassung und Parameterschätzung 3 4 Stichprobenmittelwert VII - 85 Zentraler Grenzwertsatz - Beispiel: Altersverteilung Histogramme von 1000 Stichprobenmittelwerten (n = 5 und n = 10) aus der Göttinger Altersverteilung: n=5 0.06 Dichte 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 30 40 50 Stichprobenmittelwert 60 70 80 60 70 80 n = 10 0.06 Dichte 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 Kapitel VII – Modellanpassung und Parameterschätzung 30 40 50 Stichprobenmittelwert VII - 86 Konfidenzintervalle Konfidenzintervalle, Übersicht: Einführung: Was ist ein Konfidenzintervall? Herleitung für einen einfachen Fall. Formeln und Beispiele für Konfidenzintervalle für – den Mittelwert μ einer Grundgesamtheit (2 Fälle), – den Anteilswert π einer Grundgesamtheit und – die Varianz σ2 einer Grundgesamtheit. Kapitel VII – Modellanpassung und Parameterschätzung VII - 87 Beispiel: Gesamtwert des Holzes in einem Wald mit 1276 Bäumen Gesamtwert des Holzes in einem Wald mit 1276 Bäumen: Durchschnittlicher Wert der Bäume Gesamtwert aller Bäume ( C) Stichprobe der Größe (n) Stichprobenmittelwert x̄ ( C) μ 1276 · μ 10 94 Geschätzter Gesamtwert (1000 C) ca. 120 C Wie genau ist die Schätzung? Könnte der Schätzfehler 1000 € oder etwa 10000 € sein? Konfidenzintervall: Mit einer Wahrscheinlichkeit von 95% enthält das Intervall (106; 134) T€ den wahren Wert. Punktschätzung: Intervallschätzung: 120 T€ (106; 134) T€ Kapitel VII – Modellanpassung und Parameterschätzung VII - 88 Konfidenzintervall - Vertrauensbereich Interpretation: Konfidenzintervall oder „Vertrauensbereich“: Ein Bereich, der den zu schätzenden Parameter mit einer vorgegebenen hohen Wahrscheinlichkeit enthält. Diese Wahrscheinlichkeit wird Konfidenzniveau genannt. In der Praxis wird das Konfidenzniveau meistens bei 90 %, 95 % oder 99 % gesetzt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 89 Konstruktion eines Konfidenzintervalls bei normalverteilter Grundgesamtheit Betrachtet wird der Stichprobenmittelwert einer normalverteilten 2 σ Grundgesamtheit: x̄ ∼ N (μ, n ) . Normalverteilte Grundgesamtheit Zufällige Stichprobe Stichprobenmittelwert =⇒ =⇒ N (μ,σ 2) x1, x2, . . . , xn x̄ x̄ − μ Z= r ∼ N (0, 1) σ2 n x̄ − μ Z= √ ∼ N (0, 1) σ/ n Bei der Standardnormalverteilung liegt ca. 90 % der Fläche zwischen –1.64 und 1.64, d.h.: P (−1.64 < Z < 1.64) = 0.90 Kapitel VII – Modellanpassung und Parameterschätzung VII - 90 Konstruktion eines 90 % Konfidenzintervalls Die Gleichung kann wie folgt umgeformt werden: à ! x̄ − μ P −1.64 < √ < +1.64 = 0.90 σ/ n à ! σ σ P −1.64 · √ < x̄ − μ < +1.64 · √ = 0.90 n n à ! σ σ = 0.90 P −x̄ − 1.64 · √ < −μ < −x̄ + 1.64 · √ n n Bei Multiplikation einer Ungleichung mit –1 drehen sich die Vorzeichen um: à ! σ σ P x̄ + 1.64 · √ > μ > x̄ − 1.64 · √ = 0.90 n n à ! σ σ P x̄ − 1.64 · √ < μ < x̄ + 1.64 · √ = 0.90 n n Kapitel VII – Modellanpassung und Parameterschätzung VII - 91 Konstruktion eines 90 % Konfidenzintervalls Ausgehend von µ ¶ x̄−μ √ < +1.64 = 0.90 P −1.64 < σ/ n erhält man µ σ σ P x̄ − 1.64 √ < μ < x̄ + 1.64 √ n} n} | {z | {z C− ¶ = 0.90 C+ Zur Verdeutlichung wird C – und C + definiert: P ³ C− < μ < C+ ´ = 0.90 . (C −,C +) ist ein 90% Konfidenzintervall für μ. Kapitel VII – Modellanpassung und Parameterschätzung VII - 92 Konstruktion eines 100(1- α) Konfidenzintervalls Ausgangsgleichungen für verschiedene Konfidenzniveaus: P à P à P à x̄ − μ −1.64 < √ < +1.64 σ/ n ! = 0.90 x̄ − μ −1.96 < √ < +1.96 σ/ n ! = 0.95 x̄ − μ −2.58 < √ < +2.58 σ/ n ! = 0.99 Allgemein gilt: P à −zα/2 < x̄ − μ √ < +zα/2 σ/ n Kapitel VII – Modellanpassung und Parameterschätzung ! =1−α VII - 93 Konstruktion eines 100(1- α) Konfidenzintervalls Resultierende Konfidenzintervalle (C −, C +) : ⎧ ⎨ C − = x̄ − 1.64 √σ n 90% Konfidenzintervall: ⎩ C + = x̄ + 1.64 √σ n ⎧ ⎨ C − = x̄ − 1.96 √σ n 95% Konfidenzintervall: ⎩ C + = x̄ + 1.96 √σ n ⎧ ⎨ C − = x̄ − 2.58 √σ n 99% Konfidenzintervall: ⎩ C + = x̄ + 2.58 √σ n Allgemein gilt: ⎧ ⎨ C − = x̄ − zα/2 √σ n 100(1 − α)% Konfidenzintervall: ⎩ C + = x̄ + zα/2 √σ n Kapitel VII – Modellanpassung und Parameterschätzung VII - 94 Konfidenzintervall für μ (Varianz σ2 bekannt) Konfidenzintervall für µ: ⎧ ⎨ C − = x̄ − zα/2 √σ n 100(1 − α)% Konfidenzintervall: ⎩ C + = x̄ + zα/2 √σ n Konfidenzniveau: (1 – α) bzw. 100(1 – α)% . Ein Konfidenzintervall zum Niveau (1 – α) enthält den wahren Parameter μ mit einer Wahrscheinlichkeit von (1 – α). Annahme: Die Varianz σ2 ist bekannt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 95 Konfidenzintervall für μ (Varianz σ2 unbekannt) Bei bekannter Varianz σ2 haben wir folgendes: Normalverteilte Grundgesamtheit Zufällige Stichprobe Stichprobenmittelwert 2 σ x̄ ∼ N (μ, n ) ⇒ N (μ,σ 2) x1, x2, . . . , xn x̄ x̄−μ √ ∼ N (0, 1) Z = σ/ n ⎧ ⎨ C − = x̄ − zα/2 √σ n → 100(1 − α)% Konfidenzintervall: ⎩ C + = x̄ + zα/2 √σ n Aber: Falls σ2 unbekannt ist, müssen wir es schätzen: b 2 = S∗2 = 1 Unverfälschter Schätzer: σ n−1 Satz: T = x̄ − μ √ ∼ t(ν) S∗ / n Kapitel VII – Modellanpassung und Parameterschätzung Pn 2 (x − x̄) i i=1 mit ν = n − 1 VII - 96 Konfidenzintervall für μ (Varianz σ2 unbekannt) Somit gibt es zwei Möglichkeiten: Normalverteilte Grundgesamtheit Zufällige Stichprobe Stichprobenmittelwert N (μ,σ 2) x1, x2, . . . , xn x̄ Die Varianz σ2 ist bekannt: ⎧ σ ⎪ ⎨ C − = x̄ − zα/2 √n 100(1 − α)% Konfidenzintervall: ⎪ ⎩ C + = x̄ + zα/2 √σ n Die Varianz σ2 ist unbekannt: ⎧ S∗ ⎪ ⎨ C − = x̄ − tn−1,α/2 √ n 100(1 − α)% Konfidenzintervall: S∗ ⎪ ⎩ C + = x̄ + tn−1,α/2 √ n Kapitel VII – Modellanpassung und Parameterschätzung VII - 97 Beispiel 1.12: Brenndauer von Glühbirnen Gegeben sei eine Stichprobe (n = 30) von Brenndauern: 699 756 814 827 1 049 1 055 1 058 1 061 1 197 1 204 1 222 1 252 863 889 924 956 1 063 1 068 1 085 1 134 1 255 1 262 1 303 1 310 1 003 1 160 1 550 1 028 1 178 1 562 Ziel: Ein 90 % Konfidenzintervall für μ bestimmen, d.h. für die mittlere Brenndauer aller Glühbirnen in der Grundgesamtheit. Annahme: Die Brenndauer ist normalverteilt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 98 Beispiel 1.12: Brenndauer von Glühbirnen Die Varianz σ2 ist unbekannt: ⎧ S∗ ⎪ ⎨ C − = x̄ − tn−1,α/2 √ n 100(1 − α)% Konfidenzintervall: S∗ ⎪ ⎩ C + = x̄ + tn−1,α/2 √ n Gegeben ist: . n = 30 . . . 1 − α = 0.9 =⇒ α/2 = 0.05 tn−1, α/2 = t29, 0.05 = 1.70 (Tabelle) ⇒ S∗ = 206.12 x̄ = 1 092.9 S∗2 = 42 484 Somit erhalten wir folgendes Konfidenzintervall: 90% KI: ⎧ ⎪ ⎨ C− √ = 1 092.9 − 1.70 206.12 = 1 028.9 30 ⎪ √ ⎩ C + = 1 092.9 + 1.70 206.12 = 1 156.9 30 Kapitel VII – Modellanpassung und Parameterschätzung VII - 99 Beispiel 1.12: Brenndauer von Glühbirnen Konfidenzintervall für (1 – α) = 0.99 : ⎧ ⎪ ⎨ C− √ = 1 092.9 − 1.70 206.12 30 90% KI: ⎪ √ ⎩ C + = 1 092.9 + 1.70 206.12 30 99% KI: ⎧ ⎪ ⎨ C− √ = 1 092.9 − 2.76 206.12 30 ⎪ √ ⎩ C + = 1 092.9 + 2.76 206.12 30 . 1 − α = 0.99 . tn−1, 1−α/2 = t29, 0.005 = 2.76 (Tabelle) . . =⇒ = 1 028.9 = 1 156.9 = 989.0 = 1 196.8 α/2 = 0.005 Der R-Befehl: qt(0.005, 29) liefert -2.756386, Der R-Befehl: qt(0.995, 29) liefert 2.756386. Kapitel VII – Modellanpassung und Parameterschätzung VII - 100 Beispiel 1.12: Brenndauer von Glühbirnen Histogramm der Brenndauer und Konfidenzintervalle: relative Häufigkeit / Klassenbreite 0.002 0.001 90% Konfidenzintervall 99% Konfidenzintervall 0.000 400 600 800 1000 1200 1400 1600 1800 Brenndauer (Stunden) Kapitel VII – Modellanpassung und Parameterschätzung VII - 101 Beispiel 1.12: Brenndauer von Glühbirnen Konfidenzintervalle für verschiedene Stichproben: Stichprobe μ = 1045.4 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 900 950 1000 1050 1100 1150 1200 Brenndauer Kapitel VII – Modellanpassung und Parameterschätzung VII - 102 Beispiel: Füllmenge von Grießpackungen Beispiel: Füllmenge von Grießpackungen. Stichprobe: n = 80 Grießpackungen Beobachtungen: Füllmenge Soll-Füllmenge: 1 000 g Ziel: Ein 90% Konfidenzintervall für μ bestimmen, d.h. für die mittlere Füllmenge aller Packungen in der Grundgesamtheit. Annahme: Die Füllmenge ist normalverteilt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 103 Beispiel: Füllmenge von Grießpackungen Histogramm und Dichtefunktion der Füllmenge von 80 Grießpackungen: 0.15 f(x) 0.10 0.05 0.00 992 994 996 998 1000 1002 1004 1006 1008 1010 Füllmenge (Gramm) Kapitel VII – Modellanpassung und Parameterschätzung VII - 104 Konfidenzintervalle für μ bei bekannter Varianz Die Varianz σ2 = 8.0 (g2) sei bekannt: ⎧ ⎨ C − = x̄ − zα/2 √σ n 100(1 − α)% KI: ⎩ C + = x̄ + zα/2 √σ n . . . . n = 80 1 − α = 0.9 =⇒ α/2 = 0.05 zα/2 = z0.05 = 1.64 (Tabelle) √ x̄ = 1 001.6 σ = 8.0 = 2.83 90% KI: ⎧ ⎪ ⎨ C− √ = 1 001.6 − 1.64 2.83 = 1 001.08 80 ⎪ √ ⎩ C + = 1 001.6 + 1.64 2.83 = 1 002.12 80 Kapitel VII – Modellanpassung und Parameterschätzung VII - 105 Konfidenzintervalle für den Anteilswert in einer Grundgesamtheit Für den Anteilswert π in einer Grundgesamtheit ergibt sich: Grundgesamtheit mit Anteil ,,Erfolge” π Größe der Zufallsstichprobe n b = Anzahl Erfolge Anteil Erfolge in der Stichprobe π n Als Konfidenzintervall für π zum Niveau 100(1 – α)% erhält man: b − zα/2 C− = π C + b + zα/2 = π s b (1 − π b) π n s b (1 − π b) π n Kapitel VII – Modellanpassung und Parameterschätzung VII - 106 Beispiel: US-Präsidentenwahl im Jahr 2000 (Gore gegen Bush) Beispiel: Eine Umfrage in New Jersey (Oktober 2000). Die Grundgesamtheit besteht aus allen Wählern in New Jersey. Als Erfolg wird hier die Antwort „werde Bush meine Stimme geben“ betrachtet. Grundgesamtheit mit Anteil ,,Erfolge” π Größe der Zufallsstichprobe n = 383 b = 146 = 0.38 Anteil Erfolge in der Stichproben π 383 Als 90% Konfidenzintervall für π erhält man: b − zα/2 C− = π r π b (1−π b) n s C − = 0.38 − 1.64 C − = 0.339 0.38(1 − 0.38) 383 | {z } ≈0.025 Kapitel VII – Modellanpassung und Parameterschätzung b + zα/2 C+ = π r π b (1−π b) n s C + = 0.38 + 1.64 C + = 0.421 0.38(1 − 0.38) 383 | {z } ≈0.025 VII - 107 Beispiel: US-Präsidentenwahl im Jahr 2000 (Gore gegen Bush) Konfidenzintervalle zu verschiedenen Niveaus: 90% Konfidenzintervall: ( C − = 0.38 − 1.64 (0.025) = 0.339 C + = 0.38 + 1.64 (0.025) = 0.421 95% Konfidenzintervall: ( C − = 0.38 − 1.96 (0.025) = 0.331 C + = 0.38 + 1.96 (0.025) = 0.429 99% Konfidenzintervall: ( C − = 0.38 − 2.58 (0.025) = 0.316 C + = 0.38 + 2.58 (0.025) = 0.445 Mit steigendem Konfidenzniveau wird das Intervall breiter: 90% KI 95% KI 99% KI Kapitel VII – Modellanpassung und Parameterschätzung VII - 108 Konfidenzintervalle in Abhängigkeit von n 90% Konfidenzintervall für n = 383: C − = 0.38 − 1.64 C − = 0.339 s 0.38(1 − 0.38) 383 | {z } ≈0.025 C + = 0.38 + 1.64 C + = 0.421 s 0.38(1 − 0.38) 383 | {z } ≈0.025 90% Konfidenzintervall für n = 3830: C − = 0.38 − 1.64 C − = 0.367 s 0.38(1 − 0.38) 3830 | {z } ≈0.0078 C + = 0.38 + 1.64 C + = 0.393 s 0.38(1 − 0.38) 3830 | {z } ≈0.0078 Mit steigendem n wird das Intervall schmaler: 90% KI mit n = 383 90% KI mit n = 3 830 Kapitel VII – Modellanpassung und Parameterschätzung VII - 109 Konfidenzintervalle für die Varianz einer Grundgesamtheit Betrachtung von Schätzern für die Varianz σ2: Maximum Likelihood Schätzer: Unverzerrter Schätzer: =⇒ n X 1 S2 = (xi − x̄)2 n i=1 S∗2 = n 1 X (xi − x̄)2 n − 1 i=1 (n − 1)S∗2 = nS 2 Bei einer normalverteilten Grundgesamtheit erhalten wir folgendes 100(1 – α) % Konfidenzintervall für σ2: C− = C+ = nS 2 χ2 n−1, α/2 nS 2 χ2 n−1, 1−α/2 Kapitel VII – Modellanpassung und Parameterschätzung oder (n−1)S∗2 χ2 n−1, α/2 oder (n−1)S∗2 χ2 n−1, 1−α/2 VII - 110 Beispiel: Füllmenge von Grießpackungen Beispiel: Füllmenge von Grießpackungen. Für eine Stichprobe (n = 80) beobachten wir die Füllmenge. Die Varianz σ2 sei unbekannt. Ziel: Ein 90 % Konfidenzintervall für σ2 bestimmen, d.h. für die Varianz der Füllmenge aller Packungen in der Grundgesamtheit. Annahme: Die Füllmenge ist normalverteilt. Kapitel VII – Modellanpassung und Parameterschätzung VII - 111 Beispiel: Füllmenge von Grießpackungen 90% Konfidenzintervall für σ2: . . . n = 80 S 2 = 7.95 1 − α = 0.9 . . χ2 n−1, α/2 ⇒ ⇒ = α/2 1 − α/2 χ2 79, 0.05 = = = 0.05 0.95 100.75 (qchisq(1-0.05, 79)) χ2 n−1, 1−α/2 = χ2 79, 0.95 = 59.52 (qchisq(1-0.95, 79)) Somit erhalten wir folgende Intervallgrenzen: C− C+ = = nS 2 χ2 n−1, α/2 nS 2 χ2 n−1, 1−α/2 Kapitel VII – Modellanpassung und Parameterschätzung = 80·7.95 100.75 = = 80·7.95 59.52 = 10.69 6.31 VII - 112 Bestimmung von Quantilen Bestimmung von Quantilen der Normalverteilung mit Hilfe der Tabelle: zα/2 = z0.10 = 1.28 φ(x) Φ(z) z z −3.00 −2.99 −2.98 −2.97 −2.96 −2.95 −2.94 −2.93 −2.92 −2.91 −2.90 −2.89 −2.88 −2.87 −2.86 −2.85 −2.84 −2.83 −2.82 −2.81 N(0, 1)-verteilte Zufallsvariable kleiner oder gleich z ist. Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) 0.001 0.001 0.001 0.001 0.002 0.002 0.002 0.002 0.002 0.002 −2.40 −2.39 −2.38 −2.37 −2.36 −2.35 −2.34 −2.33 −2.32 −2.31 0.008 0.008 0.009 0.009 0.009 0.009 0.010 0.010 0.010 0.010 −1.80 −1.79 −1.78 −1.77 −1.76 −1.75 −1.74 −1.73 −1.72 −1.71 0.036 0.037 0.038 0.038 0.039 0.040 0.041 0.042 0.043 0.044 −1.20 −1.19 −1.18 −1.17 −1.16 −1.15 −1.14 −1.13 −1.12 −1.11 0.115 0.117 0.119 0.121 0.123 0.125 0.127 0.129 0.131 0.133 −0.60 −0.59 −0.58 −0.57 −0.56 −0.55 −0.54 −0.53 −0.52 −0.51 0.274 0.278 0.281 0.284 0.288 0.291 0.295 0.298 0.302 0.305 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901 1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994 0.309 0.312 0.316 0.319 0.323 0.326 0.330 0.334 0.337 0.341 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 −2.80 −2.79 −2.78 −2.77 −2.76 −2.75 −2.74 −2.73 −2.72 −2.71 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 −2.70 −2.69 −2.68 −2.67 −2.66 −2.65 −2.64 −2.63 −2.62 −2.61 0.003 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.005 −2.50 −2.49 −2.48 −2.47 −2.46 −2.45 −2.44 −2.43 −2.42 −2.41 0.006 0.006 0.007 0.007 0.007 0.007 0.007 0.008 0.008 0.008 −2.60 −2.59 −2.58 −2.57 −2.56 −2.55 −2.54 −2.53 −2.52 −2.51 Die Tabelle gibt Φ(z), die Wahrscheinlichkeit, dass eine x 0.005 0.005 0.005 0.005 0.005 0.005 0.006 0.006 0.006 0.006 −2.30 −2.29 −2.28 −2.27 −2.26 −2.25 −2.24 −2.23 −2.22 −2.21 0.011 0.011 0.011 0.012 0.012 0.012 0.013 0.013 0.013 0.014 −1.70 −1.69 −1.68 −1.67 −1.66 −1.65 −1.64 −1.63 −1.62 −1.61 0.045 0.046 0.046 0.047 0.048 0.049 0.051 0.052 0.053 0.054 −1.10 −1.09 −1.08 −1.07 −1.06 −1.05 −1.04 −1.03 −1.02 −1.01 0.136 0.138 0.140 0.142 0.145 0.147 0.149 0.152 0.154 0.156 −0.50 −0.49 −0.48 −0.47 −0.46 −0.45 −0.44 −0.43 −0.42 −0.41 −2.20 −2.19 −2.18 −2.17 −2.16 −2.15 −2.14 −2.13 −2.12 −2.11 0.014 0.014 0.015 0.015 0.015 0.016 0.016 0.017 0.017 0.017 −1.60 −1.59 −1.58 −1.57 −1.56 −1.55 −1.54 −1.53 −1.52 −1.51 0.055 0.056 0.057 0.058 0.059 0.061 0.062 0.063 0.064 0.066 −1.00 −0.99 −0.98 −0.97 −0.96 −0.95 −0.94 −0.93 −0.92 −0.91 0.159 0.161 0.164 0.166 0.169 0.171 0.174 0.176 0.179 0.181 −0.40 −0.39 −0.38 −0.37 −0.36 −0.35 −0.34 −0.33 −0.32 −0.31 0.345 0.348 0.352 0.356 0.359 0.363 0.367 0.371 0.374 0.378 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996 −2.10 −2.09 −2.08 −2.07 −2.06 −2.05 −2.04 −2.03 −2.02 −2.01 0.018 0.018 0.019 0.019 0.020 0.020 0.021 0.021 0.022 0.022 −1.50 −1.49 −1.48 −1.47 −1.46 −1.45 −1.44 −1.43 −1.42 −1.41 0.067 0.068 0.069 0.071 0.072 0.074 0.075 0.076 0.078 0.079 −0.90 −0.89 −0.88 −0.87 −0.86 −0.85 −0.84 −0.83 −0.82 −0.81 0.184 0.187 0.189 0.192 0.195 0.198 0.200 0.203 0.206 0.209 −0.30 −0.29 −0.28 −0.27 −0.26 −0.25 −0.24 −0.23 −0.22 −0.21 0.382 0.386 0.390 0.394 0.397 0.401 0.405 0.409 0.413 0.417 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.421 0.425 0.429 0.433 0.436 0.440 0.444 0.448 0.452 0.456 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989 2.80 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 −1.90 −1.89 −1.88 −1.87 −1.86 −1.85 −1.84 −1.83 −1.82 −1.81 0.029 0.029 0.030 0.031 0.031 0.032 0.033 0.034 0.034 0.035 −1.30 −1.29 −1.28 −1.27 −1.26 −1.25 −1.24 −1.23 −1.22 −1.21 0.097 0.099 0.100 0.102 0.104 0.106 0.107 0.109 0.111 0.113 −0.70 −0.69 −0.68 −0.67 −0.66 −0.65 −0.64 −0.63 −0.62 −0.61 0.242 0.245 0.248 0.251 0.255 0.258 0.261 0.264 0.268 0.271 −0.10 −0.09 −0.08 −0.07 −0.06 −0.05 −0.04 −0.03 −0.02 −0.01 0.460 0.464 0.468 0.472 0.476 0.480 0.484 0.488 0.492 0.496 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999 −2.00 −1.99 −1.98 −1.97 −1.96 −1.95 −1.94 −1.93 −1.92 −1.91 0.023 0.023 0.024 0.024 0.025 0.026 0.026 0.027 0.027 0.028 −1.40 −1.39 −1.38 −1.37 −1.36 −1.35 −1.34 −1.33 −1.32 −1.31 0.081 0.082 0.084 0.085 0.087 0.089 0.090 0.092 0.093 0.095 −0.80 −0.79 −0.78 −0.77 −0.76 −0.75 −0.74 −0.73 −0.72 −0.71 0.212 0.215 0.218 0.221 0.224 0.227 0.230 0.233 0.236 0.239 −0.20 −0.19 −0.18 −0.17 −0.16 −0.15 −0.14 −0.13 −0.12 −0.11 Kapitel VII – Modellanpassung und Parameterschätzung z 1.28 Φ(z) 0.900 zα/2 = z0.05 = 1.64 z 1.64 Φ(z) 0.950 zα/2 = z0.01 = 2.33 z 2.33 Φ(z) 0.990 Alternative Bestimmung mit R: qnorm(1 - 0.10) [1] 1.281552 qnorm(1 - 0.05) [1] 1.644854 qnorm(1 - 0.01) [1] 2.326348 VII - 113 Bestimmung von Quantilen Bestimmung von Quantilen der t-Verteilung mit Hilfe der Tabelle: f(x|ν) α tν|α Die Tabelle gibt die oberen Prozentpunkte tν|α in x Abhängigkeit von α und den Freiheitsgraden ν an. α 0.15 0.1 0.05 0.025 0.01 1 2 3 4 5 1.96 1.39 1.25 1.19 1.16 3.08 1.89 1.64 1.53 1.48 6.31 2.92 2.35 2.13 2.02 12.71 4.30 3.18 2.78 2.57 31.82 6.96 4.54 3.75 3.36 63.66 9.92 5.84 4.60 4.03 6 7 8 9 10 1.13 1.12 1.11 1.10 1.09 1.44 1.41 1.40 1.38 1.37 1.94 1.89 1.86 1.83 1.81 2.45 2.36 2.31 2.26 2.23 3.14 3.00 2.90 2.82 2.76 11 12 13 14 15 1.09 1.08 1.08 1.08 1.07 1.36 1.36 1.35 1.35 1.34 1.80 1.78 1.77 1.76 1.75 2.20 2.18 2.16 2.14 2.13 2.72 2.68 2.65 2.62 2.60 ν 0.005 α Niveau α bzw. α/2 0.15 0.1 0.05 0.025 0.01 0.005 16 17 18 19 20 1.07 1.07 1.07 1.07 1.06 1.34 1.33 1.33 1.33 1.33 1.75 1.74 1.73 1.73 1.72 2.12 2.11 2.10 2.09 2.09 2.58 2.57 2.55 2.54 2.53 2.92 2.90 2.88 2.86 2.85 3.71 3.50 3.36 3.25 3.17 21 22 23 24 25 1.06 1.06 1.06 1.06 1.06 1.32 1.32 1.32 1.32 1.32 1.72 1.72 1.71 1.71 1.71 2.08 2.07 2.07 2.06 2.06 2.52 2.51 2.50 2.49 2.49 2.83 2.82 2.81 2.80 2.79 3.11 3.05 3.01 2.98 2.95 26 27 28 29 30 1.06 1.06 1.06 1.06 1.05 1.31 1.31 1.31 1.31 1.31 1.71 1.70 1.70 1.70 1.70 2.06 2.05 2.05 2.05 2.04 2.48 2.47 2.47 2.46 2.46 2.78 2.77 2.76 2.76 2.75 40 60 120 1.05 1.05 1.04 1.30 1.30 1.29 1.68 1.67 1.66 2.02 2.00 1.98 2.42 2.39 2.36 2.70 2.66 2.62 ν t29, 0.05 = 1.70 t29, 0.005 = 2.76 Freiheitsgrade ν Alternative Bestimmung mit R: qt(1 - 0.050, 29) qt(1 - 0.005, 29) ... Kapitel VII – Modellanpassung und Parameterschätzung [1] 1.699127 [1] 2.756386 VII - 114 Bestimmung von Quantilen Bestimmung von Quantilen der χ2 -Verteilung mit Hilfe der Tabelle: f(x|ν) Niveau α bzw. α/2 α 2 χν|α Die Tabelle gibt die oberen Prozentpunkte χ2ν;α in x Abhängigkeit von α und den Freiheitsgraden ν an. α 0.99 0.95 0.90 0.50 0.10 0.05 0.01 1 2 3 4 5 0.00 0.02 0.11 0.30 0.55 0.00 0.10 0.35 0.71 1.15 0.02 0.21 0.58 1.06 1.61 0.45 1.39 2.37 3.36 4.35 2.71 4.61 6.25 7.78 9.24 3.84 5.99 7.81 9.49 11.07 6.63 9.21 11.34 13.28 15.09 6 7 8 9 10 0.87 1.24 1.65 2.09 2.56 1.64 2.17 2.73 3.33 3.94 2.20 2.83 3.49 4.17 4.87 5.35 6.35 7.34 8.34 9.34 10.64 12.02 13.36 14.68 15.99 12.59 14.07 15.51 16.92 18.31 11 12 13 14 15 3.05 3.57 4.11 4.66 5.23 4.57 5.23 5.89 6.57 7.26 5.58 6.30 7.04 7.79 8.55 10.34 11.34 12.34 13.34 14.34 17.28 18.55 19.81 21.06 22.31 19.68 21.03 22.36 23.68 25.00 ν α 0.99 0.95 0.90 0.50 0.10 0.05 0.01 16 17 18 19 20 5.81 6.41 7.01 7.63 8.26 7.96 8.67 9.39 10.12 10.85 9.31 10.09 10.86 11.65 12.44 15.34 16.34 17.34 18.34 19.34 23.54 24.77 25.99 27.20 28.41 26.30 27.59 28.87 30.14 31.41 32.00 33.41 34.81 36.19 37.57 16.81 18.48 20.09 21.67 23.21 21 22 23 24 25 8.90 9.54 10.20 10.86 11.52 11.59 12.34 13.09 13.85 14.61 13.24 14.04 14.85 15.66 16.47 20.34 21.34 22.34 23.34 24.34 29.62 30.81 32.01 33.20 34.38 32.67 33.92 35.17 36.42 37.65 38.93 40.29 41.64 42.98 44.31 24.72 26.22 27.69 29.14 30.58 26 27 28 29 30 12.20 12.88 13.56 14.26 14.95 15.38 16.15 16.93 17.71 18.49 17.29 18.11 18.94 19.77 20.60 25.34 26.34 27.34 28.34 29.34 35.56 36.74 37.92 39.09 40.26 38.89 40.11 41.34 42.56 43.77 45.64 46.96 48.28 49.59 50.89 ν χ2 29, 0.95 = 17.71 χ2 29, 0.05 = 42.56 Freiheitsgrade ν Alternative Bestimmung mit R: qchisq(1 - 0.95, 29) qchisq(1 - 0.05, 29) ... Kapitel VII – Modellanpassung und Parameterschätzung [1] 17.70837 [1] 42.55697 VII - 115 Kapitel 8 Richtig oder falsch – Hypothesentests Kapitel VIII – Hypothesentests VIII - 0 Klassischer Signifikanztest Übersicht: Einführung in den klassischen Signifikanztest Herleitung für einen einfachen Fall Hypothesen über – den Mittelwert μ einer Grundgesamtheit (2 Fälle), – den Anteilswert π einer Grundgesamtheit, – die Varianz σ2 einer Grundgesamtheit. Kapitel VIII – Hypothesentests VIII - 1 Klassischer Signifikanztest Neue Begriffe: Nullhypothese und alternative Hypothese Prüfgröße Signifikanzniveau Ablehnungsbereich α-Fehler und β-Fehler Einseitiger und zweiseitiger Test P-Werte Kapitel VIII – Hypothesentests VIII - 2 Behauptungen als Hypothesen Behauptungen als Hypothesen: „Die meisten Konsumenten ziehen ein neues Produkt einem altbekannten vor.“ „Das Auftreten einer Krankheit hat zugenommen.“ „Das Klima hat sich in den letzten 10 Jahren geändert.“ „Der Marktanteil eines Produkts hat sich erhöht.“ „Das neue Medikament vermindert das Risiko eines Herzinfarktes.“ ... Kapitel VIII – Hypothesentests VIII - 3 Entscheidungen über Hypothesen Hypothese: „Die meisten Konsumenten ziehen ein neues Produkt einem altbekannten vor.“ Die Hypothese ist entweder richtig oder falsch. Unmöglich: Alle Konsumenten befragen. Machbar: Eine Stichprobe von Konsumenten befragen. Wir müssen aufgrund unvollständiger Informationen entscheiden, ob die Hypothese wahr oder falsch ist. Kapitel VIII – Hypothesentests VIII - 4 Wann soll eine Hypothese verworfen werden? Münzwurf-Spiel: Zeigt die Münze Kopf, zahle ich Ihnen 1 €, zeigt die Münze Zahl, zahlen Sie mir 1 €. Hypothese: Die Münze sei fair, d.h. P („Kopf“) = 0.5. Experiment: Die Münze wird 20 mal geworfen. Ergebnis: Die Münze hat alle 20 mal „Zahl“ gezeigt. Würden Sie spielen? Ergebnis: Die Münze hat 15 mal „Zahl“ gezeigt. Würden Sie spielen? Ab wann wird die Hypothese verworfen? Kapitel VIII – Hypothesentests VIII - 5 Nullhypothese und Alternativhypothese Behauptung (G. Bush): „Die Mehrheit der Wähler in New Jersey unterstützt mich.“ Grundgesamtheit: Alle Wähler in New Jersey. „Erfolg“: Unterstützt G. Bush. Sei π der wahre Anteil der Erfolge in der Grundgesamtheit: H0: π ≥ 0.5 (Allgemein: π ≥ π0) Alternativhypothese: H1: π < 0.5 (Allgemein: π < π0). Nullhypothese: Ziel: H0 testen mit Hilfe einer Meinungsumfrage. Kapitel VIII – Hypothesentests VIII - 6 Ablehnungsbereich Gegeben sei eine Stichprobe von n = 9 Wählern: X ist die Anzahl der Erfolge in der Stichprobe. Wenn X „klein“ ist, werden wir H0 ablehnen, wenn X nicht „klein“ ist, können wir H0 nicht ablehnen. Ablehnungsbereich: A = {0} ? A = {0, 1} ? A = {0, 1, 2} ? etwas anderes? Wir betrachten A = {0, 1, 2}. Entscheidungsregel: - H0 wird verworfen, wenn X ≤ 2, - H0 wird nicht verworfen, wenn X > 2. Die Zufallsvariable X ist die Prüfgröße. Kapitel VIII – Hypothesentests VIII - 7 Verteilung der Prüfgröße X ist binomialverteilt: X ∼ b(9, π) Wahrscheinlichkeitsfunktion von X: ⎧³ ´ ⎨ 9 π x(1 − π)9−x x P (x) = ⎩0 für x = 0, 1, 2, . . . , 9 sonst Problem: π ist unbekannt. Wir betrachten den Fall: H0 ist „knapp“ richtig, d.h. π = 0.5. Wahrscheinlichkeitsfunktion von X: ⎧³ ´ ⎨ 9 0.5x(1 − 0.5)9−x x P (x) = ⎩0 Kapitel VIII – Hypothesentests für x = 0, 1, 2, . . . , 9 sonst VIII - 8 Verteilung der Prüfgröße Wahrscheinlichkeitsfunktion für X, die Anzahl der Bush-Befürworter in der Stichprobe: 0.4 P(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 x (Anzahl der Bush-Wähler) Kapitel VIII – Hypothesentests VIII - 9 α-Fehler und β-Fehler Ablehnungsbereich: A = {0, 1, 2}. Zwei Arten von Fehlern bzw. Irrtümern: α-Fehler: H0 verwerfen, obwohl sie wahr ist. X ∈ A, obwohl π ≥ 0.5 (Fehler 1. Art). β-Fehler: H0 nicht verwerfen, obwohl sie falsch ist. X ∉ A, obwohl π < 0.5 (Fehler 2. Art). Fehlerarten beim Hypothesentest: Nullhypothese wahr falsch Kapitel VIII – Hypothesentests Entscheidung verwerfen nicht verwerfen √ α √ β VIII - 10 α-Fehler und β-Fehler Klassischer Signifikanztest für den Ablehnungsbereich A = 0, 1, 2. 0.4 Nullhypothese verwerfen (P = 0.09) Nullhypothese nicht verwerfen (P = 0.91) P(x) 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 x (Anzahl der Bush-Wähler) Kapitel VIII – Hypothesentests VIII - 11 α-Fehler und β-Fehler Fall: H0 ist knapp richtig, d.h. π = 0.5. P (α-Fehler) = P (X ≤ 2) = P (0) + P (1) + P (2) = 0.09 P (β-Fehler) hängt von π ab. Beispiel: π = 0.4, d.h. H0 ist falsch. P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.77 Beispiel: π = 0.3, d.h. H0 ist falsch. P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.54 Beispiel: π = 0.2, d.h. H0 ist falsch. P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.26 Kapitel VIII – Hypothesentests VIII - 12 α-Fehler und β-Fehler Wahrscheinlichkeit, die Behauptung zu verwerfen bzw. nicht zu verwerfen in Abhängigkeit von π (für n = 9 und A = {0, 1, 2}): 1.0 H0 falsch H0 richtig Wahrscheinlichkeit 0.8 0.6 P(H0 verwerfen) P(H0 nicht verwerfen) 0.4 0.2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 wahrer Anteil π Kapitel VIII – Hypothesentests VIII - 13 α-Fehler und β-Fehler Wahrscheinlichkeit einer Fehlentscheidung (α- oder β-Fehler) in Abhängigkeit von π (für n = 9 und A = {0, 1, 2}): 1.0 H0 falsch H0 richtig Wahrscheinlichkeit 0.8 0.6 P(α-Fehler) P(β-Fehler) 0.4 0.2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 wahrer Anteil π Kapitel VIII – Hypothesentests VIII - 14 Signifikanzniveau Entscheidungsprinzip des klassischen Signifikanztests: Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich halten, dass sie wahr ist. Wie unwahrscheinlich? → Das Signifikanzniveau. ⎧ ⎪ ⎨ 0.01 (1%) Gebräuchliche Signifikanzniveaus: α = ⎪ 0.05 (5%) ⎩ 0.10 (10%) Man wählt das gewünschte Signifikanzniveau α und bestimmt den Ablehnungsbereich, so dass P (α-Fehler) = α gilt. Kapitel VIII – Hypothesentests VIII - 15 Signifikanzniveau Fall: H0 ist knapp richtig, d.h. π = 0.5. X ist binomialverteilt: X ∼ b(9, 0.5) P (α-Fehler): A = {0} A = {0, 1} A = {0, 1, 2} A = {0, 1, 2, 3} P (X P (X P (X P (X ≤ 0) ≤ 1) ≤ 2) ≤ 3) = P (0) = P (0) + P (1) = P (0) + P (1) + P (2) = P (0) + P (1) + P (2) + P (3) = 0.002 = 0.02 = 0.09 = 0.25 Daraus resultierende Ablehnungsbereiche: Signifikanzniveau: α = 10% =⇒ A = {0, 1, 2} Signifikanzniveau: α = 5% =⇒ A = {0, 1} Signifikanzniveau: α = 1% =⇒ A = {0} Kapitel VIII – Hypothesentests VIII - 16 Ergebnisse der New Jersey Umfrage (Oktober 2000) Ergebnisse einer Umfrage in New Jersey: Stichprobe: n = 383 Wähler Nullhypothese H0: π ≥ 0.5 Alternativhypothese H1: π < 0.5 Signifikanzniveau: α = 0.1 (10 %) Bestimmung des Ablehnungsbereiches A: 1. Annahme: H0 ist knapp richtig (hier: π = 0.5). 2. A bestimmen: P (A) ≈ α, wenn H0 wahr ist. X ist binomialverteilt: X ∼ b(383, 0.5) . Kapitel VIII – Hypothesentests VIII - 17 Ablehnungsbereich X ist binomialverteilt: X ∼ b(383, 0.5) . H0: π ≥ π0 = 0.5: 178 P ³383´ x(1 − 0.5)383−x = 0.09 P (X ≤ 178) = 0.5 x x=0 179 P ³383´ x(1 − 0.5)383−x = 0.11 0.5 P (X ≤ 179) = x x=0 Ablehnungsbereich: X ≤ 178, d.h. A = {0, 1, ..., 178}. H0: π ≥ π0 = 0.4: 140 P ³383´ x(1 − 0.4)383−x = 0.09 P (X ≤ 140) = 0.4 x x=0 141 P ³383´ x(1 − 0.4)383−x = 0.11 P (X ≤ 141) = 0.4 x x=0 Ablehnungsbereich: X ≤ 140, d.h. A = {0, 1, ..., 140}. Kapitel VIII – Hypothesentests VIII - 18 Ablehnungsbereich Entscheidungssituation für π ≥ π0 = 0.5 und Wahrscheinlichkeit einer Fehlentscheidung in Abhängigkeit von π (für n = 383 und A = 0,1,...,178): 0.05 Nullhypothese verwerfen (P = 0.09) P(x) 0.04 0.03 Nullhypothese nicht verwerfen (P = 0.91) 0.02 0.01 0.00 150 160 170 180 190 200 210 220 230 x (Anzahl der Bush-Wähler) Wahrscheinlichkeit 1.0 H0 falsch 0.8 H0 richtig 0.6 P(α-Fehler) P(β-Fehler) 0.4 0.2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 wahrer Anteil π Kapitel VIII – Hypothesentests VIII - 19 Ablehnungsbereich Entscheidungssituation für π ≥ π0 = 0.4 und Wahrscheinlichkeit einer Fehlentscheidung in Abhängigkeit von π (für n = 383 und A = 0,1,...,140): 0.05 Nullhypothese verwerfen (P = 0.10) P(x) 0.04 0.03 Nullhypothese nicht verwerfen (P = 0.90) 0.02 0.01 0.00 110 120 130 140 150 160 170 180 190 200 x (Anzahl der Bush-Wähler) Wahrscheinlichkeit 1.0 H0 falsch 0.8 H0 richtig 0.6 P(α-Fehler) P(β-Fehler) 0.4 0.2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 wahrer Anteil π Kapitel VIII – Hypothesentests VIII - 20 Vorgehensweise beim Signifikanztest Vorgehensweise beim Signifikanztest: Aufstellen der Nullhypothese H0 und der zugehörigen Alternativhypothese H1. Wahl des Signifikanzniveaus und einer Prüfgröße (PG). Festlegung des Ablehnungsbereichs A mit der Eigenschaft: Unter H0 gilt P (X ∈ A) ≤ α. Ziehung einer Stichprobe und Berechnung von PG : Entscheidung: (a) PG ∈ A ⇒ H0 verwerfen. Die Alternativhypothese H1 gilt als statistisch abgesichert. (b) PG ∉ A ⇒ H0 kann nicht verworfen werden. Kapitel VIII – Hypothesentests VIII - 21 Flüge von Dallas nach Philadelphia Behauptung: Pünktlichkeitsquote = 0.8 (= 80 %), d.h. H0: π = 0.8 H1: π ≠ 0.8 (allgemein π = π0), (allgemein π ≠ π0). Stichprobe: n = 174 Flüge Unter H0 gilt π = 0.8 Signifikanzniveau: α = 0.1 (10 %) Prüfgröße: X = Anzahl der pünktlichen Flüge. Ablehnungsbereich: H0 wird verworfen, wenn der Anteil in der Stichprobe „sehr klein“ oder „sehr groß“ ist. Unter H0 gilt: X ∼ b(174, 0.8) . Kapitel VIII – Hypothesentests VIII - 22 Zweiseitige Tests Unter H0 gilt X ∼ b(174, 0.8) : 130 P ³174´ x(1 − 0.8)174−x ≈ 0.05 P (X ≤ 130) = 0.8 x x=0 174 P ³174´ x(1 − 0.8)174−x ≈ 0.05 0.8 P (X ≥ 148) = x x=148 Ablehnungsbereich: X ≤ 130 oder X ≥ 148 . Ablehnungsbereich: A = {0, 1, . . . , 130} ∪ {148, 149, . . . 174} . Beobachtung: X = 131. Entscheidung: X ∉ A ⇒ H0 kann nicht verworfen werden. Kapitel VIII – Hypothesentests VIII - 23 Zweiseitige Tests Entscheidungssituation für den zweiseitigen Test (Pünktlichkeitsquote): 0.10 Nullhypothese verwerfen (P = 0.05) 0.08 Nullhypothese nicht verwerfen (P = 0.90) Nullhypothese verwerfen (P = 0.05) P(x) 0.06 0.04 0.02 0.00 120 125 130 135 140 145 150 155 160 x (Anzahl der pünktlichen Flüge) Kapitel VIII – Hypothesentests VIII - 24 Normalapproximation Einige Ergebnisse: (1) Wenn X ∼ b(n, π) und n groß ist, dann gilt X ∼ N (μ, σ 2) mit μ = nπ und σ 2 = nπ(1 − π). (2) Wenn X ∼ N (μ, σ 2), dann ist Z = X−μ σ ∼ N (0, 1). Aus (1) und (2) folgt: Z = √ X−nπ nπ(1−π) ∼ N (0, 1) . In diesem Fall haben wir n = 174 und π = 0.8: √ Z = X−139.2 ∼ N (0, 1) . 27.84 Kapitel VIII – Hypothesentests VIII - 25 Normalapproximation Bestimmung von μ und σ2 der approximierenden Normalverteilung: μ = nπ = 174(0.8) = 139.2 σ 2 = nπ(1 − π) = 174(0.8)(1 − 0.8) = 27.84 √ Z = X−139.2 ∼ N (0, 1) 27.84 Für Z erhalten wir folgenden Ablehnungsbereich: AZ = (−∞; −1.64] ∪ [1.64, ∞) Für X ergibt sich folgender Ablehnungsbereich: Äquivalent Beobachtung: X = 131 ⇒ Z = –1.55 . Entscheidung: Z ∉ AZ ⇒ H0 kann nicht verworfen werden. A = (−∞; 130.5] ∪ [147.9; ∞) Beobachtung: X = 131. Entscheidung: X ∉ A ⇒ H0 kann nicht verworfen werden. Kapitel VIII – Hypothesentests VIII - 26 Normalapproximation Entscheidungssituation für den zweiseitigen Test (Pünktlichkeitsquote) mit approximierender Normalverteilung: 0.10 Nullhypothese verwerfen Nullhypothese nicht verwerfen Nullhypothese verwerfen P(x) / f(x) 0.08 0.06 0.04 90 % 5% 0.02 5% 0.00 120 125 130 a1 Kapitel VIII – Hypothesentests 135 140 145 150 155 160 x (Anzahl der pünktlichen Flüge) a2 VIII - 27 Normalapproximation Bestimmung des Ablehnungsbereiches für die N (0,1)-verteilte standardisierte Prüfgröße Z : 0.5 Nullhypothese verwerfen Nullhypothese nicht verwerfen Nullhypothese verwerfen 0.4 f(x) 0.3 0.2 5% 0.1 5% 90 % 0.0 -4 -3 -2 z 1 = -1.64 Kapitel VIII – Hypothesentests -1 0 x 1 2 3 4 z 2 = 1.64 VIII - 28 Hypothesen über den Mittelwert μ einer Population Beispiel: Brenndauer von Glühbirnen. Drei Arten von Hypothesen: (a) Einseitiger Hypothesentest (linksseitig), z.B.: H0 : μ ≥ 1150 H1 : μ < 1150 | {z } | {z } μ0 μ0 (b) Einseitiger Hypothesentest (rechtsseitig), z.B.: H1 : μ > 1150 H0 : μ ≤ 1150 (c) Zweiseitiger Hypothesentest, z.B.: H0 : μ = 1150 H1 : μ 6= 1150 Kapitel VIII – Hypothesentests VIII - 29 Hypothesen über den Mittelwert μ einer Population Prüfgröße: Der Mittelwert in der Stichprobe, d.h. P G = x̄ . Entscheidung: H0 verwerfen, wenn x̄ (a) viel kleiner als μ0 = 1150 ist, (b) viel größer als μ0 = 1150 ist, (c) viel kleiner oder viel größer als μ0 = 1150 ist. Der Ablehnungsbereich hängt davon ab, ob σ2 unbekannt ist (Fall 1) oder bekannt ist (Fall 2). Annahme: Die Werte sind normalverteilt. Kapitel VIII – Hypothesentests VIII - 30 Ergebnisse unter der Nullhypothese Ergebnisse unter der Nullhypothese: Normalverteilte Grundgesamtheit N (μ,σ 2) Zufällige Stichprobe x1, x2, . . . , xn Stichprobenmittelwert x̄ 2 x̄ ∼ N (μ, σn ) =⇒ =⇒ x̄ − μ Z= √ ∼ N (0, 1) σ/ n x̄ − μ T = √ ∼ t(n − 1) S∗/ n Unter der Nullhypothese gilt μ = μ0 (= 1150): 2 x̄ ∼ N (μ0, σn ) =⇒ =⇒ Kapitel VIII – Hypothesentests x̄ − μ0 Z= √ ∼ N (0, 1) σ/ n x̄ − μ0 T = √ ∼ t(n − 1) S∗ / n VIII - 31 Beispiel: Glühbirnen (Varianz ist unbekannt) Hypothese: H0 : μ ≥ 1 150 H1 : μ < 1 150 . Anzahl Beobachtungen Mittelwert in der Stichprobe Varianz in der Stichprobe Standardabweichung n = 30 x̄ = 1 092.9 S∗2 = 42 484.44 S∗ = 206.1175 x̄ − μ0 Verteilung der Prüfgröße unter H0: T = √ ∼ t(29) . S∗ / n Signifikanzniveau: α = 0.05 (5 %). Ablehnungsbereich: A = (−∞; −1.70] . 150 = −1.51 ⇒ H wird nicht verworfen T = 1 092.9−1√ 0 206.1175/ 30 Kapitel VIII – Hypothesentests VIII - 32 Linksseitiger Ablehnungsbereich t-Verteilung und linksseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz ist unbekannt): 0.5 Nullhypothese verwerfen Nullhypothese nicht verwerfen 0.4 f(x) 0.3 0.2 α 0.1 1− α 0.0 -4 -3 -2 -1 − t n−1, α Kapitel VIII – Hypothesentests 0 1 2 3 4 x VIII - 33 Rechtsseitiger Ablehnungsbereich t-Verteilung und rechtsseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz ist unbekannt): 0.5 Nullhypothese nicht verwerfen Nullhypothese verwerfen 0.4 f(x) 0.3 0.2 1−α 0.1 α 0.0 -4 -3 -2 -1 0 x Kapitel VIII – Hypothesentests 1 2 3 4 t n−1, α VIII - 34 Beidseitiger Ablehnungsbereich t-Verteilung und beidseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz ist unbekannt): 0.5 Nullhypothese verwerfen Nullhypothese nicht verwerfen Nullhypothese verwerfen 0.4 f(x) 0.3 0.2 α 2 0.1 α 2 1−α 0.0 -4 -3 -2 −t n−1, α Kapitel VIII – Hypothesentests -1 2 0 x 1 2 t n−1,α 3 4 2 VIII - 35 Beispiel: Füllmenge von Grießpackungen (Varianz bekannt) Hypothese: H0 : μ = 1 000 H1 : μ 6= 1 000 . Anzahl Beobachtungen n = 80 Mittelwert in der Stichprobe x̄ = 1 001.6 Varianz (bekannt) σ = 2.83 x̄ − μ0 Verteilung der Prüfgröße unter H0: Z = √ ∼ N (0, 1) σ/ n Signifikanzniveau: α = 0.1 (10 %). Ablehnungsbereich: A = (−∞; −1.64] ∪ [1.64; ∞) Z= 1 001.6 − 1 000 √ = 5.06 ⇒ H0 wird verworfen 2.83/ 80 Kapitel VIII – Hypothesentests VIII - 36 Linksseitiger Ablehnungsbereich N (0,1)-Verteilung und linksseitiger Ablehnungsbereich (Fall 2, d.h. die Varianz ist bekannt): 0.5 Nullhypothese verwerfen Nullhypothese nicht verwerfen 0.4 f(x) 0.3 0.2 α 0.1 1−α 0.0 -4 Kapitel VIII – Hypothesentests -3 -2 − zα -1 0 1 2 3 4 x VIII - 37 Rechtsseitiger Ablehnungsbereich N (0,1)-Verteilung und rechtsseitiger Ablehnungsbereich (Fall 2, d.h. die Varianz ist bekannt): 0.5 Nullhypothese nicht verwerfen Nullhypothese verwerfen 0.4 f(x) 0.3 0.2 1−α 0.1 α 0.0 -4 -3 -2 -1 0 x Kapitel VIII – Hypothesentests 1 2 3 4 zα VIII - 38 Beidseitiger Ablehnungsbereich N (0,1)-Verteilung und beidseitiger Ablehnungsbereich (Fall 2, d.h. die Varianz ist bekannt): 0.5 Nullhypothese verwerfen Nullhypothese nicht verwerfen Nullhypothese verwerfen 0.4 f(x) 0.3 0.2 α 2 0.1 α 2 1−α 0.0 -4 Kapitel VIII – Hypothesentests -3 -2 − zα -1 2 0 x 1 2 zα 3 4 2 VIII - 39 Hypothesen über die Varianz einer Population Die Varianz σ2 beschreibt die Breite einer Wahrscheinlichkeits- bzw. einer Dichtefunktion. Die Breite ist ein Maß für die Unsicherheit, die mit einer Zufallsvariablen verbunden ist. Risikomanagement: Beschreibung des Verhaltens von Renditen (→ Volatilität). Qualitätsmanagement: Qualität ∝ 1/Varianz - Eigenschaften von Produkten - Produktionsprozesse - Servicequalität Kapitel VIII – Hypothesentests VIII - 40 Hypothesen über die Varianz einer Population Drei Arten von Hypothesen: (a) Einseitiger Hypothesentest (linksseitig), z.B.: H0 : σ 2 ≥ σ02 H1 : σ 2 < σ02 (b) Einseitiger Hypothesentest (rechtsseitig), z.B.: H0 : σ 2 ≤ σ02 H1 : σ 2 > σ02 (c) Zweiseitiger Hypothesentest, z.B.: H0 : σ 2 = σ02 H1 : σ 2 6= σ02 nS 2 Prüfgröße (Teststatistik): P G = 2 ∼ χ2(n − 1) . σ0 Kapitel VIII – Hypothesentests VIII - 41 Beispiel: Durchmesser von Kugellagern Beispiel: Varianz des Durchmessers von „2mm-Kugellagern“. Bisher war σ2 = 0.011. Nach einer Prozessverbesserung wurde folgendes getestet: Nullhypothese: H0 : σ 2 ≥ 0.011 Alternativhypothese H1 : σ 2 < 0.011 Beobachtungen: 2.14 1.93 1.98 1.93 2.09 1.94 . 6 P 1 2 S =6 (xi − x̄)2 = 0.00691 . i=1 nS 2 6(0.00691) PG = 2 = = 3.77 . 0.011 σ0 Unter H0 gilt P G ∼ χ2(5) . Kapitel VIII – Hypothesentests VIII - 42 χ2-Verteilung und linksseitiger Ablehnungsbereich χ2-Verteilung und linksseitiger Ablehnungsbereich: 0.20 Nullhypothese verwerfen Nullhypothese nicht verwerfen f(x) 0.15 0.10 0.05 α 1−α 0.00 0 2 2 χ n−1,1−α Kapitel VIII – Hypothesentests 4 6 8 10 12 14 16 x VIII - 43 Beispiel: Durchmesser von Kugellagern Signifikanzniveau: Ablehnungsbereich: α = 0.1 (= 10 %) A = [0; 1.61] Prüfgröße: PG = 3.77 ∉ A H0: σ2 ≥ 0.011 kann nicht verworfen werden. ⇒ Wir können nicht schließen, dass sich σ2 verringert hat. Es ist durchaus möglich, dass sich σ2 verringert hat. Der Schätzer S 2 = 0.00691 ist kleiner als 0.011, ABER die Daten widersprechen nicht der Möglichkeit, dass σ2 ≥ 0.011 ist. Kapitel VIII – Hypothesentests VIII - 44 Beispiel: Durchmesser von Kugellagern Mögliche Histogramme des Durchmessers vom 2mm-Kugellagern: 2 σ = 0.0025 20 Dichte 15 10 5 0 1.80 1.85 1.90 1.95 2.00 2.05 Durchmesser (mm) 2.10 2.15 2.20 2.10 2.15 2.20 2 σ = 0.0004 20 Dichte 15 10 5 0 1.80 Kapitel VIII – Hypothesentests 1.85 1.90 1.95 2.00 2.05 Durchmesser (mm) VIII - 45 Wahl von Nullhypothese und Alternativhypothese Signifikanztests dienen dazu, Aussagen über Hypothesen zu machen und dadurch Entscheidungen zu treffen. Mögliche Entscheidungen: (a) H0 verwerfen. Die Alternativhypothese H1 gilt als statistisch abgesichert. ⇒ Eine starke Aussage. (b) H0 kann nicht verworfen werden. Das bedeutet nicht, dass H0 als statistisch abgesichert gilt. ⇒ Eine schwache Aussage. Kapitel VIII – Hypothesentests VIII - 46 Wahl von Nullhypothese und Alternativhypothese Möchte man etwas „beweisen“, sollte die Alternativhypothese das ausdrücken, was man eigentlich beweisen will. Beispiel: Durchmesser von Kugellagern. Man würde gerne beweisen, dass sich die Varianz, die früher 0.011 betrug, verringert hat. Also verwendet man: H1 : σ 2 < 0.011 ⇒ H0 : σ 2 ≥ 0.011 . Beispiel: US Präsidentenwahl. Man möchte beweisen, dass weniger als 50 % der Wähler G. Bush unterstützen. Also verwendet man: H1 : π < 0.5 ⇒ H0 : π ≥ 0.5 . Kapitel VIII – Hypothesentests VIII - 47 Wahl von Nullhypothese und Alternativhypothese Möchte man hingegen eine Aussage der folgenden Art treffen: „Die Daten widersprechen dieser Behauptung nicht“, dann sollte man die Behauptung als Nullhypothese formulieren. Beispiel: Glühbirnen. Man möchte zeigen, dass nichts gegen die Behauptung spricht, dass die Glühbirnen im Schnitt mindestens 1150 Stunden halten. Also verwendet man: H0 : μ ≥ 1150 ⇒ H1 : μ < 1150 . Beispiel: Flüge von Dallas nach Philadelphia. Man möchte zeigen, dass nichts gegen die Behauptung spricht, dass 80 % der Flüge pünktlich sind. Also verwendet man: H0 : π = 0.80 ⇒ H1 : π 6= 0.80 . Kapitel VIII – Hypothesentests VIII - 48 P-Werte Entscheidungsprinzip des klassischen Signifikanztests: Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich halten, dass sie wahr ist. Wie unwahrscheinlich? Kleiner als ein vorgegebenes Signifikanzniveau α. Vorgehensweise: (1) (2) (3) (4) (5) α festlegen, z.B. 1 %, 5 % oder 10 %. Ablehnungsbereich A bestimmen. PG berechnen. Feststellen, ob PG ∈ A oder PG ∉ A. Entscheiden, ob H0 verworfen wird oder nicht verworfen werden kann. Kapitel VIII – Hypothesentests VIII - 49 P-Werte Entscheidungsprinzip des klassischen Signifikanztests: Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich halten, dass sie wahr ist. Alternative: Zunächst bestimmen, wie unwahrscheinlich die berechnete PG (unter H0) ist, und nur dann entscheiden. Vorgehensweise: (1) PG bestimmen. (2) Den P-Wert bestimmen. (3) Mit Hilfe des P-Wertes entscheiden. Der P-Wert ist - das Signifikanzniveau, dass knapp reichen würde, um H0 zu verwerfen, - die Wahrscheinlichkeit, unter H0 einen noch extremeren Wert für PG zu erhalten als den beobachteten. Kapitel VIII – Hypothesentests VIII - 50 Beispiel: Klassische Vorgehensweise Beispiel zur klassischen Vorgehensweise: H0 : μ ≥ 1 150 H1 : μ < 1 150 Anzahl Beobachtungen Mittelwert in der Stichprobe Varianz in der Stichprobe Standardabweichung Prüfgröße: T = n = 30 x̄ = 1 092.9 S∗2 = 42 484.44 S∗ = 206.1175 x̄ − μ0 √ ∼ t(29) . S∗ / n Signifikanzniveau: α = 0.05 (= 5 %). Ablehnungsbereich: A = (−∞; −1.70] . 1 092.9 − 1 150 √ T = = −1.51 ⇒ H0 wird nicht verworfen. 206.1175/ 30 Kapitel VIII – Hypothesentests VIII - 51 Beispiel: P-Wert Beispiel zum Vorgehen anhand des P-Wertes: H0 : μ ≥ 1 150 H1 : μ < 1 150 Anzahl Beobachtungen Mittelwert in der Stichprobe Varianz in der Stichprobe Standardabweichung n = 30 x̄ = 1 092.9 S∗2 = 42 484.44 S∗ = 206.1175 150 = −1.51 . Prüfgröße (PG): T = 1 092.9−1√ 206.1175/ 30 P-Wert: P (P G ≤ −1.51) = 0.07 . H0 wäre knapp zu verwerfen bei einem Signifikanzniveau von 0.07. Bei α ≥ 0.07 würde man H0 verwerfen. Bei α < 0.07 würde man H0 nicht verwerfen. Kapitel VIII – Hypothesentests VIII - 52 P-Werte Bestimmung des P-Wertes bei einem linksseitigen t -Test: 0.5 0.4 f(x) 0.3 0.2 0.07 0.1 0.0 -4 -3 -2 -1 -1.51 Kapitel VIII – Hypothesentests 0 x 1 2 3 4 VIII - 53 P-Werte P-Wert und Ablehnungsbereiche üblicher Signifikanzniveaus bei einem linksseitigen Test: 0.5 10%-Grenze 0.4 5%-Grenze f(x) 0.3 1%-Grenze 0.2 0.07 0.1 0.0 -4 -3 t n−1,0.01 -2 t n−1,0.05 t n−1,0.1 -1 0 -1.51 Kapitel VIII – Hypothesentests VIII - 54 P-Werte Bestimmung des P-Wertes bei einem linksseitigen χ2-Test: 0.20 f(x) 0.15 0.10 0.42 0.05 0.00 0 Kapitel VIII – Hypothesentests 2 4 3.77 6 8 x 10 12 14 16 VIII - 55 P-Werte Bestimmung des P-Wertes bei einem zweiseitigen Test: 0.5 0.4 f(x) 0.3 0.2 0.06 0.1 0.06 0.0 -4 -3 -2 -1 -1.55 Kapitel VIII – Hypothesentests 0 1 2 3 4 1.55 VIII - 56 Kapitel 9 Der Zufall im Doppelpack – Paare von Zufallsvariablen Kapitel IX – Paare von Zufallsvariablen IX - 0 Übersicht Übersicht: Paare diskreter Zufallsvariablen: - Gemeinsame Wahrscheinlichkeitsfunktion. Paare stetiger Zufallsvariablen: - Gemeinsame Dichtefunktion. Gemeinsame Verteilungsfunktion: - F (x, y) = P (X ≤ x, Y ≤ y). Zusammenhang zwischen Zufallsvariablen: - Korrelation und Abhängigkeit. Bivariate Normalverteilung: - N (μX, μY, σX2, σY2, ρ). Kapitel IX – Paare von Zufallsvariablen IX - 1 Neue Begriffe Neue Begriffe: Paare diskreter Zufallsvariablen, Gemeinsame Wahrscheinlichkeitsfunktion, Randwahrscheinlichkeitsfunktionen, Bedingte Wahrscheinlichkeitsfunktion, Bedingter Erwartungswert und bedingte Varianz. Kapitel IX – Paare von Zufallsvariablen IX - 2 Beispiele Beispiele für Paare von Zufallsvariablen: – Ausgaben für Werbemaßnahmen & Umsatz, – Schulabschluss & Beruf, – Stress & Blutdruck, – Haushaltsgröße & Ausgaben für Lebensmittel, – Zinssatz & Arbeitslosenquote. Beide Merkmale müssen jeweils gemeinsam betrachtet werden, da – beide Merkmale verbunden sind, – die Beziehung stochastisch ist und – die beiden Zufallsvariablen eine gemeinsame Verteilung besitzen. Kapitel IX – Paare von Zufallsvariablen IX - 3 Paare von Zufallsvariablen Typische Fragestellungen in diesem Zusammenhang: Sind die beiden Merkmale voneinander abhängig? Wenn ja, wie lässt sich ihr Verhalten beschreiben? Kann man anhand des Wertes einer der zwei Merkmale das Verhalten des zweiten Merkmals besser voraussagen? Kann man das Verhalten eines der zwei Merkmale steuern, indem man den Wert des anderen Merkmals steuert? Kapitel IX – Paare von Zufallsvariablen IX - 4 Mögliche Kombinationen Bei zwei Merkmalen gibt es folgende drei Möglichkeiten: Beide Merkmale sind diskret, z.B. Anzahl Mitarbeiter & Anzahl Mitarbeiterinnen. Beide Merkmale sind stetig, z.B. Werbeausgaben & Umsatz. Ein Merkmal ist stetig und das andere ist diskret: z.B. Gehalt & Anzahl PKW. Kapitel IX – Paare von Zufallsvariablen IX - 5 Beispiel: Eignungstest Zusammenhang zwischen Eignungstest (Y ) und dem Ergebnis der Ausbildung (X): Das Ergebnis der Ausbildung: Das Ergebnis des Eignungstests: X= Y = Typische Beobachtungen: Ausbildung Testpunkte X Erfolg 3 1 Misserfolg 2 0 Erfolg 4 1 ... ... ... Kapitel IX – Paare von Zufallsvariablen ( 0 Misserfolg 1 Erfolg ⎧ ⎪ 1 Niedrigste Note ⎪ ⎪ ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎨ 3 ⎪ 4 ⎪ ⎪ ⎪ ⎪ 5 ⎪ ⎪ ⎪ ⎩ 6 Höchste Note Y 3 2 4 ... (X, Y ) (1,3) (0,2) (1,4) ... IX - 6 Ausbildung & Eignungstest - Wahrscheinlichkeiten Gemeinsame Wahrscheinlichkeiten für X und Y : Das Ergebnis der Ausbildung: X Das Ergebnis des Eignungstests: Y Tabelle der gemeinsamen Wahrscheinlichkeiten: Y X 0 1 Summe 1 2 3 4 5 6 Summe 0.028 0.130 0.243 0.138 0.023 0.001 0.563 0.000 0.008 0.079 0.192 0.127 0.031 0.437 0.028 0.138 0.322 0.330 0.150 0.032 1.000 Kapitel IX – Paare von Zufallsvariablen IX - 7 Ausbildung & Eignungstest - Wahrscheinlichkeiten Betrachtung der Wahrscheinlichkeit, dass eine zufällig aus der Population ausgewählte Person eine 3 im Test bekommen hat und einen Misserfolg in der Ausbildung hat: Y X 0 1 Summe 1 2 3 4 5 6 Summe 0.028 0.130 0.243 0.138 0.023 0.001 0.563 0.000 0.008 0.079 0.192 0.127 0.031 0.437 0.028 0.138 0.322 0.330 0.150 0.032 1.000 P (Person erzielt eine 3 im Test und hat einen Misserfolg) = 0.243 In Symbolen: P (X = 0 und Y = 3) = 0.243 bzw. in Kurzform: P (0, 3) = 0.243 . Kapitel IX – Paare von Zufallsvariablen IX - 8 Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y Definition der gemeinsamen Wahrscheinlichkeitsfunktion von X und Y : P (x, y) = P (X = x und Y = y) Eigenschaften: P (x, y) ≥ 0 für alle x und y P P x y P (x, y) = 1 Für das Beispiel erhalten wir: P (x, y) = 1 P 6 P x=0 y=1 ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0.028 0.130 .. 0.127 0.031 0 für x = 0, y = 1 für x = 0, y = 6 für x = 1, y = 5 für x = 1, y = 6 sonst P (x, y) = 0.028 + 0.130 + · · · + 0.127 + 0.031 = 1 . Kapitel IX – Paare von Zufallsvariablen IX - 9 Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y Die gemeinsame Wahrscheinlichkeitsfunktion: P(x,y) 0.5 6 0.4 0.3 0.2 g Er eb de s i n i gn E s u ) (Y s t t es s 4 ng 5 3 2 0.1 0 1 0 1 Ergebnis der Ausbildung (X) Kapitel IX – Paare von Zufallsvariablen IX - 10 Beispiel: Randwahrscheinlichkeitsfunktion von X Bestimmung der Randwahrscheinlichkeiten von X : P (X = 0) = P (0, 1) + P (0, 2) + P (0, 3) + P (0, 4) + P (0, 5) +P (0, 6) = 0.028 + 0.130 + 0.243 + 0.138 + 0.023 + 0.001 = 0.563 P (X = 1) = P (1, 1) + P (1, 2) + P (1, 3) + P (1, 4) + P (1, 5) +P (1, 6) = 0.000 + 0.008 + 0.079 + 0.192 + 0.127 + 0.031 = 0.437 Randwahrscheinlichkeitsfunktion von X : P1(x) oder PX (x) . P1(x) = ⎧ ⎪ ⎨ 0.563 ⎪ ⎩ 0.437 0 Kapitel IX – Paare von Zufallsvariablen für x = 0 für x = 1 sonst . IX - 11 Randverteilungsfunktionen Randwahrscheinlichkeitsfunktion von X : P1(x) oder PX (x) . P1(x) = P y P (x, y) Randwahrscheinlichkeitsfunktion von Y : P2(y) oder PY (y) . P2(y) = P x P (x, y) Gemeinsame Wahrscheinlichkeiten und Randwahrscheinlichkeiten: Y X 0 1 P2(y) 1 2 0.028 0.130 0.000 0.008 0.028 0.138 Kapitel IX – Paare von Zufallsvariablen 3 4 0.243 0.138 0.079 0.192 0.322 0.330 5 6 P1(x) 0.023 0.001 0.563 0.127 0.031 0.437 0.150 0.032 1.000 IX - 12 Beispiel: Wahrscheinlichkeitsfunktion von Y P (Person erhält ‘2’ im Test) = P (Y = 2) = P2(2) = P (0, 2) + P (1, 2) = 0.130 + 0.008 = 0.138 Y X 0 1 P2(y) 1 2 0.028 0.130 0.000 0.008 0.028 0.138 3 0.243 0.079 0.322 4 0.138 0.192 0.330 ⎧ ⎪ 0.028 ⎪ ⎪ ⎪ ⎪ 0.138 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 0.322 Randwahrscheinlich— keitsfunktion von Y : P2(y) = ⎪ 0.330 ⎪ ⎪ 0.150 ⎪ ⎪ ⎪ ⎪ ⎪ 0.032 ⎪ ⎪ ⎩ 0 Kapitel IX – Paare von Zufallsvariablen 5 0.023 0.127 0.150 6 0.001 0.031 0.032 P1(x) 0.563 0.437 1.000 für y = 1 für y = 2 für y = 3 für y = 4 für y = 5 für y = 6 sonst IX - 13 Randwahrscheinlichkeiten 1.0 1.0 0.8 0.8 Wahrscheinlichkeit P2(y) Wahrscheinlichkeit P1(x) Randwahrscheinlichkeiten für X (links) und für Y (rechts): 0.6 0.4 0.6 0.4 0.2 0.2 0.0 0.0 0 1 Ergebnis der Ausbildung (x) Kapitel IX – Paare von Zufallsvariablen 1 2 3 4 5 6 Ergebnis des Eignungstests (y) IX - 14 Die bedingten Wahrscheinlichkeitsfunktionen Die gemeinsame Wahrscheinlichkeitsfunktion: P (x, y) . Die Randwahrscheinlichkeitsfunktionen: P1(x) und P2(y) . Die bedingten Wahrscheinlichkeitsfunktionen: P1|2(x|y) und P2|1(y|x) . Frage 1: Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung? Antwort: P (X = 1) = P1(1) = 0.437. Frage 2: Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung, wenn die Person im Test eine ‚2‘ erhalten hat? Antwort: P (X = 1 | Y = 2) = 0.058. Kapitel IX – Paare von Zufallsvariablen IX - 15 Bedingte Wahrscheinlichkeit Formel zur Berechnung bedingter Wahrscheinlichkeiten: Für zwei Ereignisse A und B mit P (B) > 0 gilt: P (A ∩ B) P (A|B) = P (B) Für Frage 2 haben wir: A = {X = 1} und B = {Y = 2} . P (X = 1 ∩ Y = 2) P (X = 1|Y = 2) = P (Y = 2) P (1, 2) 0.008 = = P2(2) 0.138 = 0.058 Kapitel IX – Paare von Zufallsvariablen IX - 16 Unbedingte und bedingte Wahrscheinlichkeiten Zusammenfassung: Antwort auf Frage 1: P (X = 1) = 0.437 Antwort auf Frage 2: P (X = 1|Y = 2) = 0.058 Antwort auf Frage 1: 43.7 % aller Personen in der Population würden die Ausbildung erfolgreich beenden. Antwort auf Frage 2: In der Gruppe der Personen, die den Test mit 2 Punkten abgeschlossen haben, würden nur 5.8 % die Ausbildung erfolgreich absolvieren. Kapitel IX – Paare von Zufallsvariablen IX - 17 Bedingte Wahrscheinlichkeitsfunktion von X, gegeben Y = 2 Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = 2: 0.130 = 0.942 P1|2(0|2) = PP(0,2) = 0.138 2 (2) 0.008 = 0.058 = P1|2(1|2) = PP(1,2) 0.138 2 (2) Y X 0 1 P2(y) 1 2 3 4 5 6 0.028 0.130 0.243 0.138 0.023 0.001 0.000 0.008 0.079 0.192 0.127 0.031 0.028 0.138 0.322 0.330 0.150 0.032 Kapitel IX – Paare von Zufallsvariablen P1(x) 0.563 0.437 1.000 IX - 18 Bedingte Wahrscheinlichkeitsfunktion von X, gegeben Y = 1 Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = 1: 0.028 = 1 P1|2(0|1) = PP(0,1) = 0.028 2 (1) 0.000 = 0 P1|2(1|1) = PP(1,1) = 0.028 2 (1) Y X 0 1 P2(y) 1 2 3 4 5 6 0.028 0.130 0.243 0.138 0.023 0.001 0.000 0.008 0.079 0.192 0.127 0.031 0.028 0.138 0.322 0.330 0.150 0.032 Kapitel IX – Paare von Zufallsvariablen P1(x) 0.563 0.437 1.000 IX - 19 Alle bedingten Wahrscheinlichkeitsfunktionen für X, gegeben Y Die bedingten Wahrscheinlichkeitsfunktionen für X gegeben Y : Testergebnis Bedingte Wahrscheinlichkeitsfunktion y P1|2(0|y) P1|2(1|y) 1 1.000 0.000 2 0.942 0.058 3 0.755 0.245 4 0.418 0.582 5 0.153 0.847 6 0.031 0.969 Kapitel IX – Paare von Zufallsvariablen IX - 20 Bedingte Wahrscheinlichkeitsfunktionen für X, gegeben Y Bedingte Wahrscheinlichkeitsfunktionen von X : P1|2(x|y=1) P1|2(x|y=2) P1|2(x|y=3) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 0 1 Ergebnis der Ausbildung (x) 0.0 0 1 Ergebnis der Ausbildung (x) P1|2(x|y=4) 0 1 Ergebnis der Ausbildung (x) P1|2(x|y=5) P1|2(x|y=6) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 0.0 0 1 Ergebnis der Ausbildung (x) Kapitel IX – Paare von Zufallsvariablen 0 1 Ergebnis der Ausbildung (x) 0 1 Ergebnis der Ausbildung (x) IX - 21 Definition der bedingten Wahrscheinlichkeitsfunktionen Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y : P (x, y) P1|2(x|y) = P2(y) für P2(y) > 0 . Wenn P2(y) = 0, dann ist P1|2(x|y) nicht definiert. Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x : P (x, y) P2|1(y|x) = P1(x) für P1(x) > 0 Wenn P1(x) = 0, dann ist P2|1(y|x) nicht definiert. Kapitel IX – Paare von Zufallsvariablen IX - 22 Bedingte Wahrscheinlichkeitsfunktionen für Y, gegeben X Bedingte Wahrscheinlichkeitsfunktionen von Y : P2|1(y|x=0) P2|1(y|x=1) 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 1 2 3 4 5 6 Ergebnis des Eignungstests (y) Kapitel IX – Paare von Zufallsvariablen 1 2 3 4 5 6 Ergebnis des Eignungstests (y) IX - 23 Definition der bedingten Erwartungswerte und Varianzen Erwartungswert und Varianz von X gegeben Y = y : E(X|Y = y) = Var(X|Y = y) = X x X x xP1|2(x|y) (x − E(X|Y = y))2P1|2 (x|y) Erwartungswert und Varianz von Y gegeben X = x : E(Y |X = x) = Var(Y |X = x) = Kapitel IX – Paare von Zufallsvariablen X y X y yP2|1(y|x) (y − E(Y |X = x))2P2|1(y|x) IX - 24 Zusammenfassung Zusammenfassung: Diskret Stetig Gemeinsame Wahrscheinlichkeitsfunktion P (x, y) Gemeinsame Dichtefunktion f (x, y) Eigenschaften P (x, y) ≥ 0 für alle x, y ∈ R PP P (x, y) = 1 Eigenschaften f (x, y) ≥ 0 für alle x, y ∈ R R R f (x, y)dydx = 1 x y xy Randwahrscheinlichkeitsfunktion von X P P1(x) = P (x, y) Randdichtefunktion von X R f1(x) = f (x, y)dy Bedingte Wahrscheinlichkeitsfunktion von X gegeben Y Bedingte Dichtefunktion von X gegeben Y P1|2(x|y) = PP(x,y) 2 (y) f1|2(x|y) = ff(x,y) 2 (y) y Kapitel IX – Paare von Zufallsvariablen y IX - 25 Gemeinsame Dichtefunktion Darstellung einer gemeinsamen Dichtefunktion als Funktionsgebirge (links) und als Imageplot (rechts): Kapitel IX – Paare von Zufallsvariablen IX - 26 Stetige Zufallsvariablen X und Y f (x, y) Gemeinsame Dichtefunktion: (i) Eigenschaften: (ii) f (x, y) ≥ 0 ∞ R ∞ R −∞ −∞ für alle x, y ∈ R f (x, y) dx dy = 1 Dichtefunktion von X : f1(x) = von Y : ∞ R −∞ f (x, y) dy f2(y) = ∞ R −∞ f (x, y) dx Bedingte Dichtefunktion: von X gegeben Y : von Y gegeben X : f1|2(x|y) = f (x, y)/f2(y) f2|1(y|x) = f (x, y)/f1(x) Kapitel IX – Paare von Zufallsvariablen IX - 27 Berechnung von Wahrscheinlichkeiten Für eine Zufallsvariable X erhält man die Wahrscheinlichkeit P (a < X < b) = Rb a f (x) dx als die Fläche unter der Dichtefunktion über dem Intervall (a, b). Für zwei Zufallsvariablen X und Y erhält man die Wahrscheinlichkeit P (a < X < b, c < Y < d) = Rd Rb ca f (x, y )dx dy als das Volumen unter der Dichtefunktion über dem Rechteck (a, b) × (c, d). Kapitel IX – Paare von Zufallsvariablen IX - 28 Berechnung von Wahrscheinlichkeiten Beispiele für die Bestimmung der gemeinsamen Wahrscheinlichkeit als Volumen unter der Dichtefunktion: Kapitel IX – Paare von Zufallsvariablen IX - 29 Die gemeinsame Dichtefunktion Die gemeinsame Dichtefunktion f (x, y) muss die folgenden beiden Eigenschaften erfüllen: (i) f (x, y) darf keine negativen Werte annehmen, d.h. f (x, y) ≥ 0 für alle x, y ∈ R . (ii) Das gesamte Volumen unter der Dichtefunktion muss gleich 1 sein, d.h. Z∞ Z∞ f (x, y)dxdy = 1 . −∞ −∞ Kapitel IX – Paare von Zufallsvariablen IX - 30 Beispiel: Das Volumen unter der Dichtefunktion Beispiel zur Bestimmung des Volumens unter der Dichtefunktion: ⎧ ⎨ x + 4 y − 2 xy 3 3 f (x, y) = ⎩ 0 Z1 Z1 f (x, y) dxdy = 0 0 = = Z1 Z1 µ 0 0 Z1 · Kapitel IX – Paare von Zufallsvariablen sonst 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 4 2 x + y − xy 3 3 ¶ dx dy ¸ 1 2 4 1 2 1 dy x + xy − x y 2 3 3 0 0 Z1 µ 0 für 1 y+ 2 ¶ · ¸ 1 2 1 1 dy = y + y = 1 2 2 0 IX - 31 Beispiel: Das Volumen unter der Dichtefunktion Darstellung der gemeinsamen Dichtefunktion: ⎧ ⎨ x + 4 y − 2 xy 3 3 f (x, y) = ⎩ 0 Kapitel IX – Paare von Zufallsvariablen für sonst 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 IX - 32 Randdichte von X Die Randdichte von X ist allgemein definiert durch: f1(x) = Z∞ f (x, y)dy . −∞ Für das Beispiel erhält man folgende Randdichte von X : f1 (x) = Z1 f (x, y) dy = 0 Z1 µ 0 · 4 2 x + y − xy 3 3 ¶ dy ¸ 2 2 1 2 1 = xy + y − xy 3 3 0 2 1 2 2 = x+ − x= x+ 3 3 3 3 2 für 0 ≤ x ≤ 1 . = (x + 1) 3 Kapitel IX – Paare von Zufallsvariablen IX - 33 Randdichtefunktionen von X und Y Als vollständige Dichtefunktion wird f1(x) wie folgt notiert: f1(x) = ( 2 x+1 ) 3( 0 für 0≤x≤1 sonst Entsprechend erhält man für die Randdichte von Y : f2(y) = ( y+1 2 0 Kapitel IX – Paare von Zufallsvariablen für 0≤y≤1 sonst IX - 34 Erwartungswert von X Bestimmung des Erwartungswertes von X : EX = Z1 xf1(x) dx = 0 = Z1 0 Z1 µ 0 = Kapitel IX – Paare von Zufallsvariablen 2 x (x + 1) dx 3 2 2 2 x + x 3 3 ¶ · ¸ 2 3 1 2 1 dx = x + x 9 3 0 1 5 2 + = 9 3 9 IX - 35 Varianz von X Für die Bestimmung der Varianz wird EX 2 benötigt: EX 2 = Z1 x2f1(x) dx = 0 = Z1 2 2 x (x + 1) dx 3 0 Z1 µ 0 · 2 2 2 3 x + x 3 3 ¶ dx ¸ 1 4 2 3 1 = x + x 6 9 0 2 7 1 + = = 6 9 18 µ ¶2 7 13 5 2 2 − = 0.08025 Var(X) = EX − (EX ) = = 18 9 162 Kapitel IX – Paare von Zufallsvariablen IX - 36 Erwartungswert von Y Bestimmung des Erwartungswertes von Y : EY = Z1 yf2(y) dy = 0 = Z1 1 y y+ 2 0 Z1 µ 0 · µ ¶ 1 2 y + y 2 dy ¶ dy ¸ 1 3 1 2 1 = y + y 3 4 0 1 7 1 + = = 3 4 12 Kapitel IX – Paare von Zufallsvariablen IX - 37 Varianz von Y Bestimmung der Varianz von Y : EY 2 = Z1 y 2f2(y) dy = 0 = Z1 1 2 y y+ 2 0 Z1 µ 0 · µ ¶ 1 2 3 y + y 2 ¶ dy dy ¸ 1 4 1 3 1 y + y = 4 6 0 1 1 5 = + = 4 6 12 µ ¶2 7 5 11 2 2 − = 0.07639 Var(Y ) = EY − (EY ) = = 12 12 144 Kapitel IX – Paare von Zufallsvariablen IX - 38 Varianz von Y Alternative Bestimmung der Varianz von Y : Var(Y ) = E(Y − EY )2 = = = = Z∞ −∞ Z1 µ (y − EY )2 f2(y) dy = 7 49 2 y − y+ 6 144 0 Z1 µ ¶µ Z1 µ 0 ¶ 1 y+ 2 ¶ µ ¶ 7 2 1 y− y+ dy 12 2 dy 1 49 7 49 7 y + y2 − y+ y3 − y2 + 6 144 2 12 288 0 Z1 µ 0 · 2 35 49 y3 − y2 − y+ 3 144 288 ¶ ¶ dy dy ¸ 1 4 2 3 35 2 49 1 y − y − y + y = 4 9 288 288 0 35 49 11 1 2 − − + = = 4 9 288 288 144 Kapitel IX – Paare von Zufallsvariablen IX - 39 Berechnung von Wahrscheinlichkeiten Beispiel 9.4 (Höhe und Wert von Bäumen): Welcher Anteil von Bäumen in der Grundgesamtheit hat eine Höhe zwischen 8 und 12 Metern und einen Holzwert zwischen 50 und 100 Euro? Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus der Grundgesamtheit ausgewählter Baum eine Höhe zwischen 8 und 12 Metern und einen Wert zwischen 50 und 100 Euro hat? P (8 < X < 12; 50 < Y < 100) = Z12 100 Z f (x, y) dy dx = 0.22 8 50 Kapitel IX – Paare von Zufallsvariablen IX - 40 Beispiel: Höhe und Wert von Bäumen Darstellung der gemeinsamen Dichtefunktion als Funktionsgebirge (links) und als Image-Plot mit Höhenlinien (rechts): Kapitel IX – Paare von Zufallsvariablen IX - 41 Beispiel: Höhe und Wert von Bäumen Graphische Darstellung der gemeinsamen Wahrscheinlichkeit P (8 < X < 12; 50 < Y < 100) : Kapitel IX – Paare von Zufallsvariablen IX - 42 Randdichtefunktionen Randdichtefunktion von X (Variable 1): f1(x) = ∞ R f (x, y) dy ∞ R f (x, y) dx −∞ Welcher Anteil von Bäumen in der Grundgesamtheit hat eine Höhe zwischen 10 und 14 Metern? P (10 < X < 14) = Z14 f1(x) dx = 0.26 10 Randdichtefunktion von Y (Variable 2): f2(y) = Welcher Anteil von Bäumen hat einen Holzwert größer als 200 Euro? P (Y > 200) = Z∞ −∞ f2(y) dy = 0.15 200 Kapitel IX – Paare von Zufallsvariablen IX - 43 Randdichtefunktionen Darstellung der Randdichtefunktionen von X und Y sowie der Wahrscheinlichkeiten P (10 < X < 14) (oben) und P (Y > 200) (unten): f1(x) 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0.26 0 10 20 Höhe (m) 30 40 f2 (y ) 0.010 0.008 0.006 0.004 0.15 0.002 0.000 0 100 Kapitel IX – Paare von Zufallsvariablen 200 300 Wert (€) 400 500 600 IX - 44 Bedingte Dichtefunktionen Die bedingte Dichtefunktion von Y gegeben X : f2|1(y|x) = ff(x,y) 1 (x) (für f1(x) 6= 0) Wie groß ist der Anteil an Bäumen, deren Wert zwischen 100 und 200 Euro liegt, wenn ihre Höhe 10 Meter beträgt? f2|1(y|10) = ff(10,y) 1 (10) mit P (100 < Y < 200|X = 10) = f1(10) = ∞ R f (10, y)dy 0 200 Z f2|1(y|10) dy = 0.47 100 Kapitel IX – Paare von Zufallsvariablen IX - 45 Bedingte Dichtefunktionen Die bedingte Dichtefunktion von X gegeben Y : f1|2(x|y) = ff(x,y) 2 (y) (für f2(y) 6= 0) Welcher Anteil von Bäumen mit einem Holzwert von 100 Euro ist zwischen 8 und 12 Meter hoch? f1|2(x|100) = ff(x,100) 2 (100) mit P (8 < X < 12|Y = 100) = f2(100) = ∞ R f (x, 100) dx 0 Z12 f1|2(x|100) dx = 0.93 8 Kapitel IX – Paare von Zufallsvariablen IX - 46 Bedingte Dichtefunktionen Darstellung der bedingten Dichtefunktionen f 2|1(y | x = 10) (oben) und f 1|2(x | y = 100) (unten): f2|1(y|x = 10) 0.014 0.012 0.010 0.008 0.006 0.004 0.002 0.000 0.47 0 100 200 300 Wert (€) 400 500 600 f1|2(x|y = 100) 0.4 0.3 0.2 0.1 0.93 0.0 0 Kapitel IX – Paare von Zufallsvariablen 5 10 Höhe (m) 15 20 IX - 47 Bedingter Erwartungswert Der bedingte Erwartungswert von X gegeben Y : E(X|Y = y) = Z∞ xf1|2(x|y) dx −∞ ⎧ ⎪ x+ 4 y− 2 ⎨ 3 3 xy f (x, y) y+ 1 f1|2(x|y) = = 2 ⎪ f2(y) ⎩ 0 für 0≤x≤1 sonst 4 − 2x x + ) f (x, 1 1 14 8 3 9 9 f1|2(x| ) = = = x+ 1 5 3 15 15 f2( 3 ) 6 ³ E X|Y = 1 3 ´ Kapitel IX – Paare von Zufallsvariablen = R1 0 ³ 8 x 14 x + 15 15 ´ dx = 26 45 IX - 48 Bedingte Varianz Die bedingte Varianz von X gegeben Y : Var(X|Y = y) = Z∞ −∞ ³ E X|Y = 1 3 ´ ³ E X 2|Y = 1 3 = R1 0 ´ x ³ (x − E(X|Y = y))2f1|2(x|y) dx 14 x + 8 15 15 ´ dx = 26 45 ´ R1 2 ³ 14 8 = x 15 x + 15 dx = 37 90 0 ³ ´2 1 37 Var(X|Y = 3 ) = 90 − 26 ≈ 0.077 45 Kapitel IX – Paare von Zufallsvariablen IX - 49 Bedingte Dichte, Erwartung und Varianz von Y gegeben X Die bedingte Dichte, Erwartung und Varianz von Y gegeben X : ⎧ 2 xy ⎪ x+ 4 y− ⎨ 3 3 f (x, y) 2 f2|1(y|x) = = 3 (x+1) ⎪ f1(x) ⎩ 0 E(Y |X = x) = Z∞ 0≤y≤1 sonst yf2|1(y|x) dy −∞ Var(Y |X = x) = Kapitel IX – Paare von Zufallsvariablen für Z∞ −∞ (y − E(Y |X = x))2f2|1(y|x) dy IX - 50 Die Verteilungsfunktion Die Verteilungsfunktion einer zweidimensionalen Verteilung ist gegeben durch: F (s, t) = P (X ≤ s, Y ≤ t) Im diskreten Fall gilt: F (s, t) = X X P (x, y) x≤s y≤t Im stetigen Fall gilt: F (s, t) = Zs Zt f (x, y)dydx −∞ −∞ Kapitel IX – Paare von Zufallsvariablen IX - 51 Die Verteilungsfunktion Beispiel: ⎧ 4 2 ⎪ ⎨ x + 3 y − 3 xy f (x, y) = ⎪ ⎩ 0 ⎧ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 s2 t + 2 st2 − 1 s2 t2 ⎪ ⎪ ⎪ 2 3 6 ⎪ ⎪ ⎪ ⎪ ⎨ 1 s2 + 2 s F (s, t) = 3 3 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 t2 + 1 t ⎪ ⎪ ⎪ 2 2 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 Kapitel IX – Paare von Zufallsvariablen für 0 ≤ x ≤ 1; 0≤y≤1 sonst für 0≤s<0 ∨ 0≤t<0 für 0≤s≤1 ∧ 0≤t≤1 für 0≤s≤1 ∧ 0≤t>1 für s>1 ∧ 0≤t≤1 für s>1 ∧ 0≤t>1 IX - 52 Kovarianz und Korrelation Für die Varianz von X und Y gilt: Var(X) = Var(Y ) = E(X 2) − E(X)2 E(Y 2) − E(Y )2 = E(XX) − E(X) E(X) = E(Y Y ) − E(Y ) E(Y ) Die Kovarianz ist gegeben durch: Kov(X, Y ) = E(XY ) − E(X)E(Y ) Der Korrelationskoeffizient ρ Kov(X, Y ) ρ=q Var(X) Var(Y ) ist ein zwischen –1 und 1 normiertes Maß für die Stärke des linearen Zusammenhangs zwischen X und Y . Kapitel IX – Paare von Zufallsvariablen IX - 53 Korrelation Darstellung der gemeinsamen Dichtefunktion als Funktionsgebirge (links) und als Höhenlinien (rechts) für ρ = 0.5: Kapitel IX – Paare von Zufallsvariablen IX - 54 Korrelation Für ρ gilt: −1 ≤ ρ ≤ 1 . deterministischer linearer Zusammenhang X und Y sind unkorreliert kein linearer Zusammenhang negativer linearer Zusammenhang −1 −0.5 Kapitel IX – Paare von Zufallsvariablen deterministischer linearer Zusammenhang positiver linearer Zusammenhang 0 ρ 0.5 1 IX - 55 Korrelation Höhenlinien für verschiedene Werte von ρ: 3 3 ρ = 0.95 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -3 3 -2 -1 0 1 2 3 -3 3 ρ = -0.5 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -3 Kapitel IX – Paare von Zufallsvariablen -2 -1 ρ = -0.95 0 1 2 3 -2 -1 0 1 2 3 -1 0 1 2 3 ρ=0 -3 -2 IX - 56 Komponenten des Korrelationskoeffizienten Komponenten des Korrelationskoeffizienten: ρ=q Kov(X, Y ) Var(X) Var(Y ) Var(X) = E(X 2) − E(X)2 Var(Y ) = E(Y 2) − E(Y )2 Kov(X, Y ) = E(XY ) − E(X)E(Y ) Für die Berechnung werden folgende Werte benötigt: E(X) und E(X 2) E(Y ) und E(Y 2) E(XY ) Kapitel IX – Paare von Zufallsvariablen IX - 57 Beispiel: Komponenten des Korrelationskoeffizienten Beispiel: ⎧ 4 2 ⎪ ⎨ x + 3 y − 3 xy f (x, y) = ⎪ ⎩ für 0 ≤ x ≤ 1; 0 0≤y≤1 sonst Komponenten des Korrelationskoeffizienten: E(X) = R1 0 E(X 2) E(Y ) = = = Kapitel IX – Paare von Zufallsvariablen = 0 R1 2 x f1(x) dx 0 = yf2(y) dy = R1 2 y f2(y) dy 0 = R1 0 E(Y 2) xf1(x) dx R1 x2 3 (x + 1) dx R1 2 2 x 3 (x + 1) dx 0 ´ R1 ³ 1 y y + 2 dy 0 ´ R1 2 ³ y y+1 2 dy 0 = 5 9 7 = 18 7 = 12 5 = 12 IX - 58 Beispiel: Komponenten des Korrelationskoeffizienten Berechnung von E(X Y ): Z∞ Z∞ E(XY ) = xy f (x, y) dx dy = Z1 Z1 2 4 xy (x + y − xy) dx dy 3 3 −∞ −∞ 0 0 Z1 Z1 4 2 2 2 2 2 = x y + xy − x y dx dy = = 0 0 Z1 · 3 ¸ 1 3 2 2 2 2 3 2 1 x y+ x y − x y dy 3 3 9 0 0 Z1 µ 0 3 1 2 2 2 2 y+ y − y 3 3 9 ¶ dy 17 = 54 Kapitel IX – Paare von Zufallsvariablen IX - 59 Beispiel: Komponenten des Korrelationskoeffizienten Mit den Komponenten lassen sich die Varianzen und die Kovarianz berechnen: Var(X) = E(X 2) − E(X)2 ³ ´2 7 = 18 − 5 9 13 = − 162 ³ ´2 5 7 11 Var(Y ) = 12 − 12 = − 144 ³ ´³ ´ 17 7 1 Kov(X, Y ) = E(XY ) − E(X)E(Y ) = 54 − 5 = − 9 12 108 = E(Y 2) − E(Y )2 Daraus ergibt sich folgender Korrelationskoeffizient: ρ=q Kov(X, Y ) Var(X)Var(Y ) Kapitel IX – Paare von Zufallsvariablen =q 1 − 108 13 11 162 144 ≈ −0.12 IX - 60 Unabhängigkeit Zwei Ereignisse A und B sind unabhängig, wenn P (A ∩ B) = P (A)P (B) Zwei Zufallsvariablen X und Y sind unabhängig verteilt, wenn – im diskreten Fall: P (x, y) = P1(x)P2(y) für alle x, y ∈ R – im stetigen Fall: f (x, y) = f1(x)f2(y) Kapitel IX – Paare von Zufallsvariablen für alle x, y ∈ R IX - 61 Korrelation und Abhängigkeit Beziehung zwischen Korrelation und Abhängigkeit: X und Y unabhängig =⇒ X und Y unkorreliert X und Y unabhängig ⇐= 6 X und Y unkorreliert Wenn X und Y unabhängig sind, dann gilt E(XY ) = E(X)E(Y ) . Daraus folgt Kov(X, Y ) = E(XY ) − E(X)E(Y ) = 0 und somit gilt ρ = √ Kov(X,Y ) Var(X)Var(Y ) Kapitel IX – Paare von Zufallsvariablen = 0. IX - 62 Korrelation und Abhängigkeit E(XY ) = = = Z∞ Z∞ −∞ −∞ Z∞ Z∞ xy f (x, y) dx dy xy f1(x)f2(y) dx dy −∞ −∞ Z∞ −∞ ⎡ ⎢ y f2(y) ⎣ = E(X) Z∞ Z∞ −∞ (Unabhängigkeit) ⎤ ⎥ xf1(x) dx⎦ dy yf2(y) dy −∞ = E(X)E(Y ) Kapitel IX – Paare von Zufallsvariablen IX - 63 Beispiel: Stetige Zufallsvariable Beispiel für eine stetige Zufallsvariable: ⎧ 4 2 ⎪ ⎨ x + 3 y − 3 xy f (x, y) = ⎪ ⎩ für 0 ≤ x ≤ 1; 0 0≤y≤1 sonst Randdichte von X : f1(x) = ( 2 x+1 ) 3( für 0≤x≤1 sonst Randdichte von Y : f2(y) = ( y+1 2 0 für 0 ≤ y ≤ 1 sonst 0 1x + 2y + 1 f1(x) f2(y) = 2 xy + 3 3 3 3 X und Y sind nicht unabhängig verteilt, da f (x, y) = f1(x)f2(y) z.B f (0, 0) = 0 Kapitel IX – Paare von Zufallsvariablen nicht für alle x, y ∈ R gilt aber f1(0)f2(0) = 1 3 IX - 64 Beispiel: Diskrete Zufallsvariable Beispiel Eignungstest: Das Ergebnis der Ausbildung: X Das Ergebnis des Eignungstests: Y Y X 0 1 P2(y) 1 2 0.028 0.130 0.000 0.008 0.028 0.138 3 4 5 0.243 0.138 0.023 0.079 0.192 0.127 0.322 0.330 0.150 6 P1(x) 0.001 0.563 0.031 0.437 0.032 1.000 X und Y sind nicht unabhängig verteilt, weil P (x, y) = P1(x)P2(y) gilt nicht für alle x, y ∈ R . Z.B.: P (0, 1) = 0.28 aber P1(0)P2(1) = 0.563 × 0.028 ≈ 0.016 Kapitel IX – Paare von Zufallsvariablen IX - 65 Beispiel: Höhe und Wert eines Baumes Beispiel zur Höhe und Wert eines Baumes: X: Höhe der Bäume Y : Holzwert E(Y ) = 97 E(Y |X = 8) E(Y |X = 10) E(Y |X = 12) = = = 61 103 174 Var(Y ) = 8 527 Var(Y |X = 8) = Var(Y |X = 10) = Var(Y |X = 12) = 349 995 2 834 In allen Fällen ist Var(Y |X = x) ≤ Var(Y ) . Falls X und Y unabhängig sind, gilt Var(Y |X = x) = Var(Y ) . Kapitel IX – Paare von Zufallsvariablen IX - 66 Beispiel: Höhe und Wert eines Baumes Höhe und Wert eines Baumes: Randdichte von Y und bedingte Dichten von Y gegeben X = 8, 10 und 12: 0.025 0.020 f2(y) : E(Y) = 98 / Var(Y) = 8539 f2|1(y|x = 8) : E(Y|x = 8) = 61 / Var(Y|x = 8) = 349 f2|1(y|x = 10) : E(Y|x = 10) = 103 / Var(Y|x = 10) = 995 f2|1(y|x = 12) : E(Y|x = 12) = 174 / Var(Y|x = 12) = 2834 0.015 0.010 0.005 0.000 0 50 100 150 200 250 300 350 400 450 500 Wert (€) Kapitel IX – Paare von Zufallsvariablen IX - 67 Zusammenfassung: Paare von Zufallsvariablen Paare von diskreten Zufallsvariablen: P (x, y) → P1(x) → E(X) und Var(X) → P2(y) → E(Y ) und Var(Y ) → P1|2(x|y) → E(X|Y = y) und Var(X|Y = y) → P2|1(y|x) → E(Y |X = x) und Var(Y |X = x) → Kov(X, Y ) → ρ Paare von stetigen Zufallsvariablen: f (x, y) → f1(x) → E(X) und Var(X) → f2(y) → E(Y ) und Var(Y ) → f1|2(x|y) → E(X|Y = y) und Var(X|Y = y) → f2|1(y|x) → E(Y |X = x) und Var(Y |X = x) → Kov(X, Y ) → ρ Kapitel IX – Paare von Zufallsvariablen IX - 68 Die univariate Normalverteilung Die Zufallsvariable X ∼ N (μ, σ 2) hat die Dichtefunktion f (x) = √1 σ 2π e −1 2 µ x−μ σ ¶2 für x ∈ R 0.4 0.3 σ 0.2 0.1 0.0 -3 Kapitel IX – Paare von Zufallsvariablen -2 -1 μ0 1 2 3 IX - 69 Die zweidimensionale (bivariate) Normalverteilung Die bivariate Normalverteilung hat fünf Parameter: Parameter Bedeutung Eigenschaft μx Erwartungswert von X μy Erwartungswert von Y 2 σx Varianz von X 2 >0 σx σy2 Varianz von Y σy2 > 0 ρ Korrelationskoeffizient μx ∈ R μy ∈ R −1 ≤ ρ ≤ 1 Die Zufallsvariablen X und Y sind bivariat normalverteilt mit den Parametern μx, μy , σx2, σy2 und ρ: (X, Y ) ∼ N (μx, μy , σx2, σy2, ρ) Kapitel IX – Paare von Zufallsvariablen IX - 70 Die zweidimensionale Normalverteilung Dichtefunktion der bivariaten Normalverteilung: f (x, y) = A e−B Q A= Q= für x, y ∈ R 1 q 2πσxσy 1 − ρ2 µ ¶ x − μx 2 σx Kapitel IX – Paare von Zufallsvariablen , B= µ ³ 1 2 1 − ρ2 x − μx − 2ρ σx ¶Ã ´ y − μy σy ! à y − μy + σy !2 IX - 71 Die zweidimensionale Normalverteilung: Randverteilungen Gegeben sei eine zweidimensional Normalverteilung: (X, Y ) ∼ N (μx, μy , σx2, σy2, ρ) Die Randverteilung Parametern μx und von X ist eine Normalverteilung mit den σx2, d.h. X ∼ N (μx, σx2) Die Randverteilung von Y ist eine Normalverteilung mit den Parametern μy und σy2, d.h. Y ∼ N (μy , σy2) Kapitel IX – Paare von Zufallsvariablen IX - 72 Die zweidimensionale Normalverteilung: Bedingte Verteilungen Die bedingte Verteilung von X gegeben Y = y ist auch eine Normalverteilung: (X|Y = y) ∼ N (μ, σ 2) . Die Parameter der bedingten Verteilung bestimmen sich wie folgt: μ = E(X|Y = y) = μx + ρ σσxy (y − μy ) Eine Gerade μ = a + by σ 2 =Var(X|Y = y) = σx2(1 − ρ2) σ 2 ≤ σx2 Kapitel IX – Paare von Zufallsvariablen IX - 73 Die zweidimensionale Normalverteilung Darstellung der bivariaten Normalverteilung für verschiedene Werte von ρ : ρ = -0.99 ρ = -0.7 ρ = 0.5 ρ = 0.9 ρ = 0.7 ρ = 0.99 ρ=0 ρ = -0.9 Kapitel IX – Paare von Zufallsvariablen ρ = -0.5 IX - 74 Maximum-Likelihood Schätzer Maximum-Likelihood Schätzer: Parameter Erwartungswert von X Erwartungswert von Y Varianz von X Varianz von Y Kovarianz(X, Y ) Korrelationskoeffizient Kapitel IX – Paare von Zufallsvariablen Schätzer n P 1 b x = x̄ = μ xi n i=1 n P 1 b y = ȳ = μ yi n i=1 n P 1 2 2 − x̄2 bx = σ x i n i=1 n P 1 2 − ȳ 2 b y2 = σ y i n i=1 n P 1 d Kov(X, Y)= n xiyi − x̄ȳ i=1 d Kov(X,Y ) ρb = σ bx σ by IX - 75 Beispiel: Wasser- und Kaloriengehalt Beispiel 9.1 (Wasser- und Kaloriengehalt): i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Kapitel IX – Paare von Zufallsvariablen xi 6.3 6.3 7.3 11.3 12.2 12.2 13.7 15.5 15.5 15.5 15.8 16.5 19.0 20.3 23.2 23.7 27.0 yi 18.201 17.976 18.235 17.410 16.857 16.882 16.581 16.398 16.174 15.528 16.660 16.217 15.725 15.677 15.005 15.465 14.177 i 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 xi 29.9 30.4 32.3 32.3 35.0 35.6 41.0 41.7 42.3 55.0 57.2 57.6 57.8 58.7 60.3 61.0 61.7 yi 12.928 13.363 14.095 12.712 12.378 12.325 11.733 11.456 11.416 8.601 8.534 8.495 8.460 8.012 7.821 7.523 7.378 IX - 76 Beispiel: Wasser- und Kaloriengehalt Für das Beispiel erhält man folgende Schätzer: Parameter Erwartungswert von X Erwartungswert von Y Varianz von X Varianz von Y Kovarianz(X, Y ) Korrelationskoeffizient Kapitel IX – Paare von Zufallsvariablen Schätzer b x = x̄ = 30.9 μ b y = ȳ = 13.4 μ 2 = 331.4 bx σ b y2 = 12.2 σ d Kov(X, Y ) = −63.3 ρb = −0.996 IX - 77 Beispiel: Wasser- und Kaloriengehalt Frage: Welcher Anteil der Zuckerrohr-Stücke hat einen Brennwert zwischen 12 und 15? Die geschätzte Randverteilung von Y ist Y ∼ N (13.4; 12.2) . Antwort: P (12 < Y < 15) = F (15) − F (12) 12−13.4 ) = Φ( 15−13.4 ) − Φ ( 3.5 3.5 = Φ(0.46) − Φ(−0.40) ≈ 0.33 Kapitel IX – Paare von Zufallsvariablen IX - 78 Beispiel: Wasser- und Kaloriengehalt Darstellung der Randverteilung von Y : 0.12 0.10 f(y) 0.08 0.06 0.04 0.02 0.00 0 5 10 15 20 25 y Kapitel IX – Paare von Zufallsvariablen IX - 79 Beispiel: Wasser- und Kaloriengehalt Frage: Welcher Anteil der Zuckerrohr-Stücke mit 10 % Wassergehalt hat einen Brennwert zwischen 12 und 15? Die geschätzte bedingte Verteilung von Y gegeben X = 10 ist N(17.4, 0.097): σ̂y E(Y |X = 10) = μ̂y + ρ̂ (10 − μ̂x) = 17.4 σ̂x Var(Y |X = 10) = σ̂y2(1 − ρ̂2) = 0.097 Antwort: P (12 < Y < 15|X = 10) = F (15) − F (12) 12−17.4 ) = Φ( 15−17.4 ) − Φ ( 0.312 0.312 ≈0 Kapitel IX – Paare von Zufallsvariablen IX - 80 Beispiel: Wasser- und Kaloriengehalt Darstellung der bedingten Verteilungen von Y : 1.4 gegeben X=60 gegeben X=35 gegeben X=10 1.2 1.0 f(y) 0.8 0.6 0.4 0.2 0.0 0 5 10 15 20 25 y Kapitel IX – Paare von Zufallsvariablen IX - 81 Die Normalverteilung mit ρ = 0 Die bedingte Verteilung von Y gegeben X = x ist N (μ, σ 2) mit σ μ = μy + ρ σxy (x − μx) und σ 2 = σy2(1 − ρ2) Wenn ρ = 0, gilt μ = μy und σ 2 = σy2 ⇒ f2|1(y|x) = f2(y) f2|1(y|x) = ff(x,y) 1 (x) ⇒ f2(y) = ff(x,y) 1 (x) f2|1(y|x) = ff(x,y) 1 (x) ⇒ f (x, y) = f1(x)f2(y) f2|1(y|x) = ff(x,y) 1 (x) ⇒ X und Y sind unabhängig verteilt. Für X und Y normalverteilt gilt: X und Y unabhängig Kapitel IX – Paare von Zufallsvariablen ⇐⇒ X und Y unkorreliert IX - 82 Kapitel 10 Stimmt mein Modell – χ2-Anpassungs- und Unabhängigkeitstest Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-0 Der Chi-Quadrat-Anpassungstest Übersicht: Der χ2 - Anpassungstest für diskrete Zufallsvariablen: – Beispiel: Kassenprüfung durch das Finanzamt, – Beispiel: Überprüfung des Benford‘schen Gesetzes, – Beispiel: Monatliche Anzahl starker Erdbeben. Der χ2 - Anpassungstest für stetige Zufallsvariablen: – Beispiel: Dauer von Call-Center-Anrufen, – Beispiel: Deutsche Bank Aktienrenditen. Das χ2 - Modellauswahl-Kriterium. Der χ2 - Unabhängigkeitstest: – Beispiel: Sicherheitsgurte und Verletzungsrisiko, – Beispiel: Heimvorteil im Fußball. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-1 Der Chi-Quadrat-Anpassungstest Neue Begriffe: Anpassungstest Beobachtete und erwartete Häufigkeiten (observed / expected frequencies) Die χ2 – Prüfgröße Das χ2 – Modellauswahl-Kriterium Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-2 Anpassung von Modellen an Daten Eigenschaften der Grundgesamtheit: Parameter Erwartungswert Varianz Anteil ,,Erfolge” Symbol μ σ2 π Schätzer b = x̄ μ S 2 oder S∗2 b = Anteil in der Stichprobe π Anpassung von Modellen an Daten: Modell Symbol Wahrscheinlichkeitsfunktion P (x) Dichtefunktion f (x) Schätzer Pb (x) fb(x) Falls P (x) oder f (x) von Parametern abhängen, werden die Parameter mit Hilfe der Methode der Momente oder der Maximum-Likelihood Methode geschätzt. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-3 Anpassung von Modellen in der Praxis Das Verhalten von Zufallsvariablen wird durch eine Wahrscheinlichkeitsbzw. Dichtefunktion beschrieben: Wahrscheinlichkeitsfunktion Anzahl der Call-Center Anrufe λ bx e−b λ b P (x) = x! Dichtefunktion Anrufdauer (in Sekunden) b b −λx fb(x) = λe Wie kann man überprüfen, ob das angepasste Modell „vernünftig“ ist? Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-4 Beispiel 1: Kassenprüfung durch das Finanzamt Hypothese: Die Ziffern an der ersten Nachkommastelle der Kasseneinträge sind alle gleich wahrscheinlich. Grundgesamtheit: Kasseneinträge von 484 Haushalten von Juni bis August 1986. Stichprobe: n = 1000 zufällig ausgewählte Kasseneinträge. Ziffer 0 1 2 3 4 5 6 7 8 9 Klasse 1 2 3 4 5 6 7 8 9 10 P (Klasse) P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Unter H0 1 10 1 10 1 10 1 10 1 10 1 10 1 10 1 10 1 10 1 10 100 100 100 100 100 100 100 100 100 100 97 95 100 104 88 97 99 110 Erwartete Häufigkeit Beobachtete Häufigkeit 114 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 96 X-5 Beispiel 1: Kassenprüfung durch das Finanzamt Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der ersten Nachkommastelle: beobachtet erwartet 120 Häufigkeit 100 80 60 40 20 0 0 1 2 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 3 4 5 6 7 8 9 X-6 Notation und Prüfgröße Notation: Erwartete Häufigkeiten: („expected frequency“) fie, i = 1, 2, . . . , K Beobachtete Häufigkeiten: („observed frequency“) fio, i = 1, 2, . . . , K Prüfgröße: K (f −f )2 P io ie PG = fie i=1 H0 wird verworfen, wenn PG „sehr groß“ ist. Satz: Unter H0 gilt P G ∼ χ2(ν), mit ν = K – r – 1 und r = Anzahl der geschätzten Parameter. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-7 Beispiel 1: Die Prüfgröße Berechnung der Prüfgröße für Beispiel 1: PG = 10 X (fio − fie)2 i=1 fie (97 − 100)2 (110 − 100)2 (114 − 100)2 + + ··· + = 100 100 100 = 1.96 + 0.09 + · · · + 1.00 = 5.16 Anzahl der Klassen: K = 10 Anzahl der geschätzten Parameter: r = 0 , ν=K–r–1=9 Unter H0 gilt P G ∼ χ2(9). Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X-8 Beispiel 1: Die Prüfgröße Dichtefunktion der χ2(9) - Verteilung und Ablehnungsbereich für α = 0.05: 0.15 Nullhypothese nicht verwerfen Nullhypothese verwerfen 95% 5% f(x) 0.10 0.05 0.00 0 2 4 6 8 10 12 x Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 14 16 χ 18 2 9,0.95 20 22 24 = 16.92 X-9 Beispiel 1: Berechnung der Prüfgröße Arbeitstabelle zur Berechnung der Prüfgröße: Klasse (Ziffer) beobachtete erwartete Häufigkeit Häufigkeit Abweichung Abweichung2 Beitrag zu χ2 i fio fie fio − fie (fio − fie)2 (fio − fie)2/fie 1 (0) 2 (1) 3 (2) 4 (3) 5 (4) 6 (5) 7 (6) 8 (7) 9 (8) 10 (9) 114 97 95 100 96 104 88 97 99 110 100 100 100 100 100 100 100 100 100 100 14 -3 -5 0 -4 4 -12 -3 -1 10 196 9 25 0 16 16 144 9 1 100 1.96 0.09 0.25 0.00 0.16 0.16 1.44 0.09 0.01 1.00 Summe: 5.16 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 10 Beispiel 1: Ablehnungsbereich und Testergebnis Unter H0 gilt P G ∼ χ2(9) . Signifikanzniveau α = 5% Ablehnungsbereich A = [16.92, ∞) P G = 5.16 ∈ / [16.92, ∞) H0 kann nicht verworfen werden. Nullhypothese: Die Ziffern an der ersten Nachkommastelle der Kasseneinträge sind alle gleich wahrscheinlich. Wir können nicht schließen, dass die Ziffern nicht gleich wahrscheinlich sind. P-Wert: P (P G > 5.16) ≈ 0.82 . Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 11 Beispiel 1: Bestimmung des P-Werts Bestimmung des P-Werts beim χ2 – Anpassungstest: 0.15 f(x) 0.10 0.05 0.82 0.00 0 2 4 6 5.16 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 8 10 12 14 16 18 20 22 24 x X - 12 Beispiel 2: Das Benford‘sche Gesetz Hypothese: Die Wahrscheinlichkeitsfunktion der ersten Ziffern ist gegeben durch log10(1 + 1d ), für d = 1, 2, . . . , 9 . Stichprobe: n = 1000 zufällig ausgewählte Kasseneinträge. Ziffer 1 2 3 4 5 6 7 8 9 Klasse 1 2 3 4 5 6 7 8 9 P (Klasse) P1 P2 P3 P4 P5 P6 P7 P8 P9 Unter H0 0.301 0.176 fie= nPi 301 176 125 97 79 67 58 51 46 fio 284 197 132 98 69 67 47 62 44 0.125 0.097 0.079 0.067 0.058 0.051 0.046 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 13 Beispiel 2: Das Benford‘sche Gesetz Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der ersten Stelle von Kasseneinträgen: 300 beobachtet erwartet 250 Häufigkeit 200 150 100 50 0 1 2 3 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 4 5 6 Ziffer an 1. Stelle 7 8 9 X - 14 Beispiel 2: Die Prüfgröße Berechnung der Prüfgröße für Beispiel 2: PG = 9 X (fio − fie)2 i=1 fie (284 − 301)2 (197 − 176)2 (44 − 46)2 = + + ··· + 301 176 46 = 0.96 + 2.51 + · · · + 0.09 = 9.69 Anzahl der Klassen: K=9 Anzahl der geschätzten Parameter: r = 0 , ν=K–r–1=8 Unter H0 gilt P G ∼ χ2(8). Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 15 Beispiel 2: Berechnung der Prüfgröße Arbeitstabelle zur Berechnung der Prüfgröße: Klasse 1 2 3 4 5 6 7 8 9 fio fie 284 301 197 176 132 125 98 97 69 79 67 67 47 58 62 51 44 46 fio − fie (fio − fie)2 (fio − fie)2/fie -17 21 7 1 -10 0 -11 11 -2 289 441 49 1 100 0 121 121 4 0.96 2.51 0.39 0.01 1.27 0.00 2.09 2.37 0.09 Summe: Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 9.69 X - 16 Beispiel 2: Ablehnungsbereich und Testergebnis Unter H0 gilt P G ∼ χ2(8) . Signifikanzniveau α = 10% Ablehnungsbereich A = [13.36, ∞) P G = 9.69 ∈ / [13.36, ∞) H0 kann nicht verworfen werden. Nullhypothese: Die relative Häufigkeit der Ziffern an der ersten Stelle folgt dem Benford‘schen Gesetz. P-Wert: P (P G > 9.69) ≈ 0.29 . Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 17 Beispiel 3: Monatliche Anzahl starker Erdbeben Hypothese: Die monatliche Anzahl starker Erdbeben ist Poissonverteilt: ⎧ λ ⎨ λ bx e−b für x = 0, 1, 2, . . . Pb (x) = x! ⎩ 0 sonst b = x̄ = 1.2) . Beobachtungen: n = 408 (λ Anzahl 0 1 2 3 4+ Klasse 1 2 3 4 5 P (Klasse) P1 P2 P3 P4 P5 Unter H0 fie= nPi fio 0.301 0.361 0.217 0.087 0.034 122.8 147.3 129 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 136 88.5 35.5 13.9 90 38 15 X - 18 Beispiel 3: Die Prüfgröße Berechnung der Prüfgröße für Beispiel 3: PG = 5 X (fio − fie)2 i=1 fie (129 − 122.8)2 (136 − 147.3)2 (15 − 13.9)2 = + + ··· + 122.8 147.3 13.9 = 0.31 + 0.87 + · · · + 0.09 = 1.48 Anzahl der Klassen: K=5 Anzahl der geschätzten Parameter: r = 1 ν=K–r–1=3 Unter H0 gilt P G ∼ χ2(3). Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 19 Beispiel 3: Berechnung der Prüfgröße Arbeitstabelle zur Berechnung der Prüfgröße: Klasse fio Pi fie fio − fie (fio − fie)2 (fio − fie)2/fie 0 129 0.301 122.8 6.2 38.44 0.31 1 136 0.361 147.3 -11.3 127.69 0.87 2 90 0.217 88.5 1.5 2.25 0.03 3 38 0.087 35.5 2.5 6.25 0.18 4+ 15 0.034 13.9 1.1 1.21 0.09 Summe: 1.48 Eine Besonderheit stellt in diesem Fall die letzte Klasse dar. Sie umfasst alle Beobachtungen mit 4 oder mehr Erdbeben und wird daher mit „4+“ gekennzeichnet. Grund: Der χ2 – Anpassungstest liefert nur dann verlässliche Ergebnisse, wenn die erwartete Häufigkeit in jeder Klasse mindestens 5 beträgt. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 20 Beispiel 3: Ablehnungsbereich und Testergebnis Unter H0 gilt P G ∼ χ2(3). Signifikanzniveau α = 10% Ablehnungsbereich A = [6.25, ∞) P G = 1.48 ∈ / [6.25, ∞) H0 kann nicht verworfen werden. Nullhypothese: Die monatliche Anzahl starker Erdbeben ist Poissonverteilt. P-Wert: P (P G > 1.48) ≈ 0.69. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 21 Beispiel 4: Dauer von Call-Center-Anrufen Hypothese: Die Dauer der Call-Center-Anrufe ist Exponentialverteilt: fb(x) = ( b b −λx für x ≥ 0 λe 0 sonst b = 1/x̄ = 0.006). Beobachtungen: n = 590 (λ Intervall Klasse P (Klasse) Unter H0 fie= nPi fio [0, 100] (100, 200] (200, 300] (300, 400] (400, 500] (500, 600] (600, 700] (700, ∞) 1 P1 0.451 266.2 271 2 P2 0.248 146.1 160 3 P3 0.136 80.2 65 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest 4 P4 0.075 44.0 36 5 P5 0.041 24.1 18 6 P6 0.022 13.3 15 7 P7 0.012 7.3 9 8 P8 0.015 8.8 16 X - 22 Beispiel 4: Dauer von Call-Center-Anrufen Histogramm der Dauer von Call-Center-Anrufen und angepasste Exponentialverteilung (oben) und Ausschnitt aus dem Histogramm (unten): 0.006 0.005 0.004 0.003 0.002 0.001 0.000 0 200 400 600 800 1000 1200 1400 1200 1300 1400 Anrufdauer (Sekunden) 0.00010 0.00008 0.00006 0.00004 0.00002 0.00000 700 800 900 1000 1100 Anrufdauer (Sekunden) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 23 Beispiel 4: Die Prüfgröße Berechnung der Prüfgröße für Beispiel 4: PG = 8 X (fio − fie)2 i=1 fie (160 − 146.1)2 (16 − 8.8)2 (271 − 266.2)2 + + ··· + = 266.2 146.1 8.8 = 0.09 + 1.32 + · · · + 5.78 = 13.73 Anzahl der Klassen: K=8 Anzahl der geschätzten Parameter: r = 1 , ν=K–r–1=6 Unter H0 gilt P G ∼ χ2(6). Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 24 Beispiel 4: Ablehnungsbereich und Testergebnis Unter H0 gilt P G ∼ χ2(6). Signifikanzniveau α = 1% Ablehnungsbereich A = [16.81, ∞) P G = 13.73 ∈ / [16.81, ∞) H0 kann nicht verworfen werden. Nullhypothese: Die Anrufdauer ist Exponentialverteilt. P-Wert: P (P G > 13.73) ≈ 0.03. Bei α = 0.05 oder α = 0.10 würde man H0 verwerfen. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 25 Vorgehensweise beim Chi-Quadrat-Anpassungstest Vorgehensweise beim χ2 – Anpassungstest: Einteilung der Beobachtungen in K Klassen. – Alle erwarteten Häufigkeiten sollen mindestens 5 betragen. – Die Wahl der Klassen kann das Ergebnis beeinflussen. Berechnung der erwarteten Häufigkeiten. – Berechnung der Wahrscheinlichkeiten Pi , i = 1, 2, ..., K . – Berechnung der erwarteten Häufigkeiten fie = nPi . Bestimmung des Ablehnungsbereiches: – A = [χ2 ν,α ; ∞) mit ν = K − r − 1. Berechnung der Prüfgröße und Vergleich mit dem Ablehnungsbereich: – Wenn PG ∈ A, dann wird H0 verworfen. – Wenn PG ∉ A, dann wird H0 nicht verworfen. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 26 Das Chi-Quadrat-Modellauswahl-Kriterium Es kann vorkommen, dass zwei oder mehr Modelle für einen Datensatz zur Auswahl stehen. Eine Möglichkeit ist es, anhand des χ2 - Kriteriums das „beste“ Modell auszuwählen: PG ν PG = K−r−1 χ2 − Kriterium = Das Modell mit dem kleinsten Wert des Kriteriums wird gewählt. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 27 Beispiel 5: Aktienrenditen Zeitlicher Verlauf der Deutsche Bank Renditen: Deutsche Bank Tagesrendite (%) 6 I/06 II/06 III/06 IV/06 I/07 II/07 III/07 IV/07 4 2 0 -2 -4 -6 100 200 300 400 500 Handelstag (02.01.06 - 28.12.07) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 28 Beispiel 5: Aktienrenditen Hypothese: Die Aktienrenditen der Deutschen Bank Aktie sind normalverteilt: fb(x) = √ 1 2π σ b μ) − (x−b e 2bσ2 2 Stichprobengröße: n Parameterschätzer: b μ b2 σ für x ∈ IR = 506 = x̄ = S2 = 0.02 = 1.392 Bestimmung der erwarteten Häufigkeiten: µ ¶ µ b b b−μ a−μ b P (a ≤ X ≤ b) = Φ −Φ b b σ σ Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest ¶ X - 29 Beispiel 5: Aktienrenditen Bestimmung von P (0 < X ≤ 1) mit Hilfe der Verteilungsfunktion der Standardnormalverteilung: Dichtefunktion der N(0.02;1.39²)-Verteilung 0.5 Fläche = 0.265 ϕ(x) 0.4 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 2 3 x Verteilungsfunktion der N(0;1)-Verteilung 1.0 Φ (x) 0.8 0.761 0.6 0.4 0.496 0.2 -0.01 0.0 -3 -2 -1 0.71 0 1 x Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 30 Beispiel 5: Berechnung der Prüfgröße Arbeitstabelle zur Berechnung der Prüfgröße: fie (fio − fie)2/fie 0.015 7.7 0.71 32 0.059 29.7 0.18 64 0.159 80.4 3.33 (−1; 0] 130 0.262 132.8 0.06 (0; 1] 162 0.265 133.9 5.89 (1; 2] 76 0.163 82.4 0.50 (2; 3] 21 0.061 31.0 3.21 (3; ∞) 11 0.016 8.2 0.98 Klasse fio (−∞; −3] 10 (−3; −2] (−2; −1] Summe Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest Pi 14.86 X - 31 Beispiel 5: Die Prüfgröße 8 (f −f )2 P io ie PG = = 14.86 fie i=1 Anzahl der Klassen: K=8 Anzahl der geschätzten Parameter: r = 2 , ν=K–r–1=5 Unter H0 gilt P G ∼ χ2(5). Signifikanzniveau α = 10% Ablehnungsbereich A = [9.24, ∞) P G = 14.86 ∈ [9.24, ∞) H0 wird verworfen. P-Wert: P (P G > 14.86) ≈ 0.01. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 32 Beispiel 5: Alternative Modellierung von Renditen In vielen Fällen kann gezeigt werden, dass Renditen nicht normalverteilt sind. Im Gegensatz zu einer Normalverteilung ist in der Regel der mittlere Bereich schmaler, und die Enden sind stärker besetzt. Ein Erklärungsansatz hierfür ist das Vorliegen von ruhigen und unruhigen Phasen am Markt. Ein möglicher Ansatz ist der Einsatz von Mischverteilungen, z.B. von zwei Normalverteilungen: f (x) = 0.43f1(x) + 0.57f2(x) mit und f1(x) : N(0.19; 0.842) f2(x) : N(−0.11; 1.682). Die Mischverteilung ist hierbei eine Mischung aus einer „schmalen“ (ruhiger Markt, f1(x)) und einer „breiten“ (unruhiger Markt, f2(x)) Normalverteilung im Verhältnis 0.43 zu 0.57. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 33 Beispiel 5: Alternative Modellierung von Renditen Histogramm der DAX-Renditen und angepasste Mischverteilung: 0.5 2 f 1: N(0.19;0.84 ) 0.4 Dichte 0.3 0.43f 1 + 0.57f 2 2 0.2 f 2: N(-0.11;1.68 ) 0.1 0.0 -6 -4 -2 0 2 4 6 Deutsche Bank Tagesrendite (%) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 34 Kontingenztafeln und der χ2 – Unabhängigkeitstest Die Zufallsvariablen X und Y sind unabhängig verteilt, wenn im diskreten Fall: P (x, y) = P1(x)P2(y) für alle x, y ∈ R im stetigen Fall: f (x, y) = f1(x)f2(y) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest für alle x, y ∈ R X - 35 Beispiel 6: US-Präsidentenwahl 2000 Gegeben sei eine Zufallsstichprobe von 383 Wählern. Folgende beiden Merkmale werden betrachtet: Geschlecht: X = 0 weiblich X = 1 männlich Kandidat: Y = 0 pro Bush Y = 1 kontra Bush. Beobachtete Häufigkeiten in der Stichprobe: Geschlecht weiblich männlich Total Kandidat pro Bush kontra Bush 73 144 73 93 146 237 Total 217 166 383 H0: Die beiden Merkmale sind unabhängig verteilt. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 36 Vorgehensweise H0: Die beiden Merkmale sind unabhängig. Vorgehensweise bei der Überprüfung der Hypothese: – Bestimmung der erwarteten Häufigkeiten (unter Gültigkeit von H0). – Bestimmung der Prüfgröße: PG = X ( beobachtete Häufigkeit − erwartete Häufigkeit)2 erwartete Häufigkeit Satz: Unter der Nullhypothese gilt: P G ∼ χ2(ν) mit ν = (r − 1)(s − 1), r : Anzahl der Zeilen und s : Anzahl der Spalten. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 37 Beobachtete relative Häufigkeiten Beobachtete relative Häufigkeiten in der Stichprobe: Kandidat Geschlecht pro Bush kontra Bush Total weiblich 73 = 0.1906 383 144 = 0.3760 383 217 = 0.5666 383 männlich 73 = 0.1906 383 93 = 0.2428 383 166 = 0.4334 383 Total 146 = 0.3812 383 237 = 0.6188 383 383 = 1.000 383 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 38 Gemeinsame Wahrscheinlichkeitsfunktion Graphische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion: P(x,y) 0.8 0.6 0.4 0.2 ) (Y t ida d n Ka o pr n ko tr h us B a sh u B 0 w m Geschlecht (X) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 39 Randwahrscheinlichkeitsfunktionen Wahrscheinlichkeit Graphische Darstellung der Randwahrscheinlichkeitsfunktionen: 1.0 0.8 0.6 0.4 0.2 0.0 w m Wahrscheinlichkeit Geschlecht (X) 1.0 0.8 0.6 0.4 0.2 0.0 pro Bush kontra Bush Kandidat (Y) Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 40 Beobachtete relative Häufigkeiten Beobachtete relative Häufigkeiten: Geschlecht weiblich (w) männlich (m) Total Pb (w) Pb (B) = 0.5666; = 0.3812; Kandidat pro Bush (B) kontra Bush (K) 0.1906 0.3760 0.1906 0.2428 0.3812 0.6188 Pb (m) Pb (K) = = Total 0.5666 0.4334 1.000 0.4334 0.6188 H0: Die beiden Merkmale sind unabhängig verteilt: X und Y unabhängig Pb (w, B) Pb (w, K) Pb (m, B) = = = Pb (m, K) = ⇐⇒ P (x, y) = P1(x)P2(y) Pb1(w) Pb2(B) = (0.5666)(0.3812) Pb1(w) Pb2(K) = (0.5666)(0.6188) Pb1(m) Pb2(B) = (0.4334)(0.3812) = 0.2160 = 0.3506 = 0.1652 Pb1(m) Pb2(K) = (0.4334)(0.6188) = 0.2682 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 41 Geschätzte Wahrscheinlichkeitsfunktion bei Unabhängigkeit Beobachtete relative Häufigkeiten: Geschlecht weiblich männlich Total Kandidat pro Bush kontra Bush 0.1906 0.3760 0.1906 0.2428 0.3812 0.6188 Total 0.5666 0.4334 1.000 Geschätzte Wahrscheinlichkeitsfunktion bei Unabhängigkeit: Geschlecht weiblich männlich Total Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest Kandidat pro Bush kontra Bush 0.2160 0.3506 0.1652 0.2682 0.3812 0.6188 Total 0.5666 0.4334 1.000 X - 42 Beobachtete und erwartete Häufigkeiten Beobachtete Häufigkeiten (links) und erwartete Häufigkeiten (rechts): Kandidat Geschlecht pro B. kontra B. weiblich 0.1906 0.3760 männlich 0.1906 0.2428 mal n = 383 Geschlecht weiblich männlich pro B. 73 73 Geschlecht weiblich männlich Kandidat pro B. kontra B. 0.2160 0.3506 0.1652 0.2682 mal n = 383 kontra B. 144 93 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest Geschlecht weiblich männlich pro B. 83 63 kontra B. 134 103 X - 43 Die Prüfgröße Beobachtete Häufigkeiten: Erwartete Häufigkeiten: Geschlecht weiblich männlich Geschlecht weiblich männlich pro B. 73 73 kontra B. 144 93 pro B. 83 63 kontra B. 134 103 (73 − 83)2 (144 − 134)2 (73 − 63)2 (93 − 103)2 PG = + + + = 4.51 83 134 63 103 Anzahl der Zeilen: r = 2 Anzahl der Spalten: s = 2 =⇒ ν = (2 − 1)(2 − 1) = 1 Unter der Nullhypothese gilt P G ∼ χ2(1). Signifikanzniveau 5% Signifikanzniveau 1% ⇒ ⇒ Ablehnungsbereich = [3.84, ∞) Ablehnungsbereich = [6.63, ∞) P-Wert: P (PG > 4.51) ≈ 0.03 . Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 44 r × s Kontingenztafel Eine r × s – Kontingenztafel mit r Zeilen und s Spalten: Beobachtete Häufigkeiten n11 n12 n13 ... n21 n22 n23 ... .. .. .. ... nr1 nr2 nr3 n.1 n.2 n.3 ... n1s n2s .. nrs n.s n1. n2. .. nr. n Zeilen— summen Spaltensummen Erwartete Häufigkeiten unter der Nullhypothese: ni.n.j , i=1, 2, . . . , r; j=1, 2, . . . , s . mij = n Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 45 Erwartete Häufigkeiten Beobachtete und erwartete Häufigkeiten: Beobachtete Häufigkeiten n11 n12 n13 . . . n1s n21 n22 n23 . . . n2s ... ... ... ... ... nr1 nr2 nr3 . . . nrs Erwartete Häufigkeiten m11 m12 m13 . . . m1s m21 m22 m23 . . . m2s ... ... ... ... ... mr1 mr2 mr3 . . . mrs Berechnung der Prüfgröße: PG = s (n − m )2 r X X ij ij i=1 j=1 mij Unter H0 gilt: P G ∼ χ2(ν) mit ν = (r − 1)(s − 1). Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 46 Beispiel 7: Sicherheitsgurte und Verletzungsrisiko Betrachtet werden die beiden Merkmale X (Benutzung eines Sicherheitsgurtes) und Y (Verletzung des Fahrers): Benutzung eines Sicherheitsgurts (X): Nein (X = 0) Ja (X = 1) Verletzung des Fahrers (Y ): keine (Y = 0) minimal (Y = 1) mittel (Y = 2) schwer/tödlich (Y = 3) Verletzung des Fahrers keine minimal mittel schwer Sicherheitsgurt Total Nein Ja 65 963 12 813 4 000 647 2 642 359 303 42 72 908 13 861 Total 78 776 4 647 3 001 345 86 769 Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 47 Erwartete Häufigkeiten H0: Die Verletzungskategorie ist unabhängig von der Benutzung eines Sicherheitsgurtes. Sicherheitsgurt Nein Ja Total Verletzungskategorie keine minimal mittel schwer 65 963 4 000 2 642 303 12 813 647 359 42 78 776 4 647 3 001 345 Total 72 908 13 861 86 769 Erwartete Häufigkeiten bei Unabhängigkeit: n1.n.1 776) = (72 908)(78 m11 = = 66 191.8 86 769 n n1.n.2 647) = (72 908)(4 = 3 904.7 m12 = 86 769 n usw. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 48 Die Prüfgröße Beobachtete und erwartete Häufigkeiten: Sicherheitsgurt Beobachete Nein Häufigkeiten Ja Erwartete Nein Häufigkeiten Ja keine minimal 65 963 4 000 12 813 647 66 191.8 3 904.7 12 584.2 742.3 mittel 2 642 359 2 521.6 479.4 schwer 303 42 289.9 55.1 (42 − 55.1)2 (65 963 − 66 191.8)2 + ... + = 59.2 PG = 66 191.8 55.1 Anzahl der Zeilen: r = 2 Anzahl der Spalten: s = 4 =⇒ ν = (2 − 1)(4 − 1) = 3 Unter der Nullhypothese gilt: P G ∼ χ2(3). Signifikanzniveau 1% ⇒ Ablehnungsbereich = [11.34, ∞) H0 wird beim Signifikanzniveau 1 % verworfen. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 49 Beispiel 8: Heimvorteil bei Fußball-Spielen H0: Die folgenden beiden Merkmale sind unabhängig verteilt: Ergebnis: Sieg Spielort: Heimspiel Remis Auswärtsspiel Niederlage d.h. es gibt keinen „Heimvorteil“. Beispiel: Borussia Mönchengladbach in der Saison 2005/06. Beobachtete Häufigkeiten: Spielort Heimspiel Auswärtsspiel Total Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest Sieg 8 2 10 Ergebnis Remis Niederlage 7 2 5 10 12 12 Total 17 17 34 X - 50 Beispiel 8: Borussia Mönchengladbach in der Saison 2005/06 Beobachtete und erwartete Häufigkeiten: Spielort Beobachtete Heimspiel Häufigkeiten Auswärtsspiel Erwartete Heimspiel Häufigkeiten Auswärtsspiel Sieg Remis 8 7 2 5 5 6 5 6 Niederlage 2 10 6 6 (8 − 5)2 (7 − 6)2 (10 − 6)2 PG = + + ··· + = 9.27 5 6 6 Anzahl der Zeilen: r = 2 Anzahl der Spalten: s = 3 =⇒ ν = (2 − 1)(3 − 1) = 2 Unter der Nullhypothese gilt: P G ∼ χ2(2). Signifikanzniveau 1% ⇒ Ablehnungsbereich = [9.21, ∞) H0 wird beim Signifikanzniveau 1 % verworfen. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 51 Beispiel 8: Hertha BSC Berlin in der Saison 2005/06 Beobachtete und erwartete Häufigkeiten für Hertha BSC Berlin (2005/06): Beobachtete Häufigkeiten Erwartete Häufigkeiten Spielort Heimspiel Auswärtsspiel Heimspiel Auswärtsspiel Sieg Remis 8 5 4 7 6 6 6 6 Niederlage 4 6 6 5 (8 − 6)2 (5 − 6)2 (10 − 6)2 PG = + + ··· + = 2.07 6 6 6 Anzahl der Zeilen: r = 2 Anzahl der Spalten: s = 3 =⇒ ν = (2 − 1)(3 − 1) = 2 Unter der Nullhypothese gilt: P G ∼ χ2(2). P-Wert: P (P G ≥ 2.07) ≈ 0.36. H0 kann bei keinem üblichen α verworfen werden. Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest X - 52 Kapitel 11 Beziehungen quantifizieren – Regressionsanalyse Kapitel XI – Regressionsanalyse XI - 0 Regressionsanalyse Übersicht: Einführung in die Regressionsanalyse: – Zielvariablen und erklärende Variablen, – Funktionstypen. Parameterschätzung: – Methode der kleinsten Quadrate, – Faktoren als erklärende Variablen. Voraussagen: – Punkt- und Intervallvoraussagen. Modellauswahl. Kapitel XI – Regressionsanalyse XI - 1 Der Zusammenhang zwischen Zufallsvariablen Bei der Betrachtung von Paaren von Zufallsvariablen stellen sich folgende zwei Fragen: 1. Hängen die beiden Zufallsvariablen zusammen? 2. Wie kann der Zusammenhang quantifiziert werden? Die Begriffe Unabhängigkeit und Korrelation dienen dazu, Frage 1 zu beantworten. Dieses Kapitel beschäftigt sich mit der zweiten Frage. Kapitel XI – Regressionsanalyse XI - 2 Der bedingte Erwartungswert als Vorhersage Die bedingte Erwartung von Y , gegeben X = x, nämlich E(Y |X = x) dient als Vorhersage für Y für einen gegebenen Wert von X. Im Zuckerrohr-Beispiel kann E (Y | X = x) mit Hilfe einer Geraden approximiert werden: b E(Y |X = x) = 19.334 − 0.191 x . Z.B. erhält man als Vorhersage für Y , gegeben X = 30: b E(Y |X = 30) = 19.334 − 0.191(30) = 13.60 [kJ/g] . Kapitel XI – Regressionsanalyse XI - 3 Der bedingte Erwartungswert als Vorhersage Wassergehalt und Kalorienwert von Zuckerrohr mit angepasster Gerade: 20 18 Brennwert (kJ/g) 16 14 12 10 8 6 0 10 20 30 40 50 60 70 Wassergehalt (%) Kapitel XI – Regressionsanalyse XI - 4 Der bedingte Erwartungswert als optimale Vorhersage E(Y |X = x) ist der „beste“ Schätzer von Y , gegeben X = x. Was bedeutet „beste“? Bezug zu Vorhersagefehler = wahrer Wert – vorhergesagter Wert. Die Qualität oder Güte der Vorhersage wird gemessen durch E (Vorhersagefehler 2) . Kapitel XI – Regressionsanalyse XI - 5 Allgemeine Vorgehensweise Im Fall einer Geraden E(Y |X = x) = θ1 + θ2x müssen zwei Parameter bestimmt werden, nämlich der Achsenabschnitt θ 1 und die Steigung θ 2. Allgemeine Vorgehensweise bei der Regressionsanalyse: 1. Auswahl der Form der Funktion von E (Y | X = x), 2. Schätzen der Parameter der ausgewählten Funktion. Kapitel XI – Regressionsanalyse XI - 6 Funktionstypen Beispiele von Funktionstypen in der Regressionsanalyse: Form Formel Anzahl der Parameter Gerade θ1 + θ2 x 2 Parabel θ1 + θ2 x + θ3 x 2 3 Kubik θ1 + θ2 x + θ3 x 2 + θ 4 x 3 4 Exponentialfunktion θ1 + θ2eθ3x 3 Logarithmische Funktion θ1 + θ2 log(x) Treppenfunktion θ1 für x < x0 2 2 θ2 für x ≥ x0 Kapitel XI – Regressionsanalyse XI - 7 Funktionstypen Beispiele von Funktionstypen in der Regressionsanalyse: Parabel 15 15 15 10 y 20 5 10 5 0 2 4 6 8 10 10 5 0 0 0 0 2 4 x 6 8 10 0 logarithmische Funktionen 15 15 y 15 y 20 10 10 5 5 0 0 0 6 x Kapitel XI – Regressionsanalyse 8 10 0 2 4 6 x 8 10 8 10 10 5 4 6 Treppenfunktion 20 2 4 x 20 0 2 x Exponentialfunktionen y kubische Funktion 20 y y Gerade 20 8 10 0 2 4 6 x XI - 8 Beispiel 1: CAPM und Beta-Faktor Es besteht ein positiver Zusammenhang zwischen den Renditen der Deutschen Bank Aktie und des DAX: Wenn der DAX hoch (bzw. niedrig) ist, dann ist tendenziell auch die Rendite der Deutsche Bank Aktie hoch (bzw. niedrig). Der Zusammenhang zwischen der Rendite eines Wertpapiers (z.B. Deutsche Bank) und der Rendite des Marktes (DAX) ist Bestandteil finanzwirtschaftlicher Modelle, wie z.B. des Capital Asset Pricing Modells (CAPM). Der Beta-Faktor (die Steigung der angepassten Geraden) beschreibt das Risiko eines Wertpapiers im Verhältnis zum Marktrisiko. Kapitel XI – Regressionsanalyse XI - 9 Rendite der Deutschen Bank und des DAX Kontinuierliche Renditen der Deutschen Bank Aktie und des DAX in den Jahren 2006/07 und angepasste Gerade: Deutsche Bank Tagesrendite (%) 6 4 2 0 -2 -4 -6 -6 -4 -2 0 2 4 6 DAX Tagesrendite (%) Kapitel XI – Regressionsanalyse XI - 10 Beispiel 1: Beta-Faktor Der Beta-Faktor (die Steigung der angepassten Geraden) beschriebt das Risiko eines Wertpapiers im Verhältnis zum Marktrisiko: - Ein β - Faktor größer als 1 bedeutet: Das Risiko des Wertpapiers liegt über dem Marktrisiko. - Ein β - Faktor kleiner als 1 bedeutet: Das Risiko des Wertpapiers liegt unter dem Marktrisiko. Die Steigung der angepassten Gerade beträgt in diesem Fall 1.13, d.h. der Beta-Faktor beträgt 1.13: Steigt (bzw. fällt) der DAX um 1%, steigt (bzw. fällt) der Aktienkurs der Deutschen Bank um 1.13% Kapitel XI – Regressionsanalyse XI - 11 Beispiel 11.2: Holzertrag von Kirschbäumen Im Beispiel „Holzertrag von Kirschbäumen“ werden folgende Merkmale betrachtet: Merkmal 1 (X): Durchmesser des Baumes (in Inch) Merkmal 2 (Y ): (Nutz-)Holzvolumen (in Kubikfuß) Gegeben ist folgende Stichprobe mit n = 31 Beobachtungspaaren: (8.3; (10.8; (11.3; (12.9; (14.0; (17.3; (20.6; 10.3) 19.7) 24.2) 22.2) 34.5) 55.4) 77.0) Kapitel XI – Regressionsanalyse (8.6; (11.0; (11.4; (12.9; (14.2; (17.5; 10.3) 15.6) 21.0) 33.8) 31.7) 55.7) (8.8; (11.0; (11.4; (13.3; (14.5; (17.9; 10.2) 18.2) 21.4) 27.4) 36.3) 58.3) (10.5; (11.1; (11.7; (13.7; (16.0; (18.0; 16.4) 22.6) 21.3) 25.7) 38.3) 51.5) (10.7; (11.2; (12.0; (13.8; (16.3; (18.0; 18.8) 19.9) 19.1) 24.9) 42.6) 51.0) XI - 12 Durchmesser und Volumen von Kirschbäumen Durchmesser und Volumen von 31 Kirschbäumen: 80 Volumen (in cubic feet) 60 40 20 0 0 5 10 15 20 25 Durchmesser (in inches) Kapitel XI – Regressionsanalyse XI - 13 Residuale Für die Betrachtung der Vorhersagefunktion E(Y |X = x) = θ1 + θ2x werden folgende drei Beobachtungspaare ausgewählt: x1 y1 = = 8.8 10.2 x2 y2 = = 12.0 19.1 x3 y3 = = 17.5 55.7 Betrachtung der einzelnen Komponenten einer Beobachtung: Modell: y i = θ 1 + θ2 x i + e i i = 1, 2, 3 Beobachtung = Vorhersage + Residuale Residuale = Beobachtung − Vorhersage ei = yi − (θ1 + θ2xi) Kapitel XI – Regressionsanalyse i = 1, 2, 3 XI - 14 Residuale Darstellung der Residuen für eine ausgewählte Gerade: 80 e3 = 55.7 − 42.5 = 13.2 Volumen (in cubic feet) 60 40 20 e2 = 19.1 − 26 = -6.9 e1 = 10.2− 16.4 = -6.2 0 0 5 10 15 20 25 Durchmesser (in inches) Kapitel XI – Regressionsanalyse XI - 15 Welche Gerade approximiert die Punkte am besten? Versuch A: Die Gerade –10 + 3.0x . 80 70 Die Residuen: e3 = 55.7 − 42.5 = 13.2 60 50 e1 e2 e3 = = = 10.2 − (−10 + 3 · 8.8) = 19.1 − (−10 + 3 · 12.0) = 55.7 − (−10 + 3 · 17.5) = −6.2 −6.9 13.2 40 30 20 e2 = 19.1 − 26 = -6.9 10 e1 = 10.2− 16.4 = -6.2 0 0 10 15 20 25 80 Die Gerade –40 + 5.0 x . Versuch B: 5 70 e3 = 55.7 − 47.5 = 8.2 60 Die Residuen: 50 e1 e2 e3 = = = 10.2 − (−40 + 5 · 8.8) = 19.1 − (−40 + 5 · 12.0) = 55.7 − (−40 + 5 · 17.5) = 6.2 −0.9 8.2 40 30 20 10 e1 = 10.2 − 4 = 6.2 e2 = 19.1− 20 = -0.9 0 0 Kapitel XI – Regressionsanalyse 5 10 15 20 25 XI - 16 Methode der kleinsten Quadrate Die Anpassung ist dann „gut“, wenn die Residuen klein sind. Als Anpassungskriterium wird folgendes verwendet: 3 P 2 2 2 Summe der Residuenquadrate: e1 + e2 + e3 = e2 i i=1 Vorgehen bei der Methode der kleinsten Quadrate: Wähle die Parameter θ1 und θ2, die SQ(θ1, θ2) = 3 P i=1 e2 i 3 P i=1 e2 i minimieren. SQ für die beiden Versuche: (a) SQ(−10; 3.0) = (−6.2)2 + (−6.9)2 + (13.2)2 = 260.29 (b) SQ(−40; 5.0) = Kapitel XI – Regressionsanalyse (6.2)2 + (−0.9)2 + (8.2)2 = 106.49 XI - 17 Methode der kleinsten Quadrate Die Methode der kleinsten Quadrate ist ein Verfahren, um die Gerade zu finden, welche SQ (θ 1, θ 2) minimiert. Für die betrachteten drei Beobachtungspaare erhält man: Beste Gerade: y = −40.415 + 5.385 x Residuen: e1 = 3.23, e2 = −5.10, e3 = 1.88 Summe Quadrate: SQ(−40.415; 5.385) = 40.00 Die beiden „Versuche“ lieferten folgende Werte für SQ : Versuch (a) SQ(−10; 3.0) = 260.29 Versuch (b) SQ(−40; 5.0) = 106.49 Kapitel XI – Regressionsanalyse XI - 18 Kleinste-Quadrate-Schätzer der Parameter Formeln für die Kleinste-Quadrate-Schätzer der Parameter der angepassten Geraden: Daten: Steigung: (x1, y1), (x2, y2), . . . , (xn, yn) n P θ̂2 = i=1 n P xiyi − n x̄ ȳ i=1 Achsenabschnitt: Kapitel XI – Regressionsanalyse 2 x2 − n x̄ i θ̂1 = ȳ − θ̂2x̄ XI - 19 Herleitung der KQ-Schätzer Für die Gleichung yi = θ1 + θ2xi + ei , i = 1, 2, . . . , n erhält man für die Residuen ei = yi − θ1 − θ2xi , i = 1, 2, . . . , n und somit für SQ : SQ(θ1, θ2) = n X i=1 e2 i = n X (yi − θ1 − θ2xi)2 i=1 Minimierung von SQ (θ 1, θ 2) bezüglich θ 1 und θ 2: (I) (II) ∂SQ(θ1, θ2) =0 ∂θ1 ∂SQ(θ1, θ2) =0 ∂θ2 Kapitel XI – Regressionsanalyse XI - 20 Herleitung der KQ-Schätzer SQ ist eine Funktion von θ 1 und θ 2 : SQ(θ1, θ2) = n X (yi − θ1 − θ2xi)2 i=1 Zur Bestimmung derjenigen Werte von θ 1 und θ 2, die SQ minimieren, werden die partiellen Ableitungen betrachtet: Ableitung nach θ 1 : n ∂SQ(θ1, θ2) P (I) = (−2) (yi − θ1 − θ2xi) ∂θ1 i=1 Ableitung nach θ 2 : n ∂SQ(θ1, θ2) P (II) = (−2) (yi − θ1 − θ2xi) · xi ∂θ2 i=1 Kapitel XI – Regressionsanalyse XI - 21 Herleitung der KQ-Schätzer Umstellung der beiden Gleichungen: (I) (−2) (I) à n P i=1 (II) (II) n P i=1 ! yi − n θb1 − (−2) à (yi − θb1 − θb2 xi) = 0 n P i=1 n P i=1 ! xi θb2 = 0 (yi − θb1 − θb2 xi) xi = 0 i=1 n P à ! xiyi − à n P i=1 ! xi θb1 − à n P i=1 ! b x2 i θ2 = 0 Somit erhält man folgende Form (I) a − b θb1 − c θb2 = 0 (II) d − e θb1 − f θb2 = 0 (d.h. zwei Gleichungen mit zwei Unbekannten). Kapitel XI – Regressionsanalyse XI - 22 Beispiel mit 3 Beobachtungen Für die Anpassung einer Geraden an die drei Beobachtungspaare x1 y1 = 8.8 x2 = 10.2 y2 = = 12.0 19.1 x3 y3 = 17.5 = 55.7 werden folgende Werte benötigt: 3 P n=3 i=1 3 P i=1 xi = 38.3 x2 1 = 527.69 3 P i=1 3 P i=1 yi = 85 xiyi = 1293.71 Somit erhält man folgende beiden Gleichungen: (I) (II) 85 − 3 θb1 − 38.3 θb2 = 0 1 293.71 − 38.3 θb1 − 527.69 θb2 = 0 Kapitel XI – Regressionsanalyse XI - 23 Kleinste-Quadrate-Schätzer der Parameter Auflösung der Gleichungen: (I) (II) 85 − 3 θb1 − 38.3 θb2 = 0 1 293.71 − 38.3 θb1 − 527.69 θb2 = 0 Für die beiden Koeffizienten folgt: 38.3 ·(I) −3 ·(II) =⇒ (I) =⇒ =⇒ =⇒ Kapitel XI – Regressionsanalyse −625.63 + 116.18 θb2 = 0 θb2 = 5.385 85 − 3 θb1 − 38.3 · 5.385 = 0 θb1 = −40.415 XI - 24 Kleinste-Quadrate-Schätzer der Parameter Durchmesser und Volumen von drei Kirschbäumen mit der besten Geraden: 80 e3 = 55.7 − 53.8 = 1.9 Volumen (in cubic feet) 60 40 20 e2 = 19.1 − 24.2 = -5.1 e1 = 10.2 − 7 = 3.2 0 0 5 10 15 20 25 Durchmesser (in inches) Kapitel XI – Regressionsanalyse XI - 25 Allgemeine Lösung des Gleichungssystems Für den allgemeinen Fall ergeben sich folgende Gleichungen: (I) (II) (I) (II) n P i=1 n P yi − n θb1 − θb2 n P i=1 xi = 0 n n P P b b xiyi − θ1 xi − θ 2 x2 i =0 i=1 i=1 i=1 à |·n !2 n n P P b b xi yi − n θ 1 xi − θ 2 xi =0 i=1 i=1 i=1 i=1 n n n P P P b b n xiyi − n θ1 xi − n θ2 x2 i =0 i=1 i=1 i=1 n P n P ¯ ¯ P ¯ n x ¯· ¯ i=1 i Durch Subtrahieren (I) – (II) wird θ̂1 eliminiert. Kapitel XI – Regressionsanalyse XI - 26 Lösung des Gleichungssystems Daraus folgt: (I) - (II): n P i=1 xi ⇐⇒ nθb2 ⇐⇒ n P i=1 n P i=1 ⎛ yi − θb2 b x2 − θ 2 i n 1 P 2 b ⎝ θ2 xi − n i=1 Kapitel XI – Regressionsanalyse à à à n P i=1 n P i=1 n P i=1 xi xi xi !2 !2 n P b −n xiyi + nθ2 x2 i =0 i=1 i=1 =n !2 ⎞ n P n P i=1 x i yi − n P i=1 xi n P i=1 yi n n 1 P P ⎠= xi y i − xi yi n i=1 i=1 i=1 n P XI - 27 Bestimmung der Steigung Für den Schätzer von θ 2 erhält man somit: ⎛ n 1 P b ⎝ θ2 x2 − i n i=1 ⇐⇒ θb2 = Kapitel XI – Regressionsanalyse !2 ⎞ n n n n 1 P P P P ⎠ xi = x i yi − xi yi n i=1 i=1 i=1 i=1 à n n 1 P P xi y i − xi yi n i=1 i=1 i=1 n P n P 1 2 xi − n i=1 à n P i=1 xi !2 n P = i=1 n P xiyi − nx̄ȳ i=1 2 x2 i − nx̄ XI - 28 Bestimmung des Achsenabschnitts Für den Schätzer von θ 1 ergibt sich: (I): n P b b y i − n θ 1 − θ2 xi = 0 i=1 i=1 n P ⇐⇒ n n P P b b y i − θ2 xi n θ1 = i=1 i=1 ⇐⇒ n n 1 P 1 P b b θ1 = y i − θ2 · xi = ȳ − θb2x̄ n i=1 n i=1 Kapitel XI – Regressionsanalyse XI - 29 Kleinste-Quadrate-Schätzer Zusammenfassung, Kleinste-Quadrate-Schätzer für eine Gerade: Steigung: Achsenabschnitt: Kapitel XI – Regressionsanalyse θb2 = n P i=1 n P xiyi − n x̄ ȳ i=1 2 x2 i − n x̄ θb1 = ȳ − θb2 x̄ XI - 30 Alternative Herleitung der Schätzer Alternative Herleitung der Schätzer: (I) (−2) à (I) (II) i=1 à (I) (II) Kapitel XI – Regressionsanalyse (yi − θb1 − θb2 xi) = 0 i=1 ! yi − n θb1 − (−2) (II) Form: n P n P n P i=1 n P i=1 ! xi θb2 = 0 (yi − θb1 − θb2 xi) xi = 0 i=1 n P à ! xiyi − à n P i=1 ! xi θb1 − a − b θb1 − c θb2 = 0 d − e θb1 − f θb2 = 0 à n P i=1 ! b =0 x2 θ 2 i Zwei Gleichungen, zwei unbekannte Werte XI - 31 Allgemeiner Fall Die beiden Gleichungen haben die folgende Form: (I) (II) a − b θb1 − c θb2 = 0 d − e θb1 − f θb2 = 0 Durch Umformung erhält man: b×(II): e×(I): bd − be θb1 − bf θb2 = 0 ea − eb θb1 − ec θb2 = 0 b×(II) - e×(I): (bd − ea) − (bf − ec) θb2 = 0 Somit ergeben sich folgende Schätzer: bd − ea b θ2 = bf − ec θb1 = ab − cb θb2 Kapitel XI – Regressionsanalyse XI - 32 Kleinste-Quadrate-Schätzer Bestimmung der Kleinste-Quadrate-Schätzer für eine Gerade: bd − ea b θ2 = bf − ec a= d= n P i=1 n P i=1 yi xiyi a cb b θ1 = − b θ2 b b=n e= c= n P i=1 xi f = n P i=1 n P i=1 xi x2 1 Hieraus ergeben sich folgende Schätzer: Steigung: θb2 = n P i=1 n P xiyi − n x̄ ȳ i=1 2 x2 i − n x̄ Achsenabschnitt: θb1 = ȳ − θb2 x̄ Kapitel XI – Regressionsanalyse XI - 33 Beispiel: Holzertrag von Kirschbäumen Für das Beispiel „Holzertrag von Kirschbäumen“ werden folgende Werte benötigt: n = 31 31 P xi = 410.7 31 P x2 i = 5736.55 i=1 i=1 x̄ = 13.25 31 P yi = 935.3 31 P xiyi = 13887.86 i=1 i=1 ȳ = 30.17 Daraus erhält man folgende Schätzer: 13887.86 − 31(13.25)(30.17) b θ2 = = 5.066 2 5736.55 − 31(13.25) θb1 = 30.17 − 5.066 (13.25) = −36.94 Kapitel XI – Regressionsanalyse XI - 34 Beispiel: Holzertrag von Kirschbäumen Durchmesser und Volumen von 31 Kirschbäumen: 80 Volumen (in cubic feet) 60 40 20 0 0 5 10 15 20 25 Durchmesser (in inches) Kapitel XI – Regressionsanalyse XI - 35 Beispiel 3: Temperatur und Gasverbrauch Gegeben ist die durchschnittliche Tagestemperatur und der durchschnittliche Gasverbrauch einer amerikanischen Kleinstadt in den 12 Monaten des Jahres 1993: Monat 1/93 2/93 3/93 4/93 5/93 6/93 0.0 −6.7 −0.6 8.3 13.9 Gasverbrauch (m3) −5.0 30.1 35.1 34.8 29.0 13.5 7.1 Monat 7/93 8/93 9/93 10/93 11/93 12/93 Temperatur (◦C) 19.4 21.1 21.7 15.6 7.2 3.3 Gasverbrauch (m3) 5.8 2.9 4.2 8.7 16.6 23.8 Temperatur (◦C) Kapitel XI – Regressionsanalyse XI - 36 Temperatur und Gasverbrauch Durchschnittliche Tagestemperatur und durchschnittlicher Gasverbrauch 1993 in einer US-amerikanischen Kleinstadt: durchschnittlicher Gasverbrauch (m³/Tag) 40 30 20 10 0 -10 -5 0 5 10 15 20 25 durchschnittliche Temperatur (°C) Kapitel XI – Regressionsanalyse XI - 37 Modell mit einer Parabel Für ein Modell mit einer Parabel yi = θ1 + θ2xi + θ3x2 i + ei , i = 1, 2, . . . , n erhält man folgende Gleichung für SQ : SQ(θ1, θ2, θ3) = n X i=1 e2 i = n X 2 (yi − θ1 − θ2xi − θ3x2 ) i i=1 In diesem Fall werden drei partielle Ableitungen betrachtet: (I) ∂SQ(θ1, θ2, θ3) =0 ∂θ1 (II) ∂SQ(θ1, θ2, θ3) =0 ∂θ2 (III) ∂SQ(θ1, θ2, θ3) =0 ∂θ3 Kapitel XI – Regressionsanalyse XI - 38 Drei partielle Ableitungen und drei Gleichungen Daraus ergeben sich folgende drei Gleichungen: (I) n ³ ´ X ∂SQ(θ1, θ2, θ3) 2 = (−2) yi − θ1 − θ2xi − θ3xi ∂θ1 i=1 ⎛ = (−2) ⎝ (II) n X i=1 yi − nθ1 − θ2 n X i=1 xi − θ3 n ³ ´ X ∂SQ(θ1, θ2, θ3) 2 = (−2) yi − θ1 − θ2xi − θ3xi xi ∂θ2 i=1 ⎛ = (−2) ⎝ n X i=1 xiyi − θ1 n X i=1 xi − θ2 n X i=1 = (−2) ⎝ Kapitel XI – Regressionsanalyse i=1 x2 i yi − θ1 n X i=1 x2 i − θ2 i=1 ⎠ x2 i x2 i − θ3 n ³ ´ X ∂SQ(θ1, θ2, θ3) 2 (III) = (−2) yi − θ1 − θ2xi − θ3xi x2 i ∂θ3 i=1 ⎛ n X n X ⎞ n X i=1 n X i=1 x3 i − θ3 ⎞ ⎠ x3 i n X i=1 ⎞ ⎠ x4 i XI - 39 Drei Gleichungen mit drei Unbekannten Nullsetzen der drei partiellen Ableitungen ergibt die folgenden drei Gleichungen mit drei Unbekannten: (I) n X i=1 (II) n X i=1 (III) n X i=1 yi = θb1 n xiyi = θb1 b x2 i yi = θ1 Kapitel XI – Regressionsanalyse n X i=1 n X i=1 + θb2 xi + θb2 n X i=1 n X i=1 b x2 i + θ2 n X xi + θb3 x2 i n X x3 i n X x4 i i=1 b x2 i + θ3 i=1 n X i=1 b x3 i + θ3 i=1 XI - 40 Beispiel: Temperatur und Gasverbrauch Für das Beispiel „Temperatur und Gasverbrauch“ werden folgende Werte benötigt: 12 P i=1 12 P i=1 xi = 98 yi = 212 12 P i=1 x2 i = 1 931 12 P i=1 xiyi = 388 12 P i=1 x3 i = 33 946 n P i=1 12 P i=1 x2 i yi = 13 458 x4 i = 667 987 n = 12 Einsetzen in die Gleichungen liefert: 212 388 13 458 = = = 12 θb1 98 θb1 1 931 θb1 + + + 98 θb2 1 931 θb2 33 946 θb2 + 1 931 θb3 + 33 946 θb3 + 667 987 θb3 Die Parameterschätzer erhält man durch Auflösen der Gleichungen: θ̂1 = 27.0 θ̂2 = −1.47 θ̂3 = 0.0170 Angepasste Parabel: ŷ = 27 − 1.47x + 0.017x2. Kapitel XI – Regressionsanalyse XI - 41 Beobachtungen mit angepasster Parabel Beobachtungen mit angepasster Parabel: durchschnittlicher Gasverbrauch (m³/Tag) 40 30 20 10 0 -10 -5 0 5 10 15 20 25 durchschnittliche Temperatur (°C) Kapitel XI – Regressionsanalyse XI - 42 Anmerkungen zur Regressionsanalyse Unter geeigneten Annahmen sind Schätzer der kleinsten Quadrate konsistent, d.h. Bias und Varianz konvergieren mit wachsendem n gegen Null. Die Fehlerterme sollten Erwartung Null haben, d.h. E (e | X) = 0. Unter den erklärenden Variablen (inklusive der Konstanten) darf es keine Multikollinearität geben, d.h. keine der erklärenden Variablen darf als Linearkombination der anderen darstellbar sein. Die Beobachtungen sollten unabhängig sein. Gauß-Markov Theorem: Unter den Annahmen Var(e|X) = σ 2 konstant Cov(ei, ej ) = 0 für alle i 6= j sind die Schätzer nach der Methode der kleinsten Quadrate die besten linearen erwartungstreuen Schätzer („BLUE“). Kapitel XI – Regressionsanalyse XI - 43 Asymptotische Verteilung der Schätzer Die Schätzer θ̂j sind asymptotisch normalverteilt mit Erwartungswert θ j . Im Fall einer Geraden gilt für die Varianzen: Var(θ̂1) = σ2 à n σ2 Var(θ̂2) = nσ̂x2 1+ (x̄)2 σ̂x2 ! Dabei ist σ̂x2 die Stichprobenvarianz von X. Kapitel XI – Regressionsanalyse XI - 44 Konfidenzintervalle für die Parameter einer Geraden Für den Achsenabschnitt θ 1 einer Geraden erhält man folgendes Konfidenzintervall: ⎡ σ̂ ⎢ ⎣θ̂1 − tn−2,α/2 q q ⎤ 1 + (x̄)2/σ̂x2 σ̂ 1 + (x̄)2/σ̂x2 ⎥ , θ̂1 + tn−2,α/2 √ √ ⎦ n n Für die Steigung θ 2 ergibt sich folgendes Konfidenzintervall: " σ̂ σ̂ θ̂2 − tn−2,α/2 √ , θ̂2 + tn−2,α/2 √ nσ̂x nσ̂x # σ̂ ist die aus den Residuen geschätzte Streuung von e: Pn 1 2 σ̂ = n−2 i=1 ê2 i Kapitel XI – Regressionsanalyse XI - 45 Korrelation und Kausalität Korrelation oder Abhängigkeit implizieren nicht Kausalität; zum Beispiel: Weinkonsum und Herzkrankheiten sind negativ korreliert. In diesem Fall gibt es drei mögliche kausale Beziehungen: 1. Weinkonsum ⇒ Herzkrankheiten 2. Herzkrankheiten ⇒ Weinkonsum 3. Herzkrankheiten ⇐ Andere Faktoren ⇒ Weinkonsum (z.B. Klima, Esskultur, Stress) Die Korrelation beruht lediglich auf Beobachtung. Um auf Kausalität schließen zu können, muss man aktive Experimente durchführen. Beispielsweise kann die Grundgesamtheit zufällig in zwei Gruppen zerlegt werden: Eine Gruppe muss Wein trinken, die andere darf keinen Wein trinken. Kapitel XI – Regressionsanalyse XI - 46 Arbeitskosten und Produktivität Betrachtet werden die prozentualen Veränderungen der Arbeitskosten (pro Stunde), und der Produktivität (pro Stunde) in Deutschland zwischen 1965 und 1997. Aus den Daten erhält man einen Korrelationskoeffizienten von ≈ 0.45. Mögliche kausale Beziehungen: – Ein Anstieg des Arbeitslohnes hat eine positive Wirkung aus die Arbeitsmoral und dadurch auch auf die Produktivität. – Eine Steigerung der Produktivität schafft den Freiraum, mehr Geld für Lohn auszugeben. – Andere (unbeobachtete) Faktoren beeinflussen die beiden Merkmale und es gibt keine direkte kausale Beziehung zwischen den beiden Merkmalen (spurious = scheinbare bzw. keine echte Korrelation). Kapitel XI – Regressionsanalyse XI - 47 Arbeitskosten und Produktivität Jährliche Veränderungen der Arbeitskosten und der Produktivität (in Deutschland, 1965 – 1997): Veränderung der Produktivität (%) 10 8 6 4 2 0 -2 0 2 4 6 8 10 12 14 16 18 20 Veränderung der Arbeitskosten (%) Kapitel XI – Regressionsanalyse XI - 48 Bestimmtheitsmaß R2 und SQ(Total) Beispiel: Durchmesser und Volumen von Kirschbäumen. SQ(Total) 80 Das Volumen y schwankt um den Mittelwert ȳ . Diese Variation wird gemessen durch: n P SQ(Total) = (yi − ȳ)2 i=1 70 60 50 40 30 20 10 0 6 Kapitel XI – Regressionsanalyse 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 XI - 49 Bestimmtheitsmaß R2 und SQ(Total) Beispiel: Durchmesser und Volumen von Kirschbäumen. SQ(Regression) 80 Die beste Gerade weicht vom Mittelwert ȳ ab. Diese Variation wird gemessen durch: n P SQ(Regression) = (ŷi − ȳ)2 i=1 70 60 50 40 30 20 10 0 6 Kapitel XI – Regressionsanalyse 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 XI - 50 Bestimmtheitsmaß R2 und SQ(Total) Beispiel: Durchmesser und Volumen von Kirschbäumen. SQ(Residuen) 80 Die Beobachtungen liegen nicht auf der Geraden. Diese Variation wird gemessen durch: n P SQ(Residuale) = (yi − ŷi)2 i=1 70 60 50 40 30 20 10 0 6 Kapitel XI – Regressionsanalyse 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 XI - 51 Zerlegung der SQ(Total) Es besteht ein Zusammenhang zwischen SQ (Total), SQ (Regression) und SQ (Residuale): n X SQ(Total) = (yr − ȳ)2 r=1 n X SQ(Regression) = (ybr − ȳ)2 r=1 n X SQ(Residuale) = (yr − ŷr )2 r=1 SQ(Total) = SQ(Regression) + SQ(Residuen) 80 75 70 65 60 55 50 45 40 35 30 Zerlegung von SQ (Total) : 14.0 15.0 16.0 17.0 18.0 19.0 20.0 21.0 22.0 SQ(Total) = SQ(Regression) + SQ(Residuale) SQ(Regression) SQ(Residuale) 1 = + SQ(Total) SQ(Total) Kapitel XI – Regressionsanalyse XI - 52 Durch die Regression erklärter Anteil der Variation Zerlegung von SQ (Total) : SQ(Total) = SQ(Regression) + SQ(Residuale) 1 = SQ(Regression) SQ(Residuale) + SQ(Total) SQ(Total) | {z } | {z } R2 1−R2 R 2 ist der erklärte Anteil der Variation: SQ(Regression) 2 R = SQ(Total) R 2 wird auch das Bestimmtheitsmaß genannt. Aus R 2 ergibt sich der unerklärte Anteil der Variation: SQ(Residuale) 2 1−R = SQ(Total) Kapitel XI – Regressionsanalyse XI - 53 Zusammenhang: Steigung und Korrelationskoeffizient Zusammenhang zwischen dem Korrelationskoeffizienten und der Steigung θ 2 : Y = θ1 + θ2X + e. Betrachtung der Kovarianz: Cov(X, Y ) = Cov(X, (θ1 + θ2X + e)) = Cov(X, θ1) + Cov(X, θ2X) + Cov(X, e) = 0 + θ2Cov(X, X) + 0 = θ2Var(X) Daraus folgt für den Steigungskoeffizienten: Cov(X, Y ) θ2 = = Var(X) = s Var(Y ) ·ρ Var(X) Kapitel XI – Regressionsanalyse s Var(Y ) Cov(X, Y ) ·q Var(X) Var(X)Var(Y ) XI - 54 Zusammenhang: Korrelationskoeffizient und Bestimmtheitsmaß Ausgehend von θ2 = s Var(Y ) Var(Y ) · ρ ⇐⇒ θ22 = ρ2 · Var(X) Var(X) erhält man 2Var(X) θ Var(θ2X) Var(θ1 + θ2X) 2 2 ρ = = = Var(Y ) Var(Y ) Var(Y ) erklärte Varianz = R2 = totale Varianz Der Zusammenhang R 2 = ρ 2 gilt nur für die einfache Regression! Kapitel XI – Regressionsanalyse XI - 55 Faktoren als erklärende Variable In der Regressionsanalyse ist die Zielvariable Y eine Zufallsvariable. Die erklärende Variable ist – entweder eine Zufallsvariable – oder ein Faktor (keine Zufallsvariable). Beispiel: Experiment zur Bestimmung des Zusammenhangs zwischen Geschwindigkeit und Bremsweg eines Autos. X : Geschwindigkeit des Autos Y : Bremsweg Der Bremsweg Y ist eine Zufallsvariable. Da die Geschwindigkeit von uns bestimmt wird, ist X keine Zufallsvariable, sondern ein Faktor. Trotzdem kann man die bedingte Verteilung von Y gegeben X = x schätzen. Kapitel XI – Regressionsanalyse XI - 56 Preis und Absatz von Traubensaft Im Beispiel „Preis und Absatz von Traubensaft“ werden folgende beiden Variablen betrachtet: X : Verkaufspreis einer Packung Traubensaft (in US $), Y : Wöchentliche Verkaufszahl in einem Supermarkt. Der Supermarkt kann den Preis bestimmen, d.h. dass der Preis ein Faktor ist. Die Verkaufszahlen schwanken stark bei einem gegebenem Preis. Die Verkaufszahl ist eine Zufallsvariable. Betrachtung der Preis-Absatz-Geraden: Die erwartete Verkaufsmenge geht um 1.208 Stück zurück, wenn der Verkaufspreis um 0.01 US $ steigt. Kapitel XI – Regressionsanalyse XI - 57 Preis und Absatz von Traubensaft Preis und Absatz von Traubensaft und angepasste Gerade: 50 Verkaufsmenge 40 30 20 10 0 0.95 1.00 1.05 1.10 1.15 1.20 Verkaufspreis (US$) Kapitel XI – Regressionsanalyse XI - 58 Voraussagen in der Regressionsanalyse Zwei Beispiele zu Voraussagen in der Regressionsanalyse: 10 Veränderung der Produktivität (%) durchschnittlicher Gasverbrauch (m³/Tag) 40 30 20 10 0 -10 8 6 4 2 0 -2 -5 0 5 10 15 durchschnittliche Temperatur (°C) 20 25 0 2 4 6 8 10 12 14 16 Veränderung der Arbeitskosten (%) 18 20 Links liegen die Beobachtungen näher an der angepassten Funktion, d.h. dass die Voraussagen auch in diesem Fall genauer sein werden. Die Betrachtung der Residuen vermittelt einen Eindruck von der Genauigkeit. Kapitel XI – Regressionsanalyse XI - 59 Die geschätzten Residuen Betrachtet man das Modell yi = θ1 + θ2 xi + ei , i = 1, 2, ..., n sind die Parameter θ 1 und θ 2 unbekannt, d.h. die Residuen ei = yi − θ1 − θ2 xi , i = 1, 2, ..., n sind auch unbekannt. Die Residuen können jedoch geschätzt werden: ebi = yi − θb1 − θb2 xi , i = 1, 2, ..., n Modellannahme: Die Residuen sind identisch verteilt, d.h. sie haben alle dieselbe Verteilung. Die Plausibilität dieser Annahme kann mit Hilfe eines Residuen-Plots beurteilt werden. Kapitel XI – Regressionsanalyse XI - 60 Beobachtungen, angepasste Gerade und Residuen Darstellung der Beobachtungen, der angepassten Geraden und der Residuen: Beobachtungen und Regressionsgerade 20 y 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 x Residuen Residuen 10 5 0 -5 -10 0 1 2 3 4 5 x Kapitel XI – Regressionsanalyse XI - 61 Residuen mit steigender Varianz Beispiel, in dem die Residuen eine steigende Varianz besitzen: Beobachtungen und Regressionsgerade 20 y 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 x Residuen Residuen 10 5 0 -5 -10 0 1 2 3 4 5 x Kapitel XI – Regressionsanalyse XI - 62 Histogramm der Residuen Histogramm der Residuen: relative Häufigkeit / Klassenbreite 0.4 0.3 0.2 0.1 0.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Residuen Kapitel XI – Regressionsanalyse XI - 63 Einfaches Regressionsmodell mit normalverteilten Residuen Ein einfaches Regressionsmodell mit normalverteilten Residuen: yi = θ1 + θ2 xi + ei, i = 1, 2, . . . , n wobei die ei unabhängig N (0, σ 2)—verteilt sind. Ein unverfälschter Schätzer von σ 2 ist gegeben durch: b2 = σ n 1 1 P 2 SQ(Res) = DQ(Res) ei = n − 2 i=1 n−2 Die geschätzte Varianz dient zur Bestimmung (a) der Genauigkeit der Vorhersage von y aus x , (b) welches Modell die Daten am besten beschreibt. Kapitel XI – Regressionsanalyse XI - 64 Regressionsmodelle mit normalverteilten Residuen Allgemeine Regressionsmodelle mit normalverteilten Residuen: yi = E(Y |X = xi) + ei, i = 1, 2, . . . , n wobei die ei unabhängig N (0, σ 2)—verteilt sind. Beispiele für Modelle für den bedingten Erwartungswert: E(Y |X = x) Anzahl Param. Modell Gerade 2 yi = θ1 + θ2xi + ei Parabel 3 yi = θ1 + θ2xi + θ3x2 i + ei Kubik .. 4 .. 3 yi = θ1 + θ2xi + θ3x2 i + θ4xi + ei .. Polynom p yi = θ1 + θ2xi + θ3x2 i + · · · + θp xi b2 = σ (p−1) + ei n 1 1 P 2 SQ(Res) = DQ(Res) ei = n − p i=1 n−p Kapitel XI – Regressionsanalyse XI - 65 Freiheitsgrade b2 = σ 1 n−p n P i=1 e2 i 1 = n−p SQ(Res) = DQ(Res) Freiheitsgrade FG = n – p = n – Anzahl der Parameter . Spezialfall: Eine Gerade hat zwei Parameter θ 1 und θ 2 : Freiheitsgrade FG = n – 2 b 2 = DQ(Res) = σ 1 SQ(Res) n−2 Spezialfall: Eine Parabel hat drei Parameter θ 1, θ 2 und θ 3 : Freiheitsgrade FG = n – 3 b 2 = DQ(Res) = σ Kapitel XI – Regressionsanalyse 1 SQ(Res) n−3 XI - 66 DQ(Res) DQ (Res) als Schätzer der Residualvarianz: b2 = σ n 1 P e2 = DQ(Res) i n − p i=1 Dieser Schätzer wird benötigt, (a) um die Genauigkeit der Vorhersage von y aus x zu quantifizieren, (b) um zu entscheiden, welches Modell die Daten am besten beschreibt (z.B. eine Gerade, eine Parabel, usw.), (c) um Konfidenzintervalle für θ j zu bestimmen. Kapitel XI – Regressionsanalyse XI - 67 Beispiel: Flugstrecke und Blockzeit Betrachtet werden Vorhersagen anhand eines geschätzten Modells: Modell: yi = θ1 + θ2 xi + ei , i = 1, 2, ..., n Geschätztes Modell: yi = θb1 + θb2 xi + ei , i = 1, 2, ..., n Beobachteter x -Wert: Vorhersage: x0 yb0 = θb1 + θb2x0 Beispiel: Flugstrecke und Blockzeit. Geschätztes Modell: yi = 38.4 + 0.122 xi + ei. Vorhersage für eine Flugstrecke von 600 Meilen (x0 = 600): Vorhersage: yb0 = 38.4 + 0.122 · 600 ≈ 112. Wie genau ist diese Vorhersage? Kapitel XI – Regressionsanalyse XI - 68 Vorhersage für eine Flugstrecke von 600 Meilen Flugstrecke und Blockzeit für inneramerikanische Flüge und Vorhersage für eine Flugstrecke von x 0 = 600 Meilen: 250 Blockzeit (Minuten) 200 150 112 100 50 0 0 500 600 1000 1500 Entfernung (Meilen) Kapitel XI – Regressionsanalyse XI - 69 Histogramm der Residuen mit Normalverteilung Histogramm der Residuen mit angepasster Normalverteilung: 0.03 Dichte 0.02 0.01 0.00 -60 -40 -20 0 20 40 60 Residuen Kapitel XI – Regressionsanalyse XI - 70 Konfidenzintervalle für die Vorhersage im Fall einer Geraden Konfidenzintervall zum Niveau 100(1 – α)% für die Vorhersage: Untere Grenze: Obere Grenze: dt yb0 − SF n−2;α/2 dt yb0 + SF n−2;α/2 Der geschätzte Prozentpunkt der Standardfehler t(ν)−Verteilung der Vorhersage. mit ν = n − 2. Schätzer des Standardfehlers: v u u xo −x̄)2 ( 1 d b u1 + + P SF = σ n n t 2 x2 i − nx̄ i=1 Kapitel XI – Regressionsanalyse XI - 71 Beispiel: Flugstrecke und Blockzeit Vorhersage für eine Flugstrecke von 600 Meilen (x0 = 600): Vorhersage: yb0 = 38.4 + 0.122 · 600 ≈ 112. Folgende Werte werden benötigt: n = 100 100 P i=1 x̄ ≈ 829 xi = 82 908 x0 = 600 100 P 2 xi = 83 113 502 i=1 SQ(Res) ≈ 21 498 b 2 = DQ(Res) = SQ(Res) ≈ 219 σ 100−2 d = SF s µ (600−829)2 1 + 219 1 + 100 83 113 502−100·(829)2 Kapitel XI – Regressionsanalyse ¶ = 14.9 XI - 72 Beispiel: 95% Konfidenzintervall für die Vorhersage Konfidenzintervall für die Vorhersage: Untere Grenze: Obere Grenze: dt yb0 − SF n−2;α/2 dt yb0 + SF n−2;α/2 Benötigt werden die folgenden Werte ((1 – α) = 0.95): Vorhersage: yb0 = 112 d = 14.9 Standardfehler: SF (1 − α) = 0.95 ⇒ tn−2;α/2 = t98;0.025 ≈ 1.98 95 % Konfidenzintervall für die Vorhersage: Untere Grenze: 112 - 14.9 · 1.98 ≈ 83 . Obere Grenze: 112 + 14.9 ·1.98 ≈ 141 . 95% Konfidenzintervall für die Vorhersage: (83; 141). Kapitel XI – Regressionsanalyse XI - 73 Modellauswahl – Polynome Modellierung des bedingten Erwartungswertes: yi = E(Y |X = xi) + ei, i = 1, 2, . . . , n wobei die ei unabhängig N (0, σ 2)—verteilt sind. Folgende Modelle stehen (u.a.) zur Auswahl: E(Y |X = x) Anzahl Param. Modell Gerade 2 yi = θ1 + θ2xi + ei Parabel 3 yi = θ1 + θ2xi + θ3x2 i + ei Kubik .. 4 .. 3+e yi = θ1 + θ2xi + θ3x2 + θ x 4 i i i .. Polynom p yi = θ1 + θ2xi + θ3x2 i + · · · + θp xi (p−1) + ei Welches Modell soll man an die Daten anpassen? Kapitel XI – Regressionsanalyse XI - 74 Polynome zur Beschreibung des Gasverbrauchs 40 durchschnittlicher Gasverbrauch (m³/Tag) durchschnittlicher Gasverbrauch (m³/Tag) Anpassung von Polynomen zur Beschreibung des Zusammenhangs von Temperatur und Gasverbrauch: 35 30 25 20 15 10 5 0 -5 0 5 10 15 20 durchschnittliche Temperatur (°C) 40 35 30 25 20 15 10 5 0 -10 -5 0 5 10 15 20 durchschnittliche Temperatur (°C) Kapitel XI – Regressionsanalyse 35 30 25 20 15 10 5 0 25 durchschnittlicher Gasverbrauch (m³/Tag) durchschnittlicher Gasverbrauch (m³/Tag) -10 40 25 -10 -5 0 5 10 15 20 durchschnittliche Temperatur (°C) 25 -10 -5 0 5 10 15 20 durchschnittliche Temperatur (°C) 25 40 35 30 25 20 15 10 5 0 XI - 75 Welches Modell soll man an die Daten anpassen? Bei der Modellanpassung ist folgendes zu bedenken: – Mit zunehmender Zahl der Parameter wird die Anpassung an die Beobachtung besser. – Von Interesse ist die Güte der Anpassung an die Daten in der Grundgesamtheit. – Mit zunehmender Zahl der Parameter wird der Fehler durch Schätzung vergrößert. Strategie zur Modellauswahl: – Das einfachste Modell wählen, das plausibel ist, das also nicht offensichtlich falsch ist. – Ob ein Modell „offensichtlich falsch“ ist, kann mit Hilfe eines Hypothesentests überprüft werden. Kapitel XI – Regressionsanalyse XI - 76 Darstellung der Residuen Darstellung der Residuen: Gerade: SQ(Res) = 56 Residuen Residuen Konstante: SQ(Res) = 1670 20 15 10 5 0 -5 -10 -15 -20 -10 -5 0 5 10 15 20 20 15 10 5 0 -5 -10 -15 -20 25 -10 -5 durchschnittliche Temperatur (°C) 0 5 10 15 durchschnittliche Temperatur (°C) Kapitel XI – Regressionsanalyse 10 15 20 25 20 25 Kubik: SQ(Res) = 19 Residuen Residuen Parabel: SQ(Res) = 37 -5 5 durchschnittliche Temperatur (°C) 20 15 10 5 0 -5 -10 -15 -20 -10 0 20 25 20 15 10 5 0 -5 -10 -15 -20 -10 -5 0 5 10 15 durchschnittliche Temperatur (°C) XI - 77 SQ und DQ im Beispiel „Temperatur und Gasverbrauch“ SQ und DQ im Beispiel „Temperatur und Gasverbrauch“: Kapitel XI – Regressionsanalyse Modell p SQ(Res) n − p DQ(Res) Konstante 1 1 670 11 151.800 Gerade 2 56 10 5.600 Parabel 3 37 9 4.111 Kubik 4 19 8 2.375 XI - 78 Entscheidungsregel Betrachtet werden zwei Modelle M 1 und M 2 : M1 M2 das Modell mit der größeren Anzahl an Parametern, das Modell mit der kleineren Anzahl an Parametern, Wir testen die Nullhypothese: Modell M 2 ist korrekt. Entscheidungsregel: Modell M 1 wird gewählt, falls H0 verworfen wird. Modell M 2 wird gewählt, falls H0 nicht verworfen wird. Beispiel: M1 : M2 : 3+e yi = θ1 + θ2xi + θ3x2 + θ x 4 i i i yi = θ1 + θ2xi + θ3x2 i + ei (4 Parameter) (3 Parameter) Wir testen H0 : Modell M 2 ist korrekt (d.h. θ 4 = 0). Kapitel XI – Regressionsanalyse XI - 79 Die Prüfgröße Notation für die Prüfgröße: M1 M2 das Modell mit der größeren Anzahl an Parametern, das Modell mit der kleineren Anzahl an Parametern, SQ (M 1) SQ (M 2) die Summe der Quadrate der Residuale für M 1 , die Summe der Quadrate der Residuale für M 2 , FG (M 1) FG (M 2) die Anzahl der Freiheitsgrade für Modell M 1 , die Anzahl der Freiheitsgrade für Modell M 2 . Prüfgröße: SQ(Res,M2 )−SQ(Res,M1 ) F G(M2 )−F G(M1) PG = SQ(Res,M1 ) F G(M1 ) Unter H0 gilt P G ∼ F (ν1, ν2) Kapitel XI – Regressionsanalyse mit ν1 = F G(M2) − F G(M1), ν2 = F G(M1) XI - 80 Die Prüfgröße basierend auf R-Quadrat Alternative Notation für die Prüfgröße basierend auf R 2 : M1 M2 das Modell mit der größeren Anzahl an Parametern, das Modell mit der kleineren Anzahl an Parametern, R 2 (M 1) Bestimmtheitsmaß R 2 für Modell M 1 , R 2 (M 2) Bestimmtheitsmaß R 2 für Modell M 2 . Darstellung der Prüfgröße basierend auf R 2 : R2 (M1 )−R2(M2 ) F G(M2 )−F G(M1) PG = 1−R2 (M1 ) F G(M1 ) Unter H0 gilt P G ∼ F (ν1, ν2) Kapitel XI – Regressionsanalyse mit ν1 = F G(M2) − F G(M1), ν2 = F G(M1) XI - 81 Beispiel: Temperatur und Gasverbrauch Modellauswahl im Beispiel „Temperatur und Gasverbrauch“: M1 : M2 : 3 + e (4 Parameter) yi = θ1 + θ2xi + θ3x2 + θ x 4 i i i yi = θ1 + θ2xi + θ3x2 (3 Parameter) i + ei H0 : Modell M 2 ist korrekt (d.h. θ 4 = 0). SQ und FG : SQ(Res, M1) = 19 SQ(Res, M2) = 37 F G(M1) = 12 − 4 = 8 F G(M2) = 12 − 3 = 9 37−19 P G = 9−8 = 7.58 19 8 Unter H0 gilt: P G ∼ F (ν1 = 1, ν2 = 8). Beim Signifikanzniveau von 5% ist der Ablehnungsbereich A = [5.32, ∞). Da PG = 7.58 ∈ A wird Modell M 2 (die Parabel) verworfen. Wir entscheiden uns für das Modell M 1 (die kubische Funktion). Kapitel XI – Regressionsanalyse XI - 82 95% – Punkt der F-Verteilung mit 1 und 8 FG 95% - Punkt der F-Verteilung mit 1 und 8 Freiheitsgraden: 1.5 Nullhypothese nicht verwerfen Nullhypothese verwerfen f(x) 1.0 95 % 0.5 5% 0.0 0 1 2 3 4 x Kapitel XI – Regressionsanalyse 5 6 7 8 5.32 XI - 83 Arbeitstabelle zur Berechnung der Prüfgröße Berechnung der Prüfgröße: SQ(Res, M1) = 19 SQ(Res, M2) = 37 F G(M1) = 12 − 4 = 8 F G(M2) = 12 − 3 = 9 37−19 P G = 9−8 = 7.58 19 8 Arbeitstabelle zur Berechnung der Prüfgröße: Modell FG SQ DQ F (oder P G) Differenz M1 1 8 18 19 18 2.375 7.58 M2 9 37 (Vgl. Arbeitstabellen im Rahmen der Varianzanalyse in Kapitel 12). Kapitel XI – Regressionsanalyse XI - 84 Anmerkungen zum Modellauswahltest Der Modellauswahltest ist nur dann exakt, wenn die Resiuden normalverteilt sind. Andernfalls ist er nur annähernd gültig. Unter dem F-Test wird in der Literatur (und auch in R) derjenige Test beschrieben, der ein komplexeres Modell M 1 mit dem trivialen Modell M 2 : y i = θ 1 (eine Konstante, d.h. ein Polynom 0-ten Grades) vergleicht. Kapitel XI – Regressionsanalyse XI - 85 t-Test Ein anderer Spezialfall ist dann gegeben, wenn M 2 um einen Parameter kleiner ist als M 1 , z.B. wenn eine Parabel (M 2) mit einer kubischen Alternative (M 1) verglichen wird. In diesem Fall ist der F-Test äquivalent zu einem t-Test der Hypothese θ 4 = 0. d θ̂ ) ∼ t P Gt = θ̂4/SE( ν2 mit ν2 = F G(M1) 4 Falls −tν2,α/2 < P Gt < tν2,α/2 , können wir die Nullhypothese nicht verwerfen. Äquivalent Betrachtung: Das Konfidenzintervall für θ 4 enthält die Null. Im anderen Fall wird gesagt, dass θ̂4 signifikant ist, d.h. das Konfidenzintervall enthält nicht die Null. Es gilt: (P Gt)2 = F , wobei F ∼ F1,ν2 und P Gt ∼ tν2 . Kapitel XI – Regressionsanalyse XI - 86 Kapitel 12 Faktoreinflüsse – Varianzanalyse Kapitel XII – Varianzanalyse XII - 0 Varianzanalyse Übersicht Einfache Varianzanalyse: – Einführung: Grundgesamtheit und Teilgesamtheiten, – Notation und Annahmen, – Identität der Varianzanalyse, – Prüfgröße / Tabelle der Varianzanalyse. Erweiterungen der einfachen Varianzanalyse. Anwendungsbeispiele. Kapitel XII – Varianzanalyse XII - 1 Regressionsanalyse und Varianzanalyse Im Rahmen der Regressionsanalyse wird die Quantifizierung der Beziehungen zwischen stetigen Merkmalen betrachtet. Die Varianzanalyse (ANOVA: Analysis of Variance) befasst sich mit Anwendungen, in denen ein Merkmal diskret ist (üblicherweise qualitativ) und eines stetig. Typische Fragestellungen in der Varianzanalyse: – Ist ein neues Verfahren (Produkt, Medizin, Dünger, etc.) effektiver als ein bestehendes? – Wie schwankt die Produktivität (Verkaufsvolumen, Fehlzeiten, etc.) an unterschiedlichen Tagen der Woche? – Unterscheidet sich eine bestimmte Teilmenge einer Grundgesamtheit in gewisser Hinsicht von anderen in der Grundgesamtheit? Kapitel XII – Varianzanalyse XII - 2 Dichtefunktion der Grundgesamtheit und der Teilgesamtheiten Wird ein stetiges Merkmal für Individuen einer Grundgesamtheit gemessen, erhält man eine Dichtefunktion f (x) für dieses Merkmal. Wird die Grundgesamtheit in I Teilgesamtheiten zerlegt und das Merkmal für jede Teilgesamtheit getrennt gemessen, erhält man I Dichten: f1(x), f2(x), ..., fI (x). Die Frage ist dabei, ob die I Teilgesamtheiten identische Dichtefunktionen haben, d.h. ob f1(x) = f2(x) = ... = fI (x) ? Kapitel XII – Varianzanalyse XII - 3 Die Grundgesamtheit und die Teilgesamtheiten Die Grundgesamtheit und die Teilgesamtheiten: Grundgesamtheit Stichproben Teilgesamtheit 1 Stichprobe 1 Teilgesamtheit 2 Stichprobe 2 Teilgesamtheit 3 Stichprobe 3 usw. usw. Teilgesamtheit I Stichprobe I Kapitel XII – Varianzanalyse XII - 4 Getreideertrag in Abhängigkeit vom Düngemittel Beispiel 12.1: Betrachtet wird der Getreideertrag bei zwei unterschiedlichen Düngemitteln (1 und 2). Dabei ist f1(x) die Dichtefunktion des Ertrags mit Dünger 1 und f2(x) die Dichtefunktion des Ertrags mit Dünger 2. Geprüft werden soll, ob sich die Dünger in ihrer Wirkung unterscheiden. Wenn es keinen Unterschied zwischen den Düngern gibt, sollten die beiden Dichtefunktionen ungefähr gleich sein. Mathematisch lässt sich die Fragestellung wie folgt formulieren: f1(x) = f2(x) ? Kapitel XII – Varianzanalyse XII - 5 Erträge bei unterschiedlichen Düngern Dichtefunktionen der Erträge bei unterschiedlichen Düngern: unterschiedliche Dichten 0.04 Dünger 1 Dünger 2 f(x) 0.03 0.02 0.01 0.00 20 40 60 80 Ertrag (x) 100 120 140 identische Dichten 0.04 Dünger 1 Dünger 2 f(x) 0.03 0.02 0.01 0.00 20 Kapitel XII – Varianzanalyse 40 60 80 Ertrag (x) 100 120 140 XII - 6 Erträge bei unterschiedlichen Düngern Histogramme der Erträge bei unterschiedlichen Düngern: relative Häufigkeit / Klassenbreite unterschiedliche Histogramme 0.04 Dünger 1 Dünger 2 0.03 0.02 0.01 0.00 20 40 60 80 100 120 140 Ertrag relative Häufigkeit / Klassenbreite ähnliche Histogramme 0.04 Dünger 1 Dünger 2 0.03 0.02 0.01 0.00 20 40 60 80 100 120 140 Ertrag Kapitel XII – Varianzanalyse XII - 7 Erträge bei unterschiedlichen Düngern Boxplots der Erträge bei unterschiedlichen Düngern: unterschiedliche Boxplots ähnliche Boxplots 140 140 120 120 100 100 80 80 60 60 40 40 20 20 Dünger 1 Kapitel XII – Varianzanalyse Dünger 2 Dünger 1 Dünger 2 XII - 8 Erträge bei unterschiedlichen Düngern Im Folgenden werden zwei hypothetische Datensätze betrachtet: Datensatz I: Düngemittel Beobachtungen Summe Mittelwert Datensatz II: Düngemittel Beobachtungen Summe Mittelwert Kapitel XII – Varianzanalyse 1 84 85 86 255 85 2 71 72 70 213 71 1 70 85 100 255 85 2 71 86 56 213 71 XII - 9 Notation der Varianzanalyse Allgemeines Aussehen einer Daten-Tabelle in der Einweg-Varianzanalyse: j\i 1 2 .. J 1 y11 y12 .. y1J 2 y21 y22 .. y2J ... ... ... ... ... I yI1 yI2 .. yIJ d.h. dass yij die j-te Beobachtung (Zeilen) der i-ten Teilgesamtheit (Spalten) ist. Im Beispiel „Getreideertrag“ liegen drei Beobachtungen y11, y12 und y13 für die Erträge mit Dünger 1 und drei Beobachtungen y21, y22 und y23 für die Erträge mit Dünger 2 vor. Kapitel XII – Varianzanalyse XII - 10 Notation der Varianzanalyse Bestimmung der Teilsummen der Beobachtungen in den Teilgesamtheiten: yi. = yi1 + yi2 + . . . + yiJ = J X yij j=1 J X (z.B. y2. = y21 + y22 + . . . + y2J = y2j ) j=1 Daraus ergeben sich die Teilmittelwerte in den Teilgesamtheiten: ȳi. = (yi1 + yi2 + . . . + y1J )/J = yi./J (z.B. ȳ2. = (y21 + y22 + . . . + y2J )/J = y2./J) Beispielsweise erhält man für Düngemittel 2 im Datensatz I folgendes: – Teilsumme: y2. = y21 + y22 + y23 = P j y2j = 71 + 72 + 70 = 213 – Teilmittelwert: ȳ2. = y2./3 = 213/3 = 71 Kapitel XII – Varianzanalyse XII - 11 Notation der Varianzanalyse Die Gesamtsumme aller Beobachtungen ergibt sich durch: y.. = y11 + y12 + . . . + yIJ = I X J X yij i=1 j=1 Daraus erhält man den Gesamtmittelwert: ȳ.. = (y11 + y12 + . . . + yIJ )/IJ = y../IJ Für das Düngemittel-Beispiel erhält man folgende Gesamtsumme: y.. = y11 + y12 + y13 + y21 + y22 + y23 = 3 2 X X yij i=1 j=1 = 84 + 85 + 86 + 71 + 72 + 70 = 468 Die Gesamtsumme geteilt durch die Anzahl der Beobachtungen (n = I ⋅ J) ergibt den Gesamtmittelwert: ȳ.. = y../6 = 468/6 = 78 Kapitel XII – Varianzanalyse XII - 12 Erträge bei unterschiedlichen Düngern Erträge bei unterschiedlichen Düngern bei kleinen Varianzen (links) und bei großen Varianzen: Datensatz I: relativ kleine Varianzen Datensatz II: relativ große Varianzen 140 140 120 120 100 100 80 80 60 60 40 40 20 20 Dünger 1 Kapitel XII – Varianzanalyse Dünger 2 Dünger 1 Dünger 2 XII - 13 Erträge bei unterschiedlichen Düngern Betrachtung der Differenzen zwischen den Mittelwerten in beiden Datensätzen: Für beide Datensätze sind die Teilmittelwerte jeweils gleich, d.h. auch die Differenz der Erträge zwischen den beiden Düngern ist gleich. Jedoch streuen die Daten im Datensatz II wesentlich stärker um den Mittelwert. In Datensatz I ist die Differenz der durchschnittlichen Erträge groß verglichen mit der Variabilität der Erträge der jeweiligen Düngemittel. Daher kann man sich ziemlich sicher sein, dass sich die Düngemittel unterscheiden. In Datensatz II ist die Differenz der durchschnittlichen Erträge klein im Vergleich zu den Schwankungen der jeweiligen Erträge. Daher kann man sich nicht sicher sein, dass sich die Dünger unterscheiden. Kapitel XII – Varianzanalyse XII - 14 Annahmen der Varianzanalyse Die Varianzanalyse verwendet eine Prüfgröße, die die Differenz bzw. Streuung zwischen den Teilgesamtheiten ins Verhältnis zur Streuung innerhalb der Teilgesamtheiten setzt. Dazu werden folgende Annahmen getroffen: (i) Die Erträge sind (für beide Dünger) gleich, und (ii) Die Varianzen der (beiden) Verteilungen sind gleich. Wird angenommen, dass der Ertrag mit Dünger 1 normalverteilt ist mit Erwartungswert μ1 und Varianz σ2 und der Ertrag mit Dünger 2 normalverteilt ist mit Erwartungswert μ2 und Varianz σ2, dann folgt daraus: f1(x) = f2(x) genau dann, wenn μ1 = μ2 . Kapitel XII – Varianzanalyse XII - 15 Annahmen der Varianzanalyse Daraus lässt sich die zu testende Nullhypothese ableiten: H0 : μ1 = μ2 und H1 : μ1 6= μ2 . Für den allgemeinen Fall mit I statt 2 Teilgesamtheiten erhält man: H0 : μ1 = μ2 = . . . = μI , H1 : Nicht alle μi sind gleich. Diese beiden Hypothesen entsprechen zwei unterschiedlichen Modellen: Modell 1 mit I unterschiedlichen Erwartungswerten: yij = μi + eij i = 1, . . . , I; j = 1, . . . , J, Modell 2 mit einem Gesamt-Erwartungswert: yij = μ + eij Kapitel XII – Varianzanalyse i = 1, . . . , I; j = 1, . . . , J. XII - 16 Varianzanalyse Die Parameter μi werden dabei durch die Teilmittelwerte geschätzt: μ̂1 = ȳ1., . . . , μ̂I = ȳI. Entsprechend wird der Parameter μ durch den Gesamtmittelwert geschätzt: μ̂ = ȳ.. Die eij stellen (wie auch in der Regressionsanalyse) jeweils die Residuale dar. Die Gesamtstreuung der Beobachtungen wird durch SQ (Total) gemessen: SQ (Total) = J I X X (yij − ȳ..)2 . i=1 j=1 (Vgl. SQ (Total) in der Regressionsanalyse). Kapitel XII – Varianzanalyse XII - 17 Identität der Varianzanalyse Die Gesamtstreuung kann in zwei Teile zerlegt werden, den durch das Modell (M1) erklärten und den nicht erklärten Teil: SQ T otal = I X J X i=1 j=1 (yij − ȳ..)2 = SQ(M1) I X J X i=1 j=1 + (ȳi. − ȳ..)2 + SQ(Res; M1) I X J X i=1 j=1 (yij − ȳi.)2 Die Zerlegung der Gesamtstreuung wird auch als Identität der Varianzanalyse bezeichnet. Für das vereinfachte Modell (M2), welches nur den Gesamtmittelwert beinhaltet, ergibt sich folgendes: SQ(Res; M2) = I X J X i=1 j=1 Kapitel XII – Varianzanalyse (yij −ȳ..)2 = I X J X ê2 ij (M2 ) = SQ T otal . i=1 j=1 XII - 18 Prüfgröße der einfachen Varianzanalyse Die Prüfgröße der einfachen Varianzanalyse ist gegeben durch: J I 1 P P (ȳ − ȳ )2 .. i. I−1 i=1 j=1 PG = J I 1 P P (y − ȳ )2 ij i. n−I i=1 j=1 Im Zähler der Prüfgröße steht SQ (M1); dieser misst die Streuung zwischen den Teilmittelwerten. Im Nenner der Prüfgröße steht SQ (Res; M1); hiermit wird die Streuung innerhalb der Teilgesamtheiten gemessen. Diese beiden Komponenten werden durch die entsprechenden Freiheitsgrade I – 1 bzw. n – I dividiert. Kapitel XII – Varianzanalyse XII - 19 Prüfgröße der einfachen Varianzanalyse Die Prüfgröße der einfachen Varianzanalyse lässt sich wie folgt umschreiben: PG = I J 1 P P (ȳ − ȳ )2 .. i. I−1 SQ(M1)/(I − 1) i=1 j=1 = I J SQ(Res; M1)/(n − I) 1 P P (y − ȳ )2 ij i. n−I i=1 j=1 (SQ T otal − SQ(Res; M1)) / ((n − 1) − (n − I)) = SQ(Res; M1)/(n − I) (SQ(Res; M2) − SQ(Res; M1)) / (F G(M2) − F G(M1)) = SQ(Res; M1)/F G(M1) Für die Freiheitsgrade gilt allgemein: F G Modell = n − p = Anzahl Beobachtungen − Anzahl Parameter. Unter Gültigkeit von H0 ist PG F-verteilt mit ν1 = FG(M2) – FG(M1) und ν2 = FG(M1) Freiheitsgraden. Kapitel XII – Varianzanalyse XII - 20 Erträge bei unterschiedlichen Düngern Anpassung der zwei Modelle an Datensatz I: Düngemittel Beobachtungen Summe Mittelwert 1 84 85 86 255 85 2 71 72 70 213 71 Modell I mit zwei unterschiedlichen Erwartungswerten μ1 und μ2, die durch die Teilmittelwerte geschätzt werden: μ̂1 = ȳ1. = 85 μ̂2 = ȳ2. = 71 . Modell II mit einem gemeinsamen Erwartungswert μ, der durch den Gesamtmittelwert der Beobachtungen geschätzt wird: μ̂ = ȳ.. = 78 . Kapitel XII – Varianzanalyse XII - 21 Erträge bei unterschiedlichen Düngern Bestimmung der geschätzten Residuen für beide Modelle: – Modell I: e1j = y1j − ȳ1. = y1j − 85 j = 1, 2, 3 e2j = y2j − ȳ2. = y2j − 71 j = 1, 2, 3 – Modell II: eij = yij − ȳ.. = yij − 78 i = 1, 2; j = 1, 2, 3 Aus den Residuen ergibt sich die Summe der Quadrate der Residuen: SQ(Res; M1) = 3 2 X X (yij − ȳi.)2 = (84 − 85)2 + (85 − 85)2+ 3 2 X X (yij − ȳ..)2 = (84 − 78)2 + (85 − 78)2+ i=1 j=1 + (86 − 85)2 + (71 − 71)2 + (72 − 71)2 + (70 − 71)2 = 4 SQ(Res; M2) = i=1 j=1 + (86 − 78)2 + (71 − 78)2 + (72 − 78)2 + (70 − 78)2 = 298 Kapitel XII – Varianzanalyse XII - 22 Erträge bei unterschiedlichen Düngern Tabellarische Übersicht zur Bestimmung der SQ : Modell 1 Die Verteilungen sind verschieden. Düngemittel i 1 2 84 71 Beobachtungen yij 85 72 86 70 Mittelwerte ȳi. 85 71 -1 0 Residuen êij = yij − ȳi. 0 1 1 -1 1 0 quadrierte Residuen ê2 0 1 ij 1 1 P SQ(Res; M1) = ij ê2 4 ij F G(M1) = n − I 4 Kapitel XII – Varianzanalyse Modell 2 Die Verteilungen sind identisch. Düngemittel i 1 2 84 71 Beobachtungen yij 85 72 86 70 Mittelwert ȳ.. 78 6 -7 Residuen êij = yij − ȳ.. 7 -6 8 -8 36 49 quadrierte Residuen ê2 49 36 ij 64 64 P SQ(Res; M2) = ij ê2 298 ij F G(M2) = n − 1 5 XII - 23 Erträge bei unterschiedlichen Düngern SQ(Res; M1) ist wesentlich kleiner als SQ(Res; M2), somit passt Modell 1 vermutlich besser. In Modell 1 wurden 2 Mittelwerte geschätzt, somit erhält man bei 6 Beobachtungen FG (M1) = 6 – 2 = 4. In Modell 2 wurde ein Mittelwert geschätzt und somit ist FG (M2) = 6 – 1 = 5. Für die Prüfgröße erhält man PG = F = 294. Bei einem Signifikanzniveau von α = 0.05 ergibt sich als kritischer Wert der F-Verteilung mit 1 und 4 Freiheitsgraden 7.71. Die Prüfgröße fällt in den Ablehnungsbereich, somit wird die Nullhypothese („die Erwartungswerte sind gleich“) abgelehnt. Kapitel XII – Varianzanalyse XII - 24 Ablehnungsbereich einer F-Verteilung Ablehnungsbereich einer F[1; 4] – Verteilung für α = 0.05: 0.20 Nullhypothese nicht verwerfen Nullhypothese verwerfen f(x) 0.15 0.10 95% 5% 0.05 0.00 0 Kapitel XII – Varianzanalyse 2 4 6 8 10 7.71 x 12 14 16 18 20 XII - 25 Erträge bei unterschiedlichen Düngern Bestimmung der SQ für Datensatz II: Modell 1 Die Verteilungen sind verschieden. Düngemittel i 1 2 70 71 85 86 Beobachtungen yij 100 56 Mittelwerte ȳi. 85 71 -15 0 Residuen êij = yij − ȳi. 0 15 15 -15 225 0 quadrierte Residuen ê2 0 225 ij 225 225 P SQ(Res; M1) = ij ê2 900 ij F G(M1) = n − I 4 Kapitel XII – Varianzanalyse Modell 2 Die Verteilungen sind identisch. Düngemittel i 1 2 70 71 85 86 Beobachtungen yij 100 56 Mittelwert ȳ.. 78 -8 -7 Residuen êij = yij − ȳ.. 7 8 22 -22 64 49 quadrierte Residuen ê2 49 64 ij 484 484 P SQ(Res; M2) = ij ê2 1 194 ij F G(M2) = n − 1 5 XII - 26 Erträge bei unterschiedlichen Düngern Berechnung der Prüfgröße für Datensatz I mit Hilfe der VarianzanalyseTabelle: FG SQ(Res) DQ(Res) F (oder P G) Differenz 1 294 294 294 Modell 1 Modell 2 4 5 4 298 1 Berechnung der Prüfgröße für Datensatz II mit der Varianzanalyse-Tabelle: FG SQ(Res) DQ(Res) F (oder P G) 1.31 Differenz 1 294 294 Modell 1 Modell 2 4 5 900 1 194 225 (Im Gegensatz zu Datensatz I wird hier H0 nicht abgelehnt, da PG ∉ A.) Kapitel XII – Varianzanalyse XII - 27 Erträge bei unterschiedlichen Düngern Je zwei Modelle für die beiden Datensätze im Dünger-Beispiel: Datensatz I: Modell 1 (zwei Dichten) 0.4 0.04 0.03 Dichte Dichte 0.3 0.2 0.02 0.1 0.01 0.0 0.00 20 30 40 50 60 70 80 90 110 130 20 30 40 50 60 die 6 Beobachtungen 70 80 90 110 130 die 6 Beobachtungen Modell 2 (eine Dichte) 0.08 0.04 Modell 2 (eine Dichte) 0.03 Dichte 0.06 Dichte Datensatz II: Modell 1 (zwei Dichten) 0.04 0.02 0.02 0.01 0.00 0.00 20 30 40 50 60 70 80 90 die 6 Beobachtungen Kapitel XII – Varianzanalyse 110 130 20 30 40 50 60 70 80 90 110 130 die 6 Beobachtungen XII - 28 Erträge bei unterschiedlichen Düngern Residuen der zwei Modelle für die zwei Datensätze: Datensatz I: Modell 1 (zwei Dichten) 0.4 0.04 0.03 Dichte 0.3 Dichte Datensatz II: Modell 1 (zwei Dichten) 0.2 0.02 0.1 0.01 0.0 0.00 -50 -40 -30 -20 -10 0 10 20 30 40 50 -50 -40 -30 -20 die 6 Residuen 10 20 30 40 50 30 40 50 Modell 2 (eine Dichte) 0.04 0.03 Dichte 0.06 Dichte 0 die 6 Residuen Modell 2 (eine Dichte) 0.08 -10 0.04 0.02 0.02 0.01 0.00 0.00 -50 -40 -30 -20 -10 0 10 die 6 Residuen Kapitel XII – Varianzanalyse 20 30 40 50 -50 -40 -30 -20 -10 0 10 20 die 6 Residuen XII - 29 Absatz in Abhängigkeit von der Art der Werbung Beispiel 12.2: Betrachtet wird der wöchentliche Absatz von ErdbeerJoghurt in einem Supermarkt von Oktober 1986 bis Juli 1988 in Abhängigkeit vom Anzeigentyp. Insgesamt liegen Verkaufszahlen für 21 Wochen vor, in denen das Produkt zu einem vergleichbaren Preis angeboten wurde: Anzeigentyp Beobachtungen Kapitel XII – Varianzanalyse keine klein 15 28 18 30 25 19 18 34 32 22 44 15 16 29 groß 27 23 35 46 45 22 33 XII - 30 Wöchentliche Verkaufszahlen Wöchentliche Verkaufszahlen in Abhängigkeit vom Anzeigentyp: 50 40 30 20 10 keine Anzeige Kapitel XII – Varianzanalyse kleine Anzeige große Anzeige XII - 31 Absatz in Abhängigkeit von der Art der Werbung Anhand des Boxplots lässt sich ein Zusammenhang zwischen der Art der Werbung und den Verkaufszahlen vermuten. Jedoch ist es nicht völlig klar, ob die Schwankungen nicht auch zufällig entstanden sein könnten. Es wird die Nullhypothese getestet, dass die erwartete wöchentliche Verkaufszahl für alle Anzeigentypen gleich ist: H0 : μ1 = μ2 = μ3 . Entsprechend ist die Alternativhypothese H1: Die Erwartungswerte μ1, μ2, μ3 sind nicht alle gleich. Somit werden folgende beiden Modelle betrachtet: Modell 1 (unter H1): i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7 yij = μi + eij Modell 2 (unter H0): i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7 yij = μ + eij Kapitel XII – Varianzanalyse XII - 32 Absatz in Abhängigkeit von der Art der Werbung Berechnung der SQ für beide Modelle: Modell 1 - Die Verteilungen sind verschieden. Anzeigentyp keine klein groß 15 34 27 28 32 23 18 22 35 Beobachtungen 30 44 46 25 15 45 19 16 22 18 29 33 ∗ ∗ Mittelwerte 22 27 33 -7 7 -6 6 5 -10 -4 -5 2 Residuen 8 17 13 3 -12 12 -3 -11 -11 -4 2 0 49 49 36 36 25 100 16 25 4 2 Residuen 64 289 169 9 144 144 9 121 121 16 4 0 SQ(Res; M1) 1 430 18 F G(M1 ) Kapitel XII – Varianzanalyse Modell 2 - Die Verteilungen sind identisch. Anzeigentyp keine klein groß 15 34 27 28 32 23 18 22 35 Beobachtungen 30 44 46 25 15 45 19 16 22 18 29 33 Mittelwert 27∗ -12 7 0 1 5 -4 -9 -5 8 Residuen 3 17 19 -2 -12 18 -8 -11 -5 -9 2 6 144 49 0 1 25 16 81 25 64 2 Residuen 9 289 361 4 144 324 64 121 25 81 4 36 SQ(Res; M2 ) 1 867 20 F G(M2 ) XII - 33 Absatz in Abhängigkeit von der Art der Werbung Tabelle der Varianzanalyse: FG SQ(Res) DQ(Res) F (oder P G) 2.75 Differenz 2 437 218.5 Modell 1 Modell 2 18 20 1 430 1 867 79.4 Für ein Signifikanzniveau von α = 0.05 erhält man einen kritischen Wert von 3.55. Als P-Wert ergibt sich 0.09. Insofern hängt es vom verwendeten Signifikanzniveau ab (d.h. von der gewünschten „Sicherheit“), ob die Nullhypothese verworfen wird oder nicht. Anhand der vorliegenden Daten ist man nicht in der Lage mit großer Sicherheit nachzuweisen, dass der Anzeigentyp tatsächlich keinen Einfluss auf die Absatzzahl hat. Kapitel XII – Varianzanalyse XII - 34 Absatz in Abhängigkeit von der Art der Werbung Nimmt man in diesem Fall ein Signifikanzniveau von α = 0.10 an, ergibt sich Modell 1 (mit den drei unterschiedlichen Erwartungswerten): μ̂1 = 22, μ̂2 = 27 und μ̂3 = 33. Die Varianz (die laut Annahme) für die drei Teilgesamtheiten identisch ist, entspricht der Varianz der Residuen. Diese wird geschätzt durch: SQ(Res; M1) 1430 2 σ̂M = DQ(Res; M1) = = ≈ 79.4. 1 FG(M1) 18 Unter Modell 2 hingegen ergibt sich ein geschätzter Erwartungswert von 27 mit folgender Varianz: SQ(Res; M2) 1867 2 σ̂M = DQ(Res; M2) = = = 93.35. 2 FG(M2) 20 Kapitel XII – Varianzanalyse XII - 35 Wöchentliche Verkaufszahlen Verteilungen unter Modell 1 und Modell 2: keine Anzeige kleine Anzeige große Anzeige gesamt 0.05 f(x) 0.04 0.03 0.02 0.01 0.00 0 20 40 60 x (wöchentliche Verkaufszahl) Kapitel XII – Varianzanalyse XII - 36 Kapitel 13 Der Zufall im Zeitverlauf – Zeitreihen und Indizes Kapitel XIII – Zeitreihen und Indizes XIII - 0 Übersicht Komponenten einer Zeitreihe: – Trend (Einfacher Trend, Konjunkturzyklus), – Saisonkomponente, – Residuen. Transformationen: – Additive und multiplikative Modelle. Zerlegung von Zeitreihen: – Gleitende Durchschnitte und Filterungen, – Schätzung der Saisonkomponente und der Residuen. Preisindizes: – Verbraucherpreisindex für Deutschland, – Preisindizes nach Laspeyres und nach Paasche. Weitere Indizes: – Mengen- und Umsatzindizes. Aktienindizes: – Deutscher Aktienindex (DAX) und Dow Jones Industrial Average Index (Dow Jones). Kapitel XIII – Zeitreihen und Indizes XIII - 1 Stichproben aus einer Grundgesamtheit Bisher wurden Stichproben betrachtet, welche aus einer Grundgesamtheit gezogen wurden: – Alter zufällig ausgewählter Personen, – Brenndauer von Glühbirnen, – Höhe von Bäumen, – Umsätze in verschiedenen Firmen, etc. Die Beobachtungen werden als unabhängige Realisationen einer Zufallsvariable betrachtet. Die Reihenfolge der Beobachtungen spielt keine Rolle bei der Analyse! Kapitel XIII – Zeitreihen und Indizes XIII - 2 Zeitreihen In der Zeitreihenanalyse werden Werte einer Variablen zu verschiedenen aufeinanderfolgenden Zeitpunkten an einem Merkmalsträger betrachtet, z.B.: – Monatlicher Umsatz einer Firma, – Wöchentliche Verkaufszahlen eines bestimmten Produkts, – Jährliche Anzahl der neu zugelassenen PKW in Göttingen, – Monatliche Arbeitslosenzahlen in Deutschland, – Täglicher Kurs einer Aktie, usw. ↑ Zeit In der Zeitreihenanalyse ist man an der zeitlichen Entwicklung der Werte dieser Variablen interessiert. Die Reihenfolge der Beobachtungen ist entscheidend! Kapitel XIII – Zeitreihen und Indizes XIII - 3 Zeitreihen: Notation Die Zeitpunkte, zu denen die Daten erhoben wurden, werden mit t = 1, 2, ..., n bezeichnet. Die Werte dieser Variablen werden dann mit x1, x2, ..., xn oder y1, y2, ..., yn bezeichnet. Beispiel: x1 x2 ... xt ... xn z.B. ist x2 der Wert der zweiten Beobachtung. Der erste Schritt in jeder Zeitreihenanalyse ist die graphische Darstellung. Kapitel XIII – Zeitreihen und Indizes XIII - 4 Monatliche Steuereinnahmen Beispiel 13.1: Monatliche Steuereinnahmen in Deutschland (in Mrd. €) von Jan. 1970 bis Dez. 2007: Jahr 1970 1971 1972 1973 ... 1989 1990 1991 1992 1993 ... 2003 2004 2005 2006 2007 Jan 4.8 5.4 6.4 7.3 ... 14.6 15.3 NA 22.5 22.6 ... 27.7 28.6 26.5 28.4 32.0 Febr 4.3 5.2 5.9 6.9 ... 17.3 17.3 NA 24.2 24.6 ... 27.7 28.7 29.6 30.8 36.0 Kapitel XIII – Zeitreihen und Indizes März 6.2 7.1 7.7 8.8 ... 22.3 22.5 NA 31.0 30.2 ... 28.8 26.9 29.5 31.6 36.5 Apr 4.3 5.1 6.0 6.4 ... 15.5 15.7 18.4 22.0 22.4 ... 26.9 29.4 27.3 30.0 34.6 Mai 4.7 5.3 5.9 6.6 ... 16.8 16.5 20.7 23.7 24.1 ... 30.7 30.0 31.3 33.8 37.3 Juni 7.0 7.2 7.9 9.6 ... 23.6 23.2 28.5 32.3 33.0 ... 37.8 38.6 37.9 41.1 46.2 Juli 5.1 5.6 6.2 7.4 ... 18.3 18.9 23.0 24.8 24.3 ... 31.5 28.6 29.3 32.7 34.9 Aug 5.5 6.0 6.9 7.5 ... 16.8 18.5 23.1 24.8 25.4 ... 27.9 28.2 28.6 30.1 33.4 Sept 7.1 7.6 8.6 9.8 ... 23.5 23.6 29.6 30.7 32.2 ... 36.6 36.5 38.1 41.2 45.4 Okt 5.0 5.8 6.8 7.4 ... 16.4 17.4 21.8 22.5 23.4 ... 28.4 26.7 27.8 30.5 32.0 Nov 5.7 6.1 7.0 7.9 ... 16.7 18.3 22.0 23.6 25.1 ... 28.1 28.0 27.7 29.9 32.8 Dez 9.0 10.1 11.8 13.5 ... 34.3 35.4 44.3 44.4 46.5 ... 58.3 56.3 58.5 60.9 64.4 XIII - 5 Monatliche Steuereinnahmen Monatliche Steuereinnahmen in Mrd. € (Deutschland, Jan. 1970 – Dez. 2007): 70 Steuereinnahmen (Mrd. €) 60 50 40 30 20 10 0 1970 1975 1980 1985 1990 1995 2000 2005 2008 Jahr Kapitel XIII – Zeitreihen und Indizes XIII - 6 Steuereinnahmen in den Monaten Januar, Februar und März 1991 Für die Monate Januar bis März 1991 sind keine Daten vorhanden: Jahr Jan Feb 1990 15.3 17.3 1991 – – 1992 22.5 24.2 1993 22.6 24.6 März Summe Jan (%) Feb (%) Mrz (%) 22.5 55.1 27.8 31.4 40.8 – 64.2 – – – 31.0 77.7 29.0 31.2 39.9 30.2 77.4 29.2 31.8 39.0 Zur Schätzung der fehlenden Werte werden die prozentuellen Anteile aus dem Folgejahr betrachtet und übertragen: Januar 1991: 29.0 % von 64.2 = 18.6 Februar 1991: 31.2 % von 64.2 = 20.0 März 1991: 39.9 % von 64.2 = 25.6 Somit ergibt sich folgende vervollständigte Tabelle: Jahr 1990 1991 1992 1993 Jan 15.3 18.6 22.5 22.6 Kapitel XIII – Zeitreihen und Indizes Feb März 17.3 22.5 20.0 25.6 24.2 31.0 24.6 30.2 Summe Jan (%) Feb (%) Mrz (%) 55.1 27.8 31.4 40.8 64.2 29.0 31.2 39.9 77.7 29.0 31.2 39.9 77.4 29.2 31.8 39.0 XIII - 7 Ziel der klassischen Zeitreihenanalyse Das Ziel der klassischen Zeitreihenanalyse ist es, die Zeitreihe in übersichtliche Komponenten zu zerlegen: – Trend Tt – Saisonkomponente St – Residuen et Der Trend soll die langfristige Entwicklung der Zeitreihe darstellen. Die Saisonkomponente soll das konstante Muster, das sich jedes Jahr wiederholt, beschreiben. Die Residuen sind die verbleibenden Abweichungen, wenn man den Trend- und die Saisonkomponente berücksichtigt hat. Kapitel XIII – Zeitreihen und Indizes XIII - 8 Additive und multiplikative Modelle Im additiven Modell werden die Werte der Zeitreihe als Summe der Komponenten dargestellt: xt = Tt + St + et , t = 1, 2, . . . , n Im multiplikativen Modell sind die Werte der Zeitreihe das Produkt der Komponenten: x t = T t · S t · et , t = 1, 2, . . . , n Wird der Logarithmus von xt im multiplikativen Modell gebildet, erhält man ein additives Modell für die Logarithmen der Werte: log(xt) = log(Tt · ST · et) = log(Tt) + log(St) + log(et) Das Ziel dieser Transformationen ist es, die Saisonschwankungen etwa gleich groß zu machen. Kapitel XIII – Zeitreihen und Indizes XIII - 9 Monat Kapitel XIII – Zeitreihen und Indizes Monat 0 5 0 Sep Aug Jul Jun Mai Dez 10 Dez 15 Nov 2005: prozentual Nov 20 Okt Monat Okt Sep 5 Aug 10 Jul Monat Jun 1990: prozentual Mai 20 Apr 1990: absolut Apr 0 Mar 10 Mar 20 Feb 30 Jan 40 Steuereinnahmen (Mrd. €) 50 Feb 15 Anteil am Jahresaufkommen (%) Dez Nov Okt Sep Aug Jul Jun Mai 60 Jan Dez Nov Okt 0 Sep 5 Aug 10 Jul Monat Jun 1975: prozentual Mai 20 Apr 0 Mar 1975: absolut Apr 10 Mar 20 Feb 30 Jan 40 Steuereinnahmen (Mrd. €) 50 Feb 15 Anteil am Jahresaufkommen (%) Dez Nov Okt Sep Aug Jul Jun Mai Apr Mar Feb Jan Steuereinnahmen (Mrd. €) 60 Jan Dez Nov Okt Sep Aug Jul Jun Mai Apr Mar Feb Jan Anteil am Jahresaufkommen (%) Monatliche Steuereinnahmen Monatliche Steuereinnahmen in den Jahren 1975, 1990 und 2005: 60 2005: absolut 50 40 30 20 10 0 Monat XIII - 10 Kapitel XIII – Zeitreihen und Indizes 30 30 30 Juli 30 20 20 20 20 10 10 10 10 0 0 0 0 -10 -10 -10 -10 30 30 30 November 30 20 20 20 20 10 10 10 10 0 0 0 0 -10 -10 -10 -10 2005 -10 Dezember 2005 -10 2005 -10 2000 -10 2000 0 2000 0 1995 0 1995 0 1995 10 1990 10 1990 10 1990 10 1985 20 1985 März 1985 20 1980 20 1980 20 1980 30 1975 30 1975 1970 2005 2000 1995 1990 30 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 2005 2000 1995 1990 30 1970 2005 2000 1995 1990 Juni 1985 1980 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 Februar 1985 Oktober 1980 1975 1970 2005 2000 1995 September 1990 Mai 1985 1980 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 Januar 1985 1980 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 Additive und multiplikative Modelle Abweichungen der Monatswerte vom Jahresdurchschnitt: April August XIII - 11 Additive und multiplikative Modelle Abweichungen der logarithmierten Monatswerte vom Jahresdurchschnitt: 0.4 0.4 0.2 0.2 0.2 0.2 1970 2005 2000 Kapitel XIII – Zeitreihen und Indizes 2005 2000 1995 1995 2005 2000 -0.4 1995 -0.4 1990 -0.4 1985 -0.4 1980 -0.2 1975 -0.2 1970 -0.2 2005 -0.2 2000 0.0 1995 0.0 1990 0.0 1985 0.0 1980 0.2 1975 0.4 0.2 1970 0.4 0.2 2005 0.4 0.2 2000 0.4 1995 0.6 1990 0.6 1985 0.6 1980 0.6 1975 0.8 1970 0.8 1990 Dezember 0.8 1985 1995 1990 1985 November 0.8 1980 Oktober 1980 1975 1970 2005 2000 1995 1990 1985 1980 1975 1970 2005 -0.4 2000 -0.4 1995 -0.4 1990 -0.4 1985 0.0 -0.2 1980 0.0 -0.2 1975 0.0 -0.2 1970 0.0 -0.2 2005 0.4 2005 0.4 2000 0.6 2000 0.6 1995 0.6 1990 0.6 1985 0.8 1980 August 0.8 September 1990 1970 2005 2000 1995 Juli 0.8 1975 Juni 0.8 1975 Mai 1990 -0.4 1985 -0.4 1980 -0.4 1975 -0.4 1970 -0.2 2005 -0.2 2000 -0.2 1995 -0.2 1990 0.0 1985 0.0 1980 0.0 1975 0.0 1970 0.2 2005 0.2 2000 0.2 1995 0.2 1990 0.4 1985 0.6 0.4 1980 0.6 0.4 1975 0.6 0.4 1970 0.6 1985 April 0.8 1980 März 0.8 1975 Februar 0.8 1970 Januar 0.8 XIII - 12 Monatliche Steuereinnahmen – Logarithmierte Werte Logarithmen der monatlichen Steuereinnahmen: 4.5 logarithmierte Steuereinnahmen (log(Mrd. €)) 4.0 3.5 3.0 2.5 2.0 1.5 1970 1975 Kapitel XIII – Zeitreihen und Indizes 1980 1985 1990 1995 2000 2005 2008 XIII - 13 Additive und multiplikative Modelle Beispiel einer Zeitreihe, die weder multiplikativ noch additiv ist: Kapitel XIII – Zeitreihen und Indizes 2008 2007 2006 2005 2004 2003 2002 2001 2008 2007 2006 2005 2004 2003 2002 2001 0 2000 0 1999 0 1998 2 2008 1 2007 10 2006 4 2005 2 2004 20 2003 6 2002 3 2001 30 2000 8 1999 4 1998 40 2000 Quadratwurzeltransformierte Werte 1999 log-transformierte Werte 1998 untransformierte Werte XIII - 14 Zerlegung von Zeitreihen – Additive Modelle Betrachtet werden additive Modelle, d.h. xt = Tt + St + et. Vorgehensweise bei der Zerlegung einer Zeitreihe: 1. Der Trend Tt wird durch Glättung (Filterung) geschätzt. 2. Die Saisonkomponenten St werden durch Durchschnitte geschätzt. 3. Die Residuen et ergeben sich durch die folgenden Differenzen: et = xt − Tt − St. Manchmal wird der Trend Tt in zwei weitere Komponenten zerlegt, nämlich den einfachen Trend Rt und den Konjunkturzyklus Zt : Tt = Rt + Zt. Dabei wird der einfache Trend i.d.R. durch eine einfache Gerade geschätzt. Kapitel XIII – Zeitreihen und Indizes XIII - 15 Einfache gleitende Durchschnitte Ein einfacher gleitender Durchschnitt ist gegeben durch xt−1 + xt + xt+1 , Dt = 3 t = 2, 3, · · · , n − 1, d.h. der einfache gleitende Durchschnitt zum Zeitpunkt t ist der Durchschnitt aus xt und den beiden benachbarten Werten xt-1 und xt+1 . Bestimmung von Dt für t = 4 12 x t, D t 10 8 6 4 D4= (x3 + x4 + x5) 3 xt Dt 2 5 10 15 20 t Kapitel XIII – Zeitreihen und Indizes XIII - 16 Einfache gleitende Durchschnitte Einfache gleitende Durchschnitte sind zentriert: Mitte ↓ xt−1 + xt + xt+1 Dt = 3 ↑ eine ungerade Zahl Dt = Mitte ↓ xt−2 + xt−1 + xt + xt+1 + xt+2 5 ↑ eine ungerade Zahl Folgende Beispiele sind nicht zentrierte Durchschnitte: xt−1 + xt Dt−1/2 = 2 ↑ eine gerade Zahl Kapitel XIII – Zeitreihen und Indizes oder xt + xt+1 Dt+1/2 = 2 ↑ eine gerade Zahl XIII - 17 Allgemeine Definition gleitender Durchschnitte Allgemeine Definition eines gleitenden Durchschnittes: xt−a + . . . + xt + . . . + xt+a Dt = 2a + 1 a X 1 xt+i = 2a + 1 i=−a – Dt ist definiert für t = a + 1, a + 2, ..., n – a . – Dt ist nicht definiert für t ≤ a und für t > n – a . Beispiel für a = 2 : 2 1 X Dt = xt+i 5 i=−2 – Dt ist definiert für t = 3, 4, ..., n – 2 . – Dt ist nicht definiert für t ≤ 2 und für t > n – 2 . Kapitel XIII – Zeitreihen und Indizes XIII - 18 Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006) Aktienkurse (Deutsche Bank) und gleitende Durchschnitte für a = 1, 2 u. 5: Index 1 2 3 4 5 6 7 8 9 10 11 ... 313 314 315 316 317 318 319 320 321 322 Datum 03. 04. 05. 06. 07. 10. 11. 12. 13. 14. 17. 20. 21. 22. 23. 24. 27. 28. 29. 30. 31. Jan Jan Jan Jan Jan Jan Jan Jan Jan Jan Jan ... Mrz Mrz Mrz Mrz Mrz Mrz Mrz Mrz Mrz Mrz Kapitel XIII – Zeitreihen und Indizes 05 05 05 05 05 05 05 05 05 05 05 06 06 06 06 06 06 06 06 06 06 Kurs a=1 Kurs a=2 Kurs a=5 65.76 65.47 64.62 66.68 67.07 67.04 66.26 65.10 65.10 66.76 67.12 ... 95.40 94.91 94.77 94.60 95.00 94.00 93.30 93.44 94.75 94.25 — 65.28 65.59 66.12 66.93 66.79 66.13 65.49 65.65 66.33 66.99 ... 94.94 95.03 94.76 94.79 94.53 94.10 93.58 93.83 94.15 — 65.76 65.47 64.62 66.68 67.07 67.04 66.26 65.10 65.10 66.76 67.12 ... 95.40 94.91 94.77 94.60 95.00 94.00 93.30 93.44 94.75 94.25 — — 65.92 66.18 66.33 66.43 66.11 66.05 66.07 66.23 66.50 ... 94.72 94.84 94.94 94.66 94.33 94.07 94.10 93.95 — — 65.76 65.47 64.62 66.68 67.07 67.04 66.26 65.10 65.10 66.76 67.12 ... 95.40 94.91 94.77 94.60 95.00 94.00 93.30 93.44 94.75 94.25 — — — — — 66.09 66.21 66.30 66.38 66.25 66.01 ... 94.44 94.42 94.35 94.43 94.45 — — — — — XIII - 19 Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006) Zeitreihe und gleitender Durchschnitt (a = 5): 120 I/06 II/06 III/06 IV/06 I/07 II/07 III/07 IV/07 Schlusskurs (€) 110 100 90 80 100 Kapitel XIII – Zeitreihen und Indizes 200 300 400 500 XIII - 20 Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006) Zeitreihe und gleitender Durchschnitt (a = 1, 5, 10 und 25): a=1 120 I/06 II/06 III/06 IV/06 a=5 I/07 II/07 III/07 IV/07 120 110 110 100 100 90 90 80 80 100 200 300 400 I/06 500 II/06 III/06 100 200 a = 10 120 I/06 II/06 III/06 IV/06 I/07 II/07 III/07 IV/07 120 110 100 100 90 90 80 80 200 Kapitel XIII – Zeitreihen und Indizes 300 I/07 II/07 300 III/07 400 IV/07 500 a = 25 110 100 IV/06 400 500 I/06 II/06 100 III/06 IV/06 200 I/07 300 II/07 III/07 400 IV/07 500 XIII - 21 Gewichtete gleitende Durchschnitte Der einfache gleitende Durchschnitt ist definiert als Dt = a ³ P i=−a ´ 1 2a+1 xt+i für t = a+1, . . . , n−a. Der gewichtete gleitende Durchschnitt ist gegeben durch Dt = b P i=−a λi xt+i – Gewichte bzw. Filter: – Bedingung: für t = a+1, . . . , n−b. λ−a , λ−a+1, . . . , λb b P i=−a λi = 1 Der einfache gleitende Durchschnitt ist ein Sonderfall des gewichteten gleitenden Durchschnitts für a = b und λi = Kapitel XIII – Zeitreihen und Indizes ³ ´ 1 2a+1 . XIII - 22 Gleitende Durchschnitte als Trendschätzer Gleitende Durchschnitte werden zur Berechnung des Trends verwendet. Der Trend ist gleich einem geeigneten gleitenden Durchschnitt. Es stellt sich die Frage, welcher gleitender Durchschnitt verwendet werden soll. Hierzu gibt es keine eindeutigen Vorgaben, d.h. die Wahl hängt vom verfolgten Ziel ab: – Große a führen zu einem glatten Trend, der (tendenziell) die grobe, langfristige Entwicklung der Zeitreihe beschreibt. – Kleinere a führen zu einem weniger glatten Trend, der (tendenziell) die kurzfristige Entwicklung der Zeitreihe beschreibt. Kapitel XIII – Zeitreihen und Indizes XIII - 23 Gleitende Durchschnitte bei Monatsdaten Ein einfacher gleitender Durchschnitt ist nicht geeignet zur Trendschätzung von Monatsdaten: – Die Saisonschwankungen werden nicht eliminiert. – Um die Saisonschwankungen zu bereinigen, muss der Filter so gewählt werden, dass alle Monate im Filter gleich gewichtet sind. – Bei Monatsdaten bedeutet das, dass für jeden Monat das Gewicht 1/12 sein soll. Ein geeigneter Filter für Monatsdaten ist: xt+6 xt−6 xt−5 + xt−4 + · · · + xt + · · · + xt−4 + xt−5 Dt = + + 24 12 24 | {z } | {z 11 Monate } | {z } Der selbe Monat Kapitel XIII – Zeitreihen und Indizes XIII - 24 Gleitende Durchschnitte bei Monatsdaten Logarithmen der monatlichen Steuereinnahmen und einfacher gleitender Durchschnitt (a = 1): logarithmierte Steuereinnahmen (log(Mrd. €)) 4.5 4.0 3.5 3.0 2.5 1992 1993 Kapitel XIII – Zeitreihen und Indizes 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 25 Zentrierte Filter Filter für Monatsdaten: Jul Aug Sep Okt N ov Dez Jan F eb M rz Apr M ai Jun Jul λ−6 λ−5 λ−4 λ−3 λ−2 λ−1 λ0 λ1 λ2 λ3 λ4 λ5 λ6 1 1 1 1 1 1 1 1 1 1 1 1 1 24 12 12 12 12 12 12 12 12 12 12 12 24 Filter für Quartalsdaten: QIII QIV λ−2 λ−1 1 1 8 4 QI λ0 1 4 QII QIII λ1 λ2 1 1 4 8 Filter für Halbjahresdaten: H2 H1 H2 λ−1 λ0 λ1 1 1 1 4 2 4 Kapitel XIII – Zeitreihen und Indizes XIII - 26 Zentrierte Filter Logarithmen der monatlichen Steuereinnahmen und zentrierter gleitender Durchschnitt: logarithmierte Steuereinnahmen (log(Mrd. €)) 4.5 4.0 3.5 3.0 2.5 1992 1993 Kapitel XIII – Zeitreihen und Indizes 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 27 Berechnung der Saisonkomponenten Die Saisonkomponente ist definiert als das konstante Muster, das sich jedes Jahr wiederholt. Weiterhin wurde die Zeitreihe so transformiert, dass dieses Muster annähernd konstant ist. Vorgehensweise zur Berechnung der Saisonkomponente: (1) Ausgehend von einem additiven Modell xt = Tt + St + et wird zunächst der Trend durch Filterung bestimmt, d.h. Tt = Dt . (2) Anschließend wird der Trend von der ursprünglichen Zeitreihe abgezogen. Somit erhält man trendbereinigte Daten: xt – Tt = St + et . (3.a) Die Saisonkomponente ergibt sich anschließend als St = Mittelwert aller St + et derselben Saison. (3.b) Die Residuen ergeben sich durch et = xt – Tt – St . Kapitel XIII – Zeitreihen und Indizes XIII - 28 Beispiel: Steuereinnahmen 1. Schritt: Trendbestimmung durch Filterung (hier: Zentrierter Filter für Monatsdaten). logarithmierte Steuereinnahmen (log(Mrd. €)) 4.5 4.0 3.5 3.0 2.5 1992 1993 Kapitel XIII – Zeitreihen und Indizes 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 29 Berechnung der Saisonkomponenten 2. Schritt: Trendbereinigung der Zeitreihe ergibt Saisonkomponente und Residuen. s t + e t für Saison = Dezember Mittelwert von S t + e t für Dezember Saisonkomponente + Residuen (log(Mrd. €)) 0.8 0.6 0.4 0.2 0.0 -0.2 1992 1993 Kapitel XIII – Zeitreihen und Indizes 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 30 Berechnung der Saisonkomponenten 3. Schritt: Saisonkomponenten als Mittelwert der St + et . Saisonkomponente (log(Mrd. €)) 0.6 0.4 0.2 0.0 -0.2 1 2 Kapitel XIII – Zeitreihen und Indizes 3 4 5 6 7 8 9 10 11 12 XIII - 31 Residuen Residuen (log(Mrd. €)) Bestimmung der Residuen: 0.2 0.1 0.0 -0.1 -0.2 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 10 Dichte 8 6 4 2 0 -0.2 Kapitel XIII – Zeitreihen und Indizes -0.1 0.0 Residuen 0.1 0.2 XIII - 32 Steuereinnahmen: Trend, Saison und Residuen Darstellung der Komponenten der Zeitreihe: Trend log(Mrd. €) 4.0 3.5 3.0 2.5 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2001 2002 2003 2004 2005 2006 2007 2001 2002 2003 2004 2005 2006 2007 Saison log(Mrd. €) 1.0 0.5 0.0 -0.5 1992 1993 1994 1995 1996 1997 1998 1999 2000 Residuen log(Mrd. €) 1.0 0.5 0.0 -0.5 1992 1993 1994 Kapitel XIII – Zeitreihen und Indizes 1995 1996 1997 1998 1999 2000 XIII - 33 Steuereinnahmen: Trend, Saison und Residuen Monatliche Steuereinnahmen und angepasstes Modell: 70 Steuereinnahmen (Mrd. €) 60 50 40 30 20 10 0 Steuereinnahmen angepasstes Modell 1992 1993 1994 Kapitel XIII – Zeitreihen und Indizes 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 34 Indizes – Beispiele Oft ist man nicht nur an einer einzelnen Zeitreihe interessiert, sondern an der Entwicklung einer Menge von Zeitreihen, z.B. Preisindizes: – Index der Erzeugerpreise gewerblicher Produkte, – Index der Einzelhandelspreise, – Verbraucherpreisindex, ... Aktienindizes: – Deutscher Aktienindex (DAX), – Dow Jones Industrial Average Index, – Nikkei, ... Kapitel XIII – Zeitreihen und Indizes XIII - 35 Preisentwicklung Betrachtet wird der durchschnittliche Verbraucherpreis (in Cent / Liter) für bleifreies Normalbenzin von 1995 bis 2007: 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 76.8 80.1 82.7 78.7 84.1 99.3 100.2 102.8 107.4 111.9 120.0 126.7 132.7 140 Durchschnittspreis (Cent/Liter) 130 120 110 100 90 80 70 1995 Kapitel XIII – Zeitreihen und Indizes 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 XIII - 36 Basisjahr und Preismessziffern Die Preismessziffer beschreibt die Änderung des Preises gegenüber einem Basisjahr: Preis im Jahr t pt . = p0 Preis im Basisjahr Preismessziffern für 1 Liter Normalbenzin: Jahr t pt pt/p0 1995 0 76.8 1.00 1996 1 80.1 1.04 1997 2 82.7 1.08 1998 3 78.7 1.02 1999 4 84.1 1.10 2000 5 99.3 1.29 Jahr t pt pt/p0 2002 7 102.8 1.34 2003 8 107.4 1.40 2004 9 111.9 1.46 2005 10 120.0 1.56 2006 11 126.7 1.65 2007 12 132.7 1.73 Kapitel XIII – Zeitreihen und Indizes 2001 6 100.2 1.30 XIII - 37 Indizes Es ist nahezu unmöglich und in vielen Fällen auch wenig sinnvoll die Zeitreihen aller Preise einzeln zu betrachten. Übersichtlicher ist die Zusammenfassung der Zeitreihen in wenigen Preisindizes. Das Statistische Bundesamt veröffentlicht laufend eine Vielzahl von Preisindizes, wie z.B.: – Index der Erzeugerpreise gewerblicher Produkte, – Index der Großhandelsverkaufspreise, – Preisindex für Wohngebäude, – Verbraucherpreisindex für Telekommunikationsdienstleistungen, – Preisindex für die Personenbeförderung im Luftverkehr, ... Ein wichtiger Index ist der Verbraucherpreisindex für Deutschland. Kapitel XIII – Zeitreihen und Indizes XIII - 38 Aktuelle Teilbereiche des Verbraucherpreisindex Der Verbraucherpreisindex umfasst aktuell folgende Teilbereiche: 1. Nahrungsmittel und alkoholfreie Getränke 2. Alkoholische Getränke, Tabakwaren 3. Bekleidung und Schuhe 4. Wohnung, Wasser, Strom und andere Brennstoffe 5. Einrichtungsgegenstände (Möbel), Apparate, Geräte und Ausrüstungen für den Haushalt sowie deren Instandhaltung 6. Gesundheitspflege 7. Verkehr 8. Nachrichtenübermittlung 9. Freizeit, Unterhaltung und Kultur 10.Bildungswesen 11.Beherbergungs- und Gaststättendienstleistungen 12.Andere Waren und Dienstleistungen Kapitel XIII – Zeitreihen und Indizes XIII - 39 Warenkörbe Gewichtung bei der Berechnung des Verbraucherpreisindex: Nr. Untergruppe 1995 2000 2005 1 2 3 4 5 6 7 8 9 10 11 12 Nahrungsmittel Alk. Getränke / Tabakw. Bekleidung / Schuhe Wohnung, ... Einrichtungsgegenstände, ... Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit / Kultur Bildungswesen Beherbergung / Gaststätten andere Waren / Dienstl. 13.1 4.2 6.9 27.5 7.0 3.4 13.9 2.3 10.4 0.6 4.6 6.1 10.3 3.7 5.5 30.3 6.8 3.5 13.9 2.5 11.1 0.7 4.7 7.0 10.4 3.9 4.9 30.8 5.6 4.0 13.2 3.1 11.6 0.7 4.4 7.4 100.0 100.0 100.0 P Gesamtlebenshaltung Kapitel XIII – Zeitreihen und Indizes XIII - 40 Umstellung des Verbraucherpreisindex Der dem Index zugrundeliegende Warenkorb wird laufend aktualisiert und somit dem laufenden Güterangebot angepasst. Das Wägungsschema, das zur Berechnung des Index aus den einzelnen Preisen verwendet wird, wird nur alle fünf Jahre angepasst. Die Gewichtung bzw. eine Änderung dieser kann zwei Ursachen haben, nämlich eine Preisänderung und eine Mengenänderung. Zur Bestimmung der jährlichen Preissteigerung können zwei aufeinanderfolgende Indexwerte durcheinander geteilt werden. Beispielsweise ergibt sich für 2002: (95.9 / 94.5 – 1)· 100% = 1.5%. D.h. dass die Preise in 2002 1.5% höher waren als im Vorjahr. Kapitel XIII – Zeitreihen und Indizes XIII - 41 Gewichtung der Untergruppen bei der Berechnung Verbraucherpreisindex (bezogen auf das Basisjahr 2005): Jahr Nahrungsmittel Alk. Getränke / Tabakw. Bekleidung / Schuhe Wohnung, ... Einrichtungsgegenstände, ... Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit / Kultur Bildungswesen Beherbergung / Gaststätten andere Waren / Dienstl. Gesamtlebenshaltung Kapitel XIII – Zeitreihen und Indizes 2000 95.3 77.5 101.9 91.3 98.4 80.6 87.9 106.6 101.3 89.5 93.1 91.7 92.7 2001 99.6 78.8 102.7 93.5 99.3 81.6 90.1 100.3 101.9 90.6 94.9 94.4 94.5 2002 100.4 82.0 103.4 94.4 100.2 82.1 91.9 102.0 102.6 93.0 98.3 96.3 95.9 2003 100.3 86.3 102.6 95.8 100.5 82.5 93.9 102.7 102.0 95.0 99.1 97.9 96.9 2004 99.9 92.2 101.9 97.3 100.3 98.3 96.1 101.8 101.1 98.1 99.9 99.3 98.5 2005 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 2006 102.0 103.0 99.4 102.9 99.8 100.5 103.0 96.0 99.5 101.5 101.2 101.1 101.6 2007 105.9 106.4 100.7 104.9 101.0 101.3 106.9 94.9 99.8 126.9 104.0 103.7 103.9 XIII - 42 Verbraucherpreisindex (bezogen auf das Basisjahr 2005) Zeitliche Entwicklung des Verbraucherpreisindex (2005 = 100): 130 Verbraucherpreisindex 120 110 100 90 80 70 2000 2001 2002 2003 2004 2005 2006 2007 Jahr Kapitel XIII – Zeitreihen und Indizes XIII - 43 Verbraucherpreisindex (bezogen auf das Basisjahr 2005) Verbraucherpreisindex für die 12 Teilbereiche (2005 = 100): Nahrungsm ittel Alk. Getränke / Tabakw . Bekleidung / Schuhe Wohnung, ... 130 130 130 130 120 120 120 120 110 110 110 110 100 100 100 100 90 90 90 90 80 80 80 80 70 70 2000 2002 2004 2006 70 2000 Einrichtungsgegenstände, ... 2002 2004 2006 70 2000 Gesundheitspflege 2002 2004 2006 2000 Verkehr 130 130 130 120 120 120 120 110 110 110 110 100 100 100 100 90 90 90 90 80 80 80 80 70 2000 2002 2004 2006 70 2000 Freizeit / Kultur 2002 2004 2006 2002 2004 2006 2000 Beherbergung / Gaststätten 130 130 130 120 120 120 120 110 110 110 110 100 100 100 100 90 90 90 90 80 80 80 80 70 70 70 70 2002 2004 2006 Kapitel XIII – Zeitreihen und Indizes 2000 2002 2004 2006 2000 2002 2004 2006 2002 2004 2006 andere Waren / Dienstl. 130 2000 2006 70 2000 Bildungsw esen 2004 Nachrichtenüberm ittlung 130 70 2002 2000 2002 2004 2006 XIII - 44 Notation Zur Bestimmung von Preisindizes wird ein Warenkorb mit n Gütern betrachtet. Darüber hinaus werden folgende Werte berücksichtigt: (1) (2) (n) (1) (2) (n) Preise in der Basisperiode: p0 , p0 , . . . , p0 Mengen in der Basisperiode: q 0 , q 0 , . . . , q0 Preise in der Berichtsperiode: pt (1) , pt (1) , qt Mengen in der Berichtsperiode: qt (2) (2) (n) , . . . , pt (n) , . . . , qt Zunächst wird die Preismessziffer für die n Güter des Warenkorbs gebildet: (i) pt (i) p0 i = 1, 2, . . . n . Kapitel XIII – Zeitreihen und Indizes XIII - 45 Arithmetisches Mittel der Preismessziffern Ursprünglich (bis zu den Arbeiten von Laspeyres und Paasche 1871 bzw. 1874) wurde zur Beschreibung der Preisentwicklung das arithmetische Mittel der Preismessziffern eingesetzt: (i) n 1 X pt Pt = . (i) n i=1 p 0 Problematisch dabei ist, dass jedes Gut mit dem gleichen Gewicht 1 / n in die Berechnung fließt. Somit hätte ein Preisanstieg von 20% für Brot denselben Einfluss auf den Index wie ein Preisanstieg von 20% für Kiwis. Es bietet sich hier an, ein gewichtetes arithmetisches Mittel (i) n X pt Pt = g (i) i i=1 p0 als Preisindex zu verwenden, wobei gi den Gewichtungsfaktor für Gut i bezeichnet. Kapitel XIII – Zeitreihen und Indizes XIII - 46 Gewichtetes arithmetisches Mittel der Preismessziffern Ein plausibler (und häufig eingesetzter) Gewichtungsfaktor ist der Umsatzanteil des Gutes i in der Basisperiode: (i) (i) p 0 q0 , wobei der Gesamtumsatz aller Produkte in der Basisperiode gegeben ist durch: n X j=1 (j) (j) p0 q0 . Der Gewichtungsfaktor ergibt sich als Anteil am Gesamtumsatz in der Basisperiode : (i) (i) p 0 q0 gi = P n j=1 (j) (j) p0 q0 Kapitel XIII – Zeitreihen und Indizes . XIII - 47 Index nach Laspeyres Einsetzen des Anteils am Gesamtumsatz in den Preisindex ergibt: (i) (i) n n X X pt pt Pt = g = (i) i (i) p p i=1 0 i=1 0 ⎛ ⎞ n P (i) (i) pt q0 ⎜ (i) (i) ⎟ ⎜ p 0 q0 ⎟ ⎜ ⎟ = i=1 ⎜ P n n P (j) (j) ⎟ (j) (j) ⎝ ⎠ p0 q 0 p0 q0 j=1 j=1 In Kurzform wird der Preisindex nach Laspeyres wie folgt geschrieben: P pt q0 L Pt = P p0q0 Der Preisindex nach Laspeyres beruht nur auf Preisänderungen in der Berichtsperiode gegenüber der Basisperiode. Kapitel XIII – Zeitreihen und Indizes XIII - 48 Index nach Paasche Ein alternativer Ansatz zur Konstruktion eines Preisindex ergibt sich, wenn für den Gewichtungsfaktor der Anteil am Gesamtumsatz die Mengen der Berichtsperiode betrachtet werden: (i) (i) p0 q t t gi = P n (j) (j) p0 qt (i) (i) anstelle von j=1 p0 q0 gi = P . n (j) (j) p0 q0 j=1 Mit diesem Gewichtungsfaktor ergibt sich folgender Preisindex: (i) (i) n n X X pt p t Pt = git = (i) (i) p p i=1 0 i=1 0 Preisindex nach Paasche: Kapitel XIII – Zeitreihen und Indizes ⎛ ⎞ n P (i) (i) pt qt ⎜ (i) (i) ⎟ ⎜ p 0 qt ⎟ ⎜ ⎟ = i=1 ⎜ P n n P (j) (j) ⎟ (j) (j) ⎝ ⎠ p0 qt p0 qt j=1 j=1 PtP P =P pt qt p0qt XIII - 49 Vorteile und Nachteile Beim Preisindex nach Laspeyres bleibt das Gewichtungsschema konstant, d.h. der Index spiegelt die reine Preisänderung wider. Somit sind die Vergleichbarkeit der Indexwerte eher gewährleistet als beim PaascheIndex. Beim Preisindex nach Paasche wird das Gewichtungsschema laufend aktualisiert. Somit werden die aktuellen Verbrauchsgewohnheiten berücksichtigt. Beim Laspeyres-Index muss hierzu erst der zugrundeliegende Warenkorb überarbeitet werden. Die Berechnung des Laspeyres-Index ist einfacher, da es einfacher ist, Preise zu erheben als Verbrauchsgewohnheiten. Bei neuen Gütern, die in der Basisperiode noch nicht vorhanden waren, existieren keine Preise und Mengen der Basisperiode, so dass zur Indexberechnung spezielle Kunstgriffe nötig sind. Kapitel XIII – Zeitreihen und Indizes XIII - 50 Mengen und Preise für Zigaretten, Bier und Kaffee (Beamten-Haushalte) Mengen und Preise für Zigaretten, Bier und Kaffee: Jahr 1990=0 ˆ Gut i Z [St.] B [l] K [kg] (i) 1991=1 ˆ (i) q0 p0 56 0.19 15.3 1.87 1.229 15.17 (i) 1992=2 ˆ (i) q1 p1 43 0.20 14.1 1.91 1.177 14.81 Preisindex nach Laspeyres: (i) 1993=3 ˆ (i) (i) q2 p2 q3 38 0.22 45 15 2.02 12.9 1.202 15.10 1.196 1994=4 ˆ (i) (i) 1995=5 ˆ (i) (i) (i) p3 q4 p4 q5 p5 0.22 39 0.23 26 0.24 2.10 12.5 2.09 13.1 2.10 15.06 1.136 16.78 1.132 18.02 P pq PtL = P p t q0 0 0 P1L = 0.20·56+1.91·15.3+14.81·1.229 0.19·56+1.87·15.3+15.17·1.229 = 1.013 = 101.3% P5L = 0.24·56+2.10·15.3+18.02·1.229 0.19·56+1.87·15.3+15.17·1.229 = 1.170 = 117.0% Preisindex nach Paasche: P pq PtP = P p t qt 0 t P1P = 0.20·43+1.91·14.1+14.81·1.177 0.19·43+1.87·14.1+15.17·1.177 = 1.011 = 101.1% P5P = 0.24·26+2.10·13.1+18.02·1.132 0.19·26+1.87·13.1+15.17·1.132 = 1.162 = 116.2% Kapitel XIII – Zeitreihen und Indizes XIII - 51 Mengen und Preise für Zigaretten, Bier und Kaffee Mengen und Preise für Zigaretten, Bier und Kaffee: Zigaretten (Menge) Zigaretten (Preis) 100 0.26 80 0.24 60 0.22 40 0.20 20 0.18 0 0.16 1990 1991 1992 1993 1994 1995 1990 1991 Bier (Menge) 1992 1993 1994 1995 1994 1995 1994 1995 Bier (Preis) 20 2.3 18 2.2 16 2.1 14 2.0 12 1.9 10 Beamte Angestellte 1.8 1990 1991 1992 1993 1994 1995 1990 1991 Kaffee (Menge) 20 1.20 18 1.15 16 1.10 14 1.05 12 1.00 10 1991 1992 Kapitel XIII – Zeitreihen und Indizes 1993 1993 Kaffee (Preis) 1.25 1990 1992 1994 1995 1990 1991 1992 1993 XIII - 52 Warenkorb aus Zigaretten, Bier und Kaffee (Basisjahr 1990) Preisindex nach Laspeyres: 1990 1991 1992 1993 1994 1995 Beamte 100.0 101.3 106.7 108.7 113.1 117.0 Angestellte 100.0 102.3 105.3 106.5 111.0 113.8 Preisindex nach Paasche: 1990 1991 Beamte 100.0 101.1 Angestellte 100.0 102.4 Kapitel XIII – Zeitreihen und Indizes 1992 1993 1994 1995 106.1 108.2 112.8 116.1 105.2 106.3 111.0 113.8 XIII - 53 Mengenindizes Mengenindizes sind analog zu den Preisindizes konzipiert. An Stelle der Preismessziffern werden Mengenziffern betrachtet: (i) qt (i) q0 i = 1, 2, . . . n Somit ergibt sich die allgemeine Indexformel für einen Mengenindex: (i) n X qt Qt = g , (i) i i=1 q0 wobei als Gewichtungsfaktor eines Gutes der entsprechende Umsatzanteil betrachtet wird. Kapitel XIII – Zeitreihen und Indizes XIII - 54 Mengenindizes – Formeln Mengenindex nach Laspeyres: (i) (i) n n X X q q t g = t QL i t = (i) (i) i=1 q0 i=1 q0 P p0 q t L Qt = P p0 q 0 Mengenindex nach Paasche: ⎛ ⎞ ⎛ ⎞ n P (i) (i) p0 qt ⎜ (i) (i) ⎟ ⎜ p0 q0 ⎟ ⎜ ⎟ = i=1 ⎜ P n n P (j) (j) ⎟ (j) (j) ⎝ ⎠ p0 q0 p 0 q0 j=1 j=1 n P (i) (i) p ⎜ ⎟ (i) (i) (i) (i) n n t qt X X ⎜ ⎟ p q q q t= t t t ⎜ 0 ⎟ = i=1 QP = g t ⎟ n n P P (i) i (i) ⎜ (j) (j) (j) (j) ⎝ ⎠ i=1 q0 i=1 q0 pt q0 pt q0 j=1 j=1 P ptqt P Qt = P p t q0 Kapitel XIII – Zeitreihen und Indizes XIII - 55 Preis-und Mengenindizes nach Laspeyres und Paasche Zusammenfassung, Preis- und Mengenindex nach Laspeyres und nach Paasche: Preisindex Laspeyres Paasche P pt q0 L Pt = P p0q0 P ptqt P Pt = P p0qt Mengenindex P p0qt L Qt = P p0 q0 P ptqt P Qt = P ptq0 P ptqt . Für den Umsatzindex gibt es nur eine Formel: Ut = P p0q0 Kapitel XIII – Zeitreihen und Indizes XIII - 56 Beispiel: Mengenindizes Beispiel: Mengenindizes. Jahr Gut i Z [St.] B [l] K [kg] 1990=0 ˆ (i) q0 1995=5 ˆ (i) p0 (i) q5 (i) p5 56 0.19 26 0.24 15.3 1.87 13.1 2.10 1.229 15.17 1.132 18.02 P p 0 qt L Mengenindex nach Laspeyres: Qt = P . p0q0 0.19·26+1.87·13.1+15.17·1.132 QL = 5 0.19·56+1.87·15.3+15.17·1.229 = 0.805 Mengenindex nach Paasche: = 80.5% P ptqt P Qt = P . pt q 0 0.24·26+2.1·13.1+18.02·1.132 QP = 5 0.24·56+2.1·15.3+18.02·1.229 = 0.800 = 80.0% Kapitel XIII – Zeitreihen und Indizes XIII - 57 Umsatzindex für den Warenkorb aus Zigaretten, Bier und Kaffee Umsatzindex für den Warenkorb aus Zigaretten, Bier und Kaffee (Basisjahr 1990): Jahr 1990=0 ˆ Gut i Z [St.] B [l] K [kg] (i) 1995=5 ˆ (i) (i) (i) q0 p0 q5 p5 56 0.19 26 0.24 15.3 1.87 13.1 2.10 1.229 15.17 1.132 18.02 P ptqt Umsatzindex: Ut = P . p0q0 0.24 · 26 + 2.10 · 13.1 + 18.02 · 1.132 = 0.935 = 93.5% U5 = 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229 Kapitel XIII – Zeitreihen und Indizes XIII - 58 Indizes für den Warenkorb aus Zigaretten, Bier und Kaffee Preis-, Mengen- und Umsatzindizes für den Warenkorb aus Zigaretten, Bier und Kaffee; Preisindex nach Laspeyres Preisindex nach Paasche 120 120 110 110 100 100 90 90 80 80 1990 1991 1992 1993 1994 1995 1990 Mengenindex nach Laspeyres 1991 1992 1993 1994 1995 Mengenindex nach Paasche 120 120 110 110 100 100 90 90 80 80 1990 1991 1992 1993 1994 1995 1990 1991 1992 1993 1994 1995 Umsatzindex 120 110 Beamte Angestellte 100 90 80 1990 1991 1992 Kapitel XIII – Zeitreihen und Indizes 1993 1994 1995 XIII - 59 Aktienindizes Aktienindizes dienen demselben Zweck wie Preis-, Mengen- und Umsatzindizes. Sie liefern auf eine sehr komprimierte Weise ein repräsentatives Bild von der Entwicklung eines Aktienmarktes. Bei Aktienindizes wird zwischen Kursindizes (Betrachtung der reinen Kursentwicklung) und Performance-Indizes (Berücksichtigung von Kapitalveränderungen und Dividendenausschüttungen) unterschieden. Der DAX wird von der Deutschen Börse als Performance-Index veröffentlicht. In seine Berechnung fließen 30 deutsche Aktienwerte ein. Die Formel zur Berechnung des DAX ist eine Modifikation der Formel für den Preisindex nach Laspeyres: 30 P DAXt = 1 000 KT · i=1 30 P Marktkapitalisierung der Gesellschaft i im Zeitpunkt t Marktkapitalisierung der Gesellschaft i im Zeitpunkt 0 i=1 Kapitel XIII – Zeitreihen und Indizes XIII - 60 Zusammensetzung und Gewichtung des DAX Zusammensatzung und Gewichtung des DAX (Stand v. 28.12.2007): Adidas 1.31 % Allianz 8.37 % BASF 6.18 % BMW 1.71 % Bayer 6.00 % Commerzbank 1.98 % Continental 1.81 % Daimler 8.16 % Deutsche Bank 5.63 % Deutsche Börse 3.41 % Kapitel XIII – Zeitreihen und Indizes Deutsche Post Deutsche Postbank Deutsche Telekom Eon Fresenius Henkel Hypo Real Estate Infineon Linde Lufthansa 2.48 0.63 5.26 10.06 0.86 0.86 0.91 0.76 1.45 1.05 % % % % % % % % % % MAN Merck Metro Münchner Rück RWE SAP Siemens Thyssen-Krupp TUI Volkswagen 1.41 0.72 0.74 3.64 5.61 3.96 9.93 1.86 0.48 2.78 % % % % % % % % % % XIII - 61 Deutscher Aktienindex (DAX) Für die Formel zur Berechnung des DAX ergibt sich: 30 P DAXt = 1 000 KT i=1 (i) (i) (i) (i) pt qT ffT ct 30 P i=1 (i) (i) p 0 q0 (i) = Kurs der Aktie i am Tag vor der Aufnahme in den Index (i) = Kurs der Aktie i zum Zeitpunkt t (i) = Anzahl der Aktien der Gesellschaft i am Tag vor der Aufnahme in den Index (i) = Anzahl der Aktien der Gesellschaft i zum Zeitpunkt T (i) = Freefloat-Faktor der Aktie i zum Zeitpunkt T (i) = Korrekturfaktor der Aktie i zum Zeitpunkt t p0 pt q0 qT ffT ct KT = Indexspezifischer Verkettungsfaktor zum Zeitpunkt T Kapitel XIII – Zeitreihen und Indizes XIII - 62 Deutscher Aktienindex (DAX) Zeitliche Entwicklung des DAX (monatlicher Schlussstand) seit dem Basiszeitpunkt 30.12.1987: 9000 8000 DAX Monatsschlussstand 7000 6000 5000 4000 3000 2000 Kapitel XIII – Zeitreihen und Indizes 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 0 1988 1000 XIII - 63 Dow Jones Industrial Average Index (Dow Jones) Im Gegensatz zum DAX ist der Dow Jones Industrial Average Index ist ein reiner Kursindex. Im Grunde handelt es sich dabei um ein ungewichtetes arithmetisches Mittel: 1 30 P (i) DJIAT = pt c · 30 i=1 (i) pt = Kurs der Aktie i zum Zeitpunkt t c = Korrekturfaktor Der Korrekturfaktor c dient der Berücksichtigung von Aktiensplits und von Veränderungen der Index-Zusammensetzung. Kapitel XIII – Zeitreihen und Indizes XIII - 64 Dow Jones Industrial Average Index (Dow Jones) Zeitliche Entwicklung des monatlichen Dow Jones Schlussstandes: Dow Jones Monatsschlussstand 14000 12000 10000 8000 6000 4000 Kapitel XIII – Zeitreihen und Indizes 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 0 1988 2000 XIII - 65