Statistik für Ökonomen Wintersemester 2010/2011 Dr. Hendrik Hansen TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Was ist Statistik Umfassendes methodisch-quantitatives Instrumentarium zur ” Charakterisierung und Auswertung empirischer Befunde [...] mit universellen Einsatzmöglichkeiten in Politik, Wirtschaft und Gesellschaft und allen Geistes-, Sozial- und Naturwissenschaften einschließlich Medizin und Technik, in denen mit Zahlen gearbeitet wird.“ (Gabler Wirtschaftslexikon) → Wissenschaftsdisziplin, die Methoden entwickelt, um aus Zahlen ( Daten“) Informationen, Wissen zu extrahieren ” Dr. Hendrik Hansen 2 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Ruf der Statistik Dr. Hendrik Hansen 3 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Ruf der Statistik Dr. Hendrik Hansen 4 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Wozu Statistik? Hilfreich/notwendig bei... I ...der Erstellung von Mietspiegeln I ...der Prüfung von Kreditwürdigkeiten I ...der Auswertung der Sonntagsfrage I ...klinischen Studien ( Medikament A besser als Medikament ” B?“) I ...der Beantwortung grundlegender Fragen von Politik und Gesellschaft • Verringert regelmäßiges Rauchen Lebenserwartung? • Verursachen Kernkraftwerke Leukämie? I ... Dr. Hendrik Hansen 5 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Wozu Statistik? Prominentes Beispiel, wo Statistik lebensrettend gewesen wäre: Challenger-Katastrophe (1986, verursacht durch Dichtungsringe) Quelle: www.rp-online.de weitere Infos: Dalal, Fowlkes & Hoadley; JASA (84), S.945-957, 1989 Dr. Hendrik Hansen 6 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Wozu Statistik? Statistische Unkenntnis → Fehlinterpretationen/ Blamagen drohen I Mitteilung der Universität Virginia im Jahr 1984: Absolventen des Bachelor-Studiengangs Rhetorik und Kommunikation“ ” haben durchschnittliches Einstiegsgehalt von 55.000 Dollar → wertlose/irreführende Info, denn einer der Studenten: R. Sampson, später Houston Rockets (Quelle: Washington Post) Dr. Hendrik Hansen 7 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Wozu Statistik? Auch hier wären gewisse Statistikkenntnisse hilfreich gewesen... Quelle: http://myhome.iolfree.ie Weitere Beispiele: W. Krämer: So lügt man mit Statistik, Piper, 2008. Dr. Hendrik Hansen 8 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Prominenter Statistik-Fürsprecher The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it – that’s going to be a hugely important skill in the next decades. (H. R. Varian, US-amerikanischer Ökonom, geb. 1947) Dr. Hendrik Hansen 9 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Themengebiete Teil A: Deskriptive Statistik (Komprimierung/übersichtliche Darstellung von Daten) I Grafische Darstellung von Daten I Lage-, Streuungs- und Zusammenhangsmaße I Preisindizes Teil B: Wahrscheinlichkeitsrechnung (Beschreibung/Modellierung zufälliger Ereignisse, notw. für Teil C) I Zufällige Ereignisse und ihre Wahrscheinlichkeiten I Zufallsvariablen I Erwartungswert, Varianz und Kovarianz von Zufallsvariablen I Ausgewählte Verteilungen Dr. Hendrik Hansen 10 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Themengebiete Teil C: Schließende Statistik (allgemeine Frage wird auf Basis einer Stichprobe beantwortet) I Punkt- und Intervallschätzung I Statistische Signifikanztests I Regressionsanalyse Dr. Hendrik Hansen 11 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Zur Struktur/Nummerierung Themengebiete A-C (s.o.) I Unterteilung in Kapitel • Kapitel 1: Grundlegende Begriffe • Kapitel 2: Grafische Darstellung von Daten • ... Dr. Hendrik Hansen 12 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Zur Struktur/Nummerierung Dem jeweiligen Kapitel entsprechend werden Definitionen und Beispiele nummeriert I Kapitel 1 • Beispiel 1.1, Beispiel 1.2, Definition 1.1,... I Kapitel 2 • Beispiel 2.1, Definition 2.1, Definition 2.2,... I ... Keine Nummerierung von Bemerkungen I Querverweise haben die Form gemäß der Bemerkung nach ” Definition 1.1 gilt...“ Dr. Hendrik Hansen 13 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Organisatorisches Termine: V? Mi 8.30 – 10.00 EF50/HS 1 Hendrik Hansen ? Ü Mo 10.00 – 11.00 C/HS 2 Vera Rieder ? Ü Mo 11.00 – 12.00 C/HS 2 Vera Rieder ? Ü Di 14.00 – 15.00 M/E 29 Natalie Reckmann ? Ü Di 15.00 – 16.00 M/E 29 Natalie Reckmann S? Mi 11.00 – 12.00 CDI/R. 4 Hendrik Hansen ? V? =Vorlesung, Ü =Übung (Beginn: 18.10.2010), S? =Sprechstunde Individuelle Terminvergabe außerhalb der Sprechstunde nach Absprache (telefonisch oder per Mail): 0231/7555419 bzw. [email protected] Dr. Hendrik Hansen 14 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Organisatorisches Wöchentlicher Ablauf I Folien zur Mittwochsveranstaltung bis Dienstagmittag im Netz I Übungszettel zum Stoff der Vorlesung bis Mittwochabend (spätestens Donnerstagmorgen) im Netz → wird in Übungen der darauffolgenden Woche besprochen Seite des Instituts für Wirtschafts- und Sozialstatistik: http://www.statistik.tu-dortmund.de/iwus.html Folien, Korrekturen und Aufgaben: http://www.statistik.tu-dortmund.de/iwus-lehre-201011.html Dr. Hendrik Hansen 15 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Literatur • Bamberg, G., Baur, F. und Krapp, M. (2009), Statistik, 15. Auflage, Oldenbourg, München. • Bleymüller, J., Gehlert, G. und Gülicher, H. (2008), Statistik für Wirtschaftswissenschaftler, 15. Auflage, Verlag Vahlen, München. • Krämer, W. (2008), Statistik verstehen – Eine Gebrauchsanweisung, 7. Auflage, Piper, München. • Pflaumer, P., Heine, B. und Hartung, J. (2005), Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik, 3. Auflage, Oldenbourg, München. • Pflaumer, P., Heine, B. und Hartung, J. (2001), Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik, Oldenbourg, München. • Schira, J. (2009), Statistische Methoden der VWL und BWL – Theorie und Praxis, 3. Auflage, Pearson Studium, München. Dr. Hendrik Hansen 16 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Teil A: Deskriptive Statistik Dr. Hendrik Hansen 17 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Aufgaben der deskriptiven Statistik I Erhebung von Daten I Tabellarische und grafische Darstellung von Daten I Charakterisierung großer Datenmengen durch aussagekräftige Maßzahlen Dr. Hendrik Hansen 18 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 1: Grundlegende Begriffe Beispiel 1.1 a) Farben der Fahrzeuge auf dem Uniparkplatz (1. Wagen rot; 2. Wagen blau,...) b) Schulnoten einer Grundschulklasse (sehr gut bis ungenügend) c) Einwohnerzahlen in deutschen Städten (Stadt 1: 581.308; Stadt 2: 376.319,...) d) Körpergröße der Studenten (in cm) in diesem Hörsaal (Student 1: 175,3; Student 2: 163,8;...) → Eigenschaften von Objekten werden durch Daten wiedergegeben Objekte hier: Fahrzeug, Schüler, Stadt, Student Eigenschaften hier: Farbe, Note, Einwohnerzahl, Körpergröße Dr. Hendrik Hansen 19 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bezeichnungen I Die Eigenschaften (der Objekte) werden auch Merkmale oder Variablen genannt I Die zugehörigen Objekte heißen Merkmalsträger I Das notierte Merkmal an einem bestimmten Merkmalsträger heißt Merkmalsausprägung oder Beobachtung I Merkmale werden mit großen Buchstaben bezeichnet I Merkmalsausprägungen werden mit kleinen Buchstaben und der Nummer des Merkmalsträgers bezeichnet Dr. Hendrik Hansen 20 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 1.2 (vgl. Beispiel 1.1) a) Merkmal W =Fahrzeugfarbe; Merkmalsträger=Fahrzeug; Merkmalsausprägung von Merkmalsträger 5 : w5 =rot b) Merkmal X=Note; Merkmalsträger=Schüler; Merkmalsausprägung von Merkmalsträger 3 : x3 =befriedigend c) Merkmal Y =Einwohnerzahl; Merkmalsträger=Stadt; Merkmalsausprägung von Merkmalsträger 10 : y10 =150.386 d) Merkmal Z=Körpergröße; Merkmalsträger=Student; Merkmalsausprägung von Merkmalsträger 40 : z40 =181,6 Ersichtlich außerdem: Art/Typ der Daten ist unterschiedlich! Dr. Hendrik Hansen 21 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 1.1 Betrachte abermals Beispiel 1.1 I Daten vom Typ a) sind keine Zahlen und lassen sich nicht ordnen; Derartige Merkmale heißen qualitativ oder nominal skaliert (Datenausprägungen als Namen auffassbar) I Daten vom Typ b) können in eine Rangordnung gebracht werden (sehr gut, gut,...,ungenügend) und sind numerisch kodierbar: 1 < 2 < ... < 6; Solche Merkmale heißen ordinal skaliert (nicht qualitativ; Merkmalsausprägungen lassen sich in natürlicher Reihenfolge anordnen, wobei die Abstände zwischen den Beobachtungen nicht sinnvoll interpretierbar sind) Dr. Hendrik Hansen 22 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 1.1 (Fortsetzung) I In c) entsprechen die Merkmalsausprägungen Zahlen → derartige Merkmale heißen kardinal skaliert oder quantitativ; Merkmalsausprägungen lassen sich in natürlicher Reihenfolge anordnen, Abstände ebenfalls interpretierbar I Datenstruktur von d) ähnlich zu c) I Unterschied c) und d): In d) könnte Körpergröße theoretisch beliebig genau gemessen werden → Merkmalsausprägung kann jeden reellen Zahlenwert im Intervall [0,210] annehmen (Unterstellung hier: 210 cm=Maximalgröße) → derartige Merkmale heißen quantitativ stetig; In c) können die Beobachtungen nur ganzzahlige Werte annehmen → derartige Merkmale heißen quantitativ diskret Dr. Hendrik Hansen 23 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Jede Messung eines stetigen Merkmals ist aufgrund begrenzter Messgenauigkeit praktisch diskret; Die Stetigkeit, das heißt die Annahme, dass jede beliebige Zahl realisierbar ist, ist eine Idealisierung I In der Praxis werden diskrete Merkmale mit vielen“ ” Merkmalsausprägungen oft wie stetige Merkmale behandelt (Beispiel: Einkommen); auch umgekehrter Fall (durch Klassieren der Daten) möglich Beispiel 1.3 I Weitere nominal skalierte Merkmale: Geschlecht (w/m), Geburtsort, Konfession, Familienstand der Studenten in diesem Hörsaal,... I Weitere ordinal skalierte Merkmale: Sozialer Status, Aggressivität, Kundenzufriedenheit, Tabellenplätze,... Dr. Hendrik Hansen 24 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 1.3 (Fortsetzung) I Weitere quantitativ diskrete Merkmale: Einkommen, Anzahl geschossener Tore, Anzahl Krankschreibungen pro Person und Jahr,... I Weitere quantitativ stetige Merkmale: Zeit, Gewicht, Temperatur,... Definition 1.2 Gegeben sei ein Merkmal X I Die Menge N aller möglichen Merkmalsträger heißt Grundgesamtheit (x1 , ..., xN zugehörige Beobachtungen) I Erhebung aller N Beobachtungen ↔ Vollerhebung I Meist jedoch: Betrachtung einer Stichprobe von n Merkmalsträgern wobei n < N Dr. Hendrik Hansen 25 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 2: Grafische Darstellung von Daten Beispiel 2.1 I Heimtore Borussia Dortmund, Saison 2009/2010 (17 Spiele): 1, 1, 1, 0, 2, 2, 0, 4, 1, 1, 2, 4, 3, 3, 2, 1, 1 Quelle: www.spox.com Dr. Hendrik Hansen 26 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.1 (Fortsetzung) I Was sieht man? I Betrachte z.B., wie oft sich die fünf auftretenden Anzahlen an Toren (0-4) über die Saison verteilt realisieren Anzahl Tore Wie oft aufgetreten 0 2 1 7 2 4 3 2 4 2 → Eins ist der (mit Abstand) am häufigsten auftretende Wert Dr. Hendrik Hansen 27 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 2.1 I Gegeben sei ein Merkmal X mit k möglichen Merkmalsausprägungen a1 , ..., ak I Beobachte nun n Ausprägungen x1 , ..., xn I Die Anzahl der xi mit xi = aj wird mit H(aj ) bezeichnet und heißt absolute Häufigkeit der Ausprägung aj I h(aj ) = H(aj )/n heißt relative Häufigkeit von aj Dr. Hendrik Hansen 28 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.2 (BVB-Tore, vgl. Beispiel 2.1) Tore aj 0 1 2 3 4 Dr. Hendrik Hansen H(aj ) 2 7 4 2 2 P = 17 h(aj ) 2/17=0,117 7/17=0,412 4/17=0,235 2/17=0,117 2/17=0,117 P =1 29 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.2 (Fortsetzung) Möglichkeiten der grafischen Darstellung? z.B. Säulendiagramm 0.3 0.2 0.0 0.1 rel. Häufigkeit h(aj) 0.4 0.5 I 0 1 2 3 4 Tore aj I Säulendiagramm auch mit absoluten Häufigkeiten erstellbar; Stäbe statt Rechtecken → Stabdiagramm Dr. Hendrik Hansen 30 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.2 (Fortsetzung) Vertausche im Säulendiagramm x− und y−Achse → Balkendiagramm 2 0 1 Tore aj 3 4 I 0 1 2 3 4 5 6 7 Abs. Häufigkeit H(aj) Dr. Hendrik Hansen 31 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.2 (Fortsetzung) I Andere Möglichkeit zur grafischen Darstellung der BVB-Tore: Kreisdiagramm 1 0 4 2 3 I Größe des einzelnen Tortenstücks“ ist proportional zur ” entsprechenden Häufigkeit Dr. Hendrik Hansen 32 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 2.2 I Situation wie in Definition 2.1 (Merkmal X, mögliche Ausprägungen a1 , ..., ak , Beobachtung von n Ausprägungen x1 , ..., xn ) I X mindestens ordinal skaliert I Die empirische Verteilungsfunktion Fn (x) ist gleich der Summe der relativen Häufigkeiten aller Merkmalsausprägungen kleiner oder gleich x I Formell: Fn (x) = X h(ai ) (x ∈ R) ai ≤x I Fn (x) entspricht dem Anteil an Beobachtungen, die höchstens den Wert x haben Dr. Hendrik Hansen 33 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.3 (BVB-Tore, vgl. die Beispiele 2.1 und 2.2) 0 h(0) = 2/17 2/17 + h(1) = 9/17 F17 (x) = 9/17 + h(2) = 13/17 13/17 + h(3) = 15/17 1 Dr. Hendrik Hansen für x < 0 für 0 ≤ x < 1 für 1 ≤ x < 2 für 2 ≤ x < 3 für 3 ≤ x < 4 für x ≥ 4 34 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.3 (Fortsetzung) 1.0 Fn(x) der BVB−Tore ● 0.6 ● 0.4 ● 0.2 F17(x) 0.8 ● 0.0 ● −1 0 1 2 3 4 5 BVB−Tore x Dr. Hendrik Hansen 35 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.3 (Fortsetzung) 1.0 Fn(x) der BVB−Tore − Ablesebeispiel ● 0.6 ● 0.4 ● 0.2 F17(x) 0.8 ● 0.0 ● −1 0 1 2 3 4 5 BVB−Tore x → In ca. 80 Prozent der Spiele (genauer: in F17 (2) · 100 = 76, 5 Prozent) sind weniger als drei Tore gefallen Dr. Hendrik Hansen 36 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Eigenschaften von Fn (x)) I Fn (x) ∈ [0, 1] für alle x I Fn (x) ist monoton nicht fallend I Fn (x) ist rechtsseitig stetig I Es gilt: lim Fn (x) = 0 x→−∞ Dr. Hendrik Hansen und lim Fn (x) = 1. x→∞ 37 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.4 Lebensdauer (in Betriebsstunden) von Ventilen in kunststoffverarbeitendem Betrieb, vgl. Bamberg et al. (2007) I 110, 520, 490, 30, 120, 290, 370, 305, 415, 170, 280, 70, 540, 460, 260, 345, 150, 220, 435, 425, 470, 350, 130, 380, 230, 320, 360, 240, 330, 580 I 30 unterschiedliche Beobachtungen → Säulen/Kreisdiagramm bringen keinen Informationsgewinn 0.8 1.0 I 240 230 220 170 150 260 130 280 120 0.6 290 110 305 70 320 30 0.4 330 580 345 540 350 520 360 490 0.2 370 470 415 425 435 460 0.0 380 30 Dr. Hendrik Hansen 120 170 240 290 330 360 415 460 520 38 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.4 (Fortsetzung) I Empirische Verteilungsfunktion konstruierbar 1.0 Fn(x) der Ventillebensdauern ● ● ● ● ● 0.8 ● ● ● ● ● ● 0.6 ● ● F30(x) ● ● ● ● 0.4 ● ● ● ● ● ● 0.2 ● ● ● ● ● ● 0.0 ● 0 100 200 300 400 500 600 Lebensdauer der Ventile x (in Stunden) Dr. Hendrik Hansen 39 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.4 (Fortsetzung) I Weitere Möglichkeit: Klassierung der Daten in Intervalle (jetzt H(ai ) bzw. h(ai ) absolute bzw. relative Klassenhäufigkeit) Klasse Nr. 1 2 3 4 Dr. Hendrik Hansen von ... bis unter ... Stunden 0 - 200 200 - 300 300 - 400 400 - 600 H(aj ) 7 6 8 9 h(ai ) 7/30 6/30 8/30 9/30 h(ai ) Klassenbreite 7/6000 6/3000 8/3000 9/6000 40 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.4 (Fortsetzung) Histogramm: Betrachte aneinander angrenzende Rechtecke in Klassenbreite; Höhe der Rechtecke: h(ai )/Klassenbreite 0.0015 0.0000 0.0005 0.0010 Balkenhöhe 0.0020 0.0025 0.0030 I 0 100 200 300 400 500 600 Lebensdauer der Ventile x (in Stunden) Dr. Hendrik Hansen 41 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Die Fläche der einzelnen Balken im Histogramm ist proportional zur relativen Häufigkeit im entsprechenden Intervall: Balkenhöhe=h(ai )/Klassenbreite → h(ai ) = Balkenhöhe · Klassenbreite = Balkenfläche I Probleme bei zu grober Klasseneinteilung: Zu viel Informationsverlust I Probleme bei zu feiner Klasseneinteilung: Unübersichtlichkeit, da viele Klassen gering/gar nicht besetzt sind I Bei großer Variation der Daten können unterschiedliche Klassenbreiten sinnvoll sein, wenn möglich sind jedoch Klassen mit gleicher Breite wünschenswert Dr. Hendrik Hansen 42 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.5 (Lebensdauer Ventile, vgl. Beispiel 2.4) 0.0020 0.0015 0.0010 0.0000 0.0005 Balkenhöhe 0.0025 0.0030 Histogramm der Ventillebensdauern, andere Klassierung 0 100 200 300 400 500 600 Lebensdauer der Ventile x (in Stunden) Dr. Hendrik Hansen 43 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 2.5 (Fortsetzung) 1.0 Fn(x) Ventile, unklassierte & klassierte Daten ● 0.8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● F30(x) 0.6 ● 0.4 ● 0.2 ● ● 0.0 ● 0 ● ● ● ● 100 ● ● ● ● ● 200 ● 300 400 500 600 Lebensdauer der Ventile x (in Stunden) Sprungstelle hier: Klassenuntergrenze; weitere Möglichkeiten: Klassenobergrenze, Klassenmitte,... Dr. Hendrik Hansen 44 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Säulen/Stab-, Balken- und Kreisdiagramm für nominal, ordinal und kardinal skalierte Merkmale geeignet I Empirische Verteilungsfunktion für ordinal und kardinal skalierte Merkmale geeignet I Histogramm nur für kardinal skalierte Merkmale geeignet Dr. Hendrik Hansen 45 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Hendrik Hansen 46 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 3.1 Seien x1 , ..., xn Ausprägungen eines kardinal skalierten Merkmals X, dann heißt n 1X x̄a = xi n i=1 arithmetisches Mittel von X. Beispiel 3.1 (Ventillebensdauern, vgl. Kapitel 2) n x̄a = 1 1X xi = · (110 + 520 + ... + 580) = 313, 17 n 30 i=1 Dr. Hendrik Hansen 47 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.1 (Fortsetzung) I Vorgehen, wenn Daten lediglich in klassierter Form vorliegen? I Betrachte etwa Klassierung wie in Beispiel 2.5 Klasse (von ... bis unter ... Stunden) 0 - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600 Dr. Hendrik Hansen h(aj ) 2/30 5/30 6/30 8/30 6/30 3/30 Klassenmittel 50 136 253,33 345 449,17 546,67 Klassenmitte 50 150 250 350 450 550 48 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 3.2 Gegeben sei ein kardinal skaliertes Merkmal X mit Ausprägungen x1 , ..., xn und zugehörigen Gewichten g1 , ..., gn , für die gi ≥ 0 für alle i = 1, ..., n und n X gi = 1 i=1 gelte. Dann heißt x̄ga = n X gi xi = g1 x1 + ... + gn xn i=1 gewichtetes arithmetisches Mittel von X. Dr. Hendrik Hansen 49 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.2 (Ventillebensdauern, Klassierung wie in Beispiel 3.1) I Verwende relative Häufigkeiten h(ai ) als Gewichte gi a) Annahme: Klassenmittel bekannt x̄ga = 2 5 3 · 50 + · 136 + ... + · 546, 67 = 313, 17 = x̄a 30 30 30 klar, da 2 1 5 1 30 · [ 2 (30 + 70)] + 30 · [ 5 (110 + ... + 170)] + ... 3 1 + 30 · [ 13 (520 + 540 + 580)] = 30 · (30 + 70 + ... + x̄a x̄ga = = Dr. Hendrik Hansen 580) 50 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.2 (Fortsetzung) b) Annahme: Klassenmittel unbekannt x̄ga = 2 5 3 · 50 + · 150 + ... + · 550 = 316, 67 30 30 30 bei unbekanntem Klassenmittel stimmen x̄a und x̄ga in der Regel nicht überein Dr. Hendrik Hansen 51 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.3 a) Betrachte für die letzten 15 Jahre die Platzierungen des BVB in der Bundesliga-Abschlusstabelle: 5, 6, 13, 9, 7, 7, 6, 3, 1, 3, 11, 4, 10, 3, 1 → Durchschnittlicher Tabellenplatz (gemäß des arithmetischen Mittels): x̄a = 5, 93̄ → ??? Dr. Hendrik Hansen I Derartige Angabe nicht sinnvoll interpretierbar, da Tabellenplätze normalerweise ganzzahlig I Tabellenplätze außerdem ordinal skaliert → die möglichen Platzierungen (1-18) sind nicht naturgegeben, könnten daher (unter Beibehaltung der Reihenfolge) auch willkürlich in andere Zahlen transformiert werden (z.B. 1; 2,5; 3; 5; 7,7; ... ; 99); x̄a und x̄ga gegenüber derlei Umskalierungen nicht robust 52 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.3 (Fortsetzung) b) Betrachte 10 Personen, 9 davon haben ein Jahreseinkommen von 40.000 Euro; Person 10: Jahreseinkommen von 500.000 Euro (fiktive Zahlen) → x̄a = 86.000 Euro → x̄a (und auch x̄ga ) sehr anfällig gegenüber Ausreissern“ ” Definition 3.3 Sei X ein mindestens ordinal skaliertes Merkmal mit beobachteten Ausprägungen x1 , x2 , . . . , xn . Mit x(i) ist der i-te Wert der aufsteigend geordneten Daten bezeichnet. Dann heißt x( n+1 ) , n ungerade 2 x̄m = 1 · x n + x n 2 (2) ( 2 +1) , n gerade Median von X. Dr. Hendrik Hansen 53 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.4 (vgl. Beispiel 3.3) a) Im Durchschnitt hat der BVB in der Bundesliga-Abschlusstabelle auf Basis der letzten 15 Jahre den 6. Platz belegt, denn n = 15 = ungerade → x̄m = x(8) und x(1) = x(2) = 1, x(3) = ... = x(5) = 3, x(6) = 4, x(7) = 5, x(8) = x(9) = 6, x(10) = x(11) = 7, x(12) = 9, x(13) = 10, x(14) = 11, x(15) = 13 Dr. Hendrik Hansen 54 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.4 (Fortsetzung) b) Das Durchschnittseinkommen der 10 Personen im fiktiven Beispiel aus Beispiel 3.3 b) beträgt (gemäß des Medians) 40.000 Euro, denn n = 10 = gerade → x̄m = 1 · (x(5) + x(6) ) 2 und x(1) = ... = x(9) = 40.000, x(10) = 500.000 80.000 → x̄m = = 40.000 2 Dr. Hendrik Hansen 55 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 I Der Median stimmt oft mit einer beobachteten Ausprägung überein I Der Median ist robuster gegenüber Ausreissern als x̄a und x̄ga I Nachteil des Medians: Häufig großer Informationsverlust, da nur die mittleren Beobachtungen relevant sind Dr. Hendrik Hansen 56 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Eigenschaften von arithm. Mittel und Median) I Bei linearen Datentransformationen der Form yi = a · xi + b mit a 6= 0 (i = 1, . . . , n) gilt: ȳ a = a · x̄a + b und ȳ m = a · x̄m + b. I Beide Lagemaße minimieren jeweils eine Zielfunktion: ! ! n n X X x̄a = argmin (xi − z)2 und x̄m = argmin |xi − z| z∈R Dr. Hendrik Hansen i=1 z∈R i=1 57 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.5 I Kardinal skaliertes Merkmal: Arithmetisches Mittel; Ordinal skaliertes Merkmal: Median; Nominale Skalierung: ??? I Notiere etwa Farbe der Fahrzeuge auf dem Uniparkplatz: rot, grün, grün, blau, blau, rot, schwarz, weiss, rot, schwarz (vergleiche Beispiel 1.1) → sinnvolles Lagemaß? Definition 3.4 Als Modalwert bzw. Modus wird die Ausprägung eines beliebig skalierten Merkmals X bezeichnet, die am häufigsten auftritt; Bezeichnung: x̄mod Dr. Hendrik Hansen 58 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.6 (vgl. Beispiel 3.5, Fahrzeugfarben) I Häufigkeiten der beobachteten Farben: 3×rot, 2×blau, 2×grün, 2×schwarz, 1×weiss → x̄mod =rot Bemerkung (Nachteile des Modus) I Modalwert muss nicht eindeutig sein I Bei quantitativ stetigen Daten sind oft sämtliche Beobachtungen unterschiedlich voneinander; hier liefert der Modus keine Informationen → Klassierung der Daten; als Modus kann die Mitte der Klasse mit der größten Klassenhäufigkeit aufgefasst werden (im Rahmen der Klassierung von Beispiel 3.1 gilt also x̄mod = 350) Dr. Hendrik Hansen 59 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.7 I Aktienkurse zu drei Zeitpunkten (fiktiv) Zeitpunkt i Aktienkurs xi Wachstumsrate ri Wachstumsfaktor (1 + ri ) 0 100 wobei ri = I 1 160 0,6 1,6 2 100 -0,375 0,625 xi − xi−1 xi−1 Durchschnittliche Wachstumsrate? r̄a = 1 · (0, 6 + (−0, 375)) = 0, 1125 2 → Unsinn, da (wegen x0 = x2 ) r̄ = 0 gelten muss (r̄ = sinnvolles Lagemaß) Dr. Hendrik Hansen 60 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 3.5 I Sei X ein kardinal skaliertes Merkmal mit Ausprägungen x1 , ..., xn ≥ 0. Dann heißt √ x̄geo = n x1 · x2 · · · xn das geometrische Mittel von x1 , ..., xn . Beispiel 3.8 (vgl. Beispiel 3.7) I Auch negative Wachstumsraten möglich (hier etwa geo r2 = −0, 375) → berechne geometrisches Mittel (1 + r) geo aus den Wachstumsfaktoren → r̄geo = (1 + r) − 1 p geo (1 + r) = 1, 6 · 0, 625 = 1 → r̄geo = 1 − 1 = 0 Dr. Hendrik Hansen 61 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 a) Herleitung des geometrischen Mittels (exemplarisch anhand Situation aus Beispiel 3.7 bzw. 3.8) I Kurs z. Zeitpkt. 0 : x0 Kurs z. Zeitpkt. 1 : x0 + r1 · x0 = x0 · (1 + r1 ) = x1 Kurs z. Zeitpkt. 2 : x2 = x1 · (1 + r2 ) = x0 · (1 + r1 ) · (1 + r2 ) I Gesucht: Geeigneter Durchschnitt von r1 , r2 (= r̄) I Anforderungen an r̄ : ! x0 · (1 + r1 ) · (1 + r2 ) = x0 · (1 + r̄) · (1 + r̄) = x0 · (1 + r̄)2 → Division durch x0 und Auflösung nach r̄ : p p (1 + r̄) = 2 (1 + r1 ) · (1 + r2 ) → r̄ = 2 (1 + r1 ) · (1 + r2 ) − 1 Dr. Hendrik Hansen 62 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 (Fortsetzung) b) Allgemein gilt x̄geo ≤ x̄a (x̄geo = x̄a genau dann, wenn x1 = ... = xn ) c) Verwende x̄geo , falls Merkmalsausprägungen relativen Änderungen entsprechen Dr. Hendrik Hansen 63 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 I Andere Lagemaße, die nicht unbedingt dem Durchschnitt der Merkmalsausprägungen entsprechen: Quantile I Sei 0 < p < 1; Jeder Wert xp , für den mindestens ein Anteil p · 100 Prozent der Daten kleiner/gleich xp , und mindestens ein Anteil (1 − p) · 100 Prozent größer/gleich xp ist, heißt p−Quantil, d.h. Fn (xp ) ≥ p Dr. Hendrik Hansen und Anzahl(x−Werte ≥ xp ) ≥1−p n 64 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) I Problem: xp muss nicht eindeutig sein - betrachte etwa ein beliebiges Merkmal mit Ausprägungen 1 bis 10; gesucht: 0, 2−Quantil → Fn (x) = 0, 2 für 2 ≤ x < 3, Fn (3) = 0, 3 und ( 0, 9 x = 2 Anzahl(Beobachtungen ≥ x) = 10 0, 8 2 < x ≤ 3 → sämtliche x ∈ [2, 3] erfüllen die Bedingungen des 0,2-Quantils Dr. Hendrik Hansen 65 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 3.6 (eindeutige Definition des p−Quantils) Für 0 < p < 1 und ein mindestens ordinal skaliertes Merkmal X mit den beobachteten Ausprägungen x1 , x2 , . . . , xn heißt ( x xp = 1 (bnpc+1) 2 · x(np) + x(np+1) np np nicht ganzzahlig ganzzahlig p−Quantil von X (bnpc = größter ganzzahliger Wert mit bnpc ≤ np). Dr. Hendrik Hansen 66 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Fiktives Zahlenbeispiel aus Bemerkung 2 vor Definition 3.6 (Merkmal X mit Ausprägungen 1-10): n = 10, p = 0.2 → n · p = 2 ganzzahlig → nach Definition 3.6 ist x0,2 = 1/2 · (x(2) + x(3) ) = 2, 5 b) Besonders gebräuchliche Quantile I 0,25-Quantil x0,25 (unteres Quartil) I 0,75-Quantil x0,75 (oberes Quartil) I Median x̄m = x0,5 → x(1) , x0,25 , x̄m , x0,75 , x(n) = 5-Punkte-Zusammenfassung Dr. Hendrik Hansen 67 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Grafische Darstellung der 5-Punkte-Zusammenfassung durch Box-Plot Dr. Hendrik Hansen I Schachtel (Box): beinhaltet 50 Prozent der mittleren Daten; Anfang der Box: x0,25 ; Ende der Box: x0,75 I Strich in der Box: markiert den Median I Whiskers“ (Barthaare): Linien, welche Anfang bzw. Ende der ” Box mit x(1) bzw. x(n) verbinden 68 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.9 (BVB-Abschlussplatzierungen,vgl. Beispiel 3.3) I x(1) , ..., x(15) = 1, 1, 3, 3, 3, 4, 5, 6, 6, 7, 7, 9, 10, 11, 13 I p = 0, 25 → n · p = 15 · 0, 25 = 3, 75 nicht ganzzahlig → x0,25 = x(4) = 3 I p = 0, 5 → x̄m = x(8) = 6, vgl. Beispiel 3.4 I p = 0, 75 → n · p = 15 · 0, 75 = 11, 25 nicht ganzzahlig → x0,75 = x(12) = 9 Dr. Hendrik Hansen 69 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 3.9 (Fortsetzung) Boxplot der BVB−Platzierungen 2 4 6 8 10 12 Platzierung Dr. Hendrik Hansen 70 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen 12 10 8 6 4 2 Platzierung Schalke 04 8 6 4 2 Platzierung BVB 10 12 Beispiel 3.9 (Fortsetzung) Dr. Hendrik Hansen 71 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fazit zu Lagemaßen) I (Gewichtetes) arithmetisches Mittel nur für kardinal skalierte Merkmale geeignet I Geometrisches Mittel ebenfalls nur bei kardinalem Messniveau; bei relativen Änderungen (z.B. durchschnittlichen Wachstumsraten) zu verwenden I Median/Quantile für ordinal und kardinal skalierte Merkmale geeignet I Modus für alle Skalenniveaus verwendbar (bei stetigen, unklassierten Daten allerdings oft ohne Aussagekraft) Dr. Hendrik Hansen 72 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 4: Streuungsmaße Motivation Lagemaß fasst Zentrum/Schwerpunkt der Daten in einer Kenngröße zusammen; wie weit sich die Daten um dieses Zentrum herum bewegen wird durch Lagemaß jedoch nicht deutlich Dr. Hendrik Hansen 73 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 4.1 I Zwei (fiktive) Aktienkurse X und Y , zu fünf aufeinanderfolgenden Zeitpunkten beobachtet Zeitpunkt Kurs X Kurs Y I 1 90 80 2 105 130 3 102,5 90 4 95 85 5 107,5 115 x̄a = 100 und ȳ a = 100 → Lagemaß allein zur Beschreibung eines Datensatzes oft nicht ausreichend Dr. Hendrik Hansen 74 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen 120 130 Beispiel 4.1 (Fortsetzung) 110 Aktie Y 80 90 100 Kurs Aktie X 1 2 3 4 5 6 Zeitpunkt Dr. Hendrik Hansen 75 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 4.1 Betrachte ein kardinal skaliertes Merkmal X mit Ausprägungen x1 , ..., xn . Dann heißt Rx = max {xi } − min {xi } i i = x(n) − x(1) Spannweite von X und Qx = x0,75 − x0,25 Quartilsabstand von X. Dr. Hendrik Hansen 76 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 4.2 (vgl. Beispiel 4.1, Börsenkurse) I Geordnete Reihe x(1) , ..., x(n) von Kurs X : 90 ; 95 ; 102, 5 ; 105 ; 107, 5 ; Kurs Y : 80 ; 85 ; 90 ; 115 ; 130 ⇒ Rx = 107, 5 − 90 = 17, 5 und Ry = 130 − 80 = 50 I 0, 25 × 5 = 1, 25 → x0,25 = x(2) = 95, y0,25 = y(2) = 85; 0, 75 × 5 = 3, 75 → x0,75 = x(4) = 105, y0,75 = y(4) = 115, also ist Qx = 105 − 95 = 10 und Qy = 115 − 85 = 30 Dr. Hendrik Hansen 77 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Spannweite einfachstes Streuungsmaß, leicht zu berechnen; findet Anwendung in Bereichen, wo Extremwerte interessant sind (Börsenkurse, Warenpreise,...) I Nachteil Spannweite: Sehr empfindlich gegenüber Ausreissern, da nur größte und kleinste Beobachtung berücksichtigt werden I Quartilsabstand gegenüber Ausreissern robuster, beschreibt zentralen“ Bereich der Daten ” Weder Spannweite noch Quartilsabstand beziehen sich auf ein Lagemaß I Dr. Hendrik Hansen 78 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 4.2 Betrachte ein kardinal skaliertes Merkmal X mit Ausprägungen x1 , ..., xn . Dann heißt n dx = 1X | xi − x̄m | n i=1 mittlere absolute Abweichung (vom Median) von X und ∆x = n n 1 XX | xi − xj | n2 i=1 j=1 mittlere absolute Differenz von X. Dr. Hendrik Hansen 79 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 4.3 (vgl. Beispiele 4.1 & 4.2, Börsenkurse) I x̄m = 102, 5 und ȳ m = 90 → dx = 1 (| 90 − 102, 5 | + | 105 − 102, 5 | + | 102, 5 − 102, 5 | 5 + | 95 − 102, 5 | + | 107, 5 − 102, 5 |) = 5, 5 und dy Dr. Hendrik Hansen = 1 (| 80 − 90 | + | 85 − 90 | + | 90 − 90 | 5 + | 115 − 90 | + | 130 − 90 |) = 16 > dx 80 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 4.3 (Fortsetzung) ∆x = = 1 (| 90 − 90 | + | 90 − 105 | + | 90 − 102, 5 | + · · · 25 · · · + | 107, 5 − 95 | + | 107, 5 − 107, 5 |) 7, 2 und ∆y = = 1 (| 80 − 80 | + | 80 − 130 | + | 80 − 90 | + · · · 25 · · · + | 130 − 115 | + | 130 − 130 |) 20, 8 > ∆x → Es gilt dx < dy und ∆x < ∆y , → Beide Streuungsmaße entsprechen der Grafik in Beispiel 4.1 (größere Streuung von Kurs Y im Vergleich zu X) Dr. Hendrik Hansen 81 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Mittlere absolute Abweichung und mittlere absolute Differenz sind feinere Streuungsmaße als Spannweite und der Quartilsabstand, da alle Beobachtungen berücksichtigt werden I Im Gegensatz zu Spannweite, Quartilsabstand und mittlerer absoluter Differenz bezieht sich dx auf ein Lagemaß, nämlich den Median I Ebenfalls berechenbar: Mittlere absolute Abweichung von einem anderen Lagemaß (z.B. arithmetischem Mittel) I Nachteil von dx und ∆x im Vergleich zu Spannweite und Quartilsabstand: Erheblich höherer Rechenaufwand (die Doppelsumme in Beispiel 4.3 etwa resultiert in 25 Summanden) Dr. Hendrik Hansen 82 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 4.3 Betrachte ein Merkmal X mit kardinalem Skalenniveau und Ausprägungen x1 , ..., xn . Dann heißt n s2x = 1X (xi − x̄a )2 n i=1 Varianz oder mittlere quadratische Abweichung von X und sx = p s2x Standardabweichung von X. Dr. Hendrik Hansen 83 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 4.4 (vgl. Beispiele 4.1, 4.2 & 4.3, Börsenkurse) I x̄a = ȳ a = 100 (vgl. Beispiel 4.1) → s2x = = 1 (90 − 100)2 + (105 − 100)2 + (102, 5 − 100)2 5 + (95 − 100)2 + (107, 5 − 100)2 p 42, 5 und sx = s2x = 6, 519 und s2y = = 1 (80 − 100)2 + (130 − 100)2 + (90 − 100)2 5 + (85 − 100)2 + (115 − 100)2 q 370 > s2x und sy = s2y = 19, 235 > sx → Größere Streuung von Kurs Y im Vergleich zu Kurs X wird durch beide Maße ebenfalls wiedergegeben Dr. Hendrik Hansen 84 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Varianz bzw. Standardabweichung populärste Streuungsmaße b) Standardabweichung hat gleiche Dimension/Maßeinheit wie die Ausprägungen → wird manchmal gegenüber der Varianz bevorzugt; betrachte etwa Aktie X aus Beispiel 4.4: sx = 6, 519 Euro, s2x = 42, 5 Euro2 c) s2x = 0 ↔ xi = x̄a für alle i = 1, ..., n d) Definition 4.3: Dividiere die summierten und quadrierten Differenzen durch n → häufig auch Division durch n − 1; Grund: später Dr. Hendrik Hansen 85 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) e) Alternative Berechnung von s2x (immer mit Formel aus Definition 4.3 übereinstimmend): n s2x = 1X 2 xi − (x̄a )2 n i=1 I Überprüfe e) anhand Aktie X (vgl. die Beispiele 4.1 bis 4.4) s2x 1 902 + 1052 + 102, 52 + 952 + 107, 52 − 1002 5 = 10042, 5 − 10000 = 42, 5 = → gleiches Ergebnis wie in Beispiel 4.4 (dort Verwendung der Formel aus Definition 4.3) Dr. Hendrik Hansen 86 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) f) Seien yi transformierte Werte von xi mit yi = a · xi + b (a, b ∈ R, i = 1, ..., n). Dann gilt I Ry = |a| · Rx I Qy = |a| · Qx I dy = |a| · dx I ∆y = |a| · ∆x I s2y = a2 · s2x bzw. sy = |a| · sx , außerdem sind alle Streuungsmaße immer nicht negativ! Dr. Hendrik Hansen 87 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) g) Fazit zu Streuungsmaßen Dr. Hendrik Hansen I Sämtliche Streuungsmaße (Spannweite, Quartilsabstand, mittlere Absolute Abweichung, mittlere absolute Differenz, Varianz und Standardabweichung) nur für kardinal skalierte Merkmale geeignet I Neben Lagemaß liefert Streuungsmaß weitere Infos über die Datenbeschaffenheit → Streuungsmaß kann als Ergänzung zu Lagemaß angesehen werden (Varianz kennzeichnet etwa Repräsentativität des Mittelwertes) I Beispiel 4.1, Aktienkurse: Betrachte Lagemaß (Mittelwert) alleine → Beide Datensätze erscheinen ähnlich/gleich (Trugschluß, vergleiche Grafik in Beispiel 4.1) → zusätzliche Angabe eines Streuungsmaßes klärt den Sachverhalt auf 88 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 5: Zusammenhangsmaße Beispiel 5.1 I Werbeausgaben und Umsätze verschiedener Firmen (fiktiv) Firma Nr. i 1 2 3 4 5 6 7 Werbeausgaben Xi (in 1.000 Euro) 100 200 300 400 500 600 700 Umsatz Yi (in Mio. Euro) 38 45 52 62 72 70 81 → Struktur der Daten? Dr. Hendrik Hansen 89 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.1 (Fortsetzung) I Kapitel 1-4: Betrachte für Merkmal X und Merkmal Y etwa die empirischen Verteilungsfunktionen Fn(y) des Umsatzes 1.0 1.0 Fn(x) der Werbeausgaben ● ● 0.8 ● 0.8 ● ● 0.6 0.6 ● ● 0.4 ● 0.4 ● F7(y) F7(x) ● 0.2 ● 0.2 ● 0.0 ● 0.0 ● 0 200 400 600 Werbeausgaben X (in 1.000 Euro) Dr. Hendrik Hansen 800 30 40 50 60 70 80 90 Umsatz Y (in Mio Euro) 90 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.1 (Fortsetzung) I Mittelwert und Varianz der Merkmale X und Y : x̄a = 400, s2x = 40.000; ȳ a = 60, s2y = 208, 86 I Trage Ausprägung xi gegen Ausprägung yi ab ● 70 ● 60 ● ● 50 Umsatz Y (in Mio Euro) 80 ● 40 ● ● 100 200 300 400 500 600 700 Werbeausgaben X (in 1.000 Euro) → (positiver) Zusammenhang von X und Y , der weder von emp. Verteilungsfunktion, Mittelwert noch Varianz berücksichtigt wird → Zusammenhangsmaß vonnöten Dr. Hendrik Hansen 91 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Bisher: Ein Merkmal pro Merkmalsträger I Jetzt: Zwei Merkmale pro Merkmalsträger I Gesucht: Maßzahlen, die den Zusammenhang zwischen diesen beiden Merkmalen beschreiben Dr. Hendrik Hansen 92 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.2 (Umsätze & Werbeausgaben von Firma i, vgl. Beispiel 5.1) Eine Möglichkeit: Einteilung des Koordinatensystems in vier Quadranten durch Mittelwerte ● 60 70 xa = 400 ● II III ya = 60 ● ● I IV ● 50 Umsatz Y (in Mio Euro) 80 I 40 ● ● 100 200 300 400 500 600 700 Werbeausgaben X (in 1.000 Euro) Dr. Hendrik Hansen 93 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.2 (Fortsetzung) I I Idee nun I Häufung der Beobachtungen in den Quadranten I und III → positiver Zusammenhang I Häufung der Beobachtungen in den Quadranten II und IV → negativer Zusammenhang I Ähnlich große Beobachtungszahlen in den Quadrantenpaaren (I,III) und (II,IV) → kein Zusammenhang Hier: I + II + III IV = = 3,5 0,5 + + 3 0 = = 6,5 0,5 → stark“ positiver Zusammenhang (fasse hierbei die ” Beobachtung (x4 , y4 ) = (400, 62) als halb zum ersten und halb zum zweiten Quadranten zugehörig auf) Dr. Hendrik Hansen 94 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Kriterium aus Beispiel 5.2 recht grob, Entfernung der Beobachtungen vom Zentrum“ (x̄a , ȳ a ) wird nicht ” berücksichtigt → I Betrachte abermals Umsätze und Werbeausgaben aus Beispiel 5.1 und 5.2 I Beobachtung y3 = 52 Mio. Euro verändere sich zu y3neu = 38 Mio. Euro I Beobachtung y5 = 72 Mio. Euro verändere sich zu y5neu = 86 Mio. Euro a → ȳneu = ȳ a = 60 Mio. Euro (x̄aneu = x̄a = 400.000 Euro sowieso) Dr. Hendrik Hansen 95 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) a) (Fortsetzung) 90 Daten mit verändertem y3 & y5 90 Originaldaten aus Bsp 5.2 ● ● I IV ● 80 ● 70 60 ya = 60 ● xa = 400 II III 200 ● I IV ● 40 40 ● ● 100 ya = 60 50 II III ● Umsatz Y (in Mio Euro) 60 70 xa = 400 ● 50 Umsatz Y (in Mio Euro) 80 ● 300 400 500 600 Werbeausgaben X (in 1.000 Euro) 700 ● 100 ● 200 300 400 500 600 700 Werbeausgaben X (in 1.000 Euro) → Gemäß des Kriteriums aus Beispiel 5.2 ist es egal, ob sich Beobachtungen y3 und y5 oder y3neu und y5neu realisieren, der Zusammenhang bleibt gleich stark Dr. Hendrik Hansen 96 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Motiviert durch Teil a): Fordere unterschiedliche Gewichtung der Daten, je nach Entfernung von (x̄a , ȳ a ) → Gewicht für Beobachtungspaar i : (xi − x̄a )(yi − ȳ a ) I xi > x̄a und yi > ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) > 0 I xi < x̄a und yi < ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) > 0 (Quadr. III) I xi < x̄a und yi > ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) < 0 I xi > x̄a und yi < ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) < 0 (Quadr. IV) I xi = x̄a oder yi = ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) = 0 (Quadr. I) (Quadr. II) → Berechne (xi − x̄a )(yi − ȳ a ) für alle Beobachtungspaare und betrachte den Durchschnitt Dr. Hendrik Hansen 97 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 5.1 Für zwei kardinal skalierte Merkmale X und Y mit den beobachteten Ausprägungen x1 , x2 , . . . , xn und y1 , y2 , . . . , yn heißt n sxy 1X = (xi − x̄a )(yi − ȳ a ) n i=1 Kovarianz (oder gemeinsame Streuung) von X und Y . Dr. Hendrik Hansen 98 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.3 (Umsätze & Werbeausgaben von Firma i, vgl. Beispiele 5.1 und 5.2) xi 100 200 300 400 500 600 700 P 2.800 yi 38 45 52 62 72 70 81 420 xi − x̄a -300 -200 -100 0 100 200 300 0 yi − ȳ a -22 -15 -8 2 12 10 21 0 (xi − x̄a ) · (yi − ȳ a ) 6.600 3.000 800 0 1.200 2.000 6.300 19.900 → sxy = 1/7 × 19.900 = 2.842, 86 Dr. Hendrik Hansen 99 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.3 (Fortsetzung) I Für die veränderten Daten aus Bemerkung b) nach Beispiel 5.2 (y3 → y3neu , y5 → y5neu ) ergibt sich sneu xy = 3242, 86 Bemerkung a) Für die Kovarianz gilt sxy = 1 n Pn i=1 xi · yi − x̄a · ȳ a b) Betrachte lineare Transformationen der Form x?i = a · xi + b und yi? = c · yi + d (a, b, c, d ∈ R, i = 1, ..., n), dann gilt sx? y? = a · c · sxy → Kovarianz ist abhängig von der Maßeinheit c) sxy repräsentiert Richtung des Zusammenhangs zwischen zwei Variablen (positiv → sxy > 0, negativ → sxy < 0); keine Aussage über Stärke des Zusammenhangs möglich Dr. Hendrik Hansen 100 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.4 (Umsätze & Werbung, vgl. Beispiele 5.1 bis 5.3) a) Messe Werbeausgaben nun in 100(= 1.000/10) Euro, Umsatz in 100.000(= 1.000.000/10) Euro xi 1.000 2.000 3.000 4.000 5.000 6.000 7.000 P 28.000 yi 380 450 520 620 720 700 810 4.200 xi − x̄a -3.000 -2.000 -1.000 0 1.000 2.000 3.000 0 yi − ȳ a -220 -150 -80 20 120 100 210 0 (xi − x̄a ) · (yi − ȳ a ) 660.000 300.000 80.000 0 120.000 200.000 630.000 1.990.000 → sxy = 1/7 × 1.990.000 = 284285, 7 = 10 × 10 × 2.842, 86 Dr. Hendrik Hansen 101 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.4 (Fortsetzung) b) Betrachte (neben Daten aus Bsp. 5.1 und 5.2) noch einmal die veränderten Ausprägungen aus Bem. a) nach Bsp. 5.2 90 Daten mit verändertem y3 & y5 90 Originaldaten aus Bsp 5.2 ● ● I IV ● 80 ● 70 60 y = 60 ● ● xa = 400 II III ● 200 ● I IV ● 40 40 ● 100 y = 60 a 50 II III a Umsatz Y (in Mio Euro) 60 70 xa = 400 ● 50 Umsatz Y (in Mio Euro) 80 ● 300 400 500 600 Werbeausgaben X (in 1.000 Euro) 700 ● 100 ● 200 300 400 500 600 700 Werbeausgaben X (in 1.000 Euro) → Grafik: Positiver Zusammenhang bei Originaldaten stärker; dies durch Kovarianzen nicht quantifiziert (sxy = 2.842, 86 und sneu xy = 3242, 86), vgl. Bem. c) nach Bsp. 5.3 Dr. Hendrik Hansen 102 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 5.2 Für zwei kardinal skalierte Merkmale X und Y mit den beobachteten Ausprägungen x1 , . . . , xn und y1 , . . . , yn heißt n P rxy (xi − x̄a ) (yi − ȳ a ) sxy = = s i=1 sx · sy n n P P (xi − x̄a )2 · (yi − ȳ a )2 i=1 i=1 Bravais-Pearson-Korrelationskoeffizient von X und Y . Dr. Hendrik Hansen 103 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.5 (Umsätze & Werbung, vgl. Beispiele 5.1 bis 5.4) a) Für die Originaldaten aus den Beispielen 5.1 und 5.2 ergibt sich s2x = 40.000 und s2y = 208, 86 2842, 86 rxy = √ = 0, 984 40.000 · 208, 86 → Umrechnung der Maßeinheiten in 100 Euro (Werbung) bzw. 100.000 Euro (Umsatz) verändert diesen Wert nicht rx? y? Dr. Hendrik Hansen = √ 284285, 7 = 0, 984 4.000.000 · 20886 104 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.5 (Fortsetzung) b) Datenvariation aus Bemerkung a) nach Beispiel 5.2 s2,neu = 40.000 und s2,neu = 344, 86 x y 3242, 86 neu rxy = √ = 0, 873 < 0, 984 = rxy 40.000 · 344, 86 → Zusammenhang der veränderten Daten schwächer“ ” Dr. Hendrik Hansen 105 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Eigenschaften von sxy , rxy ) a) Für die Kovarianz gilt (I) | sxy | ≤ sx · sy (II) | sxy | = sx · sy ⇔ yi = a · xi + b mit a 6= 0, also gilt für den Bravais-Pearson-Korrelationskoeffizienten (III) −1 ≤ rxy ≤ 1 (IV) rxy = 1 ⇔ yi = a · xi + b mit a > 0 (V) rxy = −1 ⇔ yi = a · xi + b mit a < 0 Dr. Hendrik Hansen 106 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Bedeutung von Bemerkung a), (IV) & (V) rxy = 1 ● ● Y Y ● ● rxy = − 1 ● ● ● ● ● ● X Dr. Hendrik Hansen X 107 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Vorsicht: rxy = 0 heißt nicht, dass kein Zusammenhang besteht, sondern dass kein linearer Zusammenhang vorliegt; Betrachte Merkmal X mit Ausprägungen −2, −1, 0, 1, 2 und Merkmal Y mit Ausprägungen yi = 0.5 × x2i (d.h. Merkmal X erklärt Merkmal Y komplett) → rxy = 0! 2.0 I ● ● Y 0.5 1.0 1.5 rxy = 0 0.0 ● ● ● −2 −1 0 1 2 X Dr. Hendrik Hansen 108 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) d) Vorsicht: Korrelation ist nicht gleich Kausalität, Zusammenhang kann etwa durch dritte Einflussgröße Verursacht werden I Beispiel 1 (aus www.statistics4u.info): Schuhgröße und Kalziumgehalt der Knochen positiv korreliert; Grund: Kinder haben weniger Kalzium in den Knochen als Erwachsene, und natürlich geringere Schuhgrößen I Beispiel 2: Zahl der Störche und Kinderanzahl pro Ehepaar positiv korreliert; Grund: Je ländlicher die Gegend, umso mehr Störche gibt es, und umso mehr Kinder werden pro Ehepaar geboren → halte den dritten Faktor (in Bsp. 1 etwa das Alter und in Bsp. 2 die Größe der untersuchten Stadt) konstant → beide Korrelationen“ verschwinden ” Dr. Hendrik Hansen 109 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.6 I Erhebe an 11 Studenten die Punktezahlen in der Statistikbzw. Mathematik-Klausur (vgl. Bamberg et al., 2007) Student Mathe Statistik A 38 39 B 47 34 C 44 31 D 51 48 E 35 46 F 29 23 G 22 17 H 14 12 I 12 16 J 19 28 K 9 10 → Zusammenhang der Merkmale? I Problem bei Bravais-Pearson-Koeffizient: Kardinales Skalenniveau hier zumindest fragwürdig Dr. Hendrik Hansen I Annahme: Ab 20 Punkten ist die Mathematikklausur bestanden → Abstand zwischen 19 und 20 Punkten sicherlich größer, als etwa zwischen 35 und 36 Punkten I Umskalierungen bei Punktevergabe möglich 110 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 5.3 Betrachte zwei Merkmale X und Y mit mindestens ordinalem Skalenniveau und Ausprägungen x1 , ..., xn bzw. y1 , ..., yn . Die Beobachtung xk stehe in der Reihe x(1) , ..., x(n) der aufsteigend geordneten Daten an Stelle l (d.h. xk = x(l) ). Dann heißt R(xk ) = l Rang von xk (R(yi ) analog) und n P R rxy =s R(xi ) − R̄xa R(yi ) − R̄ya i=1 n P i=1 R(xi ) − R̄xa n 2 2 P R(yi ) − R̄ya · i=1 Rangkorrelationskoeffizient nach Spearman Dr. Hendrik Hansen 111 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.7 (Klausurpunkte Mathe & Statistik, vgl. Bsp. 5.6) Student xi R(xi ) yi r(yi ) A 38 8 39 9 B 47 10 34 8 C 44 9 31 7 D 51 11 48 11 E 35 7 46 10 F 29 6 23 5 G 22 5 17 4 H 14 3 12 2 I 12 2 16 3 J 19 4 28 6 K 9 1 10 1 → R̄xa = R̄ya = 6 Dr. Hendrik Hansen 112 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.7 (Fortsetzung) Stud. A B C D E F G H I J K P R(xi ) − R̄xa = Mi 2 4 3 5 1 0 -1 -3 -4 -2 -5 0 Mi2 4 16 9 25 1 0 1 9 16 4 25 110 R → rxy =√ Dr. Hendrik Hansen R(yi ) − R̄ya = Si 3 2 1 5 4 -1 -2 -4 -3 0 -5 0 Si2 9 4 1 25 16 1 4 16 9 0 25 110 Mi · Si 6 8 3 25 4 0 2 12 12 0 25 97 97 = 0, 88 110 · 110 113 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Eigenschaften des Rangkorrelationskoeffizienten nach Spearman) R ≤1 a) −1 ≤ rxy R = 1 ⇔ R(x ) = R(y ) für alle i b) rxy i i R = −1 ⇔ R(x ) = n − R(y ) + 1 für alle i c) rxy i i Dr. Hendrik Hansen 114 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) R den monotonen Zusammend) Gemäß Teil b) und c) misst rxy hang zweier Merkmale (im Gegensatz zum Bravais-PearsonKoeffizienten, der den linearen Zusammenhang misst) rxy = 1 rRxy = 1 ● ● ● ● ● ● ● → y R(y) ● ● ● ● ● ● ● ● ● ● ● ● ● x R(x) rvw < 1 ● rRvw =1 ● ● ● ● w → R(w) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● v Dr. Hendrik Hansen R(v) 115 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.8 I Zwei Personen testen 10 italienische Rotweine und bewerten sie mit Noten von 1 bis 5 (vgl. www.statistics4u.info) Wein Nr. 1 2 3 4 5 6 7 8 9 10 Dr. Hendrik Hansen Note xi Pers. 1 1 2 4 5 2 2 4 3 1 4 Note yi Pers. 2 2 3 5 4 2 2 3 4 3 2 116 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.8 (Fortsetzung) I Noten ordinal skaliert → Spearman I Problem: Bindungen (d.h. eine Ausprägung tritt mehrfach auf: Person 1 vergibt z.B. 2× die Note 1) → Durchschnittsränge I Betrachte sortierte Ausprägungen x(i) von Person 1: 1, 1, 2, 2, 2, 3, 4, 4, 4, 5 → R(x(1) ) = R(x(2) ) = 1+2 = 1, 5 2 3+4+5 = 4, R(x(6) ) = 6 3 7+8+9 R(x(7) ) = ... = R(x(9) ) = = 8, R(x(10) ) = 10 3 R(x(3) ) = ... = R(x(5) ) = I Analoges Vorgehen mit sortierten Ausprägungen y(i) von Person 2 Dr. Hendrik Hansen 117 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 5.8 (Fortsetzung) Wein Nr. 1 2 3 4 5 6 7 8 9 10 xi 1 2 4 5 2 2 4 3 1 4 R(xi ) 1,5 4 8 10 4 4 8 6 1,5 8 yi 2 3 5 4 2 2 3 4 3 2 R(yi ) 2,5 6 10 8,5 2,5 2,5 6 8,5 6 2,5 R → rxy = 0, 5 Dr. Hendrik Hansen 118 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Treten keine Bindungen auf, so gilt R rxy =1− n X 6 n (n2 − 1) (R(xi ) − R(yi ))2 i=1 b) Fazit zu Zusammenhangsmaßen Dr. Hendrik Hansen I Kovarianz nicht normiert I Bravais-Pearson-Korrelationskoeffizient normierte Kennzahl für linearen Zusammenhang I rxy = 0 9 kein Zusammenhang zwischen X und Y , sondern: rxy = 0 → kein linearer Zusammenhang zwischen X und Y I Rangkorrelationskoeffizient nach Spearman misst monotonen Zusammenhang I Korrelation 6= Kausalität 119 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 6: Elementare Regressionsrechnung Beispiel 6.1 Produkt wird in Supermarkt auf Regalen unterschiedlicher Höhen positioniert → Tagesabsätze des Produktes: i 1 2 3 4 5 6 7 xi (Regalhöhe in m) 0,9 1,0 1,25 1,3 1,1 1,35 1,4 yi (Tagesabsatz) 7 8 10 11 8 12 13 Linearer Zusammenhang zwischen X und Y ? Kardinales Skalenniveau → Bravais-Pearson-Koeffizient: rxy = 0, 97 → stark positiver linearer Zusammenhang Dr. Hendrik Hansen 120 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.1 (Fortsetzung) 13 ● 11 ● 10 ● 9 Tagesabsatz Y 12 ● 7 8 ● ● ● 0.9 1.0 1.1 1.2 1.3 1.4 Regalhöhe X (in m) Dr. Hendrik Hansen 121 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.1 (Fortsetzung) Frage nun: Was ist erwarteter Tagesabsatz bei einer Regalhöhe von 1,18 m? → Ermittlung einer Geraden, die den linearen Zusammenhang zwischen X und Y gut“ beschreibt ” I Eine Möglichkeit: Über Extrempunkte → erwarteter Tagesabsatz=10 13 ● 11 ● ● 9 10 O ● 7 8 Tagesabsatz Y 12 ● ● ● 0.9 1.0 1.1 1.2 1.3 1.4 Regalhöhe X (in m) Dr. Hendrik Hansen 122 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.1 (Fortsetzung) Weitere Möglichkeit: Augenmaß → erwarteter Tagesabsatz=9 ● 13 I 12 ● 10 ● 9 O ● ● ● 6 7 8 Tagesabsatz Y 11 ● 0.9 1.0 1.1 1.2 1.3 1.4 Regalhöhe X (in m) Dr. Hendrik Hansen 123 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen ⇒ Ziel der Elementaren Regressionsrechnung Erfassung des Zusammenhangs zweier kardinal skalierter Merkmale X und Y durch eine Gerade der Form yi = a + b xi (i = 1, . . . , n) Vorteile einer linearen Modellierung: I einfacher und leicht berechenbarer Zusammenhang I ausführlich erforschte Theorie I kompliziertere Zusammenhänge oft linearisierbar bzw. (auf bestimmten Bereichen) gut durch lineare Funktion approximierbar Dr. Hendrik Hansen 124 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 6.1 a) Seien X und Y kardinal skalierte Merkmale mit Ausprägungen x1 , ..., xn bzw. y1 , ..., yn , außerdem a, b ∈ R. Das Modell yi = a + b xi + ui , i = 1, . . . , n, heißt einfaches lineares Regressionsmodell. Hierbei bezeichnet ui = yi − a − b xi die i−te Störgröße (notwendig, da perfekt linearer Zusammenhang fast nie auftritt, vgl. Beispiel 6.1) Dr. Hendrik Hansen 125 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 6.1 (Fortsetzung) b) Krit. zur Best. von a und b : Minimiere Summe der quadrierten (vertikalen) Abstände zwischen Beob. und Geraden. |c| =Länge der Linie c (|d| − |g| analog) → â und b̂ so dass |c|2 + |d|2 + |e|2 + |f |2 + |g|2 =min! Dr. Hendrik Hansen 126 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 6.1 (Fortsetzung) b) Kriterium zur Bestimmung von a und b (Fortsetzung) Die Koeffizienten der Geraden, die dieses Kriterium erfüllen, sind gegeben durch n P b̂ = sxy = s2x (xi − x̄a )(yi − ȳ a ) i=1 n P und (xi − x̄a )2 i=1 a â = ȳ − b̂ · x̄ a Die Gerade ŷi = â + b̂ xi , i = 1, . . . , n, heißt KQ-Gerade (KQ=Kleinste Quadrate, da quadrierte Abstände minimiert werden). Dr. Hendrik Hansen 127 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.2 (Tagesabsätze & Regalhöhen eines Produkts, vgl. Bsp. 6.1) Beschreibe linearen Zusammenhang von X (Regalhöhe) und Y (Tagesabsatz) durch KQ-Gerade → für die Koeffizienten gilt gemäß Def. 6.1 b) b̂ = sxy 0, 355 = 11, 639 = 2 sx 0, 03 und â = 9, 857 − 11.639 · 1, 186 = −3, 943 Die KQ-Gerade lautet damit ŷi = −3, 943 + 11, 639 · xi Dr. Hendrik Hansen 128 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.2 (Fortsetzung) Ausprägungen (xi,yi)+KQ−Gerade 13 ● 12 ● 9 10 ● ● ● ● 6 7 8 Tagesabsatz Y 11 ● 0.9 1.0 1.1 1.2 1.3 1.4 Regalhöhe X (in m) Dr. Hendrik Hansen 129 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.2 (Fortsetzung) Frage Bsp. 6.1: Erwarteter Tagesabsatz bei Regalhöhe von 1,18 m? → über KQ-Gerade: erwarteter Tagesabsatz=9 Ausprägungen (xi,yi)+KQ−Gerade 13 ● 12 ● ● 9 10 O ● ● ● 6 7 8 Tagesabsatz Y 11 ● 0.9 1.0 1.1 1.2 1.3 1.4 Regalhöhe X (in m) Dr. Hendrik Hansen 130 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Definition 6.1 → KQ-Gerade ŷi = â + b̂ xi im Sinne der Fehlerquadratsumme unter allen möglichen Geraden optimal. Frage: Wieviel Informationen über Originaldaten liefert KQ-Gerade? →Betrachte Varianz der yi , n s2y = 1X (yi − ȳ a )2 n i=1 Dr. Hendrik Hansen 131 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) Es gilt (nur bei KQ-Gerade) n s2y = n n 1X 1X 1X (yi − ȳ a )2 = (ŷi − ȳ a )2 + (yi − ŷi )2 n n n | i=1 {z } | i=1 {z } | i=1 {z } A B C A = Gesamtstreuung s2y B = Teil von s2y , der durch Gerade ŷi = â + b̂ xi erklärt wird C = Teil von s2y , der durch ŷi = â + b̂ xi nicht erklärt wird Je kleiner C, umso besser beschreibt ŷi = â + b̂ xi die Daten → Idee: Betrachte B/A ∈ [0, 1] Dr. Hendrik Hansen 132 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 6.2 Betrachte einfaches lineares Regressionsmodell yi = a + bxi + ui , (i = 1, ..., n) und â, b̂ ∈ R die Koeffizienten der KQ-Geraden. Die Größe n P R2 = (ŷi − ȳ a )2 i=1 n P (yi − ȳ a )2 i=1 heißt Bestimmtheitsmaß. Dr. Hendrik Hansen 133 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Für das Bestimmtheitsmaß gilt: a) 0 ≤ R2 ≤ 1 b) Je näher R2 bei 1, desto besser erklärt KQ-Gerade den linearen Zusammenhang zwischen X und Y c) Je näher R2 bei 0, desto schlechter erklärt KQ-Gerade den linearen Zusammenhang zwischen X und Y Dr. Hendrik Hansen 134 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.3 (Tagesabsatz Y in Abh. von Regalhöhe X, vgl. Bsp. 6.1 & 6.2) KQ-Gerade (Bsp. 6.2): ŷi = −3, 943 + 11, 639 · xi → xi 0,9 1,0 1,25 1,3 1,1 1,35 1,4 Dr. Hendrik Hansen yi 7 8 10 11 8 12 13 ŷi 6,53 7,70 10,61 11,19 8,86 11,77 12,35 (ŷi − ȳ a )2 11,06 4,67 0,56 1,77 1,00 3,66 6,22 P = 28, 93 (yi − ȳ a )2 8,16 3,45 0,02 1,31 3,45 4,60 9,88 P = 30, 86 135 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.3 (Fortsetzung) Es ergibt sich somit ein Bestimmtheitsmaß von → R2 = 28, 93 = 0, 937 30, 86 Die KQ-Gerade erklärt also 93,7% der Varianz der yi Dr. Hendrik Hansen 136 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 6.4 Lineares Regressionsmodell bei nichtlinearen Zusammenhängen a) X = Alter des PKWs, Y = Wert des PKWs Y =a+b 1 X ⇒ Y = a + b X? mit X? = 1 X b) Cobb-Douglas-Produktionsfunktion: Y = Produktionsmenge, X1 = Arbeit, X2 = Kapital Y = α X1b X2c ⇒ Y ? = a + b X1? + c X2? mit Y ? = log Y , a = log α, X1? = log X1 , X2? = log X2 Dr. Hendrik Hansen 137 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit zur elementaren Regressionsrechnung I Modelliert linearen Zusammenhang zwischen zwei metrisch skalierten Merkmalen I Ursache“ (X) und Wirkung“ (Y ) dabei bekannt ” ” I Modellierter Zusammenhang auf gegebenen Datenbereich beschränkt Dr. Hendrik Hansen 138 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 7: Preisindizes Beispiel 7.1 I (Fiktive) wöchentliche Ausgaben für Freizeitgestaltung Benzin Kino Schwimmbad Sep. 2009 Preis Menge 1,40 Euro/l 10 l 6,00 Euro 2 3,50 Euro 1 Sep. 2010 Preis Menge 1,35 Euro/l 12 l 7,00 Euro 1 5,00 Euro 1 → Veränderung des Preisniveaus? Dr. Hendrik Hansen 139 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 7.1 (Fortsetzung) a) 1. Idee: Vergleich der Durchschnittspreise I 2009 : p̄a = 3, 63; 2010 : p̄a = 4, 45 → Durchschnittspreis von 3,63 Euro um ca. 23 Prozent auf 4,45 Euro gestiegen I Problem - konsumierte Mengen werden nicht berücksichtigt: Benzin wird zu beiden Zeitpunkten am häufigsten konsu” miert“ → hier verringert sich Preis sogar! b) 2. Idee: Vergleich der Gesamtausgaben I 2009 : 10 × 1, 4 + 2 × 6 + 3, 5 = 29, 50 Euro; 2010 : 12 × 1, 35 + 7 + 5 = 28, 20 Euro → Gesamtausgaben sind 2010 geringer als 2009 → wie lassen sich a) und b) in Einklang bringen? Dr. Hendrik Hansen 140 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 7.1 (Fortsetzung) c) Ausweg: Mengen gleich lassen, vergleiche z.B. Kosten der Mengen von 2009 bei Preisniveau von 2010 mit Gesamtausgaben von 2009 I Gesamtausgaben 2009=29,5 Euro, vgl. b) I Kosten der Mengen von 2009 im Jahr 2010: 10 × 1, 35 + 2 × 7 + 5 = 32, 5 Euro → Mengen von 2009 kosten im Jahr 2010 Prozent mehr Dr. Hendrik Hansen 32,5−29,5 29,5 × 100 = 10, 17 141 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 7.1 Bezeichne mit I p0 (i) den Preis von Gut Nr. i in Periode 0 I pt (i) den Preis von Gut Nr. i in Periode t I q0 (i) die konsumierte Menge von Gut Nr. i in Periode 0. Dann heißt n P L P0t = i=1 n P pt (i) · q0 (i) p0 (i) · q0 (i) i=1 Preisindex nach Laspeyres für die Berichtsperiode t zur Basisperiode 0. Dr. Hendrik Hansen 142 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Der Preisindex nach Laspeyres vergleicht hypothetische Gesamtausgaben in Berichtsperiode mit tatsächlichen Gesamtausgaben in Basisperiode; Beantwortet die Frage, wieviel Warenkorb der Basisperiode in Berichtsperiode kostet b) Beispiel 7.1, c) → für Warenkorb Freizeitgestaltung“ ergibt ” sich L P09,10 = 32, 5 = 1, 1017 29, 5 (Berichtsperiode 2010, Basisperiode 2009) Dr. Hendrik Hansen 143 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Preisindex nach Laspeyres als gewichtetes arithmetisches Mittel der individuellen Preisverhältnisse darstellbar. Genauer: L P0t = n X g0 (i) · i=1 pt (i) p0 (i) mit g0 (i) = = Ausgaben für Gut i in Basisperiode Gesamtausgaben in Basisperiode p0 (i) · q0 (i) n P p0 (j) · q0 (j) j=1 Dr. Hendrik Hansen 144 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 7.2 (Ausgaben für Freizeitgestaltung, vgl. Beispiel 7.1) L , vgl. Bem. c) nach Def. 6.1 Alternative Berechnung von P0t g0 (1) = 14 , 29, 5 g0 (2) = 12 29, 5 und g0 (3) = 3, 5 , 29, 5 also: L = P09,10 14 1, 35 12 7, 00 3, 5 5, 00 · + · + · 29, 5 1, 40 29, 5 6, 00 29, 5 3, 50 = 1, 1017. Dr. Hendrik Hansen 145 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 7.2 Notationen wie in Definition 7.2, außerdem bezeichne qt (i) die konsumierte Menge von Gut Nr. i in Periode t. Dann heißt n P P P0t = i=1 n P pt (i) · qt (i) p0 (i) · qt (i) i=1 Preisindex nach Paasche für die Berichtsperiode t zur Basisperiode 0. Dr. Hendrik Hansen 146 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Der Preisindex nach Paasche I verwendet Mengen der Berichtsperiode und bestimmt durchschnittliche Preisänderung (Laspeyres-Index: Gleiches Vorgehen, verwendet allerdings Mengen der Basisperiode) I vergleicht tatsächliche Gesamtausgaben in Berichtsperiode mit hypothetischen Gesamtausgaben in Basisperiode I beantwortet Frage, wieviel Warenkorb aus Berichtsperiode in Basisperiode gekostet hätte Dr. Hendrik Hansen 147 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 7.3 (Ausgaben für Freizeitgestaltung, vgl. Beispiel 7.1 & 7.2) Für den Warenkorb Freizeitgestaltung“ ergibt sich ” P P09,10 = 1, 35 · 12 + 7, 00 · 1 + 5, 00 · 1 28, 2 = 1, 40 · 12 + 6, 00 · 1 + 3, 50 · 1 26, 3 = 1, 072. → Gemäß Paasche-Index beträgt mittlerer Preisanstieg 7,2 % Dr. Hendrik Hansen 148 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 I L > P P ; Grund: Bei allgemeiner Preissteigerung Häufig gilt P0t 0t werden verhältnismäßig günstige Güter stärker konsumiert als teure Artikel (Substitution teurer durch günstige Güter) → wird durch Laspeyres-Index nicht berücksichtigt I Paasche-Index benötigt wesentlich mehr Informationen (Mengenangaben aus allen Berichtsperioden) als Laspeyres-Index (Mengenangaben aus Basisperiode) I Laspeyres-Index in Praxis weiter verbreitet Dr. Hendrik Hansen 149 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 (Fortsetzung) I Auch Paasche-Index als gewichtetes arithmetisches Mittel der individuellen Preisverhältnisse darstellbar: P P0t = n X i=1 gt (i) · pt (i) p0 (i) mit gt (i) = = hypothetische Ausgaben für Gut i in Basisperiode hypothetische Gesamtausgaben in Basisperiode p0 (i) · qt (i) n P p0 (j) · qt (j) j=1 Dr. Hendrik Hansen 150 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Preisindex in der Praxis) Der Verbraucherpreisindex (VPI) in Deutschland I Monatlich vom Statistischen Bundesamt berechnet I Aufgabe: • Beschreibung der Preisentwicklung aller Waren & Dienstleistungen, die von privaten Haushalten konsumiert werden • Orientierung (Inflation, Lohnverhandlungen,...) I Datengrundlage: • Warenkorb enthält alle relevanten Güter und Dienstleistungen, Aktualisierung alle 5 Jahre → Laspeyres-Index • Preise der Güter im Warenkorb werden monatlich in denselben Geschäften (repräsentative Stichprobe) erhoben, außerdem zentrale Preiserfassung (Versandhäuser...) Dr. Hendrik Hansen 151 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) I Berechnung: Mehrfaches (gewichtetes) arithmetisches Mitteln • Elementarindex pro Gut/Dienstleistung und pro Bundesland (arithmetisches Mittel der Preisreihen) • Gesamtdeutscher Teilindex pro Gut/Dienstleistung (gewichtetes arithmetisches Mittel der Elementarindizes über die Bundesländer) ⇒ VPI: Gewichtetes arithmetisches Mittel der gesamtdeutschen Teilindizes Dr. Hendrik Hansen 152 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) I Gewichte der Bundesländer, Basisjahr 2000 (entspricht landesspezifischem Anteil an gesamtdeutschen privaten Konsumausgaben) → gesamtdeutscher Teilindex pro Gut; Angaben in % (Quelle: Statistisches Bundesamt): Nordrhein-Westfalen Bayern Baden-Württemberg Niedersachsen Hessen Rheinland-Pfalz Sachsen Berlin Dr. Hendrik Hansen 23,5 15,4 13,5 9,5 7,3 4,8 4,6 3,8 Schleswig-Holstein Brandenburg Sachsen-Anhalt Thüringen Hamburg Mecklenburg-Vorpommern Saarland Bremen 3,3 2,7 2,7 2,5 2,3 1,8 1,3 1,0 153 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) I Zusammensetzung VPI-Warenkorb, Basisjahr 2005 → entspricht Gewichten bei Berechnung des VPIs aus Teilindizes; Angaben in % (Quelle: Statistisches Bundesamt): Nahrungsmittel Alkoholische Getränke & Tabakwaren Bekleidung & Schuhe 10,4 3,9 Verkehr Nachrichtenübermittlung 13,2 3,1 4,9 11,6 Wohnung & Energie Einrichtungsgegenstände Gesundheitspflege 30,8 5,6 4,0 Freizeit, Unterhaltung & Kultur Bildungswesen Beherbergung & Gaststätten Sonstiges Dr. Hendrik Hansen 0,7 4,4 7,4 154 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) 110 VPI für Deutschland, 1991−2009 (Jahresdurchschnitte); 2005=100% ● 100 ● ● ● 95 ● ● ● 90 ● ● ● ● ● ● ● 85 Wert des Indizes 105 ● ● 75 80 ● ● ● 1991 1995 2000 2005 2009 Jahr Dr. Hendrik Hansen 155 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) I Praktische Probleme beim VPI • Wahl geeigneter Produkte aus Gütergruppe ( Preisrepräsentanten“) ” • Umgang mit Produktvariationen zwischen zwei Umbasierungen des Warenkorbs (Produkte verschwinden & kommen hinzu; Qualitätsänderungen, z.B. Veränderung der Packungsgröße,...) • Wahl der Preise (Discount- , Aktionspreise, in- oder exklusive Steuern,...) • Beschaffung von Infos über Konsummuster (Bei Aufstellung des Warenkorbes) • ... Dr. Hendrik Hansen 156 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Teil B: Wahrscheinlichkeitsrechnung Dr. Hendrik Hansen 157 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 8: Zufällige Ereignisse und ihre Wahrscheinlichkeiten Motivation Bisher: I Beschreibung/Komprimierung/Vereinfachung von Datensätzen (beobachteten Merkmalsausprägungen) durch • Grafiken • Tabellen • Kennzahlen Jetzt: I Treffe auf Basis beobachteter Merkmalsausprägungen Aussagen über zukünftige, unsichere“ Beobachtungen ” Dr. Hendrik Hansen 158 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Die Theorie der Wahrscheinlichkeit ist ein System, ” das uns beim Raten hilft.“ R. Feynman, US-amerikanischer Physiker und Nobelpreisträger (1918 – 1988) Dr. Hendrik Hansen 159 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.1 Ein Investitionsprojekt ist in Gefahr, wenn es während der Bauphase zu viel regnet oder der Dollarkurs steigt. Bekannt ist: Regenwahrscheinlichkeit Wahrscheinlichkeit dass Dollar steigt = = 10% 40% → wie wahrscheinlich ist Gefährdung des Investitionsprojekts? Dr. Hendrik Hansen 160 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.1 Ein Zufallsexperiment ist ein Vorgang, I der mehrere, sich gegenseitig ausschließende mögliche Ausgänge besitzt I dessen Ausgang nicht mit Sicherheit vorhergesagt werden kann I der unter identischen Rahmenbedingungen beliebig oft wiederholbar ist; Dr. Hendrik Hansen 161 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.1 (Fortsetzung) I Die n möglichen Ausgänge ω1 , ω2 , . . . , ωn eines Zufallsexperiments heißen Elementarereignisse I Die Menge Ω = {ω1 , ω2 , . . . , ωn } aller Elementarereignisse heißt Ergebnismenge I Teilmengen A, B ⊆ Ω der Ergebnismenge heißen Ereignisse Dr. Hendrik Hansen 162 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.2 a) Einmaliges Würfeln entspricht Zufallsexperiment mit Ausgängen 1,...,6 Ergebnismenge Ω Elementarereignisse Ereignis A : gerade Zahl“ ” Ereignis B : ungerade Zahl“ ” Ereignis C : Primzahl“ ” Ereignis D : Zahl größer 3“ ” Dr. Hendrik Hansen {1, 2, 3, 4, 5, 6} {1}, {2}, {3}, {4}, {5}, {6} {2, 4, 6} {1, 3, 5} {2, 3, 5} {4, 5, 6} 163 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.2 (Fortsetzung) b) Zweimaliges Würfeln → Elementarereignisse jetzt Zahlenpaare, die sich aus {1, ..., 6} zusammensetzen Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)} = {1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6} (⊗ =Kartesisches Produkt=Menge aller geordneten Paare (a, b) mit a ∈ A, b ∈ B) Dr. Hendrik Hansen 164 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.2 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) Ergebnismenge Ω Elementarereignisse Ereignis A : Augensumme=10“ ” B : nur ungerade Zahlen“ ” C : gerade Zahl in Wurf 1“ ” Dr. Hendrik Hansen {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (6, 5), (6, 6)} {(1, 1)}, ..., {(6, 6)} {(4, 6), (5, 5), (6, 4)} {(1, 1), (1, 3), (1, 5), (3, 1), ..., (5, 3), (5, 5)} {(2, 1), (2, 2), ..., (2, 6), (4, 1), ..., (6, 5), (6, 6)} 165 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.2 Betrachte Zufallsexperiment mit Ergebnismenge Ω und Ereignisse A, B ⊆ Ω. Die Menge der Elementarereignisse ωi , die a) sowohl in A als auch in B liegen, heißt Schnittmenge von A und B (kurz: A ∩ B) b) in A oder in B liegen, heißt Vereinigungsmenge von A und B (kurz: A ∪ B) c) in A aber nicht in B liegen, heißt Differenzmenge von A und B (kurz: A \ B) d) nicht in A liegen, heißt Komplementärereignis zu A (kurz: Ā); Weiterhin heißen A und B disjunkt, falls ihre Schnittmenge die leere Menge ist (A ∩ B = ∅) Dr. Hendrik Hansen 166 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Venn-Diagramm: A ∩ B, vgl. Definition 8.2 a) Dr. Hendrik Hansen 167 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Venn-Diagramm: A ∪ B, vgl. Definition 8.2 b) Dr. Hendrik Hansen 168 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Venn-Diagramm: A \ B, vgl. Definition 8.2 c) Dr. Hendrik Hansen 169 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) d) Venn-Diagramm: Ā, vgl. Definition 8.2 d) Dr. Hendrik Hansen 170 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) e) Venn-Diagramm: A und B disjunkt, vgl. Definition 8.2 Dr. Hendrik Hansen 171 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.3 a) Einmaliges Würfeln, vgl. Beispiel 8.2 a); Für die betrachteten Ereignisse ergibt sich: A ∩ B = gerade und ungerade Zahl = ∅ A ∩ C = gerade Zahl und Primahl = {2} B ∪ D = ungerade Zahl oder Zahl größer als 3 = {1, 3, 4, 5, 6} C \ D = Primzahl, die nicht größer als 3 ist Ā = ungerade Zahl Dr. Hendrik Hansen = {2, 3} = B 172 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.3 (Fortsetzung) b) Zweimaliges Würfeln, vgl. Beispiel 8.2 b); Für die betrachteten Ereignisse ergibt sich: A ∩ B = Augensumme=10 +nur ungerade Zahlen = {(5, 5)} A ∩ C = Augensumme=10 +gerade Zahl in Wurf 1 = {(4, 6), (6, 4)} B ∩ C = nur ungerade Zahlen +gerade Zahl in Wurf 1 = ∅ A ∪ C = Augensumme=10 oder gerade Zahl in Wurf 1 = {C, (5, 5)} A \ B = Augensumme=10 +mindestens eine gerade Zahl = {(4, 6), (6, 4)} Dr. Hendrik Hansen 173 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Wiederhole Zufallsexperiment mit K Elementarereignissen n-mal → das zusammengesetzte Zufallsexperiment besitzt K n Elementarereignisse I Betrachte etwa Beispiel 8.2 b), n = 2maliges Würfeln (K = 6) → {1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6} Elementarereignisse: (1, 1), ..., (1, 6), (2, 1), ..., (2, 6), ..., (6, 1), ..., (6, 6) {z } | {z } | {z } | 6 Ereignisse 6 Ereignisse 6 Ereignisse | {z } =6×6=62 =K n Elementarereignisse → Ω enthält 36 Elementarereignisse (Bezeichnung: | Ω | = 36) Dr. Hendrik Hansen 174 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Bisher: Definition von Ereignissen, Mengen, Vereinigungen, Schnitten,... → Jetzt von Interesse: Wie wahrscheinlich ist Eintritt eines bestimmten Ereignisses? I Dr. Hendrik Hansen Beispiel 8.2 b), zweimaliges Würfeln: Wahrscheinlichkeit des Eintritts von Ereignis A (Augensumme 10), B (nur ungerade Zahlen), A ∪ B,...? 175 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.3 Ein Zufallsexperiment, bei dem alle Elementarereignisse mit gleicher Wahrscheinlichkeit eintreten, heißt Laplace-Experiment. In einem solchen Experiment ist die Wahrscheinlichkeit für das Eintreten eines Ereignisses A ⊆ Ω gegeben durch P (A) = = Dr. Hendrik Hansen |A| |Ω| Anzahl der in A enthaltenen Elementarereignisse Anzahl aller möglichen Elementarereignisse 176 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.4 Zweimaliges Würfeln wie in Beispiel 8.2 b) entspricht einem Laplace-Experiment, da jedes Elementarereignis mit Wahrscheinlichkeit (1/36) × 100 Prozent eintritt → Ereignis verbal mengentheoretisch A : Augensumme=10 “ {(4, 6), (5, 5), (6, 4)} ” |·| 3 P (·) 3/36 B : nur ungerade Zahlen “ ” {(1, 1), ..., (5, 5)} 9 9/36 C : gerade Zahl in Wurf 1 “ ” {(2, 1), ..., (6, 6)} 18 18/36 Einmaliges Würfeln, vgl. Beispiel 8.2 a): Analog Dr. Hendrik Hansen 177 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Problem: Nicht immer liegt Laplace-Experiment vor I Beispiel: Gezinkter Würfel mit P(Augenzahl=6) = 1/3 und P(Augenzahl=i) = 2/3 = 2/15, i = 1, ..., 5 5 → allgemeinerer Wahrscheinlichkeitsbegriff notwendig Dr. Hendrik Hansen 178 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.4 Eine Abbildung P, die allen Ereignissen A ⊆ Ω eines Zufallsexperiments eine Zahl P (A) zuordnet und die Kolmogoroff’schen Axiome I 0 ≤ P (A) ≤ 1 für alle A ⊆ Ω I P (Ω) = 1 I P (A ∪ B) = P (A) + P (B) für alle A, B ⊆ Ω mit A ∩ B = ∅ erfüllt, heißt Wahrscheinlichkeitsmaß Dr. Hendrik Hansen 179 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Rechenregeln für Wahrscheinlichkeiten (ergeben sich aus Kolmogoroff’schen Axiomen) P (∅) = 0 P (Ā) = 1 − P (A) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P (A) = P P ({ωi }) ωi ∈A Dr. Hendrik Hansen 180 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.5 Landtag NRW (Zusammensetzung nach Partei und Geschlecht) P CDU SPD Grüne FDP Linke männlich 57 48 11 11 5 132 weiblich 10 19 12 2 6 49 P 67 67 23 13 11 181 I zufällige Auswahl eines Landtagsmitglieds → LaplaceExperiment, jedes Elementarereignis (=Landtagsmitglied) kann mit gleicher Wahrscheinlichkeit ausgewählt werden I Ω = Alle Mitglieder des Landtags“ → |Ω| = 181 ” Dr. Hendrik Hansen 181 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.5 (Fortsetzung) I Definiere nun Ereignisse • A = weibliche Person“ ” • B = SPD-zugehörig“ ” → P (B) = 67/181 ≈ 0, 37; P (A ∪ B) = 97/181 ≈ 0, 54; P (A ∩ B) = 19/181 ≈ 0, 1; ... I Frage jedoch: Wie wahrscheinlich ist SPD-Zugehörigkeit bei weiblichen Landtagsmitgliedern • Formell: → P (B gegeben A) bzw. P (B | A) • So genannte bedingte Wahrscheinlichkeit: Beschränkung der möglichen Ereignisse auf eine Teilmenge von Ω (hier: A) Dr. Hendrik Hansen 182 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.5 (Fortsetzung) I Venn-Diagramm: Bedingte Wahrscheinlichkeit • Hellgrau: Reduzierte Ergebnismenge (hier: weibliche Personen) • Dunkelgrau: Teilmenge der reduzierten Ergebnismenge, dessen Eintrittswahrscheinlichkeit gesucht wird (hier: SPD-Mitgl., w.) • Rest (weißer Bereich): Uninteressant Dr. Hendrik Hansen 183 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.5 Sei P (A) > 0. Dann heißt P (B | A) = P (A ∩ B) P (A) bedingte Wahrscheinlichkeit von B gegeben A. Beispiel 8.6 (Landtag NRW, vgl. Beispiel 8.5) P (SPD | weiblich) = P (B | A) = = Dr. Hendrik Hansen P (A ∩ B) 19/181 = P (A) 49/181 19 = 0, 388 49 184 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.7 a) Dreimaliger Münzwurf Ω = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z), (K, K, K), (K, K, Z), (K, Z, K), (Z, K, K)} I Ereignis A : Mindestens 1× Zahl I Ereignis B : Mindestens 2× Kopf I Gesucht: P (B | A) → reduzierte Ergebnismenge A A = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z), (K, K, Z), (K, Z, K), (Z, K, K)} {z } | Ereignisse mit 2× Kopf → P (B | A) = 3/7 (da |A| = 7) Dr. Hendrik Hansen 185 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.7 (Fortsetzung) a) Dreimaliger Münzwurf (Fortsetzung) Alternative Berechnung von P (B | A) mit Def. 8.5 • |Ω| = 8 • P (A) = 7/8 • A ∩ B = {(K, K, Z), (K, Z, K), (Z, K, K)} → P (A ∩ B) = 3/8 → P (B | A) = Dr. Hendrik Hansen 3 3/8 = 7/8 7 186 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.7 (Fortsetzung) b) Zweimaliges Würfeln, vergleiche Beispiel 8.2 b) I Neben Ereignissen A − C definiere D = ungerade Zahl in ” Wurf 2“ I Zur Erinnerung: C = gerade Zahl in Wurf 1“ ” C = {(2, 1), ..., (2, 6), (4, 1), ..., (6, 6)} → |C| = 18 → P(C) = 1/2 (|Ω| = 36) D = {(1, 1), ..., (1, 5), (2, 1), ..., (6, 5)} → |D| = 18 → P(D) = 1/2 C ∩D = {(2, 1), (2, 3), (2, 5), (4, 1), ..., (6, 5)} → |C ∩ D| = 9 → P(C ∩ D) = 1/4 Dr. Hendrik Hansen 187 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.7 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) I Gesucht: P( Wurf 2 ungerade“| Wurf 1 gerade“) : ” ” P (D | C) = 1/4 1 P (D ∩ C) = = = P (D) P (C) 1/2 2 → Ereignis C hat keinen Einfluß auf Ereignis D, beide Ereignisse hängen nicht voneinander ab Dr. Hendrik Hansen 188 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 8.6 Gilt für zwei Ereignisse A und B mit P (A) > 0 und P (B) > 0 P (A | B) = P (A) und P (B | A) = P (B), so heißen diese stochastisch unabhängig. Bemerkung Die Aussage A und B stochastisch unabhängig“ ist äquivalent zu ” P (A ∩ B) = P (A) · P (B) Dr. Hendrik Hansen 189 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.8 (Investitionsprojekt, vergleiche Beispiel 8.1) I A = zuviel Regen“ mit P (A) = 0, 1; B = Dollarkurs ” ” steigt“ mit P (B) = 0, 4 → P (Investitionsprojekt in Gefahr) = P (A ∪ B) ? P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ?? = P (A) + P (B) − P (A) · P (B) = 0, 1 + 0, 4 − 0, 1 · 0, 4 = 0, 46 I Zu ? : Siehe Bemerkung nach Definition 8.4 Zu ?? : A und B stochastisch unabhängig (klar) → wende Bemerkung nach Definition 8.6 an Dr. Hendrik Hansen 190 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.9 a) Stochastische Unabhängigkeit in der Öffentlichkeit: Mann für Millionen (Westdeutsche Allgemeine Zeitung, 30.09.2010) Bereits zum zweiten Mal in diesem Jahr hat ein Mann aus ” dem US-Staat Missouri einen Millionengewinn mit Rubbellosen einkassiert. Im Juni hatte der 57-Jährige beim ’100 Million Dollar Blockbuster’ eine Million gewonnen. Nun gelang ihm die Sensation erneut, diesmal waren es gleich zwei Millionen, die er beim ’Mega Monopoly’ gewann. Die Chancen, bei einem der beiden Spiele den Höchstbetrag zu gewinnen, lägen bei 1:2,28 Millionen, heißt es. Die Chancen, gleich bei beiden Spielen abzusahnen, seien kaum zu berechnen, da sie unabhängig voneinander seien.“ Dr. Hendrik Hansen 191 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.9 (Fortsetzung) a) Mann für Millionen (Fortsetzung) Definiere A = Gewinn beim 100 Million Dollar Blockbuster“ ” B = Gewinn beim Mega Monopoly“ ” Bekannt: P (A) = P (B) = 1 : 2, 28 Mio. und A und B unabhängig → P (Gewinn bei beiden Spielen) = P (A ∩ B) = P (A) · P (B) ∼ 1 : 5, 2 Billionen Dr. Hendrik Hansen 192 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 8.9 (Fortsetzung) b) Prozess gegen O. J. Simpson (1995) • M. Dershowitz (Strafverteidiger): ...an infinitesimal ” percentage - certainly fewer than 1 out of 2.500 - of men who slap or beat their domestic partners go on to murder them“: → P (M |S) < 1/2.500 (M= Mann ermordet Ehefrau“, S= Mann schlägt Ehefrau“) ” ” • Definiere zusätzlich m= Ehefrau wird ermordet“ ” → P (M |{S ∩ m}) ≈ 0, 9 (vgl. Good, 1996) • Details: Dershowitz (1996), Reasonable Doubts: The O.J. Simpson Case and the Criminal Justice System, New York, 1996; Good (1996), When batterer becomes murderer, Nature 381 • Prozessurteil: Freispruch Dr. Hendrik Hansen 193 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 8 I Zufallsexperiment, Ergebnismenge, Ereignisse I klassischer (Laplace) und axiomatischer (Kolmogoroff) Wahrscheinlichkeitsbegriff I bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit I Vorsicht bei der Interpretation bedingter Wahrscheinlichkeiten Dr. Hendrik Hansen 194 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 9: Zufallsvariablen Kapitel 8: Betrachtung von Ereignissen ωi , ωj , A, B, ... ⊂ Ω Jetzt: Ordne Ereignissen Zahlen zu Dr. Hendrik Hansen 195 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 9.1 Eine Abbildung X, deren mögliche Werte vom Ausgang eines Zufallsexperiments abhängen, heißt Zufallsvariable. Formell X:Ω→R X ordnet somit jedem Elementarereignis eine reelle Zahl zu. Die möglichen Werte ω → X(ω) einer Zufallsvariablen nennt man Realisationen. Weiterhin heißt X I diskrete Zufallsvariable, falls sie nur endlich viele oder abzählbar viele Werte annehmen kann I stetige Zufallsvariable, wenn sie - eventuell innerhalb gewisser Grenzen - alle möglichen reellen Zahlen als Werte annehmen kann Dr. Hendrik Hansen 196 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.1 a) Zweimaliger Münzwurf → Ω = {(Z, K), (K, Z), (K, K), (Z, Z)} I Definiere Zufallsvariable X = Anzahl Würfe mit Kopf“ ” → X(Z, K) = X(K, Z) = 1, X(K, K) = 2, X(Z, Z) = 0 → X ∈ {0, 1, 2} diskrete Zufallsvariable Dr. Hendrik Hansen 197 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.1 (Fortsetzung) b) Verschiedene Zufallsvariablen+Typ (stetig/diskret) Zufallsvariable Augensumme zweimaliges Würfeln Wertebereich {2, 3, 4, . . . , 12} Typ diskret Lebensdauer eines Prozessors [0, ∞) stetig Anzahl erfolgloser Lottotipps bis zum ersten Hauptgewinn {0, 1, 2, 3, . . .} diskret Logarithmierte Aktienrendite an zufälligem Börsentag (−∞, ∞) stetig Dr. Hendrik Hansen 198 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Funktionen von Zufallsvariablen sind wieder Zufallsvariablen. Betrachte etwa zweimaligen Würfelwurf (vgl. Beispiel 8.2 b)) und definiere Zufallsvariablen: X1 = Augenzahl Wurf 1“; ” X2 = Augenzahl Wurf 2“. Dann sind ” Z1 = min {X1 , X2 } Z2 = max {X1 , X2 } Z3 = X1 + X2 ebenfalls Zufallsvariablen b) Im Folgenden von Interesse: Wie lassen sich Wahrscheinlichkeiten angeben, dass Zufallsvariable X Wert xi annimmt? Zunächst lediglich Betrachtung diskreter Zufallsvariablen. Dr. Hendrik Hansen 199 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 9.2 Sei X diskrete Zufallsvariable mit möglichen Realisationen x1 , x2 , ..., xk . Dann heißt die Funktion f (·), die angibt, mit welcher Wahrscheinlichkeit X die Realisation xi annimmt, f (xi ) = P (X = xi ), i = 1, . . . , k, Wahrscheinlichkeitsfunktion von X. Dr. Hendrik Hansen 200 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.2 (Zweimaliges Würfeln, vgl. Beispiel 8.2 b)) I Definiere X =Augensumme beider Würfe I 8.2 b) bzw. 8.4: Zweimaliges Würfeln entspricht Laplace Experiment mit |Ω| = 36 → X(ω) = xi X=2 X=3 X=4 .. . X = 12 Dr. Hendrik Hansen {zugehörige ω} {(1, 1)} {(1, 2), (2, 1)} {(1, 3), (2, 2), (3, 1)} .. . ⇒ ⇒ ⇒ ⇒ {(6, 6)} ⇒ P (X = 12) = 1/36 P (X P (X P (X P (X .. . = xi ) = 2) = 1/36 = 3) = 2/36 = 4) = 3/36 201 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.2 (Fortsetzung) Realisation xi P (X = xi ) 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 Realisation xi P (X = xi ) 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36 ⇒ P 7 6/36 P (X = xi ) = 1 (klar, da sich eine Augensumme zwischen i 2 und 12 auf jeden Fall realisieren wird!) Dr. Hendrik Hansen 202 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen 3/36 0 1/36 2/36 P(X = xi) 4/36 5/36 6/36 Beispiel 9.2 (Fortsetzung) 2 3 4 5 6 7 8 9 10 11 12 xi Dr. Hendrik Hansen 203 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.2 (Fortsetzung) I Frage: Wie wahrscheinlich überschreitet Zufallsvariable einen bestimmten Wert nicht? I Hier etwa: Mit welcher Wahrscheinlichkeit ist Augensumme ≤ 3? P(X ≤ 3) = P({(1, 1)} ∪ {(1, 2), (2, 1)}) = P({(1, 1)}) + P({(1, 2), (2, 1)}) −P({(1, 1)} ∩ {(1, 2), (2, 1)}) = P({(1, 1)}) + P({(1, 2), (2, 1)}) − P(∅) = 2 1 + −0 36 36 = P(X = 2) + P(X = 3) Dr. Hendrik Hansen 204 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 9.3 Für eine Zufallsvariable X heißt die Funktion F (·), die angibt, mit welcher Wahrscheinlichkeit X einen Wert x nicht überschreitet, F (x) = P (X ≤ x), x ∈ R, Verteilungsfunktion von X. Bemerkung Für eine diskrete Zufallsvariable X gilt X F (x) = f (xi ), x ∈ R xi ≤x (vergleiche Definition 2.2: F (x) theoretisches Gegenstück“ zu ” empirischer Verteilungsfunktion Fn (x)) Dr. Hendrik Hansen 205 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.3 (Zweimaliges Würfeln, vgl. Beispiel 9.2) Weiterhin sei X =Augensumme beider Würfe I In Bsp. 9.2 berechnet: F (3) = P(X = 2) + P(X = 3) = 3 36 I Bem. nach Def. 9.3: 6 F (4) = P(X = 2) + P(X = 3) + P(X = 4) = 36 , F (5) = P(X = 2)+P(X = 3)+P(X = 4)+P(X = 5) = 10 36 , ... x∈ F (x) (−∞, 2) 0 [2, 3) 1/36 [3, 4) 3/36 [4, 5) 6/36 [5, 6) 10/36 [6, 7) 15/36 x∈ F (x) [7, 8) 21/36 [8, 9) 26/36 [9, 10) 30/36 [10, 11) 33/36 [11, 12) 35/36 [12, ∞) 1 Dr. Hendrik Hansen 206 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen 1 Beispiel 9.3 (Fortsetzung) ● ● 5/6 ● ● 1/2 ● ● 1/3 P(X ≤ x) 2/3 ● 1/6 ● ● ● 0 ● −1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 x → F (x) Treppenfunktion; Sprungstellen x = 2, 3, ..., 12, Sprunghöhen den Werten der Wahrscheinlichkeitsfunktion entsprechend (1/36, 2/36, 3/36, ..., 1/36) Dr. Hendrik Hansen 207 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Betrachte nun stetige Zufallsvariable X; Hier Definition der Wahrscheinlichkeitsfunktion durch f (xi ) = P(X = xi ) analog zu Definition 9.2 nicht sinnvoll I Grund: X stetig → Sämtliche xi ∈ R können sich realisieren (zumindest auf Intervall, vergleiche Definition 9.1) I Stetigkeit in Praxis jedoch Idealisierung, da Messungen diskret I Sei etwa X = Körpergewicht (in kg) einer zufällig ausgewählten Person i → P(X = 82, 514367842312) ??? → deswegen: P(X = x) = 0 für alle x ∈ R Dr. Hendrik Hansen 208 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 9.4 Sei X stetige Zufallsvariable mit möglichen Realisationen im Intervall (a, b), a = −∞ und/oder b = ∞ erlaubt, und differenzierbarer Verteilungsfunktion F (x). Dann heißt die erste Ableitung f (x) = F 0 (x), x ∈ R, Dichtefunktion (kurz Dichte) von X. Dr. Hendrik Hansen 209 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 a) Zusammenhang zwischen Verteilungs- und Dichtefunktion Zx f (x) = F 0 (x) (vgl. Def. 9.4) und F (x) = f (t) dt −∞ b) Interpretation der Dichtefunktion schraffiert: Ra f (t) dt = F (a) = P(X ≤ a) −∞ → gesamter Flächeninhalt unter der Dichte=1 Dr. Hendrik Hansen 210 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 a) Eigenschaften der Verteilungsfunktion ( Gegenstück“ zur ” Bemerkung nach Beispiel 2.3): Sei X beliebige Zufallsvariable mit Verteilungsfunktion F (x). Dann gilt I F (x) ist monoton nicht fallend I 0 ≤ F (x) ≤ 1 für alle x ∈ R I lim F (x) = 0 und x→−∞ I Dr. Hendrik Hansen lim F (x) = 1 x→∞ P (a < X ≤ b) = F (b) − F (a) 211 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) b) Eigenschaften der Wahrscheinlichkeits-/Dichtefunktion: Sei f (x) die der Zufallsvariablen X aus a) zugehörige Wahrscheinlichkeits-/Dichtefunktion. Dann gilt I I f (x) ≥ 0 lim f (x) = lim f (x) = 0 x→−∞ I P x→∞ f (xi ) = 1 falls X diskret (I Indexmenge, z.B. i∈I I = {1, ..., n}), bzw. R∞ f (x) dx = 1 falls X stetig −∞ I F (b) − F (a) = Rb f (x) dx, falls X stetig a Dr. Hendrik Hansen 212 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.4 a) Gleich-/Rechteckverteilung (einfachste stetige Verteilung) I X gleichverteilt auf Intervall [a, b] → ( 1 x ∈ [a, b] f (x) = b−a 0 sonst → Werte auf Intervall gleichmäßig“ verteilt ” Dr. Hendrik Hansen 213 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.4 (Fortsetzung) 0.00 0.01 0.02 f(x) 0.03 0.04 0.05 b) Sei X = Verspätung der S1 an der Haltestelle Universität ” Dortmund“; Annahme: X auf Intervall [0, 20] gleichverteilt ( 1 x ∈ [0, 20] → f (x) = 20 0 sonst −5 0 5 10 15 20 25 Verspätung x in Minuten Dr. Hendrik Hansen 214 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.4 (Fortsetzung) b) (Fortsetzung) I Frage: Mit welcher Wahrscheinlichkeit beträgt S1-Verspätung zwischen fünf und zehn Minuten? P (5 < X ≤ 10) = F (10) − F (5) (vgl. Bem. 2 a) nach Def. 9.4) → Berechnung von F (x) : Zx F (x) = Zx f (t) dt = 0 → Insgesamt: F (x) = 0, x , 20 1, Dr. Hendrik Hansen 0 x 1 x 1 dt = t = 20 20 0 20 x<0 0 ≤ x ≤ 20 x > 20 215 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.4 (Fortsetzung) b) (Fortsetzung) P (5 < X ≤ 10) = F (10) − F (5) = 10 20 − 5 20 = 0, 25 F(x) 0 0.25=F(5) 0.5=F(10) 0.75 1 → P(S1 fünf bis zehn Minuten zu spät)=25 % −5 0 5 10 15 20 25 Verspätung x in Minuten Dr. Hendrik Hansen 216 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 9.5 Gilt für zwei Zufallsvariablen X und Y und alle x, y ∈ R P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y) = FX (x) · FY (y), so heißen X und Y stochastisch unabhängig. Beispiel 9.5 (zweimaliges Würfeln, vgl. u.a. Beispiel 9.2) X =Augenzahl erster Wurf Y =Augenzahl zweiter Wurf Dr. Hendrik Hansen 217 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.5 (Fortsetzung) P (X ≤ 3, Y ≤ 5) = P (X ≤ 3 und Y ≤ 5) = P ( {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (3, 6)} | {z } A mit |A|=18 und {(1, 1), ..., (1, 5), (2, 1), ..., (6, 5)} ) | {z } B mit |B|=30 = P (A ∩ B) = P ({(1, 1), (1, 2), ..., (1, 5), (2, 1), ..., (3, 5)}) | {z } C mit |C|=15 = Dr. Hendrik Hansen 15 5 = 36 12 218 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 9.5 (Fortsetzung) Außerdem gilt: P (X ≤ 3) = P (A) = 18 1 = 36 2 P (Y ≤ 5) = P(B) = 30 5 = 36 6 Und somit P (X ≤ 3) · P (Y ≤ 5) = 5 1 5 · = = P (X ≤ 3, Y ≤ 5) 2 6 12 Für alle (x, y) ∈ R nachweisbar → X und Y stochastisch unabhängig Dr. Hendrik Hansen 219 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 9 I Zufallsvariablen zur vereinfachten Berechnung von Wahrscheinlichkeiten; Quantifizierung von Ereignissen I Diskrete Zufallsvariablen besitzen Wahrscheinlichkeits- und Verteilungsfunktion I stetige Zufallsvariablen besitzen Dichte und Verteilungsfunktion Dr. Hendrik Hansen 220 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 10: Erwartungswert, Varianz und Kovarianz von Zufallsvariablen Motivation Erwartungswert: Welchen Wert nimmt Zufallsvariable durchschnittlich an? Populärstes Lagemaß aus Teil A: Arithmetisches Mittel I Ausgangslage: Metrisch skaliertes Merkmal X mit möglichen Ausprägungen a1 , ..., ak , die mit relativen Häufigkeiten h(a1 ), ..., h(ak ) auftreten. Es gilt (vergleiche Definition 3.1 und Beispiel 3.2 a)) a x̄ = k X ai · h(ai ) i=1 → Idee: Ersetze relative Häufigkeiten durch bekannte Wahrscheinlichkeiten Dr. Hendrik Hansen 221 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 10.1 a) Sei X diskrete Zufallsvariable mit möglichen Realisationen x1 , ..., xn und f (xi ) = P(X = xi ) Wahrscheinlichkeitsfunktion. Dann heißt X E (X) = xi · f (xi ) i∈I Erwartungswert von X (I =Indexmenge). b) Sei X stetige Zufallsvariable mit Dichte f (x). Dann heißt Z∞ x · f (x) dx E (X) = −∞ Erwartungswert von X. Dr. Hendrik Hansen 222 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.1 a) X = Augensumme zweimaliges Würfeln“, vgl. u.a. Bsp. 9.2 ” E (X) = X xi · f (xi ) = xi · f (xi ) i=1 i∈I = 2· 11 X 1 2 3 1 +3· +4· + . . . + 12 · =7 36 36 36 36 b) X = Anzahl Kopf bei zweimaligem Münzwurf“, vgl. Bsp. 9.1 ” E (X) = X i∈I xi · f (xi ) = 3 X xi · f (xi ) i=1 1 2 1 = 0· +1· +2· =1 4 4 4 Dr. Hendrik Hansen 223 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.1 (Fortsetzung) c) X = Verspätung der S1“, vgl. Bsp. 9.4 ” Z∞ Z20 x · f (x) dx = E (X) = −∞ 0 1 1 2 20 x· dx = x = 10 20 40 0 Bemerkung a) Ist Wahrscheinlichkeitsfunktion/Dichte einer Zufallsvariablen X symmetrisch um x? , dann gilt E (X) = x? b) Der Erwartungswert einer diskreten Zufallsvariablen X muss nicht unbedingt mögliche Realisation xi von X sein c) Der Erwartungswert muss nicht notwendigerweise existieren, d. h. E (X) = ∞ ist möglich Dr. Hendrik Hansen 224 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) d) Eigenschaften des Erwartungswertes: X1 , ..., Xn beliebige Zufallsvariablen; a1 , a2 , . . . , an , b ∈ R beliebige Konstanten; g : R → R beliebige Funktion. Dann gilt: I E (a1 X1 + b) = a1 E (X1 ) + b I E n P ai Xi = i=1 I E (g(X1 )) = n P ai E (Xi ) i=1 P g(xi ) f (xi ), i R∞ falls X1 diskret g(x) f (x) dx, falls X1 stetig −∞ I Dr. Hendrik Hansen Falls X1 , ..., Xn stochastisch unabhängig, so gilt außerdem E (X1 · ... · Xn ) = E (X1 ) · ... · E (Xn ) 225 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) e) (Schwaches) Gesetz der großen Zahlen: X1 , ..., Xn unabhängige Zufallsvariablen, die alle die gleiche Verteilung (d.h. gleiche Dichte/Wahrscheinlichkeitsfunktion und gleiche Verteilungsfunktion) wie X besitzen. Dann gilt für ein beliebiges ε > 0: lim P (| X̄n − E (X) | < ε) = 1 n→∞ f) Interpretation des (schwachen) Gesetzes der großen Zahlen: Seien x1 , ..., xn Realisationen der Zufallsvariablen aus Teil e). Dann gilt n 1X xi = E (X). lim n→∞ n i=1 Dr. Hendrik Hansen 226 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.2 1.5 ● ● ● ● ● 1.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.5 ● 0.0 Durchschnittliche Anzahl Kopf 2.0 a) X = Anzahl Kopf bei zweimaligem Münzwurf“ ” → E (X) = 1, vgl. Bsp. 10.1 ● 0 5 10 15 20 25 Anzahl n der (zweimaligen) Münzwürfe Dr. Hendrik Hansen 227 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.2 (Fortsetzung) b) Betrachte abermals Beispiel 2.4 bzw. 3.1: Lebensdauer (in Betriebsstudien) von Ventilen in kunststoffverarbeitendem Betrieb Dr. Hendrik Hansen I Lebensdauern als unabhängige Zufallsvariablen mit gleicher Verteilung auffassbar → bei wachsendem Stichprobenumfang konvergiert arithmetisches Mittel gegen Erwartungswert dieser Verteilung (Grund: Gesetz der großen Zahlen) I Bei vorliegenden Daten (n = 30) gilt: x̄a = 313, 17 (vgl. Beispiel 3.1) 228 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Weiteres Lagemaß aus Kapitel 3: p−Quantil (Wert xp , für den mindestens ein Anteil p · 100 Prozent der Daten kleiner/gleich xp , und mindestens ein Anteil (1 − p) · 100 Prozent der Daten größer/gleich xp ist) → definiere nun p−Quantil einer Verteilung (zunächst lediglich stetiger Fall) Definition 10.2 Für eine stetige Zufallsvariable X und ein p ∈ [0, 1] heißt der Wert xp mit P (X ≤ xp ) = p p-Quantil der Verteilung von X. Dr. Hendrik Hansen 229 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 a) X = S1-Verspätung Haltestelle Universität Dortmund“, vgl. ” Beispiel 9.4 b) bzw. 10.1 c); Frage: Welche Verspätung wird in 4 von 5 Fällen nicht überschritten? I Suche also das 0, 8−Quantil x0,8 der Gleichverteilung aus Beispiel 9.4 b) I X stetig → x0,8 so, dass P (X ≤ x0,8 ) = 0, 8 P (X ≤ x0,8 ) ⇔ x0,8 = F (x0,8 ) = = x0,8 = 0, 8 20 20 · 0, 8 = 16 → Mit 80 prozentiger Wahrscheinlichkeit beträgt die Verspätung nicht mehr als 16 Minuten Dr. Hendrik Hansen 230 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 (Fortsetzung) 0 0.2 0.4 F(x) 0.6 0.8 1 a) Verspätung S-1 (Fortsetzung) −8 0 8 X0,8=16 24 Verspätung x in Minuten Dr. Hendrik Hansen 231 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 (Fortsetzung) 0 (d.h. 80% Wahrscheinlichkeitsmasse) −5 0 X0,8=16 (d.h. 20% Wahrscheinlichkeitsmasse) Flächeninhalt links vom 0,8−Quantil=0,8 Flächeninhalt rechts vom 0,8−Quantil=0,2 f(x) 0.05 a) Verspätung S-1 (Fortsetzung) 20 25 Verspätung x in Minuten Dr. Hendrik Hansen 232 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 (Fortsetzung) b) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a. ” Beispiel 9.3 I Auch hier gesucht: 0, 8−Quantil → Versuch, obwohl X diskret, Definition 10.2 anzuwenden I Nach Beispiel 9.3 gilt ( P (X ≤ x) = F (x) = 26/36 = 0, 72 für 8 ≤ x < 9 30/36 = 0, 83 für 9 ≤ x < 10 → ein x0,8 mit P (X ≤ x0,8 ) = 0, 8 existiert nicht Dr. Hendrik Hansen 233 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) 1.0 Verteilungsfunktion zweifaches Würfeln ● ● ● 0.8 ● 0.6 ● F(x) ● 0.4 ● 0.2 ● ● 0.0 ● ● 2 4 6 8 10 12 Augensumme x Dr. Hendrik Hansen 234 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.3 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) Dr. Hendrik Hansen 235 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fasse, für eine diskrete Zufallsvariable X und ein p ∈ [0, 1], den Wert xp mit F (xp ) ≥ p und F (x) < p für x < xp als p−Quantil der Verteilung von X auf Beispiel 10.4 (Augensumme zweimaliges Würfeln, vgl. Beispiel 10.3 b)) Es gilt P (X ≤ x) = F (x) = 26/36 = 0, 72 für 8 ≤ x < 9 30/36 = 0, 83 für 9 ≤ x < 10 → Gemäß der Bemerkung nach Beispiel 10.3 gilt x0,8 = 9 Dr. Hendrik Hansen 236 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Neben Lagemaßen in Teil A von Interesse: Streuungsmaße (siehe etwa Bsp. 4.1: Zwei unterschiedlich schwankende Aktienkurse X, Y mit x̄a = ȳ a ) I Jetzt: Wie weit streuen Realisierungen einer Zufallsvariablen X um E(X) herum; Betrachte etwa Zufallsvariablen X und Y mit E(X) = E(Y ) → folgendes Bild möglich f(y) f(x) E(X)=E(Y) Dr. Hendrik Hansen 237 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 10.3 Sei X beliebige Zufallsvariable. Dann heißt 2 σX = Var (X) = E (X − E (X))2 Varianz von X und σX = q 2 σX Standardabweichung von X. Bemerkung Sei X beliebige Zufallsvariable. Dann gilt (vgl. Bem. e) nach Bsp. 4.4): Var (X) = E X 2 − [E (X)]2 Dr. Hendrik Hansen 238 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.5 a) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a. ” Beispiel 10.4; Gesucht: Var (X) Var (X) = E X 2 − [E (X)]2 = 11 X x2i · f (xi ) − 72 (da E (X) = 7, vgl. Bsp. 10.1 a)) i=1 = 22 · = 2 3 1 1 + 32 · + 42 · + . . . + 122 · − 49 36 36 36 36 1974 210 − 49 = 36 36 ≈ 5, 833 Dr. Hendrik Hansen 239 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.5 (Fortsetzung) b) Varianz & Standardabweichung der Zufallsvariablen X = S1-Verspätung Hst. Uni Dortmund“, s. u.a. Bsp. 10.3 a) ” 20 Z∞ Z20 1 x3 1 2 2 = 133 E (X ) = x · f (x)dx = x2 · dx = 20 60 0 3 −∞ 0 Außerdem ist E (X) = 10, vgl. Bsp. 10.1 c), also gilt: 1 1 Var (X) = E X 2 − [E (X)]2 = 133 − 100 = 33 3 3 r 1 → σX = 33 = 5, 774 ∼ 5 Minuten & 46 Sekunden 3 Dr. Hendrik Hansen 240 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Eigenschaften der Varianz: Für beliebige Zufallsvariablen X1 , ..., Xn gilt i) Var (Xi ) ≥ 0 ii) Var (a Xi + b) = a2 Var (Xi ) für a, b ∈ R iii) Sind die Zufallsvariablen X1 , X2 , . . . , Xn außerdem unabhängig, so gilt weiter ! n n X X Var ai Xi = a2i Var (Xi ) für a1 , a2 , . . . , an ∈ R i=1 Dr. Hendrik Hansen i=1 241 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung b) Vorsicht: Für unabhängige Zufallsvariablen X und Y folgt aus Teil a), Punkt iii) nicht, dass Var (X − Y ) = Var (X) − Var (Y ) Grund: Var (X − Y ) = Var (X + (−Y )) = 12 · Var (X) + (−1)2 · Var (Y ) = Var (X) + Var (Y ) Dr. Hendrik Hansen 242 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.6 X = Anzahl Kopf bei zweimaligem Münzwurf“, s. u.a. Bsp. 10.2 ” a) definiere außerdem Y = Anzahl Zahl bei zweimaligem Münzwurf“ ” → Zufallsexperiment mit Ω = {(K, K), (K, Z), (Z, K), (Z, Z)} ωi X(ωi ) (K, K) 2 (K, Z) 1 (Z, K) 1 (Z, Z) 0 Y (ωi ) 0 1 1 2 → Zusammenhang zwischen X und Y (offensichtlich negativ, da X % wenn Y & und umgekehrt)? Dr. Hendrik Hansen 243 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 10.4 Für zwei Zufallsvariablen X und Y heißt σXY = Cov (X, Y ) = E [(X − E (X))(Y − E (Y ))] Kovarianz von X und Y sowie ρXY = σXY σX · σY Korrelation von X und Y (vgl. Teil A: Definition 5.1 & 5.2). Bemerkung X und Y beliebige Zufallsvariablen. Dann gilt (vgl. Bem. a) nach Beispiel 5.3) Cov (X, Y ) = E (X Y ) − E (X) E (Y ) Dr. Hendrik Hansen 244 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.7 X = Anzahl Kopf bei zweimaligem Münzwurf“, ” Y = Anzahl Zahl bei zweimaligem Münzwurf“, s. u.a. Bsp. 10.6 ” Dr. Hendrik Hansen ωi X(ωi ) (K, K) 2 (K, Z) 1 (Z, K) 1 (Z, Z) 0 Y (ωi ) 0 1 1 2 X(ωi ) · Y (ωi ) 0 1 1 0 245 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.7 (Fortsetzung) Es gilt E (X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) 1 1 1 = 0 · + 1 · + 2 · = 1 = E (Y ) 4 2 4 E (X · Y ) = 0 · P (X · Y = 0) + 1 · P (X · Y = 1) 1 1 1 = 0· +1· = 2 2 2 Cov (X, Y ) = 1 1 −1·1 = − 2 2 → Negativer, linearer Zusammenhang zwischen X und Y , über Stärke kann jedoch keine Aussage getroffen werden (siehe Bem. c) nach Beispiel 5.3) Dr. Hendrik Hansen 246 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 10.7 (Fortsetzung) Bestimme Stärke des linearen Zusammenhangs über Korrelation Var (X) = E X 2 − [E (X)]2 (und E (X) = 1, vgl. Bsp. 10.1 b)) = 02 · P (X = 0) + 12 · P (X = 1) + 22 · P (X = 2) − 12 = 0· 1 1 1 1 +1· +4· −1 = = Var (Y ) 4 2 4 2 − 12 → ρXY = q q 1 2 = −1 1 2 D.h. perfekt negativer linearer Zusammenhang (siehe Bem. nach Bsp. 5.5); Plausibles Ergebnis: X + Y = 2 ⇔ Y = 2 − X Dr. Hendrik Hansen 247 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 a) Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn σXY = 0 gilt b) Wenn X und Y unabhängig, dann gilt σXY = 0 (also auch ρXY = 0); Umkehrung gilt i.A. nicht (Grund: Nichtlineare Abhängigkeiten zwischen X und Y möglich, werden durch σXY jedoch nicht erfasst) Weiterhin gilt: c) −1 ≤ ρXY ≤ 1 d) ρXY = 1 ⇔ Y = a X + b mit a > 0 und b ∈ R e) ρXY = −1 ⇔ Y = a X + b mit a < 0 und b ∈ R f) Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y ) (a, b ∈ R, sie Bem. a), Punkt iii) nach Bsp. 10.5) Dr. Hendrik Hansen 248 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 Fazit zu Erwartungswert, Varianz & Kovarianz/Korrelation • Wichtige charakteristische Kennzahlen einer bzw. zweier Zufallsvariablen • Theoretische Gegenstücke zu arithmetischem Mittel, empirischer Varianz und empirischer Kovarianz/Korrelation aus Teil A Dr. Hendrik Hansen 249 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 11: Ausgewählte Verteilungen Beispiel 11.1 a) Flugzeugmotoren einer bestimmten Marke fallen bei einem gegebenen Flug mit einer Wahrscheinlichkeit von 1/10 aus. Bei mehrmotorigen Maschinen dieser Firma treten die Ausfälle unabhängig voneinander auf. Ein Flugzeug erreicht sein Ziel, wenn wenigstens die Hälfte der Motoren läuft. Für einen Flug steht wahlweise eine zwei- oder eine viermotorige Maschine zur Verfügung. Mit welcher Maschine werden Sie fliegen, wenn Ihnen Ihr Leben lieb ist? Dr. Hendrik Hansen 250 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.1 (Fortsetzung) b) Jedes zweite Los gewinnt!“ verspricht der Vereinsvorsitzende, ” als er vor 100 geladenen Gästen die Tombola der Jahresabschlussfeier eröffnet. Nach der Preisvergabe beschweren sich 10 Personen, die jeweils fünf Lose gekauft haben, dass sie nicht einmal gewonnen haben. Wie ist die Aussage des Vorsitzenden zu beurteilen? Dr. Hendrik Hansen 251 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 11.1 Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt Bernoulli-Experiment. Beispiel 11.2 Beispiele für Bernoulli-Experimente a) Einfacher Münzwurf: Ω = { Kopf“, Zahl“} ” ” b) Elfmeter: Ω = { Schütze trifft“, Schütze trifft nicht“} ” ” c) Wahlverhalten einer Person: Ω = { CDU ja“, CDU nein“} ” ” d) Börse im Vergleich zum Vortag: Ω = { DAX gestiegen“, DAX gefallen“} ” ” e) ... Dr. Hendrik Hansen 252 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 11.2 Wiederhole Bernoulli-Experiment n−Mal, wobei Wahrscheinlichkeit für Erfolg“ oder Misserfolg“ konstant & Wiederholungen ” ” unabhängig voneinander; definiere nun X = Anzahl der ’Erfolge’ ” bei diesen n Wiederholungen“ (diskrete Zufallsvariable), dann heißt X binomialverteilt mit Parametern n und p (kurz: X ∼Bin(n, p)), wobei n x f (x) = P (X = x) = p (1 − p)n−x x E (X) = np n x [ n n = = Dr. Hendrik Hansen und Var (X) = np (1 − p) n! x!·(n−x)! ”Binomialkoeffizient“, n n 0 = 1, 1 = n ] n x = 0 für x > n, 253 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.3 a) Motorenausfälle bei Flugzeugen, vgl. Bsp. 11.1 a) X1 = Anzahl ausfallende Motoren in zweimotoriger Maschine X2 = Anzahl ausfallende Motoren in viermotoriger Maschine Bsp. 11.1 a): Ausfälle unabhängig voneinander mit Wahrscheinlichkeit 1/10 ⇒ X1 ∼ Bin (2; 0, 1) & X2 ∼ Bin (4; 0, 1) Für die Absturzwahrscheinlichkeiten gilt somit P (Absturz Fl. 1) = P (X1 > 1) = P (X1 = 2) = 2 2 · 0, 12 (1 − 0, 1)0 = 1 · 0, 12 · 0, 90 = 0, 01 Dr. Hendrik Hansen 254 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.3 (Fortsetzung) a) Motorenausfälle bei Flugzeugen (Fortsetzung) P (Absturz Fl. 2) = P (X2 > 2) = P (X2 = 3) + P (X2 = 4) = 4 3 · 0, 13 (1 − 0, 1)1 + 4 4 · 0, 14 (1 − 0, 1)0 = 4 · 0, 13 · 0, 91 + 1 · 0, 14 · 0, 90 = 0, 0036 + 0, 0001 = 0, 0037 → Absturzwahrscheinlichkeit Flugzeug 1 = 1% vs. Absturzwahrscheinlichkeit Flugzeug 2 = 0,37% → Flugzeug 2 sollte bevorzugt werden! Dr. Hendrik Hansen 255 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.3 (Fortsetzung) b) Tombola, vgl. Bsp. 11.1 b) X = Anzahl der Gewinne bei fünf gekauften Losen Vorsitzender: P (Los gewinnt) = 0, 5 ⇒ X ∼ Bin (5; 0, 5) Wahrscheinlichkeit, bei fünf Losen keinen Gewinn zu erzielen 5 P (5 Lose, kein Gewinn) = P (X = 0) = · 0, 50 (1 − 0, 5)5 0 = 1 · 0, 50 · 0, 55 = 0, 03125 ≈ 3, 1% → zieht eine Person 5 Lose, so ist Wahrscheinlichkeit für 5 Nieten 3,1% (wenn Aussage des Vorsitzenden wahr); es haben jedoch bereits 10% der Gäste (10 von 100) bei 5 Losen nur Nieten gezogen → Aussage des Vorsitzenden fragwürdig Dr. Hendrik Hansen 256 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Sei X Bin(n, p)−verteilt, dann ist eine Zufallsvariable Y = n − X Bin(n, 1 − p)−verteilt I Dr. Hendrik Hansen Beispiel n−maliges Würfeln; X = Anzahl Würfe mit ” Augenzahl<3“ → X ∼Bin(n, 1/3); Y = n − X = Anzahl ” Würfe mit Augenzahl≥3“ → Y ∼Bin(n, 2/3) 257 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) f (x) Binomialverteilung für verschiedene n und p 0.5 0.4 0.3 f(x) 0.0 0.1 0.2 0.3 0.0 0.1 0.2 f(x) 0.4 0.5 0.6 n=5,p=0.3 0.6 n=5,p=0.1 0 1 2 x 3 4 5 0 1 3 4 5 4 5 0.6 0.5 0.0 0.1 0.2 0.3 f(x) 0.4 0.5 0.4 0.3 f(x) 0.2 0.1 0.0 0 Dr. Hendrik Hansen x n=5,p=0.8 0.6 n=5,p=0.5 2 1 2 x 3 4 5 0 1 2 x 3 258 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) f (x) Binomialverteilung für verschiedene n & p (Fortsetzung) 0.3 0.2 f(x) 0.0 0.1 0.2 0.0 0.1 f(x) 0.3 0.4 n=10,p=0.3 0.4 n=10,p=0.1 0 2 4 x 6 8 10 0 2 6 8 10 8 10 0.4 0.3 0.0 0.1 0.2 f(x) 0.3 0.2 f(x) 0.1 0.0 0 Dr. Hendrik Hansen x n=10,p=0.8 0.4 n=10,p=0.5 4 2 4 x 6 8 10 0 2 4 x 6 259 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Tabellierte Verteilungsfunktion der Bin (n; 0, 5)−Verteilung n x 0 1 0,5000 2 0,2500 3 0,1250 4 0,0625 5 0,0313 1 1 0,7500 0,5000 0,3125 0,1875 1 0,8750 0,6875 0,5000 1 0,9375 0,8125 1 0,9688 2 3 4 5 Dr. Hendrik Hansen 1 260 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 11.3 Stetige Gleichverteilung, siehe u.a. Beispiel 9.4 Gemäß Bsp. 9.4 a) heißt eine stetige Zufallsvariable X gleich-/rechteckverteilt auf Intervall [a, b] (kurz: X ∼ R [a, b]), falls ( f (x) = 1 b−a a≤x≤b sonst 0 Weiterhin gilt F (x) = 0 x−a b−a E (X) = Dr. Hendrik Hansen a+b 2 und 1 x<a a≤x≤b x>b Var (X) = (b − a)2 12 261 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.4 a) Abfüllanlage für Getränkedosen ist auf 0,33 Liter eingestellt Abweichungen von ±0, 004 L. akzeptabel Befürchtung/Vermutung/Wissen: Anlage weicht um ±0, 009 L. vom Sollwert ab, Abweichungen auf diesem Intervall gleichverteilt Frage: Falls Befürchtung wahr, Dr. Hendrik Hansen I mit welcher Wahrscheinlichkeit liegt abgefüllte Menge einer Dose im akzeptablen Bereich? I Erwartungswert/Standardabweichung? 262 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.4 a) Abfüllanlage für Getränkedosen (Fortsetzung) Annahme also: X ∼ R [0, 321; 0, 339] Gesucht: P (0, 326 < X ≤ 0, 334) = F (0, 334) − F (0, 326) (siehe Bem. 2a) nach Definition 9.4); Nach Def. 11.3 gilt F (x) = x − 0, 321 x − 0, 321 = für 0, 321 ≤ x ≤ 0, 339 0, 339 − 0, 321 0, 018 Also ist F (0, 334) − F (0, 326) = = Dr. Hendrik Hansen 0, 334 − 0, 321 0, 326 − 0, 321 − 0, 018 0, 018 0, 008 = 0, 444 0, 018 263 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.4 a) Abfüllanlage für Getränkedosen (Fortsetzung) Weiterhin gilt E (X) = Var (X) = 0, 321 + 0, 339 = 0, 33 und 2 (0, 339 − 0, 321)2 = 0, 000027 → σX = 0, 0052 Lit. 12 → Obwohl Erwartungswert=0,33 Liter=Sollwert, beträgt Wahrscheinlichkeit, im Toleranzbereich ±0, 004 Litern zu liegen, lediglich 44,4 %; Grund: σX = 0, 0052 > 0, 004 → viele Abfüllmengen außerhalb des Toleranzbereiches b) Anderes Beispiel für stetige Gleichverteilung: S1-Verspätung (siehe Kapitel 9 & 10) Dr. Hendrik Hansen 264 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 11.4 Sei µ ∈ R und 0 < σ 2 ∈ R. Besitzt eine stetige Zufallsvariable X die Dichte f (x) = √ 1 1 2 πσ 2 e− 2 ( x−µ 2 σ ) , x ∈ R, so heißt X normalverteilt mit Parametern µ und σ 2 (kurz: X ∼ N (µ, σ 2 )), wobei E (X) = µ und Var (X) = σ 2 Falls µ = 0 und σ 2 = 1, so heißt X standardnormalverteilt. Dr. Hendrik Hansen 265 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 0.6 0.5 µ=0 σ2 = 1 0.3 f(x) 0.0 0.1 0.2 0.3 0.0 0.1 0.2 f(x) µ=2 0.4 σ2 = 1 0.4 0.5 0.6 a) Dichte der Normalverteilung für verschiedene µ und σ 2 −4 −2 0 2 4 −4 −2 0.6 0.5 µ=0 4 2 4 µ=2 σ2 = 0.5 0.3 f(x) 0.0 0.1 0.2 0.3 0.0 0.1 0.2 f(x) 2 0.4 σ2 = 2 −4 −2 0 x Dr. Hendrik Hansen 0 x 0.4 0.5 0.6 x 2 4 −4 −2 0 x 266 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) X ∼ N (µ, σ 2 ) → Dichte von X symmetrisch um µ, d.h. f (µ − x) = f (µ + x) für alle x∈R c) X ∼ N (µ, σ 2 ), dann gilt X −µ ∼ N (0, 1) σ d) X1 , ..., Xn unabhängig mit Xi ∼ N (µi , σi2 ), dann gilt ! n n n X X X 2 Xi ∼ N µi , σi i=1 Dr. Hendrik Hansen i=1 i=1 267 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.5 Angenommen, die monatliche Rendite (in %) einer Aktie ist eine normalverteilte Zufallsvariable mit Erwartungswert 0,5 und Varianz 4. Mit welcher Wahrscheinlichkeit steigt der Kurs dieser Aktie dann in einem Monat um mehr als 5%? X = monatliche Rendite in %“ ” ⇒ X ∼ N (0, 5; 4) Z5 P (X > 5) = 1 − P (X ≤ 5) = 1 − −∞ 1 x−0,5 2 1 √ · e− 2 ( 2 ) dx 2π · 4 Schwer zu berechnen → Anwendung von Bem. c) nach Def. 11.4 Dr. Hendrik Hansen 268 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.5 (Fortsetzung) X − 0, 5 5 − 0, 5 P (X > 5) = 1 − P (X ≤ 5) = 1 − P ≤ 2 2 | {z } ∼N (0,1) = 1 − FN (0,1) (2, 25) = 1 − Φ(2, 25) = 1 − 0, 9878 = 0, 0122 = 1, 22%. (Hierbei bezeichnet Φ(x) die Verteilungsfunktion der N (0, 1)-Verteilung) → Eine monatliche Kurssteigerung um mehr als 5% ist lediglich mit einer Wahrscheinlichkeit von 1,22% zu erwarten. Dr. Hendrik Hansen 269 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Tabellierte Verteilungsfunktion Φ(x) der N (0, 1)-Verteilung an der Stelle x = x1 + x2 x2 x1 0,0 0,00 0,5000 ··· ··· 0,04 0,5160 0,05 0,5199 0,06 0,5239 ··· ··· .. . .. . .. .. . .. . .. . .. . 2,1 0,9821 ··· 0,9838 0,9842 0,9846 ··· 2,2 0,9861 ··· 0,9875 0,9878 0,9881 ··· 2,3 0,9893 ··· 0,9904 0,9906 0,9909 ··· .. . .. . .. . .. . .. . .. . .. Dr. Hendrik Hansen . . 270 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Zentraler Grenzwertsatz (Grund für enorme Bedeutung der Normalverteilung): X1 , ..., Xn seien unabhängig identisch verteilte (uiv) Zufallsvariablen mit E (Xi ) = µ und Var (Xi ) = σ 2 . Dann gilt: P n X − nµ i=1 i √ lim P ≤ x = Φ (x) n→∞ σ n bzw. √ X̄n − µ lim P n ≤ x = Φ (x). n→∞ σ Dr. Hendrik Hansen 271 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Mit Hilfe von b) lassen sich also hinreichend große Scharen unabhängiger Zufallsvariablen mit gleicher Verteilung (egal welcher!) an die Standardnormalverteilung annähern. Spezialfall: X1 , ..., Xn uiv mit Xi ∼ Bin (1, p). Somit ist µ = p, σ 2 = p · (1 − p) und es gilt P n X − np i=1 i p ≤ x lim P = Φ (x). n→∞ np (1 − p) Faustregel“: Approximation aus b) akzeptabel, wenn ” (1) n ≥ 30, Dr. Hendrik Hansen (2) np ≥ 10, (3) n (1 − p) ≥ 10 272 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 Angenommen, die täglichen Änderungen des Deutschen Aktienindexes (DAX) seien unabhängige Zufallsvariablen, wobei P (DAX steigt) = P (DAX fällt) = 1/2 Mit welcher Wahrscheinlichkeit steigt dann der DAX an mehr als 120 von insgesamt 200 Börsentagen? ( 1 Definiere Xi = 0 DAX steigt an Börsentag i (i = 1, ..., 200) sonst Dann gilt: X1 , ..., X200 Dr. Hendrik Hansen 1 ∼ Bin 1, 2 uiv ⇒ X= 200 X i=1 1 Xi ∼ Bin 200, 2 273 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 (Fortsetzung) Gesucht: P (X > 120) = 1 − P (X ≤ 120) (nicht tabelliert) = 1− 120 X P (X = k) k=0 = 1− k 200−k 120 X 200 1 1 k=0 k 2 2 (kaum berechenbar) → wende Bemerkung c) nach Beispiel 11.5 an Dr. Hendrik Hansen 274 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 (Fortsetzung) Faustregeln“ erfüllt? ” n = 200 ≥ 30 X, Also: P (X > 120) np = 100 ≥ 10 X, n (1 − p) = 100 ≥ 10 X X − 100 = 1 − P (X ≤ 120) = 1 − P √ ≤ 50 | {z } 120−100 √ 50 ≈N (0,1) ≈ 1 − Φ (2, 83) = 1 − 0, 9977 = 0, 0023 = 0, 23% → Unter gegebenen Annahmen steigt der DAX an mehr als 120 von insgesamt 200 Börsentagen mit einer Wahrscheinlichkeit von (lediglich) 0,23% Dr. Hendrik Hansen 275 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 11 I Unabhängige Wiederholungen eines Bernoulliexperiments → Binomialverteilung I Wichtigste stetige Verteilung: Normalverteilung I Berechnung von Wahrscheinlichkeiten für normalverteilte Zufallsvariablen immer über Standardnormalverteilung (siehe Bem. c) nach Def. 11.4) I Approximation beliebiger Verteilungen durch Standardnormalverteilung bei großem Stichprobenumfang möglich (siehe Bem.b) bzw. c) nach Bsp. 11.5) Dr. Hendrik Hansen 276 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Teil C: Induktive Statistik Dr. Hendrik Hansen 277 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Motivation Teil B: Verteilung F einer Zufallsvariablen X ist bekannt ⇒ sämtliche Parameter“ von F (Erwartungswert, Varianz, ” Quantile, . . . ) lassen sich direkt angeben Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt uiv ⇒ Stichprobe X1 , ..., Xn ∼ F ⇒ Realisationen x1 , ..., xn sollen Rückschlüsse auf unbekannte Parameter“ von F liefern ” Dr. Hendrik Hansen 278 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Motivation (Fortsetzung) Dr. Hendrik Hansen 279 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 12: Punktschätzung Beispiel 12.1 (S1-Verspätung, vgl. u.a. Beispiel 10.5 b)) X = S1-Verspätung (in min) Haltestelle Dortmund Universität“ ” Kapitel 9&10: X ∼ R [0, 20] Jetzt: X ∼ F, wobei F unbekannt Messe nun stichprobenartig folgende Verspätungen (in Min.): 2, 20, 14, 8, 10, 2, 0, 3, 9, 2 → gesucht: Durchschnittliche Verspätung, also E (X) → ??? Dr. Hendrik Hansen 280 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.1 X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit unbekannter Verteilung F = Fθ . Dann heißt eine Funktion θ̂ = g (X1 , ..., Xn ) Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ. Der sich aus den Realisationen x1 , ..., xn ergebende Wert g (x1 , ..., xn ) heißt Schätzwert für θ. Dr. Hendrik Hansen 281 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.2 (S1-Verspätung, Situation wie in Beispiel 12.1) Xi = S1-Verspätung (in min) bei i−ter Messung“ ” uiv ⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt) Von Interesse: µ = E (Xi ) → einige mögliche Kandidaten: µ̂1 = X̄ = 7 µ̂2 = X1 = 2 µ̂3 = 3 · X8 = 6 P µ̂4 = 19 9i=1 Xi = 7, 56 → Welcher Schätzer ist am besten“? ” Dr. Hendrik Hansen 282 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.2 Ein Schätzer θ̂, für den E (θ̂) = θ gilt, heißt erwartungstreu (oder unverzerrt) für θ. Für einen Schätzer θ̂ heißt Bias (θ̂) = E (θ̂) − θ Verzerrung (oder Bias) von θ̂. Dr. Hendrik Hansen 283 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Grafische Darstellung erwartungstreue Schätzung f(θ^) θ Dr. Hendrik Hansen 284 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Grafische Darstellung verzerrte Schätzung f(θ^) θ Dr. Hendrik Hansen 285 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.3 (S1-Verspätung, Situation wie in Beispiel 12.2) Für die vier vorgeschlagenen Schätzer gilt: 10 10 1 P 1 P E (µ̂1 ) = E 10 Xi = 10 E (Xi ) = i=1 i=1 1 10 · 10 · µ = µ E (µ̂2 ) = E (X1 ) = µ E (µ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · µ 6= µ E (µ̂4 ) = E 1 9 9 P i=1 Xi = 1 9 9 P i=1 E (Xi ) = 1 9 ·9·µ = µ µ̂1 , µ̂2 und µ̂4 erwartungstreu → welchen Schätzer bevorzugen? Dr. Hendrik Hansen 286 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.3 Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn Var (θ̂1 ) < Var (θ̂2 ), so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 . Bemerkung Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 ) ^ ) f(θ 1 ^ ) f(θ 2 θ Dr. Hendrik Hansen 287 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.4 (S1-Verspätung, Situation wie in Beispiel 12.3) Für die erwartungstreuen Schätzer µ̂1 , µ̂2 und µ̂4 gilt: 10 10 1 P 1 P Var (µ̂1 ) = Var 10 Xi = 100 Var (Xi ) i=1 = 1 100 i=1 1 10 · 10 · σ 2 = · σ2 Var (µ̂2 ) = Var (X1 ) = σ 2 Var (µ̂4 ) = Var = 1 81 1 9 ·9· 9 P Xi i=1 σ 2 = 19 = 1 81 9 P Var (Xi ) i=1 · σ2 → Güte der Schätzer (gemäß Effizienzkrit.): 1) µ̂1 , 2) µ̂4 , 3) µ̂2 Dr. Hendrik Hansen 288 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ. Gemäß Beispiel 12.4 ist µ̂1 = X̄ effizienter als zwei andere erwartungstreue Schätzer für µ. Allgemein ist X̄ der effizienteste Schätzer unter allen erwartungstreuen Schätzern für µ, d. h. es gilt: Var (X̄) ≤ Var (µ̂) für alle µ̂ mit E (µ̂) = µ. b) Spezialfall von a) bei Bernoulliverteilung: uiv X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p → X̄ erwartungstreuer (und außerdem effizientester) Schätzer für p Dr. Hendrik Hansen 289 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist n 2 σ̂ 2 = SX = 1X (Xi − µ)2 n i=1 ein erwartungstreuer Schätzer für σ 2 . d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist n 2 σ̂ 2 = S̃X = 1 X (Xi − X̄)2 n−1 i=1 ein erwartungstreuer Schätzer für σ 2 . Dr. Hendrik Hansen 290 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (S1-Verspätung, Situation wie in 12.1) a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10), ” Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d) 2 nach Bsp. 12.1) erwartungstreu mit S̃X 2 S̃X 1 (2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2 9 +(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 ) 1 = (25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25) 9 1 = · 372 = 41, 34 9 = Dr. Hendrik Hansen 291 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (Fortsetzung) b) Situation wie in a), unterstelle jedoch, dass der aus den zehn Messungen resultierende Mittelwert (x̄ = 7) dem wahren Erwartungswert entspricht → verwende diese Zusatzinfo und schätze die Varianz σ 2 (gem. Bem. c) nach Bsp. 12.1) 2 erwartungstreu mit SX n 2 SX = 1 1X (Xi − µ)2 = · 372 = 37, 2 n 10 i=1 Dr. Hendrik Hansen 292 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (Fortsetzung) c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um höchstens 5 Minuten? ( 1 Verspätung ≤ 5 min Definiere Yi = 0 sonst uiv Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach Bsp. 12.1 ist X̄ effizientester Schätzer für p p̂ = 1 1 (1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) = 10 2 (Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei Unterstellung einer Gleichverteilung) Dr. Hendrik Hansen 293 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 12 I Schätzer = Funktion der Stichprobenvariablen, selbst ebenfalls Zufallsvariable I Erwartungstreue als Konzept zum Vergleich von Schätzern I Effizienz als Konzept zum Vergleich von erwartungstreuen Schätzern Dr. Hendrik Hansen 294 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 13: Intervallschätzung Motivation I Bisher: Schätzung des unbekannten Parameters θ durch θ̂ auf einen Punkt“ ” → P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine Informationen, wie wahrscheinlich sich θ̂ zumindest in der ” Nähe“von θ realisiert I Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall, das unbekannten Parameter mit hoher Wahrscheinlichkeit“ ” überdeckt → liefert Information über Präzision des Schätzers Dr. Hendrik Hansen 295 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 13.1 X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt). Vu = g(X1 , X2 , . . . , Xn ) und Vo = h(X1 , X2 , . . . , Xn ) Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall [Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ. Weiter heißt α = P (θ ∈ / [Vu , Vo ]) Irrtumswahrscheinlichkeit und 1 − α = P (θ ∈ [Vu , Vo ]) Vertrauenswahrscheinlichkeit oder Konfidenzniveau. Dr. Hendrik Hansen 296 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.1 Das Zentrum für Studienangelegenheiten an der TU Dortmund behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr als zehn Minuten beträgt. Eine Befragung von 16 zufällig ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten): 12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2. Annahme: Wartezeiten Stichprobenrealisationen einer normalverteilten Grundgesamtheit mit Standardabweichung σ = 5 bekannt. Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit Dr. Hendrik Hansen 297 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Herleitung eines Konfidenzintervalls für µ bei bekannter Varianz (normalverteilte Grundgesamtheit) uiv Ausgangssituation: X1 , ..., Xn ∼ N µ, σ 2 Pn 2 (vgl. Bem. d) nach Def. 11.4) → i=1 Xi ∼ N n · µ, n · σ 2 → X̄ ∼ N µ, σn (vgl. Bem. d) nach Bsp. 10.1 und Bem. a), Punkt ii), nach Beispiel 10.5) → √ X̄−µ n σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 11.4) √ X̄ − µ → P u α2 ≤ n ≤ u1− α2 = 1 − α σ mit uγ = γ-Quantil der N (0, 1)-Verteilung Dr. Hendrik Hansen 298 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) uiv Herleitung Konfidenzintervall für µ bei Xi ∼ N µ, σ 2 , σ 2 bekannt (Fortsetzung) √ 1 − α = P −u1− α2 σ ≤ n (X̄ − µ) ≤ u1− α2 σ = P σ σ −u1− α2 √ ≤ X̄ − µ ≤ u1− α2 √ n n = P σ σ −u1− α2 √ − X̄ ≤ −µ ≤ u1− α2 √ − X̄ n n σ σ = P X̄ − u1− α2 √ ≤ µ ≤ X̄ + u1− α2 √ n n | | {z } {z } = Vu Dr. Hendrik Hansen = Vo 299 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) uiv Somit gilt: Wenn X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 bekannt, dann ist ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Konfidenzniveau 1 − α gegeben durch σ σ KI1−α (µ) = X̄ − u1− α2 √ , X̄ + u1− α2 √ n n Beispiel 13.2 (Wartezeiten ZfS, vgl. Bsp. 13.1) Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt ” uiv X1 , X2 , . . . , X16 ∼ N (µ, 25) Dr. Hendrik Hansen 300 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.2 (Fortsetzung) Weiter ist X̄ = 1 (12 + 20 + 5 + . . . + 6 + 2) = 12, 25 16 und 1 − α = 0, 95 → KI0,95 (µ) = ⇒ u1− α2 = u0,975 = 1, 96 5 5 12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √ 16 16 = [12, 25 − 2, 45; 12, 25 + 2, 45] = [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.] Unter getroffenen Annahmen liegt die mittlere Wartezeit beim ZfS mit 95 % Wahrscheinlichkeit in obigem Intervall Dr. Hendrik Hansen 301 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung I Frage: Wie lässt sich analoges Konfidenzintervall für mittlere Wartezeit finden, wenn Varianz σ 2 unbekannt? I Idee: Ersetze in Bemerkung nach Beispiel 13.1 die unbekannte 2 (siehe Varianz σ 2 durch erwartungstreuen Schätzer, z.B. S̃X Bem. d) nach Bsp. 12.4) I Problem: I Aber: √ X̄ − µ n N (0, 1) S̃X √ X̄ − µ n besitzt andere, leicht handhabbare Verteilung S̃X Dr. Hendrik Hansen 302 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 13.2 uiv X1 , ..., Xn ∼ N (0, 1), dann heißt die Zufallsvariable Y = n X Xi2 i=1 χ2 -verteilt mit n Freiheitsgraden, kurz: Y ∼ χ2n . Weiter sei W ebenfalls N (0, 1) verteilt und Y wie oben definiert (also Y ∼ χ2n ). Sind W und Y stochastisch unabhängig, so heißt die Zufallsvariable W Z=q 1 nY t-verteilt mit n Freiheitsgraden, kurz: Z ∼ tn . Dr. Hendrik Hansen 303 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 0.5 a) Dichten ausgesuchter χ2n −Verteilungen n=1 n=2 0.4 n=3 n=4 0.3 n=6 0.0 0.1 0.2 f(x) n=9 0 2 4 6 8 x Dr. Hendrik Hansen 304 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 1 (Fortsetzung) 0.4 0.4 b) Dichten ausgesuchter tn −Verteilungen n=5 0.3 0.2 f(x) 0.0 0.1 0.2 0.0 0.1 f(x) 0.3 n=2 −4 −2 0 2 4 −4 −2 0 2 0.4 0.2 f(x) 0.0 0.1 0.2 0.0 0.1 f(x) 0.3 n = 25 0.3 n = 10 −4 −2 0 x Dr. Hendrik Hansen 4 x 0.4 x 2 4 −4 −2 0 2 4 x 305 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 a) Konfidenzintervall für µ bei Normalverteilung, σ 2 unbekannt uiv Betrachte Problem aus Bem. nach Bsp. 13.2: Xi ∼ N (µ, σ 2 ) mit µ und σ 2 unbekannt; Gesucht: Konfidenzintervall für µ √ Bekannt: außerdem leicht zu zeigen: n X̄−µ σ ∼ N (0, 1); (n − 1) 2 S̃X σ2 ∼ χ2n−1 2 stochastisch unabhängig Weiter sind X̄ und S̃X √ X̄−µ √ X̄−µ √ X̄ − µ n σ n σ n ⇒ q = = ∼ tn−1 (vgl. Def. 13.2) 2 S̃X S̃X n−1 S̃X σ n−1 σ 2 und somit P Dr. Hendrik Hansen tn−1, α2 √ X̄ − µ ≤ n ≤ tn−1,1− α2 S̃X =1−α 306 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung 2 (Fortsetzung) a) Konfidenzintervall bei N (µ, σ 2 ), σ 2 unbekannt (Fortsetzung) uiv Somit gilt: X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 unbekannt, dann ist Konfidenzintervall für unbekannten Erwartungswert µ zum Konfidenzniveau 1 − α gegeben durch " # S̃X S̃X KI1−α (µ) = X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √ n n (hierbei tn−1,γ das γ-Quantil der tn−1 -Verteilung) b) Für n → ∞ konvergiert tn −Verteilung gegen N (0, 1)−Verteilung; Faustregel: Approximation bei n ≥ 30 akzeptabel → wenn n ≥ 30, so kann im Konfidenzintervall aus Teil a) anstelle des (1 − α/2)−Quantils der tn −Verteilung das entsprechende N (0, 1)−Quantil verwendet werden Dr. Hendrik Hansen 307 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.3 (Wartezeiten ZfS, vgl. Bsp. 13.1 und 13.2) Xi = Wartezeit i-ter Besucher (in Minuten)“; unterstelle ” weiterhin Normalverteilung, nehme nun jedoch an dass σ uiv unbekannt → X1 , ..., X16 ∼ N (µ, σ 2 ) Gesucht: Konfidenzintervall für µ → wende Bem. 2 a) nach Def. 13.2 an X̄ = 12, 25 und n = 16 (vgl. Bsp. 13.2), weiterhin gilt 2 t15,0.975 = 2, 131; berechne nun außerdem S̃X 2 S̃X = 1 (12 − 12, 25)2 + (20 − 12, 25)2 + . . . + (2 − 12, 25)2 15 = 69, 933 Dr. Hendrik Hansen 308 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.3 (Fortsetzung) Somit gilt r KI0,95 (µ) = 12, 25 ± t15,0.975 · " = r 12, 25 − 2, 131 · 69, 933 16 69, 933 ; 12, 25 + 2, 131 · 16 r 69, 933 16 # = [12, 25 − 4, 455; 12, 25 + 4, 455] = [7, 795; 16, 705] = [7 Min.&48 Sek.; 16 Min.&42 Sek.] Beachte: σ 2 bekannt → KI0,95 (µ) = [9, 8; 14, 7] ⊂ [7, 8; 16, 7] = KI0,95 (µ) bei σ 2 unbekannt 2 = 69, 33 ∼ 3 × 25(=σ 2 bei bekannter Varianz) Gründe: 1) S̃X 2) Weniger Informationen → größere Unsicherheit Dr. Hendrik Hansen 309 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.4 Bei einer Umfrage unter 65 mittelständischen Unternehmen geben 26 Betriebe an, zusätzliche Mitarbeiter einstellen zu wollen, falls der Kündigungsschutz gelockert wird. Gesucht: 90%-Konfidenzintervall für den unbekannten Anteil der Betriebe, die nach einer Gesetzesänderung zusätzliche Arbeitsplätze schaffen wollen ( 1 i-ter Betrieb möchte zusätzl. Mitarb. einstellen Definiere Xi = 0 sonst uiv → X1 , ..., X65 ∼ Bin (1, p) → 65 X Xi ∼ Bin (65, p) i=1 Gemäß Fragestellung also benötigt: Konfidenzintervall für p Dr. Hendrik Hansen 310 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung uiv Seien X1 , ..., Xn ∼ Bin (1, p), dann ist ein (approximatives) Konfidenzintervall für den unbekannten Anteil p zum Konfidenzniveau 1 − α gegeben durch: σ̂ σ̂ KI1−α (p) = p̂ − u1− α2 √ , p̂ + u1− α2 √ n n p Dabei ist p̂ = X̄, σ̂ = p̂ (1 − p̂) und uγ das γ-Quantil der Standardnormalverteilung. Weiterhin gilt die Approximation als akzeptabel, wenn (1) n ≥ 30, Dr. Hendrik Hansen (2) np̂ ≥ 10, (3) n (1 − p̂) ≥ 10 311 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.5 (Umfrage in mittelständischen Unternehmen, vgl. Bsp. 13.4) uiv Xi wie in Bsp. 13.4 → X1 , ..., X65 ∼ Bin (1, p) Gesucht: Konfidenzintervall für p → Nutze Bem. nach Bsp. 13.4: 65 X Xi = 26 → p̂ = X̄ = i=1 26 = 0, 4 65 Überprüfung der Voraussetzungen: (1) n = 65 ≥ 30 X (2) n p̂ = 26 ≥ 10 X (3) n (1 − p̂) = 39 ≥ 10 X Dr. Hendrik Hansen 312 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.5 (Fortsetzung) Weiter gilt σ̂ = p p 0, 4 (1 − 0, 4) = 0, 24 = 0, 49 1 − α = 0, 9 ⇒ u1− α2 = u0,95 = 1, 645 und somit KI0,9 (p) = 0, 49 0, 49 0, 4 − 1, 645 √ ; 0, 4 + 1, 645 √ 65 65 = [0, 4 − 0, 1; 0, 4 + 0, 1] = [0, 3; 0, 5] → Mit 90 % Wahrscheinlichkeit liegt der Anteil an Betrieben, die nach einer Gesetzesänderung zusätzliches Personal einstellen würden, zwischen 30 % und 50 %. Dr. Hendrik Hansen 313 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Alle in Kapitel 13 betrachteten Konfidenzintervalle haben die Form σ̃ σ̃ X̄ − c √ , X̄ + c √ n n hierbei I c = u1− α2 (Normalvtlg. bei bekannter Varianz; Binomialvtlg.) bzw. c = tn−1,1− α2 (Normalvtlg., Varianz unbek.) I σ̃ = σ (Normalvtlg., Varianz p bek.), σ̃ = S̃X (Normalvtlg., Varianz unbek.) bzw. σ̃ = X̄ (1 − X̄) (Binomialvtlg.) Die Länge der Konfidenzintervalle beträgt somit σ̃ σ̃ σ̃ =2·c· √ L = X̄ + c √ − X̄ − c √ n n n Dr. Hendrik Hansen 314 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) L = 2 · c · √σ̃n → die hier betrachteten Konfidenzintervalle für unbekannte Erwartungswerte sind umso schmaler I je größer der Stichprobenumfang n ist I je kleiner die (geschätzte) Standardabweichung σ (bzw. σ̂) ist I je kleiner das Konfidenzniveau 1 − α ist Nutzen in der Praxis: Gebe L vor und verwende σ̃ · c 2 n= 2· L zur Bestimmung des notwendigen Stichprobenumfangs Dr. Hendrik Hansen 315 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.6 a) Wartezeiten ZfS: Wieviele Studierende müssen befragt werden, damit das 95%-Konfidenzintervall für die mittlere Wartezeit nicht breiter ist als vier Minuten (Vorauss. wie in Bsp. 13.1, d.h. Normalvtlg. mit σ = 5 bekannt)? b) Umfrage in Betrieben, vgl. Bsp. 13.4 und Bsp. 13.5: Wieviele mittelständische Unternehmen müssen befragt werden, damit das 90%-Konfidenzintervall für den Anteil der Betriebe, die bei Lockerung des Kündigungsschutzes zusätzliche Mitarbeiter einstellen wollen, nicht breiter als zehn Prozentpunkte ist? Dr. Hendrik Hansen 316 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.6 (Fortsetzung) Bisher: n fest, α fest → L = L(n, α) Jetzt: L fest, α fest → n = n(L, α) Zu a) Bsp. 13.1: L = 14, 7 − 9, 8 = 4, 9 = 4 Minuten & 54 Sekunden ! Jetzt: L ≤ 4 Bem. nach Bsp. 13.5: n ≥ σ̃ · c 2· L 2 Hier: σ̃ = 5, c = u0,975 = 1, 96, L = 4 Dr. Hendrik Hansen 317 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.6 (Fortsetzung) Zu a) (Fortsetzung) Somit gilt: ! L≤4 ⇔ n≥ 2 · 1, 96 · 5 4 2 = 24, 01 Es müssen also mindestens 25 Studierende befragt werden. Zu b) Bsp. 13.5: L = 0, 5 − 0, 3 = 0, 2 = 20 Prozentpunkte ! Jetzt: L ≤ 0, 1 → abermals Abschätzung wie in a) (vgl. Bem. nach Bsp. 13.5) Dr. Hendrik Hansen 318 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.6 (Fortsetzung) Zu b) (Fortsetzung) Hier: c = u0,95 = 1, 645, L = 0, 1, σ̃ = p X̄(1 − X̄) 1 2 ~ σ 0 0.25 0.5 → Problem: X̄ (und damit auch σ̃) ebenfalls von n abhängig; i hp Ausweg: Abschätzung von σ̃ durch max X̄(1 − X̄) = 0 0.25 0.5 0.75 1 X Dr. Hendrik Hansen 319 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.6 (Fortsetzung) Zu b) (Fortsetzung) Gemäß der Bem. nach Bsp. 13.5 gilt somit: ! L ≤ 0, 1 ⇔ n≥ 2 · 1, 645 · 1/2 0, 1 2 = 270, 6025 Es müssen mindestens 271 mittelständische Unternehmen befragt werden. Dr. Hendrik Hansen 320 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit zur Intervallschätzung I Konfidenzintervall für µ bei N (µ, σ 2 ), σ 2 bekannt → Quantile der Standardnormalverteilung I Konfidenzintervall für µ bei N (µ, σ 2 ), σ 2 unbekannt → Quantile der tn−1 -Verteilung I Approximatives Konfidenzintervall für p bei Bin (n, p) → Quantile der Standardnormalverteilung I Bestimmung des notwendigen Stichprobenumfangs bei fester Intervalllänge → Bemerkung nach Beispiel 13.5 Dr. Hendrik Hansen 321 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 14: Statistische Signifikanztests Motivation I Bisher: Punkt- und Intervallschätzungen für unbekannte Parameter einer Verteilung, dabei keine Verwendung von Vorinformationen I Jetzt: Vorinformationen/Vermutungen/Behauptungen über Verteilung bzw. einzelne Parameter → formuliere Hypothese H0 und überprüfe diese anhand einer Stichprobe; Verwerfe H0 (d.h. Entscheidung für eine Alternative H1 ), wenn Stichprobenergebnis in deutlichem(=signifikantem) Gegensatz zu H0 steht → Überprüfungsverfahren heißt Signifikanztest Dr. Hendrik Hansen 322 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.1 a) Wartezeiten ZfS (vgl. Bsp. 13.1) Behauptung ZfS: Mittlere Wartezeit maximal 10 Minuten Wartezeiten (in Min.) von 16 zufällig ausgew. Besuchern: 12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2 Annahme: Wartezeiten normalverteilt mit σ = 5 bekannt Überprüfe ZfS-Behauptung mit statistischem Signifikanztest → Situation: uiv X1 , ..., X16 ∼ N (µ, 25) Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10 Dr. Hendrik Hansen 323 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.1 (Fortsetzung) b) Salz in der Suppe Ein skeptischer Mensagänger möchte an einem bestimmten Tag die Nullhypothese Mindestens die Hälfte aller Suppen ist ” versalzen.“ überprüfen. Er will diese Nullhypothese verwerfen, wenn von fünf zufällig ausgewählten Suppen keine einzige versalzen ist. ( 1 Suppe i versalzen uiv → X1 , ..., X5 ∼ Bin (1, p) mit Xi = 0 sonst H0 : p ≥ 0, 5 gegen H1 : p < 0, 5 P5 Testentscheidung: T = i=1 Xi = 0 ↔ Entscheidung für H1 Testproblem: Dr. Hendrik Hansen 324 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Mögliche Konsequenzen einer Testentscheidung H0 wahr Testentscheidung Lehne H0 nicht ab Lehne H0 ab X Fehler 1. Art Realität H0 falsch Fehler 2. Art X ⇒ No test based upon a theory of probability can by itself ” provide any valuable evidence of the truth or falsehood of a hypothesis.“ (Neyman & Pearson (1933), On the problem of the most efficient tests of statistical hypotheses, Phil Trans R Soc Lond A 231, 289 – 337.) Dr. Hendrik Hansen 325 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.2 Suppe in der Mensa versalzen ja/nein? Testentscheidung wie in Bsp. 14.1 Die Wahrscheinlichkeit, weniger als die Hälfte aller Suppen als versalzen einzuordnen, obwohl mindestens die Hälfte aller Suppen versalzen ist, beträgt: P (Fehler 1. Art) = P (H0 ablehnen | H0 wahr) = max P (T = 0 | p ≥ 0, 5) p = P (T = 0 | p = 0, 5), da T ∼ Bin (5, p) 5 = · 0, 50 · 0, 55 = 0, 55 0 = 0, 03125 = 3, 125% Dr. Hendrik Hansen 326 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.2 (Fortsetzung) Die Wahrscheinlichkeit, mindestens die Hälfte aller Suppen als versalzen einzuordnen, obwohl weniger als die Hälfte aller Suppen versalzen ist, beträgt: P (Fehler 2. Art) = P (H0 nicht ablehnen | H0 falsch) = P (T > 0 | p < 0, 5) = P (0 < T ≤ 5 | p < 0, 5) = 1 − P (T = 0 | p < 0, 5), s. Bem. 2 nach Def. 9.4 5 = 1− · p0 · (1 − p)5 , da T ∼ Bin (5, p) 0 = 1 − (1 − p)5 Dr. Hendrik Hansen 327 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.2 (Fortsetzung) Fehler 2. Art für p = 0, 49 ∈ H1 P (T > 0 | p = 0, 49) = 1 − P (T = 0 | p = 0, 49) = 1 − 0, 035 = 0, 9655 Fehler 2. Art für weitere p ∈ H1 p ∈ H1 P (Fehler 2. Art) Dr. Hendrik Hansen 0,49 96,55% 0,45 94,97% 0,35 88,4% 0,25, 76,27% 0,05 22,62% 328 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen 0.75 0.5 0.25 P(H0 nicht ablehnen) 1 Beispiel 14.2 (Fortsetzung) H0 0 H1 0 0.5 1 p Dr. Hendrik Hansen 329 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen H0 0.25 0.5 0.75 H1 0 P(H0 ablehnen) 1 Beispiel 14.2 (Fortsetzung) 0 0.5 1 p P(Fehler 1. Art) bei der Testentscheidung des Mensagängers erscheint akzeptabel (< 3, 125%), jedoch ist P(Fehler 2. Art) immens hoch (selbst beim weit von H0 entfernten“ p = 0, 25 ∈ H1 ” wird die Nullhypothese immernoch mit 76, 27% Wahrscheinlichkeit beibehalten) Dr. Hendrik Hansen 330 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 14.1 Betrachte Mengen Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und θ ∈ Θ = Θ0 ∪ Θ1 . Gegeben sei nun ein Test für das Testproblem H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 . Dann heißt die Funktion g(θ) = P (H0 ablehnen | θ) Gütefunktion des Tests. Dr. Hendrik Hansen 331 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) In Beispiel 14.1 a) (Wartezeiten ZfS) entspricht Θ0 = {Mittlere Wartezeit≤ 10 Min.} = {µ0 |µ0 ≤ 10} Θ1 = {Mittlere Wartezeit> 10 Min.} = {µ1 |µ1 > 10} In Beispiel 14.1 b) (Salz in der Suppe) entspricht Θ0 = {≥ 50% der Suppen versalzen} = {p0 |p0 ≥ 0, 5} Θ1 = {< 50% der Suppen versalzen} = {p1 |p1 < 0, 5} b) Interpretation Gütefunktion Unter H0 : Gütefunktion = P (Fehler 1. Art) Unter H1 : Gütefunktion = 1 − P (Fehler 2. Art) Dr. Hendrik Hansen 332 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Gleichzeitiges Minimieren beider Fehlerwahrscheinlichkeiten unmöglich → gebe maximale Wahrscheinlichkeit für Fehler 1. Art vor ( Signifikanzniveau“) und minimiere Wahrscheinlichkeit ” für Fehler 2. Art → die abzusichernde Behauptung muss in die Alternative, da nur Fehlerwahrscheinlichkeit 1. Art kontrolliert wird Dr. Hendrik Hansen 333 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) d) Jeder statistische Signifikanztest kann nach folgendem Standardschema durchgeführt werden: 1. Aufstellen des Testproblems, Festlegung des Signifikanzniveaus α 2. Bestimmung einer geeigneten Prüfgröße sowie deren Verteilung unter H0 3. Festlegung des kritischen Bereichs (Verwerfungs- oder Ablehnbereichs) 4. Berechnung der Realisation der Prüfgröße anhand der gezogenen Stichprobe 5. Ablehnen von H0 , wenn sich die Realisation der Prüfgröße im kritischen Bereich befindet Dr. Hendrik Hansen 334 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) e) Kritischer Wert/Bereich anhand f (T ) (Dichte der Prüfgröße unter H0 ) Dr. Hendrik Hansen 335 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) f) Gauß-Test uiv Seien X1 , ..., Xn ∼ N (µ, σ 2 ), σ 2 > 0 bekannt. Zu überprüfen sei eines der folgenden Testprobleme: Dr. Hendrik Hansen (1) H0 µ ≤ µ0 gegen gegen H1 µ > µ0 (2) µ = µ0 gegen µ 6= µ0 (3) µ ≥ µ0 gegen µ < µ0 336 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) f) Gauß-Test (Fortsetzung) Die Nullhypothese wird zum Niveau α abgelehnt, wenn die Prüfgröße T = √ X̄ − µ0 n σ H T ∼0 N (0, 1) in folgendem kritischen Bereich liegt: (1) (u1−α , ∞) (2) (−∞, −u1− α2 ) ∪ (u1− α2 , ∞) (3) (−∞, −u1−α ) Dabei ist uγ das γ-Quantil der Standardnormalverteilung. Dr. Hendrik Hansen 337 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.3 (Wartezeiten ZfS) Situation wie in Bsp. 14.1 a), d.h. uiv I X1 , ..., X16 ∼ N (µ, 25) I Xi = Wartezeit des i-ten Studierenden (in Minuten)“ ” I Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10 → Gauß-Test aus Bem. f) nach Def. 14.1 anwendbar (Problem hier entspricht dem ersten der drei dort präsentierten Tests) → verwerfe H0 wenn T ∈ (u1−α , ∞) Dr. Hendrik Hansen 338 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.3 (Fortsetzung) Hier: T = √ X̄ − µ0 √ 12, 25 − 10 n = 16 = 1, 8 σ 5 und u1−α = u0.95 = 1, 645, da α = 0, 05 Testentscheidung: T = 1, 8 ∈ (1, 645; ∞) = (u1−α , ∞) → H0 wird zum 5%-Niveau abgelehnt Dr. Hendrik Hansen 339 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Wiederholung Kapitel 13: uiv i) X1 , ..., Xn ∼ N (0, 1) → Pn i=1 Xi ∼ χ2n ii) W ∼ N (0, 1), Y ∼ χ2n , außerdem W & Y stochastisch p unabhängig → W/ Y /n ∼ tn b) t-Test uiv Seien X1 , ..., Xn ∼ N (µ, σ 2 ), σ 2 > 0 unbekannt. Zu überprüfen sei eines der folgenden Testprobleme: Dr. Hendrik Hansen (1) H0 µ ≤ µ0 gegen gegen H1 µ > µ0 (2) µ = µ0 gegen µ 6= µ0 (3) µ ≥ µ0 gegen µ < µ0 340 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) t-Test (Fortsetzung) Die Nullhypothese wird zum Niveau α abgelehnt, wenn die Prüfgröße √ X̄ − µ0 H0 T ∼ tn−1 T = n S̃X in folgendem kritischen Bereich liegt: (1) (tn−1,1−α , ∞) (2) (−∞, −tn−1,1− α2 ) ∪ (tn−1,1− α2 , ∞) (3) (−∞, −tn−1,1−α ) Dabei ist tn−1,γ das γ-Quantil der t-Verteilung mit n − 1 Freiheitsgraden. Dr. Hendrik Hansen 341 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.4 a) Wartezeiten ZfS Testproblem wie in Bsp. 14.1 a), jedoch sei Varianz nun unbekannt (vgl. Bsp. 13.3) → Ausgangslage: uiv I X1 , ..., X16 ∼ N (µ, σ 2 ) I Xi = Wartezeit des i-ten Studierenden (in Minuten)“ ” Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10 I → t-Test aus Bem. nach Bsp. 14.3 anwendbar (Problem hier entspricht dem ersten der drei dort präsentierten Tests) → verwerfe H0 wenn T ∈ (tn−1,1−α , ∞) Dr. Hendrik Hansen 342 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.4 (Fortsetzung) a) Wartezeiten ZfS (Fortsetzung) Hier: T = √ X̄ − µ0 √ 12, 25 − 10 = 16 √ = 1, 076 n 69, 933 S̃X und tn−1,1−α = t15,0.95 = 1, 753, da n = 16 und α = 0, 05 Testentscheidung: T = 1, 076 ∈ / (1, 753; ∞) = (tn−1,1−α , ∞) → H0 wird zum 5%-Niveau nicht abgelehnt Dr. Hendrik Hansen 343 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.4 (Fortsetzung) b) Kündigungsschutz, vgl. Bsp. 13.4 Umfrage unter 65 mittelständischen Unternehmen → 26 Betriebe geben an, bei Lockerung des Kündigunsschutzes zusätzliche Mitarbeiter einzustellen Behauptung Gewerkschaft: Auch nach Gesetzesänderung werden max. 30% der Unternehmen zus. Personal einstellen ( 1 i-ter Betrieb möchte zusätzl. Mitarb. einst. Definiere Xi = 0 sonst → Testproblem: Dr. Hendrik Hansen uiv X1 , ..., X65 ∼ Bin (1, p) H0 : p ≤ 0, 3 gegen H1 : p > 0, 3 344 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung uiv Seien X1 , ..., Xn ∼ Bin (1, p). Zu überprüfen ist eines der folgenden Testprobleme: Dr. Hendrik Hansen (1) H0 p ≤ p0 gegen gegen H1 p > p0 (2) p = p0 gegen p 6= p0 (3) p ≥ p0 gegen p < p0 345 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) Approximative Tests für die drei Testprobleme lehnen H0 jeweils ab, wenn die Prüfgröße √ H0 X̄ − p0 T = np T ≈ N (0, 1) p0 (1 − p0 ) in folgenden kritischen Bereichen liegt: (1) (u1−α , ∞) (2) (−∞, −u1− α2 ) ∪ (u1− α2 , ∞) (3) (−∞, −u1−α ) Die Approximation gilt als akzeptabel, wenn (1) n ≥ 30, Dr. Hendrik Hansen (2) nX̄ ≥ 10, (3) n (1 − X̄) ≥ 10 346 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.5 (Kündigunsschutz) uiv Situation wie in Bsp. 14.4 b), d.h. X1 , ..., X65 ∼ Bin (1, p) Testproblem: H0 : p ≤ 0, 3 gegen H1 : p > 0, 3 → der erste der drei Tests aus der Bem. nach Bsp. 14.4 entspricht diesem Problem (Approximation akzeptabel, vgl. Bsp. 13.5) Hier: und T = √ n √ X̄−p0 p0 (1−p0 ) = √ 0,4−0,3 65 √ = 1, 759 0,3·0,7 u1−α = u0.95 = 1, 645, da α = 0, 05 → Testentscheidung: T = 1, 759 ∈ (1, 645; ∞) = (u1−α , ∞) Also wird H0 zum 5%-Niveau verworfen Dr. Hendrik Hansen 347 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Zwischenfazit zu statistischen Signifikanztests I Fehler 1. Art = H0 ablehnen, obwohl H0 richtig I Fehler 2. Art = H0 nicht ablehnen, obwohl H0 falsch I Gauß-Test = Test auf unbekannten Erwartungswert einer Normalverteilung mit bekannter Varianz I t-Test = Test auf unbekannten Erwartungswert einer Normalverteilung mit unbekannter Varianz I Approximativer Test auf p bei Bin (n, p) über Standardnormalverteilung möglich I Testentscheidung sagt nichts über die Richtigkeit von H0 aus, da Fehler 2. Art nicht kontrolliert wird Dr. Hendrik Hansen 348 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.6 Ein Marktforschungsinstitut behauptet, dass erwerbstätige Personen eher eine Verlängerung der Ladenöffnungszeiten befürworten als nicht erwerbstätige. Angenommen, eine entsprechende Umfrage ergibt folgendes Meinungsbild: ja Verlängerung der Ladenöffnungszeiten befürwortet nicht befürwortet 200 100 Erwerbstätigkeit nein 100 100 Spricht Umfrage für Behauptung des Instituts? → mit den bisher eingeführten Signifikanztests nicht beantwortbar! Dr. Hendrik Hansen 349 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Motivation für Tests auf Unabhängigkeit Bisher: Konstruktion von Konfidenzintervallen und Signifikanztests, dabei wichtige Voraussetzungen: I Unabhängigkeit der Zufallsvariablen X1 , ..., Xn I Unterstellung einer bestimmten Verteilung an X1 , ..., Xn Jetzt: Test auf Unabhängigkeit zweier Zufallsvariablen (später: Test auf eine bestimmte Verteilung einer Zufallsvariablen) Dr. Hendrik Hansen 350 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Allgemeine Kontingenztafel Sei X Zufallsvariable mit k möglichen Ausprägungen, Y Zufallsvariable mit l möglichen Ausprägungen, X und Y an einem gemessen. Betrachte Stichprobe Merkmalsträger X1 Xn Y1 , ..., Yn ; weiter sei Hij =”Anzahl an Beobachtungen mit X = i und Y = j“ ; Kontingenztafel=Tabelle der Form Y X Dr. Hendrik Hansen P 1 1 H11 2 H12 ··· ··· l H1l H1• 2 .. . H21 .. . H22 .. . ··· .. . H2l .. . H2• .. . k P Hk1 H•1 Hk2 H•2 ··· ··· Hkl H•l Hk• n 351 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) χ2 -Unabhängigkeitstest Situation wie in b) (X, Y Zufallsvariablen mit k (bei X) bzw. l (bei Y ) möglichen Ausprägungen, an einem Merkmal gemessen; Stichprobe der Größe n) H0 : X und Y stochastisch unabhängig gegen H1 : X und Y abhängig Weiter sei H̃ij = Dr. Hendrik Hansen Hi• · H•j , n i = 1, ..., k, j = 1, ..., l 352 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) χ2 -Unabhängigkeitstest (Fortsetzung) k X l X (Hij − H̃ij )2 unter H0 approx. χ2 −verteilt H̃ ij i=1 j=1 H0 V ≈ χ2(k−1)(l−1) ; verwerfe H0 wenn V ∈ (χ2(k−1)(l−1),1−α , ∞) Prüfgr. V = (χ2n,γ = γ-Quantil der χ2 -Verteilung mit n Freiheitsgraden) Approx. χ2 −Verteilung von V unter H0 akzeptabel, falls H̃ij ≥ 5 für alle i = 1, ..., k, j = 1, ..., l Dr. Hendrik Hansen 353 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.7 (Ladenöffnungszeiten, vgl. Bsp. 14.6) X = Erwerbstätigkeit (1 = ja, 2 = nein), Y = Verlängerung der Ladenöffnungszeiten (1 = befürwortet, 2 = nicht befürwortet) Y P 1 1 200 2 100 300 2 P 100 300 100 200 200 500 X H0 : Erwerbstätige Personen befürworten verlängerte Ladenöffnungszeiten im Vergleich zu nicht erwerbstätigen Personen nicht ↔ X und Y stochastisch unabhängig H1 : X & Y abhängig (=Behauptung Marktforschungsinstitut) Dr. Hendrik Hansen 354 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.7 (Fortsetzung) Berechnung der unter H0 erwarteten Häufigkeiten: H̃11 = H̃21 = → V = 300·300 500 200·300 500 = 180 H̃12 = = 120 H̃22 = 300·200 500 200·200 500 = 120 = 80 (200 − 180)2 (100 − 120)2 (100 − 80)2 +2· + = 13, 889 180 120 80 α = 5% → χ2(k−1)(l−1),1−α = χ21;0,95 = 3, 841 Insgesamt: V = 13, 889 ∈ (3, 841; ∞) = (χ2(k−1)(l−1),1−α , ∞) → H0 wird zum 5%- Niveau verworfen Dr. Hendrik Hansen 355 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Gilt in der Situation von Bem. c) nach Bsp. 14.6 k = l = 2, so vereinfacht sich die Prüfgröße des χ2 -Unabhängigkeitstests zu V =n (H11 H22 − H12 H21 )2 H1• H2• H•1 H•2 (in Bsp. 14.7 (Ladenöffnungszeiten) gilt k = l = 2 → V = 500 · (200 · 100 − 100 · 100)2 500 = = 13, 889) 300 · 200 · 300 · 200 36 b) Bei stetigen Zufallsvariablen X, Y ist χ2 -Unabhängigkeitstest nach geeigneter Klassierung ebenfalls anwendbar. Hij entspricht nun der Anzahl Beobachtungen, für die X in Klasse i und gleichzeitig Y in Klasse j fällt. Dr. Hendrik Hansen 356 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.8 Der Personalchef eines großen Unternehmens vermutet, dass die Wahrscheinlichkeit für eine Krankmeldung im Unternehmen montags bis donnerstags gleich und freitags doppelt so groß ist wie an einem der übrigen Wochentage. Innerhalb eines Jahres registriert er folgende Häufigkeiten von Krankmeldungen: Wochentag Mo Di Mi Do Fr Anzahl der Krankmeldungen 70 40 40 50 100 Stützen diese Beobachtungen seine Vermutung? → mit den bisherigen eingeführten Tests auf Lage bzw. Unabhängigkeit nicht beantwortbar! Dr. Hendrik Hansen 357 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Motivation für Tests auf Verteilung (vgl. Bem. a) nach Bsp. 14.6) Bisher: Zunächst Konstruktion von Konfidenzintervallen und Signifikanztests, dabei wichtige Voraussetzung: I Unabhängigkeit der Zufallsvariablen X1 , ..., Xn → χ2 −Test auf Unabhängigkeit zweier Zufallsvariablen Ebenfalls jedoch notwendig bei Konstruktion von Konfidenzintervallen und Signifikanztests: I Unterstellung einer bestimmten Verteilung an X1 , ..., Xn → Jetzt: Test auf eine bestimmte Verteilung einer Zufallsvariablen Dr. Hendrik Hansen 358 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) χ2 −Anpassungstest Seien X1 , ..., Xn uiv Zufallsvariablen P mit k möglichen Ausprägungen, p1 , ..., pk ∈ [0, 1] mit ki=1 pi = 1 fest vorgegeben. Testproblem: H0 : P (Xj = i) = pi für alle i ∈ {1, . . . , k} gegen H1 : P (Xj = i) 6= pi für mind. ein i ∈ {1, . . . , k} Weiter sei Hi die Anzahl Beobachtungen j mit Xj = i (i ∈ {1, ..., k}) Dr. Hendrik Hansen 359 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) χ2 -Anpassungstest (Fortsetzung) Prüfgr. V = k X (Hi − n pi )2 i=1 n pi unter H0 approx. χ2 −verteilt H0 2 V ≈ χk−1 ; verwerfe H0 wenn V ∈ (χ2k−1,1−α , ∞) (χ2n,γ = γ-Quantil der χ2 -Verteilung mit n Freiheitsgraden) Approx. χ2 −Verteilung von V unter H0 akzeptabel, falls Dr. Hendrik Hansen (1) n pi ≥ 1 für alle (2) n pi ≥ 5 für mindestens 80% aller Klassen i i = 1, . . . , k 360 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.9 (Krankmeldungen, vgl. Bsp. 14.8) Aufstellung des Testproblems: Vermutung Personalchef: P(Krankmeldung) montags bis donnerstags gleich und freitags doppelt so groß ist wie an einem der übrigen Wochentage Definiere pi = P(Wochentag i krank|krank während der Woche), i = 1, ..., 5, 1 =Mo, 2 =Di usw. D.h. Vermutung Personalchef ↔ p1 = p2 = p3 = p4 & p5 = 2p1 | {z } ? Weiter ist 1 = 5 P ? pi = p1 + p2 + p3 + p4 + p5 = 6p1 → p1 = 1/6 i=1 Dr. Hendrik Hansen 361 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.9 (Fortsetzung) → Testproblem: H0 : p1 = p2 = p3 = p4 = 1 6 und p5 = 1 3 p5 6= 1 3 gegen H1 : pj 6= 1 für ein j ∈ {1, ..., 4} 6 oder Prüfgröße: V = (40 − 300 · 16 )2 (50 − 300 · 16 )2 (70 − 300 · 61 )2 + 2 · + 300 · 16 300 · 16 300 · 16 + (100 − 300 · 13 )2 (70 − 50)2 (40 − 50)2 = + 2 · +0+0 50 50 300 · 13 = 12 Dr. Hendrik Hansen 362 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 14.9 (Fortsetzung) Niveau 5%, d.h. χ2k−1,1−α = χ24;0,95 = 9, 49 Also Testentscheidung V = 12 ∈ (9, 49; ∞) = (χ2k−1,1−α , ∞) → Somit kann zum 5%-Niveau gezeigt werden, dass der Personalchef unrecht hat (H0 wird verworfen) Dr. Hendrik Hansen 363 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Für stetige Zufallsvariablen X1 , ..., Xn ist χ2 -Anpassungstest nach geeigneter Klassierung ebenfalls anwendbar. Hi entspricht nun der Anzahl an Beobachtungen, für die X in Klasse i fällt. b) Zweites Fazit zu statistischen Signifikanztests (vgl. auch Bem. nach Bsp. 14.5) Dr. Hendrik Hansen I χ2 -Unabhängigkeitstest zur Überprüfung der Unabhängigkeit zweier Zufallsvariablen I χ2 -Anpassungstest als Test auf eine bestimmte Verteilung einer Zufallsvariablen 364 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Ende der Vorlesung Dr. Hendrik Hansen 365