W. Krämer: Empirische Analysemethoden Überblick 8. Mai: Überblick: Fehler und Fallen beim Umgang mit Statistik 15. Mai: Mittelwerte und Streuungsmaße 29. Mai: Korrelation und Kausalität 5. Juni: Zufällige Ereignisse und ihre Wahrscheinlichkeiten 12. Juni: Zufallsvariable und Erwartungswerte 19. Juni: Bedingte Wahrscheinlichkeiten 26. Juni: Stichproben und Signifikanztests 3. Juli: Der Chi-Quadrat Unabhängigkeitstest 10 Juli: Regressionsrechnung 5.2. Zufallsvariablen und ihre Erwartungswerte Wiso-Skript Kap. 9, 10, 11.2 2 3 4 Beispiele für (approximativ) normalverteilte Zufallsvariable: - Körpergröße (-gewicht, IQ) eines zufällig ausgewählten erwachsenen Bundesbürgers über 18 - Rendite einer Aktie an einem zufällig ausgewählten Börsentag - Anzahl Autos, die in einer Stunde eine Kreuzung passieren - Nettomiete pro m2 einer zufällig ausgewählten Neubauwohnung in Dortmund 5 6 Zentraler Grenzwertsatz: Seien X₁, … Xn unabhängige Zufallsvariablen mit endlichen und beschränkten Varianzen. Dann nähert sich die Verteilungsfunktion von Zn := X1 + …+ Xn mit wachsendem n immer mehr der Verteilungsfunktion einer normalverteilten Zufallsvariablen mit Parametern μ= E(Zn ) und σ²= Var(Zn) 7 8 9 10 Satz: 0,63 11 12 Klausuraufgabe 2010 Angenommen, dass Monatseinkommen eines zufällig ausgewählten Haushaltes einer Stadt ist eine normalverteilte Zufallsvariable mit einem Erwartungswert von 2000 Euro und einer Standardabweichung von 400 Euro. a) Mit welcher Wahrscheinlichkeit stehen einem zufällig ausgewählten Haushalt mehr als 3000 Euro zur Verfügung? b) Mit welcher Wahrscheinlichkeit stehen einem zufällig ausgewählten Haushalt maximal 1500 Euro zur Verfügung? 13 5.3 Unabhängige Ereignisse und bedingte Wahrscheinlichkeiten Wiso-Skript Kap. 8.4 14 15 16 : : 17 4 häufige Fehler bei bedingten Wahrscheinlichkeiten: 1. Mentale Kurzschlüsse bei der Berechnung 2. Verwechseln von P(A|B) mit P(B|A) 3. Verwechseln von P(A|B) mit P(A|B und C) 4. Reinfallen auf das Simpson-Paradox 18 Vier gleich wahrscheinliche Möglichkeiten für ein Geschwisterpaar: (M,M), (M,J), (J, M), (J, J) 19 Ich wähle zunächst die linke Tür 20 4 häufige Fehler bei bedingten Wahrscheinlichkeiten: 1. Mentale Kurzschlüsse bei der Berechnung 2. Verwechseln von P(A|B) mit P(B|A) 3. Verwechseln von P(A|B) mit P(A|B und C) 4. Reinfallen auf das Simpson-Paradox 21 22 24 4 häufige Fehler bei bedingten Wahrscheinlichkeiten: 1. Mentale Kurzschlüsse bei der Berechnung 2. Verwechseln von P(A|B) mit P(B|A) 3. Verwechseln von P(A|B) mit P(A|B und C) 4. Reinfallen auf das Simpson-Paradox 25 26 P(Ehemann ist Mörder| Ehemann hat Frau geschlagen) = 1/2500 P(Ehemann ist Mörder | Ehemann hat Frau geschlagen und Frau ist ermordet worden) = 8/9 Siehe I. Good: „When batterer becomes murderer,“ Nature 391, 1969, S. 481 Simpson-Paradox (nach E. H. Simpson: The Interpretation of Interaction in Contingency Tables. In: Journal of the Royal Statistical Society. Series B (Methodological) 13 (1951), Nr. 2, S. 238–241 Es ist möglich, dass P(A|B und Ci) > P( A| nicht B und Ci) für alle i, und trotzdem P(A|B) < P(A| nicht B) >/ 28 29 30 Number of women (among 100.000 in the respective age groups) who died from cancer in Germany Age 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 1970 ´ 2001 7 3 6 2 4 2 6 2 8 4 12 6 21 13 45 25 84 51 144 98 214 161 305 240 415 321 601 468 850 656 1183 924 1644 1587 Aus: W. Krämer und G. Gigerenzer: “How to confuse with statistics“, Statistical Science 2005 31 Diskriminierung bei der Studienplatzvergabe? Verteilung der Bewerber auf die Fächer: Journalistik Mathematik Männer 100 (10=10%) Frauen 400 (80=20%) insgesamt 400 500 (200=50%) (210=42%) 100 500 (60=60%) (140=28%) rot: akzeptierte Bewerber 32