Einführung in die Statistik Reinhard Furrer, UZH NZZ.ch STA120: Woche 1 Was ist . . . I . . . Statistik I . . . angewandte Statistik I . . . Datum/Beobachtung/. . . I . . . statistisches Modell I . . . statistische Analyse 2 Graphische Darstellung von Daten Warum? I EDA: Exploratory data analysis I Präsentation von Ergebnissen 3 Schlechte Beispiele aus: SWISS Magazine 10/2011,01/2012, 107 4 Schlechte Beispiele 5 Schlechte Beispiele 6 Schlechte Beispiele 7 Schlechte Beispiele 8 Schlechte Beispiele 8 Graphische Darstellung von Daten Wie? I Eine Gruppe: Histogramm, Boxplot, Q-Q-Plot, Barplot I Mehrere Gruppen: Punktwolken, Boxplots, Barplot 9 Daten > data [1] 7.4 16.9 18.5 16.0 9.9 14.9 9.7 14.3 8.5 14.2 8.5 11.2 [13] 12.7 8.8 12.0 13.5 17.5 16.4 10.5 14.4 4.9 9.2 10.6 8.9 [25] 12.8 6.9 15.8 13.4 8.4 4.3 4.3 8.7 11.1 12.9 11.7 8.6 [37] 11.2 9.0 15.2 10.1 10 Histogramm Graphische Darstellung der Häufigkeitsverteilung von Beobachtungen 6 4 2 0 Frequency 8 10 Histogram of data 5 10 15 20 data 11 Histogramm Histogram of data 15 5 10 Frequency 2.0 1.0 0 0.0 Frequency 20 3.0 Histogram of data 4 6 8 10 data 14 18 0 5 10 15 20 data 12 Boxplot 4 6 8 10 14 18 Graphische Zusammenfassung der Häufigkeitsverteilung von Beobachtungen 13 Boxplot I Konstruktion I Vorteile – Quantitativ – Symmetrie – Ausreisser 14 Q-Q-Plot Graphische Darstellung um Datenquantile mit theoretischen Verteilungsquantilen zu vergleichen Normal Q−Q Plot 8 10 14 ● ●● ●● ●●● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●●● ●●●●● ● ● ● 6 4 Sample Quantiles 18 ● ● ● ● −2 ● −1 0 1 2 Theoretical Quantiles 15 Q-Q-Plot Graphische Darstellung um Datenquantile mit theoretischen Verteilungsquantilen zu vergleichen Normal Q−Q Plot 8 10 14 ● ●● ●● ●●● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●●● ●●●●● ● ● ● Konstruktion: 6 4 Sample Quantiles 18 ● ● ● ● −2 i−a i − 0.5 , allgemein n n + 1 − 2a ● −1 0 1 2 Theoretical Quantiles 15 Barplot Keine Kuchendiagramme. 30 20 15 10 5 Other Deforest Electr Manufac Transp 0 Air Prozent 25 16 5 10 15 Boxplots KL1 KL2 KL3 17 15 20 Punktwolken ● 10 ● 5 ● ● ● ● ● ●●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● 0 KL2 ● 0 5 10 15 20 KL1 18 20 20 Punktwolken KL3 ● ●●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● 0 5 10 5 ● ● ● 0 KL2 ● ● 10 ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● 15 15 ● 0 5 10 KL1 15 20 0 5 10 15 20 KL2 18 ● ●●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● 20 ● ●● ● 15 ● ● 5 10 KL1 15 ● ● 20 ● ●● ● ● 0 5 ● 5 ● 0 0 ●● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ●● ●●● ●● ● ● ● ● 10 KL3 10 5 ● ● ● 0 KL2 ● ● 10 ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● 15 15 ● KL3 20 20 Punktwolken 0 5 10 KL2 15 20 0 5 10 15 20 KL1 19 Punktewolken ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● KL1 ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ●●● ● ●● ● ● ●● ● ● ● 4 ● ● KL2 ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● 16 ● ● KL3 8 2 6 10 ● ● ● 16 ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● 12 ● 8 ● 10 4 6 12 2 ● 8 12 18 8 12 16 20 15 20 25 Air Transp Manufac Electr Deforest Other 0 5 20 10 40 Prozent 60 80 Other Deforest Electr Manufac Transp Air 0 Prozent 30 100 Barplots Quelle Fiktiv Quelle Fiktiv 21 Population und Stichprobe I Verteilung der Population unbekannt I Schätzen von Kennzahlen einer Stichprobe I Induktion von der Stichprobe auf die Population Schlussfolgerung von Einzelfällen auf die Gesamtheit 22 Population und Stichprobe I Verteilung der Population unbekannt Xi ∼ N (µ, σ 2): Normalverteilt mit Mittelwert µ und Varianz σ 2 I Schätzen von Kennzahlen einer Stichprobe 1X 1 xi Stichprobe x1, . . . , xn, Kennzahl x̄ = (x1 + · · · + xn) = n n i I Induktion von der Stichprobe auf die Population Schlussfolgerung von Einzelfällen auf die Gesamtheit Populationsmittelwert ist grösser null (Hypothesen testen) 23 Population und Stichprobe Wichtig: Kennzahl aus einer Stichprobe ist nur in der “Nähe” derjenigen der Population. Idealerweise: Unsicherheit auftragen! Schätzer ± 2 s.e.(Schätzer) x̄ ± 2 s.e.(x̄) s x̄ ± 2 √ n X n n X 1 1 2 s2 = (xi − x̄)2 = x2 − nx̄ n − 1 i=1 n − 1 i=1 i 24 −2 0 1 t−Verteilung 2 −2 0 1 2 Normal Approximation −2 0 1 σ known 2 Unsicherheit 1:ex.n 1:ex.n n = 4, α = 0.05 25