Einführung in die Statistik

Werbung
Einführung in die Statistik
Reinhard Furrer, UZH
NZZ.ch
STA120: Woche 1
Was ist . . .
I . . . Statistik
I . . . angewandte Statistik
I . . . Datum/Beobachtung/. . .
I . . . statistisches Modell
I . . . statistische Analyse
2
Graphische Darstellung von Daten
Warum?
I EDA: Exploratory data analysis
I Präsentation von Ergebnissen
3
Schlechte Beispiele
aus:
SWISS Magazine
10/2011,01/2012, 107
4
Schlechte Beispiele
5
Schlechte Beispiele
6
Schlechte Beispiele
7
Schlechte Beispiele
8
Schlechte Beispiele
8
Graphische Darstellung von Daten
Wie?
I Eine Gruppe:
Histogramm, Boxplot, Q-Q-Plot, Barplot
I Mehrere Gruppen:
Punktwolken, Boxplots, Barplot
9
Daten
> data
[1] 7.4 16.9 18.5 16.0 9.9 14.9 9.7 14.3 8.5 14.2 8.5 11.2
[13] 12.7 8.8 12.0 13.5 17.5 16.4 10.5 14.4 4.9 9.2 10.6 8.9
[25] 12.8 6.9 15.8 13.4 8.4 4.3 4.3 8.7 11.1 12.9 11.7 8.6
[37] 11.2 9.0 15.2 10.1
10
Histogramm
Graphische Darstellung der Häufigkeitsverteilung von Beobachtungen
6
4
2
0
Frequency
8
10
Histogram of data
5
10
15
20
data
11
Histogramm
Histogram of data
15
5
10
Frequency
2.0
1.0
0
0.0
Frequency
20
3.0
Histogram of data
4
6
8 10
data
14
18
0
5
10
15
20
data
12
Boxplot
4
6
8 10
14
18
Graphische Zusammenfassung der Häufigkeitsverteilung von Beobachtungen
13
Boxplot
I Konstruktion
I Vorteile
– Quantitativ
– Symmetrie
– Ausreisser
14
Q-Q-Plot
Graphische Darstellung um Datenquantile mit theoretischen
Verteilungsquantilen zu vergleichen
Normal Q−Q Plot
8 10
14
●
●●
●●
●●●
●●
●●●
●
●
●
●
●
●
●
●
●●
●
●●●
●●●●●
●
●
●
6
4
Sample Quantiles
18
●
●
●
●
−2
●
−1
0
1
2
Theoretical Quantiles
15
Q-Q-Plot
Graphische Darstellung um Datenquantile mit theoretischen
Verteilungsquantilen zu vergleichen
Normal Q−Q Plot
8 10
14
●
●●
●●
●●●
●●
●●●
●
●
●
●
●
●
●
●
●●
●
●●●
●●●●●
●
●
●
Konstruktion:
6
4
Sample Quantiles
18
●
●
●
●
−2
i−a
i − 0.5
, allgemein
n
n + 1 − 2a
●
−1
0
1
2
Theoretical Quantiles
15
Barplot
Keine Kuchendiagramme.
30
20
15
10
5
Other
Deforest
Electr
Manufac
Transp
0
Air
Prozent
25
16
5
10
15
Boxplots
KL1
KL2
KL3
17
15
20
Punktwolken
●
10
●
5
●
●
●
●
● ●●●
●
●
●
● ●● ●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
0
KL2
●
0
5
10
15
20
KL1
18
20
20
Punktwolken
KL3
● ●●●
●
●
●
● ●● ●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
0
5
10
5
●
●
●
0
KL2
●
●
10
●
●
●
●●
●
●
●
● ●●●●
●
●
●
●
●
● ●
● ● ●●
●
●
●
●
●● ● ●
15
15
●
0
5
10
KL1
15
20
0
5
10
15
20
KL2
18
● ●●●
●
●
●
● ●● ●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
20
●
●●
●
15
●
●
5
10
KL1
15
●
●
20
●
●● ●
●
0
5
●
5
●
0
0
●● ●
●
●●
●
● ●●
●●
● ●
●
●●
● ●
●● ●●●
●●
●
●
● ●
10
KL3
10
5
●
●
●
0
KL2
●
●
10
●
●
●
●●
●
●
●
● ●●●●
●
●
●
●
●
● ●
● ● ●●
●
●
●
●
●● ● ●
15
15
●
KL3
20
20
Punktwolken
0
5
10
KL2
15
20
0
5
10
15
20
KL1
19
Punktewolken
●●
●
●
●● ●
●
●
●
●●
●
● ●●
●
●
●
● ●●
●
● ●
● ●●
● ● ●
● ●
●
KL1
●
●
●
●●
● ●
●● ● ●●
●
●
●
● ●
● ●
● ●●
●●●
●
●
● ●●
●
●●
●
● ●
●
●●
●
●
●
●● ●
● ● ●
●●
●
●
● ●●
●
●
●
●
●●
● ●
●
●●● ●
●●●
●
●●
●
● ●● ●
●
●
4
●
●
KL2
●
●
●
●
●
●
●
●
●
●
●
●
●●● ●● ●
●
●
●
●
●
●
●
●
● ● ●●
● ●
●
●
●
●●
●
●●
●●
●
●
●
● ●●●●
●
●
●
●
●
● ●
●
● ● ●●
●
●
●
●
●
●● ● ●
16
●
●
KL3
8
2
6
10
●
●
●
16
●
●
●
●
●
●
● ●
●
●●
●
●
●●
●
● ●●
●
●
●
●
●●
●
● ●●
●
●●
●
●
●
12
●
8
●
10
4
6
12
2
●
8
12
18
8
12
16
20
15
20
25
Air
Transp
Manufac
Electr
Deforest
Other
0
5
20
10
40
Prozent
60
80
Other
Deforest
Electr
Manufac
Transp
Air
0
Prozent
30
100
Barplots
Quelle Fiktiv
Quelle
Fiktiv
21
Population und Stichprobe
I Verteilung der Population unbekannt
I Schätzen von Kennzahlen einer Stichprobe
I Induktion von der Stichprobe auf die Population
Schlussfolgerung von Einzelfällen auf die Gesamtheit
22
Population und Stichprobe
I Verteilung der Population unbekannt
Xi ∼ N (µ, σ 2): Normalverteilt mit Mittelwert µ und Varianz σ 2
I Schätzen von Kennzahlen einer Stichprobe
1X
1
xi
Stichprobe x1, . . . , xn, Kennzahl x̄ = (x1 + · · · + xn) =
n
n i
I Induktion von der Stichprobe auf die Population
Schlussfolgerung von Einzelfällen auf die Gesamtheit
Populationsmittelwert ist grösser null (Hypothesen testen)
23
Population und Stichprobe
Wichtig:
Kennzahl aus einer Stichprobe ist nur in der “Nähe” derjenigen der
Population.
Idealerweise: Unsicherheit auftragen!
Schätzer ± 2 s.e.(Schätzer)
x̄ ± 2 s.e.(x̄)
s
x̄ ± 2 √
n
X
n
n
X
1
1
2
s2 =
(xi − x̄)2 =
x2
−
nx̄
n − 1 i=1
n − 1 i=1 i
24
−2
0
1
t−Verteilung
2
−2
0
1
2
Normal Approximation
−2
0
1
σ known
2
Unsicherheit
1:ex.n
1:ex.n
n = 4, α = 0.05
25
Zugehörige Unterlagen
Herunterladen