Statistik und Wahrscheinlichkeitsrechnung

Werbung
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung
Prof Dr Michael Ha bro Faber
Prof. Dr. Michael Havbro Faber
1
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Ziel:
Daten
Modellbildung
Probabilistisches Modell
Wahrscheinlichkeit W
h h i li hk it
von Ereignissen
Im ersten Schritt
werden wir die die
Daten
nur beschreiben:
‐ numerisch
‐ grafisch
Konsequenzen K
von Ereignissen
Risiken
Entscheidungsfindung
2
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Überblick der beschreibenden Statistik
• Numerische Kennwerte
Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden?
• Grafische Darstellung von Datenmengen
Grafische Darstellung von Datenmengen
Wie werden Datenmengen informativ in Grafiken umgesetzt?
3
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Körpergrösse
p g
170
190
190
175
173
170
183
178
190
175
175
183
164
176
169
178
188
187
164
183
191
176
171
169
165
165
166
183
186
170
174
187
172
164
176
180
178
191
174
178
184
175
183
183
175
178
177
180
183
168
187
160
175
175
162
175
158
158
187
172
184
170
182
176
190
180
189
176
183
178
176
200
181
176
175
185
177
173
175
183
182
171
178
179
160
176
197
185
178
185
184
170
170
188
187
182
186
158
172
176
176
180
180
172
189
185
174
178
188
184
183
179
179
185
175
182
176
183
177
173
183
176
185
176
174
187
166
185
185
187
184
160
189
190
173
168
184
178
187
187
164
177
175
180
184
174
186
185
181
162
195
179
182
179
180
183
182
165
186
175
178
187
180
183
191
187
184
184
175
170
180
180
183
175
174
170
170
174
181
175
183
170
184
182
165
184
174
183
171
183
178
Kennwerte
Grafiken
4
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Körpergrösse
p g
170
190
190
175
173
170
183
178
190
175
175
183
164
176
169
178
188
187
164
183
191
176
171
169
165
165
166
183
186
170
174
187
172
164
176
180
178
191
174
178
184
175
183
183
175
178
177
180
183
168
187
160
175
175
162
175
158
158
187
172
184
170
182
176
190
180
189
176
183
178
176
200
181
176
175
185
177
173
175
183
182
171
178
179
160
176
197
185
178
185
184
170
170
188
187
182
186
158
172
176
176
180
180
172
189
185
174
178
188
184
183
179
179
185
175
182
176
183
177
173
183
176
185
176
174
187
166
185
185
187
184
160
189
190
173
168
184
178
187
187
164
177
175
180
184
174
186
185
181
162
195
179
182
179
180
183
182
165
186
175
178
187
180
183
191
187
184
184
175
170
180
180
183
175
174
170
170
174
181
175
183
170
184
182
165
184
174
183
171
183
178
Kennwerte
Grafiken
Keine Annahmen –
nur Beschreibung !!
5
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 258.
Stichprobe von letzter Woche, n = 202.
6
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
Z.B.: Biegezähigkeit von Büroklammern, m = ∞.
Stichprobe, n = 202
7
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
p
– Damit die Stichprobe die Grundgesamtheit repräsentiert, a t d e St c p obe d e G u dgesa t e t ep äse t e t,
müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden.
8
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Körpergrösse
p g
170
190
190
175
173
170
183
178
190
175
175
183
164
176
169
178
188
187
164
183
191
176
171
169
165
165
166
183
186
170
174
187
172
164
176
180
178
191
174
178
184
175
183
183
175
178
177
180
183
168
187
160
175
175
162
175
158
158
187
172
184
170
182
176
190
180
189
176
183
178
176
200
181
176
175
185
177
173
175
183
182
171
178
179
160
176
197
185
178
185
184
170
170
188
187
182
186
158
172
176
176
180
180
172
189
185
174
178
188
184
183
179
179
185
175
182
176
183
177
173
183
176
185
176
174
187
166
185
185
187
184
160
189
190
173
168
184
178
187
187
164
177
175
180
184
174
186
185
181
162
195
179
182
179
180
183
182
165
186
175
178
187
180
183
191
187
184
184
175
170
180
180
183
175
174
170
170
174
181
175
183
170
184
182
165
184
174
183
171
183
178
Kennwerte
Grafiken
Keine Annahmen –
nur Beschreibung !!
9
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Zusammenfassen zu nur einem Kennwert
Arithmetisches Mittel: 1 n
x   xi
n i1
Für einen Datensatz:
x   x1, x2 ,..., xn 
T
Um eine Stichprobe nur mit Hilfe eines Kennwertes zu beschreiben, p
,
wird normalerweise der Stichproben‐Mittelwert verwendet.
10
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm: Kö
Körpergrösse ö
[cm]
[ ]
männlich n = 149
weiblich n = 53
150
160
170
180
190
200
210
11
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Kö
Körpergrösse ö
[cm]
[ ]
männlich n = 149
weiblich n = 53
150
160
170
180
190
200
210
Guter Datenüberblick (Maximum, Minimum).
Vorsicht bei diskret verteilten Daten !
Vorsicht bei diskret verteilten Daten ! 12
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Kö
Körpergrösse ö
[cm]
[ ]
männlich n = 149
weiblich n = 53
150.00
160.00
170.00
180.00
190.00
200.00
210.00
13
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Kö
Körpergrösse ö
[cm]
[ ]
männlich n = 149
weiblich n = 53
150.00
160.00
170.00
180.00
190.00
200.00
210.00
1 n
Der Stichprobenmittelwert entspricht dem x   xi
n i1
„Schwerpunkt
Schwerpunkt“ der Daten.
der Daten
14
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Körpergrösse [cm]
Körpergrösse männlich n = 149
weiblich n = 53
Mittelwert Frauen = 168.40
Mittel ert Männer 180 51
Mittelwert Männer= 180.51
150.00
160.00
170.00
180.00
190.00
200.00
210.00
1 n
Der Stichprobenmittelwert entspricht dem x   xi
n i1
„Schwerpunkt
Schwerpunkt“ der Daten.
der Daten
15
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Histogramm: Einteilung der Datenreihe in Intervalle
Einteilung der Datenreihe in Intervalle.
Darstellung der Grösse der Intervalle.
z.B. die Körpergrösse
16
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Histogramm:
Ab
bsolute Häu
ufigkeit
Körpergrösse [cm]
Körpergrösse [cm]
100
n = 202
91
80
65
60
36
40
20
5
5
0
150<x≤160
160<x≤170
170<x≤180
180<x≤190
190<x≤200
17
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache graphische Darstellung von Stichproben
Histogramm:
Ab
bsolute Häu
ufigkeit
Körpergrösse [cm]
Körpergrösse [cm]
100
n = 202
91
80
65
60
36
40
20
5
5
0
150<x≤160
150.00
160<x≤170
160.00
170<x≤180
170.00
180<x≤190
180.00
190<x≤200
190.00
200.00
18
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• N
Neben dem Mittelwert gibt es noch andere sog. b d
Mi l
ib
h d
Lageparameter:
‐
Der Median
Der
Median oder Zentralwert ist der mittlere Wert einer nach der oder Zentralwert x ist der mittlere Wert einer nach der
x1o  x2o  ...  xno
Grösse geordneten Stichprobe .
 x n 1
 2
x  

1

x

x
 n
n 
1
 2  2
2 
‐
Beispiele:
n ungerade
n gerade
[ 23
[ 23
30
31
33
[ 23
30
31
33 ]
120 ]
120 ] 19
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• N
Neben dem Mittelwert gibt es noch andere sog. b d
Mi l
ib
h d
Lageparameter:
‐
Der Median oder Zentralwert ist der mittlere Wert einer nach der Der
Median oder Zentralwert x ist der mittlere Wert einer nach der
x1o  x2o  ...  xno
Grösse geordneten Stichprobe .
Ab
bsolute Häu
ufigkeit
Körpergrösse [cm]
Körpergrösse [cm]
100
n = 202
91
80
65
60
36
40
20
5
5
0
150<x≤160
150.00
160<x≤170
160.00
170<x≤180
170.00
Mittelwert = 177.3
180<x≤190
180.00
Median = 178.0
190<x≤200
190.00
200.00
20
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• N
Neben dem Mittelwert gibt es noch andere sog. b d
Mi l
ib
h d
Lageparameter:
‐
Der Modus
Der
Modus oder Modalwert ist der am häufigsten auftretende Wert –
oder Modalwert ist der am häufigsten auftretende Wert –
bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. 21
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• N
Neben dem Mittelwert gibt es noch andere sog. b d
Mi l
ib
h d
Lageparameter:
‐
Der Modus
Der
Modus oder Modalwert ist der am häufigsten auftretende Wert –
oder Modalwert ist der am häufigsten auftretende Wert –
bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Ab
bsolute Häu
ufigkeit
Körpergrösse [cm]
Körpergrösse [cm]
100
91
80
65
60
Modus
36
40
20
n = 202
5
5
0
150<x≤160
150.00
160<x≤170
160.00
170<x≤180
170.00
Mittelwert = 177.3
180<x≤190
180.00
Median = 178.0
190<x≤200
190.00
200.00
22
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
Die Varianz der Stichprobe
1 n
s  ( xi  x )2
n i1
‐
Die Standardabweichung der Stichprobe
1 n
s  ( xi  x )2
n i1
‐
Der Variationskoeffizient der Stichprobe p
(relative Streuung, COV)
s

x
‐
2
23
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
Varianz
1 n
s  ( xi  x )2
n i1
2
1 n
s  (xi  x )2
Standardabweichung COV
n i1

s
x
Beispiel
Absolute Hääufigkeit
A
60
50
40
30
20
10
0
n = 202
x  177.31
177 31 [[cm]]
s 2  63.30 [cm 2 ]
s  7.96 [cm]
  0.04 [-]
Gewicht [kg]
Absolute H
Häufigkeit
Körpergrösse [cm]
45
40
35
30
25
20
15
10
5
0
n = 202
x  70.08
70 08 [kg]
s 2  155.82 [kg 2 ]
s  12.48 [kg]
  0.18
0 18 [[-]]
24
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
Der Schiefekoeffizient der Stichprobe
‐> Mass für die Asymmetrie
1
 
n
3
(
x

x
)
 i
i 1
s3
25
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
1
 
n
Der Schiefekoeffizient der Stichprobe
‐> Mass für die Asymmetrie
3
(
x

x
)
 i
i 1
s3
Beispiel
Gewicht [kg] n = 202
Absolute Hääufigkeit
A
60
50
40
30
20
10
0
  0.16
Absolute H
Häufigkeit
Körpergrösse [cm] n = 202
45
40
35
30
25
20
15
10
5
0
  0.93
26
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
1
 
n
Der Schiefekoeffizient der Stichprobe
‐> Mass für die Asymmetrie
3
(
x

x
)
 i
i 1
s3
Beispiel
Gewicht [kg] n = 202
Absolute Hääufigkeit
A
60
50
  0.16
40
30
20
10
0
Linksschief
Absolute H
Häufigkeit
Körpergrösse [cm] n = 202
45
40
35
30
25
20
15
10
5
0
  0.93
Rechtsschief
27
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
Kurtosis der Stichprobe:
‐> Mass für die Spitzigkeit / Gipfligkeit

1

n
( x
i 1
i
 x )4
s4
28
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
Kurtosis der Stichprobe:
‐> Mass für die Spitzigkeit / Gipfligkeit

1

n
( x
i 1
i
 x )4
s4
Beispiel
Gewicht [kg] n = 202
Absolute Hääufigkeit
A
60
50
40
30
20
10
0
  2.64
Absolute H
Häufigkeit
Körpergrösse [cm] n = 202
45
40
35
30
25
20
15
10
5
0
  5.22
29
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften x   x1 , x2 , x3 ,,...,, xn 
T
y   y1 , y2 , y3 ,..., yn 
T
30
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften x   x1 , x2 , x3 ,,...,, xn 
T
y   y1 , y2 , y3 ,..., yn 
T
31
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm
Körpergrösse vs Gewicht
Körpergrösse vs. Gewicht
130
G
Gewicht [k
kg]
110
90
70
50
n= 202
30
150
160
170
180
190
Körpergrösse [cm]
200
210
32
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
A
Anzahl "g
grosse" Kllammern
Das zweidimensionale Streudiagramm
300
Büroklammerbiegetest
250
200
150
100
50
n= 202
0
0
50
100
150
200
250
Anzahl "kleine" Klammern
300
33
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY  ( xi  x )  ( yi  y )
n i1
34
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY  ( xi  x )  ( yi  y )
n i1
Körpergrösse vs. Gewicht
130
x  Körpergrösse
x  177.3 cm
Gewicht [kg]
110
90
y  Gewicht
70
y  70.1
70 1 kg
50
n= 202
30
150
160
170
180
190
Körpergrösse [cm]
200
210
35
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY  ( xi  x )  ( yi  y )
n i1
Körpergrösse vs. Gewicht
130
x  Körpergrösse
x  177.3 cm
Gewicht [kg]
110
90
y  Gewicht
70
y  70.1
70 1 kg
50
n= 202
30
150
160
170
180
190
Körpergrösse [cm]
200
210
36
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY  ( xi  x )  ( yi  y )  58.8
n i1
Körpergrösse vs. Gewicht
130
x  Körpergrösse
x  177.3 cm
Gewicht [kg]
110
90
y  Gewicht
70
y  70.1
70 1 kg
50
n= 202
30
150
160
170
180
190
Körpergrösse [cm]
200
210
37
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz: 1 n
sXY  ( xi  x )  ( yi  y )
n i1
• Der Korrelationskoeffizient:
n
rXY 
(x

1
i 1
n
i
 x )  ( yi  y )
s X  sY
ist limitiert auf das Interval  1,1
38
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
n
• Der Korrelationskoeffizient:
rXY
1
 i 1
n
( xi  x )  ( yi  y )
s X  sY
Körpergrösse vs. Gewicht
130
x  Körpergrösse
x  177.3 cm
110
Gewicht [kg]
 0.633
90
y  Gewicht
70
y  70.1
70 1 kg
50
n= 202
30
150
160
170
180
190
Körpergrösse [cm]
200
210
39
Statistik und Wahrscheinlichkeitsrechnung
Nummerische Zusammenfassungen
Lageparameter:
Arithmetisches Mittel
Median
Modalwert p
p
Schwerpunkt der Stichprobe
mittlerer Wert einer Stichprobe
am häufigsten vorkommender Wert
Streuungsparameter:
St
t
Varianz / Standardabweichung
Variationskoeffizient Verteilung um den Mittelwert
Variabilität relativ zum Mittelwert
Andere Parameter:
Schiefekoeffizient
Kurtosis
Schiefe relativ zum Mittelwert Spitzigkeit/Gipfligkeit um den Mittelwert
Masse für Korrelation:
Kovarianz
Korrelationskoeffizient
Tendenz für paarweise beobachtete Eigenschaften
Normalisierter Koeffizient zwischen ‐1 und +1 40
Statistik und Wahrscheinlichkeitsrechnung
Weitere graphische Darstellungsformen
• Histogramm Fortsetzung
• Quantil‐Plots
• Tukey Box Plots
41
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
42
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
• Beispiel: Ihre Büroklammerdaten vom letzten Mal
„grosse“ Klammern, Stichprobenumfang n = 202,
M i l
Maximalwert 301, Minimalwert 9.
t 301 Mi i l
t9
g
; [ , ); [ , ); [ , ); ; [
,
)
Einteilung in 15 Intervalle; [0,20); [20,40); [40,60);… ; [300,320)
43
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
90
absolute Häufigkeit
• Beispiel:
80
n = 202
70
60
50
40
30
20
10
0
Anzahl Biegungen der "grosse" Klammern
44
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
• Beispiel:
80
70
15 Intervalle
n = 202
60
50
40
30
20
10
0
160
absollute Häufigkeeit
absolute Häufigkkeit
90
140
5 Intervalle
n = 202
120
100
80
60
40
20
0
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen gr. Klammern
Anzahl Biegungen der "grosse" Klammern
45
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
absolute Häufigkkeit
90
80
70
15 Intervalle
n = 202
60
50
40
30
20
10
0
160
absollute Häufigkeeit
• Beispiel:
Aussage abhängig von der Anzahl der Intervalle!
Aussage abhängig von der Anzahl der Intervalle!
140
5 Intervalle
n = 202
120
100
80
60
40
20
0
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
46
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
– Faustregel für die Anzahl der Intervalle: k  1  3.3log
 n
47
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
– Faustregel für die Anzahl der Intervalle: k  1  3.3log
• Beispiel:  n
Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 202 Wertebereich [9 301]
Stichprobenumfang n = 202, Wertebereich [9, 301]
k  1 3.3log  202  8.61  9 Intervalle
48
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k
Aufteilung der Stichprobe in k Grössen
Grössen‐Intervalle
Intervalle
– Auftragen der Häufigkeit je Intervall
– Faustregel für die Anzahl der Intervalle: k  1  3.3log
• Beispiel:  n
Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 202 Wertebereich [9 301]
Stichprobenumfang n = 202, Wertebereich [9, 301]
k  1 3.3log  202  8.61  9 Intervalle
oder
[0,33); [33,66); [66,99);… ; [297,330)
[9,42); [42,75); [75,108);… ; [306,339) ?
49
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
9 Intervalle
70
n = 202
60
50
40
30
20
10
ab
bsolute Häufigkeit
abssolute Häu
ufigkeit
80
120
100
9 Intervalle
n = 202
80
60
40
20
0
0
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
50
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Die Form des Histogramms hängt ab von
– der Anzahl der Intervalle.
der Anzahl der Intervalle
– der Wahl des Startpunktes.
n = 202
n = 202
60
50
40
30
20
10
0
absolute Häufigkeit
70
absolute Häufigkeit
absolu
ute Häufigkeit
n = 202
n = 202
100
80
60
40
20
0
Anzahl Biegungen der "grosse" Klammern
n = 202
n = 202
90
120
80
70
60
50
40
30
20
10
160
absolute Häufigkeit
n = 202
n = 202
80
120
100
80
60
40
20
0
0
Anzahl Biegungen der "grosse" Klammern
140
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
51
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Bisher betrachteten wir die absolute Häufigkeit.
a
absolute H
Häufigkeit
120
n = 202
100
80
60
40
20
0
Anzahl Biegungen der "grosse" Klammern
52
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Bisher betrachteten wir die absolute Häufigkeit.
• In der Regel wird die Häufigkeit relativ, also normiert In der Regel wird die Häufigkeit relativ also normiert
betrachtet.
0.6
n = 202
100
relative Hääufigkeit
absolute H
a
Häufigkeit
120
80
60
40
20
n = 202
0.5
0.4
0.3
0.2
0.1
0
0
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
53
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm.
Häufigkeitsdiagramm
Histogramm
kumulatives Häufigkeitsdiagramm
n = 202
kumulatiive relative H
Häufigkeit
reelative Häufiigkeit
0.6
n = 202
0.5
04
0.4
0.3
0.2
0.1
0
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
02
0.2
0.1
0
25.5
58.5
91.5 124.5 157.5 190.5 223.5 256.5 289.5
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
Anzahl Biegungen der "grosse" Klammern
54
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm.
Häufigkeitsdiagramm
• Hier kann die Intervalleinteilung beliebig klein sein!
0.9
0.8
0.7
06
0.6
0.5
0.4
0.3
02
0.2
0.1
0
25.5
58.5
91.5 124.5 157.5 190.5 223.5 256.5 289.5
A hl Bi
Anzahl Biegungen der "grosse" Klammern
d "
" Kl
1
0.9
0.8
0.7
06
0.6
0.5
0.4
0.3
0.2
0.1
0
1
11.425
25.975
2
40.525
4
55.075
5
69.625
6
84.175
8
98.725
9
11
13.275
12
27.825
14
42.375
15
56.925
17
71.475
18
86.025
20
00.575
21
15.125
22
29.675
24
44.225
25
58.775
27
73.325
28
87.875
30
02.425
1
n = 202
kumulaative relativee Häufigkeit
kumulattive relative Häufigkeit
n = 202
Anzahl Biegungen der "grosse" Klammern
55
Kleine Denkaufgabe 4.1
41
Häufigke
eit der Beo
obachtung ((%)
Die Messreihe der jährlichen Durchschnittstemperaturen in Zürich für die letzten 20
Jahre ist gegeben. Das Histogramm ist im folgenden dargestellt. Welches ist der
Modus der Daten?
n = 100
9 oC
35 %
9o C,9.5o C 
Jahresdurchschnittstemperatur in Zürich [°C]
Kleine Denkaufgabe 4.1
41
Häufigke
eit der Beo
obachtung ((%)
Die Messreihe der jährlichen Durchschnittstemperaturen in Zürich für die letzten
20 Jahre ist gegeben. Das Histogramm ist im folgenden dargestellt. Welches ist der
Modus der Daten?
n = 100
9o C,9.5o C 
Jahresdurchschnittstemperatur in Zürich [°C]
Statistik und Wahrscheinlichkeitsrechnung
Weitere graphische Darstellungsformen
• Histogramm Teil II.
• Quantil‐Plots
• Tukey Box Plots
58
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
Das Quantil ist für eine gegebene Anzahl an Beobachtungen wie folgt definiert:
– Das  ‐Quantil ist der Wert, der die unteren  100% der Messwerte von den oberen 100%   100% trennt.
– Beispiel: Das 0.75‐Quantil wird von der
Daten
100%  0.75 100%  25%
überschritten.
– Die Quantile werden von der geordneten (sortierten) Stichprobe
berechnet: x1o  x2o ...  xno
– Der Quantilindex wird wie folgt berechnet:

i
;
n 1
n : Gesamt Anzahl der Beobachtungen,
Beobachtungen i =1,2...,
=1 2 n
59
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
und der Quantilindizes
gebildet
Q
Quantilind
dex
n = 202
Anzahl Biegungen gr. Klammern
i
1
2
3
4
5
6
7
8
9
.
.
i
n 1
0.0049261
0.0098522
0.0147783
0.0197044
0.0246305
0.0295567
0 03 828
0.0344828
0.0394089
0.0443350
.
.
xi
6
8
9
10
10
10
11
12
12
.
.
60
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
und der Quantilindizes
gebildet
n = 202
Q
Quantilind
dex
oberes Quartil = 0.75‐Quantil
unteres Quartil = 0.25‐Quantil
Anzahl Biegungen gr. Klammern
61
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantile‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
und der Quantilindizes
gebildet
n = 202
Q
Quantilind
dex
oberes Quartil = 75% Quantil
Und was ist das ??
Und was ist das ??
unteres Quartil = 25% Quantil
Anzahl Biegungen gr. Klammern
Median
Mittelwert
e e
Weiss nicht…
62
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantile‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
und der Quantilindizes
gebildet
n = 202
Q
Quantilind
dex
oberes Quartil = 75% Quantil
Und was ist das ??
Und was ist das ??
unteres Quartil = 25% Quantil
Median
Anzahl Biegungen gr. Klammern
63
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
• Der Tukey Box Plot illustriert:
– Median
– untere und obere Quartilwerte
– unterer und oberer Nachbarschaftswert
t
d b
N hb
h ft
t
– interquartile Differenz
– Ausreisser
A
i
64
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
n =194
oberes Quartil
oberes
Quartil = 0.75
0 75‐Quantil
Quantil
Median = 0.50‐Quantil
unteres Quartil = 0.25‐Quantil
65
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
n =194
r
oberes Quartil
oberes
Quartil = 0.75
0 75‐Quantil
Quantil
Median = 0.50‐Quantil
unteres Quartil = 0.25‐Quantil
r = interquartile Differenz 66
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
n =194
oberer Nachbarschaftswert
grösste Beobachtung kleiner/gleich
oberes Quartil + 1 5 * r
oberes Quartil + 1.5 * r
r
oberes Quartil
oberes
Quartil = 0.75
0 75‐Quantil
Quantil
Median = 0.50‐Quantil
unteres Quartil = 0.25‐Quantil
r = interquartile Differenz unterer Nachbarschaftswert
kleinste Beobachtung grösser/gleich
unteres Quartil ‐ 1.5 * r
67
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Ausreisser
oberer Nachbarschaftswert
grösste Beobachtung kleiner/gleich
oberes Quartil + 1 5 * r
oberes Quartil + 1.5 * r
r
oberes Quartil
oberes
Quartil = 0.75
0 75‐Quantil
Quantil
Median = 0.50‐Quantil
unteres Quartil = 0.25‐Quantil
r = interquartile Differenz unterer Nachbarschaftswert
kleinste Beobachtung grösser/gleich
unteres Quartil ‐ 1.5 * r
68
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Büroklammern
n=194
69
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Körpergrösse
n=142
n=52
n=194
70
Kleine Denkaufgabe 4.2 c
42c
Jahresdurrchschnittsstemperatu
ur in Zürich
h [°C]
ZZu sehen
h ist
i t der
d Tukey
T k Box Plot der
B Pl t d jährlichen
jäh li h Durchschnittstemperatur
D h h itt t
t in i
Zürich: Welches ist das 0.75 Quantil?
Zwischen 9.68 oC und 9.14 oC
Gleich 9.68 oC
U t 9.68 Unter
9 68 oC
Kleine Denkaufgabe 4.2 c
42c
Jahresdurrchschnittsstemperatu
ur in Zürich
h [°C]
ZZu sehen ist der Tukey Box Plot der jährlichen Durchschnittstemperatur in h i t d T k B Pl t d jäh li h D h h itt t
t i
Zürich: Welches ist das 0.75 Quantil?
Gleich 9.68 oC
Kleine Denkaufgabe 4.2 d
42d
Jahresdurrchschnittsstemperatu
ur in Zürich
h [°C]
ZZu sehen
h ist
i t der
d Tukey
T k Box Plot der
B Pl t d jährlichen
jäh li h Durchschnittstemperatur
D h h itt t
t in i
Zürich: Welches ist der interquartile Bereich?
= 0.54 oC
= 2.08 oC
= 9.465 oC
Kleine Denkaufgabe 4.2 d
42d
Jahresdurrchschnittsstemperatu
ur in Zürich
h [°C]
ZZu sehen ist der Tukey Box Plot der jährlichen Durchschnittstemperatur in h i t d T k B Pl t d jäh li h D h h itt t
t i
Zürich: Welches ist der interquartile Bereich?
= 0.54 oC
Statistik und Wahrscheinlichkeitsrechnung
• Q‐Q plots dienen zur Darstell ng nd dem
Darstellung und dem Vergleich von 2 Datenreihen.
• Datenpunkte der beiden p
Datenreihen mit demselben Quantilwert werden aufgetragen.
d
f
A
Anzahl gros
sse Klammeern
Q‐Q Plots
Anzahl kleine Klammern
75
Statistik und Wahrscheinlichkeitsrechnung
Mittelwert‐Differenz Plot
• Mittelwert‐Differenz Plots dienen zur
Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen.
y = grosse Klammern, x = kleine Klammern
( yi  xi )/ 2
• Das Mittel wird über die Differenz
yi  xi aufgetragen.
aufgetragen
76
Statistik und Wahrscheinlichkeitsrechnung
Zusammenfassung Graphische Darstellung
Eindimensionales
Streudiagramm
Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie.
Zweidimensionales
Streudiagramm
Veranschaulicht den paarweisen Zusammenhang von Daten.
Histogramm
Stellt die Verteilung von Daten über einem Bereich von
Datenreihen dar, zeigt Modalwert und Symmetrie.
Quantil‐Plot
Stellt Median, Verteilung und Symmetrie dar.
Tukey Box Plot
Stellt Median, obere/untere Quartile,
Symmetrie und Verteilung dar.
Symmetrie und Verteilung dar.
Q‐Q Plot
Vergleicht zwei Datenreihen, relatives Bild.
Mittelwert
Mittelwert‐
Differenz Plot
Vergleicht zwei Datenreihen relatives Bild
Vergleicht zwei Datenreihen, relatives Bild.
77
Kleine Denkaufgabe 4.3
43
Relative H
Häufigkkeit
(%
%)
Das folgende Histogramm repräsentiert die Messdaten des Verkehrsflusses im
Gotthardtunnel: Die Verteilung der Messreihe ist ….??
rechtsschief
linksschief
symmetrisch
Anzahl Autos x 102
Kleine Denkaufgabe 4.3
43
Relative H
Häufigkkeit
(%
%)
Das folgende Histogramm repräsentiert die Messdaten des Verkehrsflusses im
Gotthardtunnel: Die Verteilung der Messreihe ist ….??
rechtsschief
Anzahl Autos x 102
Kleine Denkaufgabe 4.2a
4 2a
Gegeben
G
b seii der
d Quantil‐Plot der
Q
til Pl t d jährlichen
jäh li h Durchschnittstemperatur
D h h itt t
t in Zürich:
i Zü i h
Welches ist der Median der Durchschnittstemperatur?
= 0.8o C
Quantile
= 9.46o C
== 9
9o C
Jahresdurchschnittstemperatur in Zürich [°C]
Kleine Denkaufgabe 4.2a
4 2a
Gegeben sei der Quantil‐Plot der jährlichen Durchschnittstemperatur in Zürich:
G
b
id Q
til Pl t d jäh li h D h h itt t
t i Zü i h
Welches ist der Median der Durchschnittstemperatur?
Quantile
= 9.46
9 46o C
Jahresdurchschnittstemperatur in Zürich [°C]
Kleine Denkaufgabe 4.2 b
42b
Gegeben
G
b seii der
d Quantil‐Plot der
Q
til Pl t d jährlichen
jäh li h Durchschnittstemperatur
D h h itt t
t in Zürich:
i Zü i h
60% der Daten liegen ... ?
über 9.5oC
oC
unter
t 9.5
9 5o Quantile
zwischen 9o C und 9.5o C C
Jahresdurchschnittstemperatur in Zürich [°C]
Kleine Denkaufgabe 4.2 b
42b
Gegeben sei der Quantil‐Plot der jährlichen Durchschnittstemperatur in Zürich:
G
b
id Q
til Pl t d jäh li h D h h itt t
t i Zü i h
60% der Daten liegen ... ?
Quantile
oC
unter
t 9.5
9 5o Jahresdurchschnittstemperatur in Zürich [°C]
Herunterladen