Introduction to Offshore Engineering

Werbung
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung
1
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Ziel:
Daten
Modellbildung
Probabilistisches Modell
Wahrscheinlichkeit von Ereignissen
Im ersten Schritt
werden wir die Daten
nur beschreiben:
‐ numerisch
‐ grafisch
Konsequenzen von Ereignissen
Risiken
Entscheidungsfindung
2
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung
• Überblick der beschreibenden Statistik
• Numerische Kennwerte
Mit welchen einfachen Zahlen können Datenmengen charakterisiert werden?
• Grafische Darstellung von Datenmengen
Wie werden Datenmengen informativ in Grafiken umgesetzt?
3
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Kennwerte
Grafiken
Keine Annahmen –
nur Beschreibung !!
4
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
Z.B.: Die Grundgesamtheit aller Studierenden, welche für Statistik und Wahrscheinlichkeitsrechnung eingeschrieben sind, ist m = 258.
Stichprobe von letzter Woche, n = 204.
5
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
Z.B.: Biegezähigkeit von Büroklammern, m = ∞.
Stichprobe, n = 204
6
Statistik und Wahrscheinlichkeitsrechnung
Vorbemerkung
• Stichprobe und Grundgesamtheit
– Die statistischen Eigenschaften einer Grundgesamtheit werden anhand von Stichproben untersucht.
– Damit die Stichprobe die Grundgesamtheit repräsentiert, müssen die Stichproben zufällig aus der Grundgesamtheit entnommen werden.
7
Statistik und Wahrscheinlichkeitsrechnung
Ziel der beschreibenden Statistik
• Beschreiben von Datenmengen
Kennwerte
Grafiken
Keine Annahmen –
nur Beschreibung !!
8
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Zusammenfassen zu nur einem Kennwert
Arithmetisches Mittel: 1 n
x = ∑ xi
n i=1
Für einen Datensatz:
x = ( x1, x2 ,..., xn )
T
Um eine Stichprobe nur mit Hilfe eines Kennwertes zu beschreiben, wird normalerweise der Stichproben‐Mittelwert verwendet.
9
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Eindimensionales Streudiagramm: 10
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Guter Datenüberblick (Maximum, Minimum).
Vorsicht bei diskret verteilten Daten ! 11
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Eindimensionales Streudiagramm:
Mittelwert Frauen = 166.71
Mittelwert Männer= 181.12
1 n
Der Stichprobenmittelwert entspricht dem x = ∑ xi
n i=1
„Schwerpunkt“ der Daten.
12
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Histogramm: Einteilung der Datenreihe in Intervalle.
Darstellung der Grösse der Intervalle.
z.B. die Körpergrösse
13
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Histogramm:
14
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Einfache grafische Darstellung von Stichproben
Histogramm:
15
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Mittelwert gibt es noch andere sog. Lageparameter:
‐
x
Der Median oder Zentralwert der Stichprobe ist der mittlere Wert x1o ≤ x2o ≤ ... ≤ xno
einer nach der Grösse geordneten Stichprobe .
⎧ x n +1
⎪⎪ 2
x = ⎨
⎞
1⎛
⎪
+
x
x
⎜ n
n ⎟
+1
2
⎪⎩
⎝ 2
2 ⎠
‐
Beispiele:
n ungerade
n gerade
[ 23
30
31
33
[ 23
30
31
33 ]
120 ] 16
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Mittelwert gibt es noch andere sog. Lageparameter:
‐
x
Der Median oder Zentralwert der Stichprobe ist der mittlere Wert x1o ≤ x2o ≤ ... ≤ xno
einer nach der Grösse geordneten Stichprobe .
Mittelwert = 176.52 Median = 177.0
17
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Neben dem Stichproben‐Mittelwert gibt es noch andere sog. Lageparameter:
‐
Der Modus oder Modalwert der Stichprobe ist der am häufigsten auftretende Wert – bei kontinuierlichen Wertemengen u.a. aus Histogramm ersichtlich. Absolute Häufigkeit
Körpergrösse [cm]
n = 204
83
90
80
70
60
50
40
30
20
10
0
61
Modus
42
9
150<x≤160
150
9
Körpergrösse [cm]
160<x≤170
160
170<x≤180
170
180<x≤190
180
Mittelwert = 176.52 Median = 177.0
190<x≤200
190
200
18
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
Die Varianz der Stichprobe
1 n
s = ∑( xi − x )2
n i=1
‐
Die Standardabweichung der Stichprobe
1 n
s = ∑( xi − x )2
n i=1
‐
Der Variationskoeffizient der Stichprobe (relative Streuung, COV)
s
ν=
x
‐
2
19
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
Varianz
1 n
s = ∑( xi − x )2
n i=1
2
1 n
s = ∑(xi − x )2
Standardabweichung COV
n i=1
ν=
s
x
Beispiel
Absolute Häufigkeit
45
40
35
30
25
20
15
10
5
0
n = 204
Gewicht [kg]
x = 176.52 [cm]
s 2 = 107.33 [cm 2 ]
s = 10.36 [cm]
ν = 0.059 [-]
Absolute Häufigkeit
Körpergrösse [cm]
40
35
30
25
20
15
n = 204
x = 69.8 [kg]
s 2 = 131.33 [kg 2 ]
s = 11.46 [kg]
ν = 0.164 [-]
10
5
0
20
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
η=
Der Schiefekoeffizient der Stichprobe
‐> Mass für die Asymmetrie
1
⋅
n
∑( x
i =1
i
− x )3
s3
Beispiel
Gewicht [kg]
Absolute Häufigkeit
45
40
35
30
25
20
15
10
5
0
n = 204
η = −2.04
Linksschief
Absolute Häufigkeit
Körpergrösse [cm]
40
35
n = 204
30
η = 0.67
25
20
15
10
5
0
Rechtsschief
21
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Streuungsparameter – Streuung um den Mittelwert
n
‐
Kurtosis der Stichprobe:
‐> Mass für die Spitzigkeit / Gipfligkeit
1
κ= ⋅
n
∑( x
i =1
i
− x )4
s4
Beispiel
Gewicht [kg]
Absolute Häufigkeit
45
40
35
30
25
20
15
10
5
0
n = 204
κ = 16.0
Absolute Häufigkeit
Körpergrösse [cm]
40
35
n = 204
30
25
20
κ = 4.67
15
10
5
0
22
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften x = ( x1 , x2 , x3 ,..., xn )
T
y = ( y1 , y2 , y3 ,..., yn )
T
23
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften Das zweidimensionale Streudiagramm
24
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
Das zweidimensionale Streudiagramm
25
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz der Stichprobe: 1 n
sXY = ∑( xi − x ) ⋅ ( yi − y )
n i=1
x Körpergrösse
x = 176.52 cm
y Gewicht
y = 69.80 kg
26
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
• Die Kovarianz der Stichprobe: 1 n
sXY = ∑( xi − x ) ⋅ ( yi − y )
n i=1
• Der Korrelationskoeffizient der Stichprobe:
n
rXY =
(x
∑
1
i =1
n
i
− x ) ⋅ ( yi − y )
s X ⋅ sY
ist limitiert auf das Interval [ −1,1]
27
Statistik und Wahrscheinlichkeitsrechnung
Datenbeschreibung
• Beschreibung von paarweise beobachteten Eigenschaften
n
• Der Korrelationskoeffizient:
rXY
1∑
= i =1
n
( xi − x ) ⋅ ( yi − y )
s X ⋅ sY
= 0.693
x Körpergrösse
x = 176.52 cm
y Gewicht
y = 69.80 kg
28
Statistik und Wahrscheinlichkeitsrechnung
Nummerische Kennwerte
Lageparameter:
Arithmetisches Mittel
Median
Modalwert Schwerpunkt der Stichprobe
mittlerer Wert einer Stichprobe
am häufigsten vorkommender Wert
Streuungsparameter:
Varianz / Standardabweichung
Variationskoeffizient Verteilung um den Mittelwert
Variabilität relativ zum Mittelwert
Andere Parameter:
Schiefekoeffizient
Kurtosis
Schiefe relativ zum Mittelwert Spitzigkeit/Gipfligkeit um den Mittelwert
Masse für Korrelation:
Kovarianz
Korrelationskoeffizient
Tendenz für paarweise beobachtete Eigenschaften
Normalisierter Koeffizient zwischen ‐1 und +1 29
Statistik und Wahrscheinlichkeitsrechnung
Weitere grafische Darstellungsformen
• Histogramm Fortsetzung
• Quantil‐Plots
• Tukey Box Plots
30
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle
– Auftragen der Häufigkeit je Intervall
• Beispiel: Ihre Büroklammerdaten vom letzten Mal
„grosse“ Klammern, Stichprobenumfang n = 204,
Maximalwert 301, Minimalwert 9.
Einteilung in 15 Intervalle; [0,20); [20,40); [40,60);… ; [300,320)
31
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle
– Auftragen der Häufigkeit je Intervall
• Beispiel:
n = 204
32
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle
– Auftragen der Häufigkeit je Intervall
• Beispiel:
Aussage abhängig von der Anzahl der Intervalle!
15 Intervalle
n = 204
5 Intervalle
n = 204
33
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Prinzip: – Aufteilung der Stichprobe in k Grössen‐Intervalle
– Auftragen der Häufigkeit je Intervall
– Faustregel für die Anzahl der Intervalle: k = 1 + 3.3log
• Beispiel: ( n)
Büroklammerdaten „grosse“ Klammern, Stichprobenumfang n = 204, Wertebereich [15,296]
k = 1+ 3.3log ( 204) = 8.62 ≅ 9 Intervalle
oder
[0,33); [33,66); [66,99);… ; [297,330)
[9,42); [42,75); [75,108);… ; [306,339) ?
34
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
9 Intervalle
n = 204
9 Intervalle
n = 204
35
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Die Form des Histogramms hängt ab von
– der Anzahl der Intervalle.
– der Wahl des Startpunktes.
n = 204
n = 204
n = 204
n = 204
36
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Bisher haben wir die absolute Häufigkeit betrachtet.
n = 204
37
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Bisher haben wir die absolute Häufigkeit betrachtet.
• In der Regel wird die Häufigkeit relativ, also normiert betrachtet.
n = 204
n = 204
38
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm.
Histogramm
kumulatives Häufigkeitsdiagramm
n = 204
n = 204
39
Statistik und Wahrscheinlichkeitsrechnung
Histogramm
• Eine Spielart des Histogramms ist das kumulative Häufigkeitsdiagramm.
• Hier kann die Intervalleinteilung beliebig klein sein!
n = 204
n = 204
40
Statistik und Wahrscheinlichkeitsrechnung
Weitere grafische Darstellungsformen
• Histogramm Teil II.
• Quantil‐Plots
• Tukey Box Plots
41
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
Das Quantil ist für eine gegebene Anzahl an Beobachtungen wie folgt definiert:
– Das υ ‐Quantil ist der Wert, der die unteren υ ⋅100% der Messwerte von den oberen 100% − υ ⋅100% trennt.
– Beispiel: Das 0.75‐Quantil wird von der
Daten
100% − 0.75 ⋅100% = 25%
überschritten.
– Die Quantile werden von der geordneten (sortierten) Stichprobe
berechnet: x1o ≤ x2o ≤... ≤ xno
– Der Quantilindex wird wie folgt berechnet:
υ=
i
;
n +1
n : Gesamt Anzahl der Beobachtungen, Rang i =1,2...,n
42
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
n = 204
i
i
n +1
xi
43
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
1
n = 204
oberes Quartil = 0.75‐Quantil
Quantilindex
0.75
0.5
unteres Quartil = 0.25‐Quantil
0.25
0
0
30
60
90
120
150
180
210
240
270
Anzahl Biegungen der "grossen" Klammern
44
Statistik und Wahrscheinlichkeitsrechnung
Quantil ‐ Plot
• Quantil‐Plots werden durch Auftragen der Daten und der Quantilindizes gebildet.
1
n = 204
oberes Quartil = 0.75‐Quantil
Quantilindex
0.75
0.5
unteres Quartil = 0.25‐Quantil
0.25
grosse Klammern
kleine Klammern
0
0
30
60
90
120
150
180
210
240
270
Anzahl Biegungen der Klammern
45
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
• Der Tukey Box Plot illustriert:
– Median
– untere und obere Quartilwerte
– unterer und oberer Nachbarschaftswert
– interquartile Differenz
– Ausreisser
46
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
n =204
Ausreisser
oberer Nachbarschaftswert
grösste Beobachtung kleiner/gleich
oberes Quartil + 1.5 * r
r = interquartile Differenz r
oberes Quartil = 0.75‐Quantil
Median = 0.50‐Quantil
unteres Quartil = 0.25‐Quantil
unterer Nachbarschaftswert
kleinste Beobachtung grösser/gleich
unteres Quartil ‐ 1.5 * r
47
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Büroklammern
48
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Büroklammern
49
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Körpergrösse
50
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Körpergrösse
51
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Körpergrösse
52
Statistik und Wahrscheinlichkeitsrechnung
Tukey Box Plot
Körpergrösse
53
Statistik und Wahrscheinlichkeitsrechnung
Q‐Q Plots
• Q‐Q plots dienen zur
Darstellung und dem
Vergleich von zwei
Datenreihen.
• Datenpunkte der beiden
Datenreihen mit
demselben Quantilwert
werden aufgetragen.
54
Statistik und Wahrscheinlichkeitsrechnung
Mittelwert‐Differenz Plot
• Mittelwert‐Differenz Plots dienen zur Darstellung und dem Vergleich von zwei Datenreihen.
y = grosse Klammern, x = kleine Klammern
( yi + xi )/ 2
• Das Mittel wird über die Differenz
yi − xi aufgetragen.
55
Statistik und Wahrscheinlichkeitsrechnung
Zusammenfassung Graphische Darstellung
Eindimensionales
Streudiagramm
Veranschaulicht den Bereich und die Verteilung von Datenreihen entlang einer Achse, und zeigt Symmetrie.
Zweidimensionales
Streudiagramm
Veranschaulicht den paarweisen Zusammenhang von Daten.
Histogramm
Stellt die Verteilung von Daten über einem Bereich von
Datenreihen dar, zeigt Modalwert und Symmetrie.
Quantil‐Plot
Stellt Median, Verteilung und Symmetrie dar.
Tukey Box Plot
Stellt Median, obere/untere Quartile,
Symmetrie und Verteilung dar.
Q‐Q Plot
Vergleicht zwei Datenreihen, relatives Bild.
Mittelwert‐
Differenz Plot
Vergleicht zwei Datenreihen, relatives Bild.
56
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung
57
Herunterladen