Introduction to Offshore Engineering

Werbung
Statistik und Wahrscheinlichkeitsrechnung
Statistik und
Wahrscheinlichkeitsrechnung
Prof. Dr. Michael H. Faber
8. Vorlesung
22.04.2009
1
Statistik und Wahrscheinlichkeitsrechnung
Inhalte der heutigen Vorlesung

Überblick über Schätzung und Modellbildung

Wahrscheinlichkeitsverteilungen in der Statistik

Parameterschätzung
- Statistische Charakteristiken von Stichproben:
Mittelwert
- Statistische Charakteristiken von Stichproben:
Varianz
- Konfidenzintervalle der Schätzer
22.04.2009
2
Statistik und Wahrscheinlichkeitsrechnung
Überblick Schätzung und Modellbildung
Wie kommen Ingenieure zu Wissen?
Reale Welt
Erfahrung
Daten
Modelle
22.04.2009
3
Statistik und Wahrscheinlichkeitsrechnung
Überblick Schätzung und Modellbildung
Unterschiedliche Typen an Informationen werden zur
Bildung von Ingenieurmodellen verwendet
– Subjektive Information
– Frequentistische Information
22.04.2009
4
Statistik und Wahrscheinlichkeitsrechnung
Überblick Schätzung und Modellbildung
Die Modellbildung kann in fünf Schritten erfolgen:
1) Bewertung und statistische Erfassung verfügbarer Daten
2) Wahl einer Verteilungsfunktion
3) Schätzung der Verteilungsparameter
4) Testen des Modells
5) Aktualisierung der Parameter des Modells
22.04.2009
5
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
In der klassischen Statistik werden häufig bestimmte
Wahrscheinlichkeitsverteilungsfunktionen, welche alle
von der Normalverteilung abgeleitet werden können,
verwendet und zur Bewertung und zum Testen
verwendet.
Diese Wahrscheinlichkeitsverteilungsfunktionen sind:
 Chi-Quadrat Verteilung
 Chi-Verteilung
 t-Verteilung
 F-Verteilung
22.04.2009
6
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
2
χ
Chi-Quadrat Verteilung ( - Verteilung)
Wenn X i , i = 1, 2,...n standardnormalverteilte und unabhängige
Zufallsvariablen sind , dann ist die Summe der Quadrate der
Zufallsvariablen, also:
n
Yn = ∑ X i2
Chi-Quadrat verteilt.
i =1
Die Chi-Quadrat Verteilung ist regenerativ, d.h. die Summe der ChiQuadrat verteilten Zufallsvariablen ist auch wieder Chi-Quadratverteilt.
22.04.2009
7
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
2
χ
Chi-Quadrat Verteilung ( - Verteilung)
Betrachte den einfachsten Fall mit n = 1, d.h. Y1 = X 2
dann können wir schreiben
FY1 ( y ) = P(Y1 ≤ y ) = P( X 2 ≤ y ) = P(− y ≤ X ≤ + y )
= FX ( y ) − FX (− y ) = FX ( y ) − (1 − FX ( y )) =
= 2 FX ( y ) − 1
und bekommen
fY1 ( y ) =
22.04.2009
dFY1 ( y )
dy
1
−
d (2 FX ( y ) − 1)
1
1
=
= y 2 fX ( y) =
exp(− y )
dy
2
2πy
8
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
2
χ
Chi-Quadrat Verteilung ( - Verteilung)

Chi-Quadrat Wahrscheinlichkeitsverteilung ist gegeben durch
fYn ( yn )
n 
 −1
yn 2 

exp

n
n
  
2
2 Γ
 
2


− yn 
,

2 
Der Mittelwert ist µ Yn = n
Die Varianz ist
σ Y2n = 2n
yn ≥ 0
Freiheitsgrade
∞
−t x −1
Γ
(
x
)
=
e
∫0 t dt ist die komplette Gamma Funktion.

 Für grosse n konvergiert die Chi-Quadrat Verteilung zu einer
Normalverteilung.
22.04.2009
9
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
22.04.2009
10
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Chi-Verteilung ( χ - Verteilung)
Wenn die Zufallsvariable Z durch die Wurzel von der Chi-Quadrat
verteilten Zufallsvariable gegeben ist, d.h.
Z =
Yn
=
n
2
X
∑ i
i =1
dann ist sie Chi-verteilt mit n Freiheitsgraden.
22.04.2009
11
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Chi-Verteilung ( χ - Verteilung)
Angenommen, dass Yn Chi-Quadrat verteilt ist mit n
Freiheitsgraden.
Mit Z = Yn können wir schreiben
FZ ( z )  P( Z  z )  P( Yn  z )  P(Yn  z 2 )  FYn ( z 2 )
Und wir bekommen
2
dF
z
(
)
dFZ ( z )
Yn
2
f Z ( z ) = = 2 zf=
z
(
)
=
Yn
dz
dz
22.04.2009
z n −1
z2
exp(− )
n 
2
 −1  n 
2 
2 Γ 
2
12
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Chi-Verteilung ( χ - Verteilung)
 −z2 
exp 
,
fZ ( z)  n 
 Ist=
gegeben durch

 −1  n 
 2 
2 
2 Γ 
2
z ( n −1)


Der Mittelwert ist
 n +1
Γ

2 

µz = 2
n
Γ 
2
Die Varianz ist
 n +1
Γ2 

2 

2
σ z= n − 2
2n
Γ  
2
22.04.2009
z≥0
13
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
22.04.2009
14
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
t-Verteilung (Student-Verteilung)
 Wenn eine standardnormalverteilte Zufallsvariable X durch eine
Chi-verteilte Zufallsvariable geteilt wird, d.h.
S
=
X
n
=
∑X
i =1
2
i
X
X
= =
Z
Yn
n
n
nX
Z
n
dann heisst die Verteilung von S t-Verteilung bzw. StudentVerteilung mit n Freiheitsgraden.
 Für grosse n konvergiert die t-Verteilung zu einer
Normalverteilung
22.04.2009
15
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
t-Verteilung (Student-Verteilung)
 Ist gegeben durch
=
fS ( s )
 n +1
 n +1 
−
Γ
  s 2   2 
2

 1+
,


n
n
nπ Γ   
2
-∞ ≤ s ≤ ∞
 Der Mittelwert ist 0
 Die Varianz ist σ S2 = n
n−2
22.04.2009
16
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
22.04.2009
17
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
F-Verteilung
 Wenn eine Zufallvariable Q gegeben ist als das Verhältnis
zwischen zwei Chi-Quadrat-verteilten Zufallsvariablen, d.h.
Q=
Yn1
Yn2
 Dann ist Q F-verteilt mit den Freiheitsgraden n1, n2.
22.04.2009
18
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
F-Verteilung
 Die F-Wahrscheinlichkeitsdichtefunktion ist gegeben als
 n1 − 2 


 2 
n +n 
Γ 1 2 q
(1 + q)
 2 
fQ (q)
n  n 
Γ 1 Γ 2 
2 2
 n +n 
− 1 2 
 2 
n2
,
 Der Mittelwert ist µ Q =
n2 − 2
 Die Varianz ist
22.04.2009
2n22 (n1 + n2 − 2)
σ =
,
2
n1 (n2 − 2) (n2 − 4)
2
Q
,
q≥0
n2 > 2
n2 > 4
19
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
22.04.2009
20
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Zusammenfassung: Basierend auf unabhängigen normal verteilten
Zufallsvariablen lassen sich folgende Verteilungen ableiten
Verteilungstyp
Wann
Chi-Quadrat-Verteilung
Summe der Quadrate N(0;1)
Chi-Verteilung
Wurzel von Chi-Quadrat
t-Verteilung
Verhältnis von N(0;1) zu Chi/n
F-Verteilung
Verhältnis von zwei Chi-Quadrat
22.04.2009
21
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Beispiel: Chi-Verteilung

Es wurden Messungen von den Seiten a und b durchgeführt, mit
der Absicht, die Seite c bestimmen zu können.
c
a
b
22.04.2009
22
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Beispiel: Chi-Verteilung
c
a
b

Es wird angenommen, dass die Messungen von a und b mit dem
selben absoluten Fehler ε durchgeführt werden, welcher als
N(0; σε ) angenommen wird (Normalverteilt, erwartungstreu -> d.
h. ohne systematischen Fehler und mit einer
Standardabweichung σε.).

Bestimme die statistischen Charakteristiken des Fehlers in c,
welcher durch a und b bestimmt wurde.
22.04.2009
23
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Beispiel: Chi-Verteilung

c
a
Der Fehler setzt sich folgendermassen fort:
b
ε c = ε a2 + ε b2

Daraus lässt sich folgen, dass
2
 εa   εb 
εc
=   +  
σε
σε  σε 
22.04.2009
2
Chi-verteilt ist,
mit zwei Freiheitsgraden.
24
Statistik und Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsverteilungsfunktionen
Beispiel: Chi-Verteilung
c
a
b
εc
 Die Wahrscheinlichkeitsdichtefunktion von Z =
σε
kann bestimmt werden durch
f Z ( z ) = z exp(−0.5 z 2 ),
z≥0
 −0.5 ⋅ ε c2 
εc
Unter Einhaltung
von fε c (ε c )
=
exp 
,
2
σε
 σε 
22.04.2009
εc ≥ 0
25
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Wenn neue Daten verfügbar sind, besteht der erste Schritt darin,
diese zu beurteilen.
xˆno
Daten/Beobachtungen
n
22.04.2009
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
24.4
27.6
27.8
27.9
28.5
30.1
30.3
31.7
32.2
32.8
33.3
33.5
34.1
34.6
35.8
35.9
36.8
37.1
39.2
39.7
FX (xn )
0.047619048
0.095238095
0.142857143
0.19047619
0.238095238
0.285714286
0.333333333
0.380952381
0.428571429
0.476190476
0.523809524
0.571428571
0.619047619
0.666666667
0.714285714
0.761904762
0.80952381
0.857142857
0.904761905
0.952380952
Mittelwert
Varianz
Median
Funktion von
Stichproben
Stichprobencharakteristik
oder
Usw.
Stichprobenstatistik
26
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
 Die statistischen Eigenschaften von Stichprobenstatistiken
werden im folgenden genauer betrachtet, um die darin
enthaltenen Informationen besser zu verstehen.
 Angenommen wir haben noch unbekannte Stichproben
X i , i = 1,2,..n aus einem Experimentergebnis generiert durch
die kumulative Verteilungsfunktion FX i ( xi , p) = FX ( x, p), i = 1,2,..n
Dann können wir die Stichprobenstatistiken beschreiben für
den Stichprobenmittelwert und die Stichprobenvarianz.
n
1 n
1
2
X = ∑ Xi
S = ∑ ( X i − X )2
n i =1
n i =1
22.04.2009
27
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Die Stichprobenstatistiken sind Zufallsvariablen, solange die
Ergebnisse das Experiments noch nicht realisiert sind.
Daher kann der Erwartungswert und die Varianz für den
Stichprobenmittelwert folgendermassen bestimmt werden:
1
1 n
 1 n
 X  E  ∑
E=
Xi 
E=
nµ X µ X
=
[ Xi ] =
∑
n
=
 n i 1=
 ni1
1 2
1 n
 1
 n
 1 n
Var  X  Var
X
Var
X
Var
X
σX
=
=
=
=
[
]
i
 n ∑ i  n2
∑ i  n2 ∑
n
=
i 1
 i1 =
 i 1=

22.04.2009
28
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Die Wahrscheinlichkeitsdichtefunktion für den
Stichprobenmittelwert kann als eine Normalverteilung
angenommen werden – Zentraler Grenzwertsatz
22.04.2009
29
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Beispiel: Körpergewicht der Studierenden.
1
2
3
4
5
6
7
8
9
10
Mittelwert
Standardabweichung
22.04.2009
1. Probe
G [kg]
75
75
80
72
84
90
55
85
69
70
75.5
8.99
30
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Beispiel: Körpergewicht der Studierenden.
1
2
3
4
5
6
7
8
9
10
Mittelwert
Standardabweichung
22.04.2009
1. Probe
G [kg]
75
75
80
72
84
90
55
85
69
70
2. Probe
G [kg]
65
77
68
85
71
76
79
80
75
80
75.5
8.99
75.6
5.47
31
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Beispiel: Körpergewicht der Studierenden.
1
2
3
4
5
6
7
8
9
10
Mittelwert
Standardabweichung
22.04.2009
1. Probe
G [kg]
75
75
80
72
84
90
55
85
69
70
2. Probe
G [kg]
65
77
68
85
71
76
79
80
75
80
3. Probe
G [kg]
63
62
58
76
93
72
58
76
58
79
4. Probe
G [kg]
72
78
59
65
90
76
62
77
57
63
5. Probe
G [kg]
59
73
73
69
56
60
71
75
60
70
75.5
8.99
75.6
5.47
69.5
10.51
69.9
9.40
66.6
6.34
32
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Für die Stichprobenvarianz erhalten wir:
[ ]
n
n
1
1




E S 2 = E  ∑ ( X i − X ) 2  = E ∑ (( X i − µ ) − ( X − µ )) 2 
 n i =1
 n  i =1

1 n
2
2 
= ∑ E (Xi − µ) - n E (X − µ) 
n  i =1

]
[
]
( [
]
[
])
1
n ⋅ E ( X i − µ )2 - n E ( X − µ )2 =
n
2

1
σ
2
X

=  n ⋅ σ X - n
Der Schätzer der
n
n 
Stichprobenvarianz ist nicht
1
(n − 1) 2
erwartungstreu (biased).
= σ X2 − σ X2 =
σX
n
n
=
22.04.2009
[
33
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
(n − 1) 2
E  S  =
σX
n
Wir können nun einfach erwartungstreue (unbiased) Schätzer für die
Varianz bestimmen:
2
n 2
S =
S
n −1
2
n 1 n
2
X
X
(
)
=
−
∑ i

n − 1  n i =1

1 n
2
X
X
(
)
=
−
∑ i
n − 1 i =1
22.04.2009
34
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
(n − 1) 2
E  S  =
σX
n
Wir können nun einfach erwartungstreue (unbiased) Schätzer für die
Varianz bestimmen:
2
n 2
S =
S
n −1
2
n 1 n
2
X
X
(
)
=
−
Nicht n wie bei der
∑ i

n − 1  n i =1

Varianz in der
beschreibenden
Statistik!
1 n
2
X
X
(
)
=
−
∑ i
n − 1 i =1
22.04.2009
35
Statistik und Wahrscheinlichkeitsrechnung
Parameterschätzung für Stichproben
Die Qualität eines Schätzers kann nicht alleine dadurch bewertet
werden, ob er erwartungstreu ist. Es spielen auch andere
Eigenschaften eine wichtige Rolle wie:
– Effizienz
kleinste Fehlerquadrate
– Invarianz
h(θ ) = h(θ )
– Konsistenz
Konvergenz zu wahren Werten
– Hinlänglichkeit Maximaler Nutzen aus den Daten
– Robustheit
Sensitivität bei Weglassen individueller
Daten
Wir werden dies nicht im Detail anschauen – Merken Sie sich, dass
diese Überlegungen von Bedeutung sind.
22.04.2009
36
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer

Wir haben gesehen, dass Schätzer z.B. des Mittelwertes mit
statistischen Unsicherheiten assoziiert sind, und wir haben ihren
Mittelwert und ihre Varianz bestimmt.

Basierend auf diesen Informationen ist es uns möglich, ein
Konfidenzintervall für die Schätzer zu bestimmen.

Konfidenzintervalle können als Intervalle verstanden werden,
innerhalb welcher z.B. der Mittelwert mit einer bestimmten
Wahrscheinlichkeit gefunden werden kann.
22.04.2009
37
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer


Wir können ein Konfidenzintervall z.B. für den Mittelwert
erstellen.
Für den Fall, dass der Mittelwert unsicher und die Varianz
bekannt ist:
Aufgrund von n Beobachtungen lässt sich der Mittelwert
schätzen als (normalverteilte) Zufallsvariable mit Mittelwert
gleich X und Standardabweichung σ 1 .
X
n

Durch Transformation erhalten wir die standardnormalverteilte
Zufallsvariable
X − µX
1
σX
n
22.04.2009
38
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer
Das zweiseitige und symmetrische Konfidenzintervall des
Mittelwertes ist gegeben durch:
Stichprobenmittelwert
wahrer Mittelwert




X − µX
1
1 

< kα /2  =P  −kα /2σ X
< X − µ X < kα /2σ X
=1 − α
P  −kα /2 <

1
n
n



σX

 Anzahl Stichproben
n
bekannte Standardabweichung
22.04.2009
Signifikanzniveau
39
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer
Das Konfidenzintervall definiert ein Intervall, in dem der
Stichprobenmittelwert mit der Wahrscheinlichkeit 1 − α liegt.
1
1 

P − kα / 2σ X
< X − µ X < kα / 2σ X
= 1−α

n
n

Bekannte Standardabweichung
Stichprobenmittelwert
Anzahl Stichproben
Wahrer Mittelwert
Das Konfidenzintervall kann, durch die Annahme, dass der Mittelwert
normalverteilt ist, wie folgt bestimmt werden:
0.05 
 α
−1 
kα / 2 = Φ 1 −  = Φ 1 −
 = 1.96
2 

 2
−1
22.04.2009
40
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer
Für den Fall, dass
=
α
0.05,
=
n
16 und
=
σX
20 erhalten wir




X - µX
< 1.96  =
P  −1.96 <
1- 0.05
1


20


n
P  −9.8 < X − µ X < 9.8 =
0.95
22.04.2009
41
Statistik und Wahrscheinlichkeitsrechnung
Konfidenzintervalle für Schätzer

Wenn wir beobachten, dass der Stichprobenmittelwert z.B. gleich
400 ist, wissen wir, dass der wahre Mittelwert mit einer
Wahrscheinlichkeit von 0.95 innerhalb des Intervalles liegt.
P[− 9.8 < X − µ X < 9.8] = 0.95
390.2 < µ X < 409.8


Normalerweise werden Konfidenzintervalle für Mittelwert,
Varianz und charakteristische Werte (Fraktilwerte) in Betracht
gezogen.
Das Konfidenzintervall repräsentiert / beschreibt die
(statistische) Unsicherheit, welche durch zu wenig Daten
entsteht.
22.04.2009
42
Statistik und Wahrscheinlichkeitsrechnung


Konfidenzintervalle für Schätzer
Die Anzahl verfügbarer Daten hat einen signifikanten Einfluss auf
das Konfidenzintervall.
Unter Verwendung des vorherigen Beispiels ( σ X = 20 ) ist in
der folgenden Graphik die Abhängigkeit des Konfidenzintervalls
von der Anzahl der Experimente n illustriert.
22.04.2009
43
Statistik und Wahrscheinlichkeitsrechnung
Statistik und
Wahrscheinlichkeitsrechnung
Prof. Dr. Michael Havbro Faber
22.04.2009
44
Herunterladen