Statistische Methoden für Bauingenieure WS 13/14

Statistische Methoden für
Bauingenieure
WS 13/14
Einheit 3: Bivariate Zufallsvariablen
Univ.Prof. Dr. Günter Blöschl
Bezeichnungen
2
X ... Zufallsvariable
x ... Realisation (konkrete Werte)
Momente
Grundgesamtheit
Mittelwert X, Varianz σ 2
Stichprobe
Mittelwert x, Varianz s 2
1
Bivariate Zufallsvariablen
3
• Bivariate Verteilungen
• Korrelation
• Regression
• Generieren korrelierter Zufallsvariablen
Bivariate Verteilungen
4
 Verteilungen mit zwei Zufallszahlen
stetige Verteilungen - diskrete Verteilungen
f XY ( x, y ) 
mi , j
lim
m   m  ∆x  ∆y
∆x,∆y 0
z.B. Normalverteilung
f XY ( x, y ) 
R
1
2  π  σ X  σY  1  ρ
2
 e R
 ( x  X )2
( y  Y )2 
2ρ

(
x

X
)(
y

Y
)



2
σ X  σY
σY2 
2(1  ρ )2  σ X
1
 
  f X ,Y ( x, y )dxdy  1
 
2
fXY(x,y)
0.07
5
Bivariate Dichtefunktion
0.06
Ellipsen (Isolinien)
Volumen = 1
0.05
 Maß für die Abhängigkeit
von X und Y
0.04
0.03
0.02
Randverteilung
0.01
0
10
7.5
y
5
2.5
2.5
0
5
7.5
10
12.5
15
17.5
20
x bedingte
Verteilung
6
Randverteilung

f X ( x )   f X ,Y ( x, y )dy

Bedingte Wahrscheinlichkeitsdichte
f XY ( x, y )  f X ( x )  f XY ( y x )
f XY ( y x ) 
f XY ( x, y )
fX ( x)
3
7
Linien gleicher Funktionswerte (Isolinien) der
Wahrscheinlichkeitsdichte
y
fX,Y(x,y)=0,01
10
0,02
fX,Y(xIy)
0,03
x
20
17.5
7.5
15
12.5
5
10
7.5
2.5
5
2.5
0
fXY(x,y)
y
0
Bivariate Häufigkeitsverteilung
8
x
4
Korrelation
ρ
σ XY
2
σX
 σY2

9
σ XY
σ X  σY
 1  ρ  1 ...Korrelationskoeffizient (normierte Kovarianz)
σ XY  E X  X   (Y  Y ) ...Kovarianz (X, Y)


 E Y  Y   ... Varianz (Y)
2
σX
 E X  X  ... Varianz (X)
2
σY2
2
∞∞
 XY =
(X
∫∫
_
X )(Y_Y ). fX ( x y ) .fY ( y ). dy . dx
∞∞
Beispiele
10
5
11
Y
( ρ  1)
Y
(ρ  0)
Lineare Abhängigkeiten werden erfasst
Y ( ρ  1)
Xi
Xi
(ρ  0)
Y
Xi
Xi
12
Schätzung des
Korrelationskoeffizienten
r ( x, y ) 
s XY
2
sX
 sY2





1 n
 X  X  Yi  Y
n  1 i 1 i
n
n
2
2
1
1
   Yi  Y 
   Xi  X  




n  1 i 1
 n  1 i 1



 1  r ( x, y )  1 ... Korrelationskoeffizient
s XY  E X  X   (Y  Y ) ... Ko var ianz ( X ,Y )

  ...Varianz ( X )
 E Y  Y   ...Varianz (Y )
2
 E X  X
sX
sY2
2
2
6
Kovarianz: Maß für die lineare Abhängigkeit
13
n
1
_
_
s XY = _ ∑[(X i X ) (Yi Y )]
n 1 i =1
Yi
Y
Yi
(s XY  0 )
(-) . (+) = -
(s XY  0 )
(+) . (+) = +
Y
(+) . (-) = -
(-) . (-) = +
Xi
X
X
Korrelation
Xi
14
%Eingangsdaten Fall 1
x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,
4.1,4.5,5.3];
y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4
.7,5.2];
%Eingangsdaten Fall 2
%x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15
,4.1,4.5,5.3];
%y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2];
% Korrelationskoeffizient
r1=corrcoef(x1,y1);
r1=r1(2,1)
plot(x1,y1,'k.','MarkerSize',20),hold on,
h1=text(mean(x1),mean(y1),['r = ',sprintf('%1.2f',r1)]),
set(h1,'FontSize',22),
xlabel('x','FontSize',22), ylabel('y','FontSize',22),
7
15
Fall 1
Fall 2
Korrelation vs Regression
Korrelation

16
beschreibend
Kenngröße zur Beschreibung von linearen
Zusammenhängen von Variablen
Regression

vorhersagend
Vorhersage einer (abhängigen) Variablen auf der Basis
von anderen (unabhängigen) Prediktorvariablen
8
Regression (linear)
abhängige
Variable
17
Modell:
Y
Y ( x ) = a + b .X + 
y
ŷ
( y  yˆ )
Vorhersage:
Y
yˆ ( x ) = a + b .x
X
x
X
unabhängige Variable
(d.h. Prediktorvariable)
18
Bestimmung der Regressionsgeraden:
Quadratsumme der Abweichungen minimieren
n
S   (Yi  Yˆi )2  Min
i 1
... Bedingung
S
S
 0 und
 0 Min  1. Ableitung gleich Null
a
b
b
n  XY   X  Y
n  X 2  (  X )2
Regressionskoeffizienten
a Y  b  X
9
19
Mehrfachregression
Modell: m
Y ( x ) = a0 + ∑a j X j + 
Problem Kollinearität:
j =1
Oft sind die Prediktorvariablen Xj
voneinander abhängig (d.h. korreliert)
Vorhersage:
m
yˆ ( x ) = a0 + ∑a j x j
X1
j =1
X2
Problem Kollinearität:
20
- Multipler Korrelationskoeffizient gibt zu große Werte
- Modell wenig robust d.h. funktioniert für vorliegenden
Datensatz, aber nicht unbedingt für andere Daten
 Auf Kollinearität testen
Vorgangsweise bei Vorliegen von Kollinearität:
a) Stufenweises Vorgehen mit 1, 2, 3, ...
Prediktorvariablen Auswahl nach der Korrelation
b) Transformieren der Prediktorvariablen in
orthogonale Variablen z.B. mittels
Hauptkomponentenanalyse
10
21
Regression
%Eingangsdaten Fall 1
x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,4
.1,4.5,5.3];
y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4.
7,5.2];
%Eingangsdaten Fall 2
%x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,
4.1,4.5,5.3];
%y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2];
% Die lineare Regression mit y1 = p1(1)*x1 + P1(2)
p1 = polyfit(x1,y1,1)
plot(x1,y1,'k.'),hold on,
plot([1:0.5:5.5],p1(1)*[1:0.5:5.5]+p1(2),'r-')
h1=text(3.5,3.25,['y = ',sprintf('%1.2f',p1(1)),' * x1 + ',
sprintf('%1.2f',p1(2))]),
xlabel('x'), ylabel('y')
22
Fall 1
Fall 2
11
23
Realisationen abhängiger
Zufallszahlen
Nicht nur "beste" Werte bestimmen, sondern
auch die Variabilität richtig beschreiben
(Regression unterschätzt die Variabilität)
y i = a + b .xi +  i
i
yi
.. Zufallszahl mit
Mittelwert 0 und
der Varianz der
Residuen
y i _ yˆ .. Residuum
Querverteilung
= Verteilung
der Residuen
xi
Vorgangsweise:
24
Geg.: - Modell: lineare Gleichung mit a, b
- Werte xi
für alle xi ...
• Ziehen einer Zufallszahl  z.B. N (0,e)
 e2 = f (  ,  2 )
• Schätzung mit Regressionsmodell + Residuum
yˆ i = a + b .xi +  i
12
Realisationen abhängiger
Zufallszahlen
25
n=1000;
s1=1;
% Std abw. der unabhängigen Variablen
se=0.3;
% Std abw. der Residuen
x = normrnd(0,s1,n,1);
eps = normrnd(0,se,n,1);
a=0.5; b=2.0;
y=a*x+b+eps;
plot(x,y,'k.','MarkerSize',20),
xlabel('x','FontSize',20), ylabel('y','FontSize',20),
% Berechne Korrelationskoeffizient
r2=corrcoef(x,y);
r2=r2(2,1)
26
r=0.6
r=0.8
13