Statistische Methoden für
Bauingenieure
WS 13/14
Einheit 3: Bivariate Zufallsvariablen
Univ.Prof. Dr. Günter Blöschl
Bezeichnungen
2
X ... Zufallsvariable
x ... Realisation (konkrete Werte)
Momente
Grundgesamtheit
Mittelwert X, Varianz σ 2
Stichprobe
Mittelwert x, Varianz s 2
1
Bivariate Zufallsvariablen
3
• Bivariate Verteilungen
• Korrelation
• Regression
• Generieren korrelierter Zufallsvariablen
Bivariate Verteilungen
4
Verteilungen mit zwei Zufallszahlen
stetige Verteilungen - diskrete Verteilungen
f XY ( x, y )
mi , j
lim
m m ∆x ∆y
∆x,∆y 0
z.B. Normalverteilung
f XY ( x, y )
R
1
2 π σ X σY 1 ρ
2
e R
( x X )2
( y Y )2
2ρ
(
x
X
)(
y
Y
)
2
σ X σY
σY2
2(1 ρ )2 σ X
1
f X ,Y ( x, y )dxdy 1
2
fXY(x,y)
0.07
5
Bivariate Dichtefunktion
0.06
Ellipsen (Isolinien)
Volumen = 1
0.05
Maß für die Abhängigkeit
von X und Y
0.04
0.03
0.02
Randverteilung
0.01
0
10
7.5
y
5
2.5
2.5
0
5
7.5
10
12.5
15
17.5
20
x bedingte
Verteilung
6
Randverteilung
f X ( x ) f X ,Y ( x, y )dy
Bedingte Wahrscheinlichkeitsdichte
f XY ( x, y ) f X ( x ) f XY ( y x )
f XY ( y x )
f XY ( x, y )
fX ( x)
3
7
Linien gleicher Funktionswerte (Isolinien) der
Wahrscheinlichkeitsdichte
y
fX,Y(x,y)=0,01
10
0,02
fX,Y(xIy)
0,03
x
20
17.5
7.5
15
12.5
5
10
7.5
2.5
5
2.5
0
fXY(x,y)
y
0
Bivariate Häufigkeitsverteilung
8
x
4
Korrelation
ρ
σ XY
2
σX
σY2
9
σ XY
σ X σY
1 ρ 1 ...Korrelationskoeffizient (normierte Kovarianz)
σ XY E X X (Y Y ) ...Kovarianz (X, Y)
E Y Y ... Varianz (Y)
2
σX
E X X ... Varianz (X)
2
σY2
2
∞∞
XY =
(X
∫∫
_
X )(Y_Y ). fX ( x y ) .fY ( y ). dy . dx
∞∞
Beispiele
10
5
11
Y
( ρ 1)
Y
(ρ 0)
Lineare Abhängigkeiten werden erfasst
Y ( ρ 1)
Xi
Xi
(ρ 0)
Y
Xi
Xi
12
Schätzung des
Korrelationskoeffizienten
r ( x, y )
s XY
2
sX
sY2
1 n
X X Yi Y
n 1 i 1 i
n
n
2
2
1
1
Yi Y
Xi X
n 1 i 1
n 1 i 1
1 r ( x, y ) 1 ... Korrelationskoeffizient
s XY E X X (Y Y ) ... Ko var ianz ( X ,Y )
...Varianz ( X )
E Y Y ...Varianz (Y )
2
E X X
sX
sY2
2
2
6
Kovarianz: Maß für die lineare Abhängigkeit
13
n
1
_
_
s XY = _ ∑[(X i X ) (Yi Y )]
n 1 i =1
Yi
Y
Yi
(s XY 0 )
(-) . (+) = -
(s XY 0 )
(+) . (+) = +
Y
(+) . (-) = -
(-) . (-) = +
Xi
X
X
Korrelation
Xi
14
%Eingangsdaten Fall 1
x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,
4.1,4.5,5.3];
y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4
.7,5.2];
%Eingangsdaten Fall 2
%x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15
,4.1,4.5,5.3];
%y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2];
% Korrelationskoeffizient
r1=corrcoef(x1,y1);
r1=r1(2,1)
plot(x1,y1,'k.','MarkerSize',20),hold on,
h1=text(mean(x1),mean(y1),['r = ',sprintf('%1.2f',r1)]),
set(h1,'FontSize',22),
xlabel('x','FontSize',22), ylabel('y','FontSize',22),
7
15
Fall 1
Fall 2
Korrelation vs Regression
Korrelation
16
beschreibend
Kenngröße zur Beschreibung von linearen
Zusammenhängen von Variablen
Regression
vorhersagend
Vorhersage einer (abhängigen) Variablen auf der Basis
von anderen (unabhängigen) Prediktorvariablen
8
Regression (linear)
abhängige
Variable
17
Modell:
Y
Y ( x ) = a + b .X +
y
ŷ
( y yˆ )
Vorhersage:
Y
yˆ ( x ) = a + b .x
X
x
X
unabhängige Variable
(d.h. Prediktorvariable)
18
Bestimmung der Regressionsgeraden:
Quadratsumme der Abweichungen minimieren
n
S (Yi Yˆi )2 Min
i 1
... Bedingung
S
S
0 und
0 Min 1. Ableitung gleich Null
a
b
b
n XY X Y
n X 2 ( X )2
Regressionskoeffizienten
a Y b X
9
19
Mehrfachregression
Modell: m
Y ( x ) = a0 + ∑a j X j +
Problem Kollinearität:
j =1
Oft sind die Prediktorvariablen Xj
voneinander abhängig (d.h. korreliert)
Vorhersage:
m
yˆ ( x ) = a0 + ∑a j x j
X1
j =1
X2
Problem Kollinearität:
20
- Multipler Korrelationskoeffizient gibt zu große Werte
- Modell wenig robust d.h. funktioniert für vorliegenden
Datensatz, aber nicht unbedingt für andere Daten
Auf Kollinearität testen
Vorgangsweise bei Vorliegen von Kollinearität:
a) Stufenweises Vorgehen mit 1, 2, 3, ...
Prediktorvariablen Auswahl nach der Korrelation
b) Transformieren der Prediktorvariablen in
orthogonale Variablen z.B. mittels
Hauptkomponentenanalyse
10
21
Regression
%Eingangsdaten Fall 1
x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,4
.1,4.5,5.3];
y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4.
7,5.2];
%Eingangsdaten Fall 2
%x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,
4.1,4.5,5.3];
%y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2];
% Die lineare Regression mit y1 = p1(1)*x1 + P1(2)
p1 = polyfit(x1,y1,1)
plot(x1,y1,'k.'),hold on,
plot([1:0.5:5.5],p1(1)*[1:0.5:5.5]+p1(2),'r-')
h1=text(3.5,3.25,['y = ',sprintf('%1.2f',p1(1)),' * x1 + ',
sprintf('%1.2f',p1(2))]),
xlabel('x'), ylabel('y')
22
Fall 1
Fall 2
11
23
Realisationen abhängiger
Zufallszahlen
Nicht nur "beste" Werte bestimmen, sondern
auch die Variabilität richtig beschreiben
(Regression unterschätzt die Variabilität)
y i = a + b .xi + i
i
yi
.. Zufallszahl mit
Mittelwert 0 und
der Varianz der
Residuen
y i _ yˆ .. Residuum
Querverteilung
= Verteilung
der Residuen
xi
Vorgangsweise:
24
Geg.: - Modell: lineare Gleichung mit a, b
- Werte xi
für alle xi ...
• Ziehen einer Zufallszahl z.B. N (0,e)
e2 = f ( , 2 )
• Schätzung mit Regressionsmodell + Residuum
yˆ i = a + b .xi + i
12
Realisationen abhängiger
Zufallszahlen
25
n=1000;
s1=1;
% Std abw. der unabhängigen Variablen
se=0.3;
% Std abw. der Residuen
x = normrnd(0,s1,n,1);
eps = normrnd(0,se,n,1);
a=0.5; b=2.0;
y=a*x+b+eps;
plot(x,y,'k.','MarkerSize',20),
xlabel('x','FontSize',20), ylabel('y','FontSize',20),
% Berechne Korrelationskoeffizient
r2=corrcoef(x,y);
r2=r2(2,1)
26
r=0.6
r=0.8
13