Statistische Methoden für Bauingenieure WS 13/14 Einheit 3: Bivariate Zufallsvariablen Univ.Prof. Dr. Günter Blöschl Bezeichnungen 2 X ... Zufallsvariable x ... Realisation (konkrete Werte) Momente Grundgesamtheit Mittelwert X, Varianz σ 2 Stichprobe Mittelwert x, Varianz s 2 1 Bivariate Zufallsvariablen 3 • Bivariate Verteilungen • Korrelation • Regression • Generieren korrelierter Zufallsvariablen Bivariate Verteilungen 4 Verteilungen mit zwei Zufallszahlen stetige Verteilungen - diskrete Verteilungen f XY ( x, y ) mi , j lim m m ∆x ∆y ∆x,∆y 0 z.B. Normalverteilung f XY ( x, y ) R 1 2 π σ X σY 1 ρ 2 e R ( x X )2 ( y Y )2 2ρ ( x X )( y Y ) 2 σ X σY σY2 2(1 ρ )2 σ X 1 f X ,Y ( x, y )dxdy 1 2 fXY(x,y) 0.07 5 Bivariate Dichtefunktion 0.06 Ellipsen (Isolinien) Volumen = 1 0.05 Maß für die Abhängigkeit von X und Y 0.04 0.03 0.02 Randverteilung 0.01 0 10 7.5 y 5 2.5 2.5 0 5 7.5 10 12.5 15 17.5 20 x bedingte Verteilung 6 Randverteilung f X ( x ) f X ,Y ( x, y )dy Bedingte Wahrscheinlichkeitsdichte f XY ( x, y ) f X ( x ) f XY ( y x ) f XY ( y x ) f XY ( x, y ) fX ( x) 3 7 Linien gleicher Funktionswerte (Isolinien) der Wahrscheinlichkeitsdichte y fX,Y(x,y)=0,01 10 0,02 fX,Y(xIy) 0,03 x 20 17.5 7.5 15 12.5 5 10 7.5 2.5 5 2.5 0 fXY(x,y) y 0 Bivariate Häufigkeitsverteilung 8 x 4 Korrelation ρ σ XY 2 σX σY2 9 σ XY σ X σY 1 ρ 1 ...Korrelationskoeffizient (normierte Kovarianz) σ XY E X X (Y Y ) ...Kovarianz (X, Y) E Y Y ... Varianz (Y) 2 σX E X X ... Varianz (X) 2 σY2 2 ∞∞ XY = (X ∫∫ _ X )(Y_Y ). fX ( x y ) .fY ( y ). dy . dx ∞∞ Beispiele 10 5 11 Y ( ρ 1) Y (ρ 0) Lineare Abhängigkeiten werden erfasst Y ( ρ 1) Xi Xi (ρ 0) Y Xi Xi 12 Schätzung des Korrelationskoeffizienten r ( x, y ) s XY 2 sX sY2 1 n X X Yi Y n 1 i 1 i n n 2 2 1 1 Yi Y Xi X n 1 i 1 n 1 i 1 1 r ( x, y ) 1 ... Korrelationskoeffizient s XY E X X (Y Y ) ... Ko var ianz ( X ,Y ) ...Varianz ( X ) E Y Y ...Varianz (Y ) 2 E X X sX sY2 2 2 6 Kovarianz: Maß für die lineare Abhängigkeit 13 n 1 _ _ s XY = _ ∑[(X i X ) (Yi Y )] n 1 i =1 Yi Y Yi (s XY 0 ) (-) . (+) = - (s XY 0 ) (+) . (+) = + Y (+) . (-) = - (-) . (-) = + Xi X X Korrelation Xi 14 %Eingangsdaten Fall 1 x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15, 4.1,4.5,5.3]; y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4 .7,5.2]; %Eingangsdaten Fall 2 %x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15 ,4.1,4.5,5.3]; %y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2]; % Korrelationskoeffizient r1=corrcoef(x1,y1); r1=r1(2,1) plot(x1,y1,'k.','MarkerSize',20),hold on, h1=text(mean(x1),mean(y1),['r = ',sprintf('%1.2f',r1)]), set(h1,'FontSize',22), xlabel('x','FontSize',22), ylabel('y','FontSize',22), 7 15 Fall 1 Fall 2 Korrelation vs Regression Korrelation 16 beschreibend Kenngröße zur Beschreibung von linearen Zusammenhängen von Variablen Regression vorhersagend Vorhersage einer (abhängigen) Variablen auf der Basis von anderen (unabhängigen) Prediktorvariablen 8 Regression (linear) abhängige Variable 17 Modell: Y Y ( x ) = a + b .X + y ŷ ( y yˆ ) Vorhersage: Y yˆ ( x ) = a + b .x X x X unabhängige Variable (d.h. Prediktorvariable) 18 Bestimmung der Regressionsgeraden: Quadratsumme der Abweichungen minimieren n S (Yi Yˆi )2 Min i 1 ... Bedingung S S 0 und 0 Min 1. Ableitung gleich Null a b b n XY X Y n X 2 ( X )2 Regressionskoeffizienten a Y b X 9 19 Mehrfachregression Modell: m Y ( x ) = a0 + ∑a j X j + Problem Kollinearität: j =1 Oft sind die Prediktorvariablen Xj voneinander abhängig (d.h. korreliert) Vorhersage: m yˆ ( x ) = a0 + ∑a j x j X1 j =1 X2 Problem Kollinearität: 20 - Multipler Korrelationskoeffizient gibt zu große Werte - Modell wenig robust d.h. funktioniert für vorliegenden Datensatz, aber nicht unbedingt für andere Daten Auf Kollinearität testen Vorgangsweise bei Vorliegen von Kollinearität: a) Stufenweises Vorgehen mit 1, 2, 3, ... Prediktorvariablen Auswahl nach der Korrelation b) Transformieren der Prediktorvariablen in orthogonale Variablen z.B. mittels Hauptkomponentenanalyse 10 21 Regression %Eingangsdaten Fall 1 x1=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15,4 .1,4.5,5.3]; y1=[2.9,2.2,4.2,1.3,1,3.9,4.5,1.6,4.8,2.4,4.8,2.3,3.5,3.1,4,4. 7,5.2]; %Eingangsdaten Fall 2 %x2=[2.7,1.8,4.15,1,1.5,3.8,4.7,1.5,4.75,2.5,4.9,2.6,3.1,3.15, 4.1,4.5,5.3]; %y2=[-3,3,-1,9,1,8,2,4,4.8,-1,4.8,4,10,1,-2,6,5.2]; % Die lineare Regression mit y1 = p1(1)*x1 + P1(2) p1 = polyfit(x1,y1,1) plot(x1,y1,'k.'),hold on, plot([1:0.5:5.5],p1(1)*[1:0.5:5.5]+p1(2),'r-') h1=text(3.5,3.25,['y = ',sprintf('%1.2f',p1(1)),' * x1 + ', sprintf('%1.2f',p1(2))]), xlabel('x'), ylabel('y') 22 Fall 1 Fall 2 11 23 Realisationen abhängiger Zufallszahlen Nicht nur "beste" Werte bestimmen, sondern auch die Variabilität richtig beschreiben (Regression unterschätzt die Variabilität) y i = a + b .xi + i i yi .. Zufallszahl mit Mittelwert 0 und der Varianz der Residuen y i _ yˆ .. Residuum Querverteilung = Verteilung der Residuen xi Vorgangsweise: 24 Geg.: - Modell: lineare Gleichung mit a, b - Werte xi für alle xi ... • Ziehen einer Zufallszahl z.B. N (0,e) e2 = f ( , 2 ) • Schätzung mit Regressionsmodell + Residuum yˆ i = a + b .xi + i 12 Realisationen abhängiger Zufallszahlen 25 n=1000; s1=1; % Std abw. der unabhängigen Variablen se=0.3; % Std abw. der Residuen x = normrnd(0,s1,n,1); eps = normrnd(0,se,n,1); a=0.5; b=2.0; y=a*x+b+eps; plot(x,y,'k.','MarkerSize',20), xlabel('x','FontSize',20), ylabel('y','FontSize',20), % Berechne Korrelationskoeffizient r2=corrcoef(x,y); r2=r2(2,1) 26 r=0.6 r=0.8 13