Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5. Mehrdimensionale Zufallsvariablen Bei vielen Problemstellungen ist eine isolierte Betrachtung einzelnen Zufallsvariablen nicht angemessen, weil so die Zusammenhänge zwischen den Variablen verloren gehen. Häufig: gleichzeitige Betrachtung mehrerer Zufallsvariablen Bsp.: - Körpergröße und Gewicht einer zufällig aus der Population herausgegriffenen Person - Konsumausgaben, Haushaltseinkommen und Sparguthaben eines zufällig ausgewählten Haushaltes - mehrere Aktienindizes (z. B. Dax, Dow Jones) - Augensumme und Augenprodukt beim Werfen zweier Würfel usw. Die Variablen werden dabei nicht nur als n Zufallsvariablen angesehen, sondern auch als eine n-dimensionale Zufallsvariable. 1 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Definition: X = (X1, X2,…, Xn) heißt n-dimensionale Zufallsvariable oder n-dimensionaler Zufallsvektor. - Bivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von zwei Zufallsvariablen oder die Verteilung einer zweidimensionalen Zufallsvariablen - Multivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von drei und mehr Zufallsvariablen oder die Verteilung einer drei- und mehrdimensionalen Zufallsvariablen 2 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5.1. Mehrdimensionale diskrete Zufallsvariablen - Gemeinsame Wahrscheinlichkeitsfunktion von X und Y: f ( xi , y j ) = P( X = x ∩ Y = y) Sie gibt die Wahrscheinlichkeiten an, mit der die Zufallsvariable X den Wert x und gleichzeitig Y den Wert y annimmt. - Eigenschaften der gemeinsamen Wahrscheinlichkeitsfunktion: 0 ≤ f ( xi , y j ) ≤ 1 ∑∑ f ( x , y ) = 1 i i j j für alle i und j 3 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Gemeinsame Verteilung in Matrixform: x1 x2 . . . xi . . . xk pij = f (xi , y j ) , y1 y2 p11 p21 p12 p22 pi1 pi2 pk1 pk2 p·1 p·2 ... yj . . . yl p1j p2j . . . pij . . . pkj p1l p2l pil pkl . . . p·j . . . p1· p2· . . . pi· . . . pk· p·l Randvertei lungen : f ( xi ) = p i• = ∑ p ij j und f ( y j ) = p• j = ∑ pij i 4 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Gemeinsame Verteilungsfunktion: F(x, y) = P(X ≤ x ∩ Y ≤ y) Sie gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable X Werte kleiner oder gleich x und gleichzeitig die Zufallsvariable Y Werte kleiner oder gleich y annimmt. F berechnet man durch die Addition der gemeinsamen Wahrscheinlichkeitsfunktion: F ( x, y) = ∑ ∑ f ( xi , y j ) xi ≤ x y j ≤ y F ist eine Treppenfunktion, die von F(-∞, -∞) = 0 bis F(∞, ∞) = 1 steigt 5 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5.2. Multidimensionale stetige Zufallsvariablen Gemeinsame Dichtefunktion von X und Y: b d ∫ ∫ f ( x, y)dydx = P(a < X ≤ b ∩ c < Y ≤ d ) für a < b, c < d a c Eigenschaften der Dichtefunktion f: (1) f ( x, y) ≥ 0 ∞ ∞ (2) ∫∫ f ( x , y ) dydx = 1 −∞−∞ 6 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Gemeinsame Verteilungsfunktion: Im stetigen Fall findet man F durch die Integration der gemeinsamen Dichtefunktion x F ( x, y ) = y ∫∫ f ( u , v ) dvdu −∞−∞ F ist stetig differenzierbar und stetig monoton von F (−∞,−∞) = 0 bis F ( ∞ , ∞ ) = 1 . Randverteilungen bei stetigen Zufallsvariablen: Die Randverteilung von X erhält man durch die Integration über y ∞ f ( x) = ∫ f ( x, y ) dy −∞ Die Randverteilung von Y erhält man durch die Integration über x ∞ f ( x) = ∫ f ( x, y )dx −∞ 7 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Wahrscheinlichkeitsintervall einer stetigen zweidimensionalen Zufallsvariablen: Gegeben sei eine stetige zweidimensionale Zufallsvariable (X; Y) mit der Dichtefunktion f(x,y). Für die Wahrscheinlichkeit, dass (X; Y) in das Intervall (a<X≤b und c<Y≤d) fällt, gilt: d b P (a < X ≤ b, c < Y ≤ d ) = ∫ ∫ f ( x, y ) dxdy c a 8 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5.3. Bedingte Zufallsverteilungen und stochastische Unabhängigkeit Bedingte Verteilungen geben die Auskunft über die Verteilung der einen Variablen unter der Bedingung, dass die jeweils andere einen bestimmten Wert annimmt. Der Stichprobenraum wird durch die Angabe der Bedingung reduziert. Die Konstruktion der bedingten Verteilung ist analog zur Konstruktion der bedingten Wahrscheinlichkeiten für Ereignisse: Bedingte Wahrscheinlichkeit: P( X = x | Y = y j ) = P( X = xi ∩ Y = y j ) P(Y = y j ) für P (Y = y j ) > 0 9 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Bedingte Verteilung von X unter der Bedingung Y = yj: f (xi | y j ) = f (xi , y j ) f (y j ) (diskreter Fall) f ( x | y) = f ( x, y ) f ( y) (stetiger Fall) Bedingte Verteilung von Y unter der Bedingung X = xi: f ( y j | xi ) = f ( xi , y j ) f ( xi ) (diskreter Fall) f ( y | x) = f ( x, y ) f ( x ) (stetiger Fall) Im diskreten Fall existiert für jede Ausprägung yj eine bedingte Verteilung für X, entsprechend erhält man n bedingte Verteilungen für Y (n: Anzahl der Ausprägungen der Variablen X). Im stetigen Fall können die Zufallsvariablen X und Y unendlich viele Werte in einem Intervall annehmen, dementsprechend gibt es unendlich viele Möglichkeiten, einen xbzw. y-Wert vorzugeben. 10 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Stochastische Unabhängigkeit Die Unabhängigkeit von Zufallsvariablen lässt sich auf das Konzept der stochastischen Unabhängigkeit von Ereignissen zurückführen. Wiederholung: Zwei Ereignisse A und B sind stochastisch unabhängig, wenn das Eintreten von A keinerlei Einfluss auf das Eintreten von B hat und umgekehrt. formal: P(B|A) = P(B) bzw. P(A|B) = P(A) oder: P(A∩B)=P(A)·P(B) (Multiplikationssatz für unabhängige Ereignisse) Unabhängigkeit von Zufallsvariablen: Die Zufallsvariablen X und Y heißen stochastisch unabhängig, wenn die gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion gerade gleich dem Produkt der beiden Randverteilungen ist: f (xi , yj ) = f (xi )⋅ f (yj ) (diskreter Fall) f (x, y) = f (x)⋅ f (y) (stetiger Fall) 11 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5.4. Parameter von mehrdimensionalen Zufallsvariablen 1. Erwartungswerte Der Erwartungswert einer zweidimensionalen Verteilung wird angegeben durch das Paar der Erwartungswerte der beiden Randverteilungen E(X) und E(Y): k E ( X ) = μ x = ∑ xi pi • = ∑∑ xi f ( xi , y j ) i =1 i j l E(Y ) = μ y = ∑ y j p• j = ∑∑ y j f ( xi , y j ) j =1 E( X ) = μx = i j im diskreten Fall ∞ ∫ xf ( x)dx −∞ ∞ E(Y ) = μ y = ∫ yf ( y)dy −∞ im stetigen Fall 12 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 2. Varianzen Die Streuung entlang der x-Achse wird durch die Varianz der Randverteilung von X gemessen: k V ( X ) = σ = ∑ ( xi − μ x ) 2 p i • 2 x V (X ) = σ = 2 x i =1 im diskreten Fall ∞ ∫ (x − μ x ) 2 f ( x ) dx −∞ im stetigen Fall Entsprechend wird die Streuung entlang der y-Achse durch die Streuung der Randverteilung Y gemessen: l V ( X ) = σ = ∑ ( y j − μ y ) 2 p• j 2 y V (X ) = σ = 2 y j =1 im diskreten Fall ∞ ∫(y − μ −∞ y ) 2 f ( y ) dy im stetigen Fall 13 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 3. Kovarianz Obige Erwartungswerte und Varianzen charakterisieren nur die einzelnen Komponenten einer Verteilung für sich genommen, denn sie rekurrieren nur auf die Randverteilungen. Sie geben keine Information über den Zusammenhang zwischen X und Y. Man benötigt ein Maß, das die Tendenz angibt, mit der die Werte der ZV Y sich verändern, wenn die Werte der ZV X sich ändern und umgekehrt. Eine Maßzahl für den stochastischen Zusammenhang ist die Kovarianz: Cov ( X , Y ) = ∑∑ ( xi − μ x )( y j − μ y ) ⋅ f ( xi , y j ) i j im diskreten Fall ∞ ∞ Cov ( X , Y ) = ∫ ∫ ( x − μ )( y − μ x − ∞− ∞ y ) f ( x, y )dxdy im stetigen Fall Aus der Unabhängigkeit von Zufallsvariablen folgt das Verschwinden der Kovarianz (Cov(X,Y) = 0), Umkehrschluss ist nicht möglich. 14 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 4. Korrelationskoeffizient Korrelationskoeffizient zwischen X und Y gibt Richtung und Stärke des linearen stochastischen Zusammenhangs zwischen X und Y an. Korrelationskoeffizient ist definiert als der Quotient aus der Kovarianz und den beiden Standardabweichungen von X und Y: ρ ( X ,Y ) = Cov ( X , Y ) V ( X ) ⋅ V (Y ) = σ xy σ x ⋅σ y Korrelationskoeffizient ist ein normiertes Maß und liegt stets zwischen -1 und +1. 15 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 5.5. Regressionsanalyse Regressionsrechnung der deskriptiven Statistik ist von der Regressionsanalyse der schließenden Statistik sorgfältig zu unterscheiden. In der deskriptiven Statistik sollte die Regressionsgerade y = a + bx rein statistisch beschreibend interpretiert werden und sich nur auf den aktuell vorliegenden Datensatz beziehen. Eine Aussage über einen fachwissenschaftlich begründeten Zusammenhang zwischen zwei Variablen X und Y, der auch eine allgemeine Gültigkeit besitzen würde, sollte damit nicht verbunden werden. Dies bleibt der Regressionsanalyse als Instrument der schließenden Statistik vorbehalten. Sie betrachtet die Beobachtungswerte (xi; yj) als eine Stichprobe aus einer Grundgesamtheit. Die Aufgabe der Regressionsanalyse ist es, anhand von dieser Stichprobe einen eventuellen Zusammenhang aufzuspüren, zu quantifizieren (d.h. zu schätzen) oder zu verwerfen (d.h. zu testen). 16 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Das einfache lineare Regressionsmodell 1. Schritt: Spezifikation der Variablen, die miteinander in ursächlicher Beziehung stehen. Y = f(X) (d.h. eine Variable X beeinflusst eine andere Variable Y). 2. Schritt: Festlegung der Funktionsform. Die einfachste Form ist die lineare, ausgedrückt durch folgende Geradengleichung: Y(X) = α + βX (ökonomische Gleichung) Beispiele: (1) Konsumfunktion von Keynes: C = α + βYverf (Der Gesamtwirtschaftliche Konsum C sei eine Funktion des verfügbaren Einkommens Yverf). (2) Kostenfunktion: K(X) = α + βX (Die Produktionskosten K eines bestimmten Gutes seien eine lineare Funktion der Ausbringungsmenge X). 17 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Um auch den anderen Einflüssen auf die Variable Y Rechnung zu tragen, modifiziert der ökonometrische Modellansatz den ökonomischen und fügt eine Störvariable U hinzu: Y(X) = α + βX + U (ökonometrische Gleichung) Für die Stichprobe schreibt man: yi = α + βxi + ui für i = 1, 2, …, n. yi: endogene Variable (Regressand) xi: exogene Variable (Regressor) ui: latente Variable (Störvariable), ui ist eine Zufallsvariable, dadurch erhält das Modell seine stochastische Komponente: die strenge Abhängigkeit Y von X wird durch eine stochastische Störung überlagert. α und β sind Modellparameter oder Koeffizienten. Das sind „die wahren Werte“, die unbekannt sind und unbekannt bleiben. Ihre Zahlenwerte können nur geschätzt werden, was die Hauptaufgabe der Regressionsanalyse darstellt. αˆ und βˆ nennt man Schätzer oder Schätzparameter. 18 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Schätzmethode der kleinsten Quadrate Das Ziel der Schätzung besteht darin, eine Schätzgerade zu finden, die der wahren (unbekannten) Regressionsgeraden möglichst nahe kommt. Drei verschiedene y-Werte sind dabei zu unterscheiden: Beobachtungswerte: yi = α + βxi + ui Theoretische Werte: ~y = α + β x (liegen auf der unbekannten Modellgeraden) i Schätzwerte: yˆ i = αˆ + βˆx i (liegen auf der geschätzten Geraden) Abweichungen der Schätzwerte von den Beobachtungswerten heißen Residuen: ei = yi − yˆi 19 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Mit der Methode der kleinsten Quadrate wird die Schätzgerade so bestimmt, dass die Summe der quadrierten Residuen minimal wird: T SQR= ∑ei2 = ∑( yi − yˆi )2 = ∑( yi −αˆ − βˆxi )2 t =1 Man bildet die partiellen Ableitungen von SQR und setzt sie gleich Null: ⎧ ∂ ˆ ˆ ⎪⎪ ∂αˆ SQR(αˆ , β ) = ∑ 2( yi − αˆ − βxi )(−1) = 0 ⎨∂ ⎪ SQR(αˆ , βˆ ) = ∑ 2( yi − αˆ − βˆxi )(− xi ) = 0 ⎪⎩ ∂βˆ Mit diesem Gleichungssystem (Normalgleichungen) können die beiden Schätzparameter bestimmt werden. 20 Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007 Für die unbekannten Schätzparameter erhält man die Schätzformeln: βˆ = Cov ( X , Y ) Var ( X ) αˆ = y − βˆ x Konfidenzintervalle Oft wird man sich jedoch in der Regressionsanalyse nicht mit Punktschätzungen der Parameter zufrieden geben. Man berechnet die Konfidenzintervalle für β : KONF ( βˆ − tσˆ ≤ β ≤ βˆ + tσˆ ) = 1 − α σˆ = Vˆ ( βˆ ) , t ist aus der Tafel der t-Verteilung mit n-k-1 Freiheitsgraden zu entnehmen, mit α = Irrtumswahrscheinlichkeit. 21