1 Lehrstuhl für Wirtschafts- und Sozialstatistik Prof. Dr. Peter Kischka Vorlesung Statistische Inferenz WS 13/14 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 2 I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Grundlagen der Wahrscheinlichkeitstheorie ................ 5 Wahrscheinlichkeitsraum .................................................. 5 Eindimensionale Zufallsvariablen und ihre Verteilung ..... 6 Grundlegende Eigenschaften von Verteilungen................. 8 Diskrete Zufallsvariablen ................................................ 10 Stetige Zufallsvariablen ................................................... 11 Funktionen von Zufallsvariablen ..................................... 12 Erwartungswert von Zufallsvariablen .............................. 13 Varianz von Zufallsvariablen .......................................... 15 α- Quantil einer Zufallsvariablen .................................... 17 Tschebyscheffsche Ungleichung ..................................... 18 Mehrdimensionale ZVen ................................................. 19 Diskrete mehrdimensionale ZV ....................................... 21 Stetige mehrdimensionale ZVen...................................... 22 Randverteilung ................................................................ 23 Bedingte Verteilungen ..................................................... 25 Gestutzte Verteilungen .................................................... 28 Satz von Bayes ................................................................ 30 Unabhängige ZVen .......................................................... 31 Austauschbare ZVen........................................................ 34 Kovarianz und Korrelation .............................................. 35 Summe zweier ZVen ....................................................... 38 Bedingter Erwartungswert und bedingte Erwartung ....... 41 Spezielle diskrete Verteilungen ....................................... 43 Spezielle stetige Verteilungen ......................................... 46 Mehrdimensionale Normalverteilung .............................. 49 Gesetz der großen Zahlen ................................................ 52 Zentraler Grenzwertsatz .................................................. 53 Hauptsatz der Statistik ..................................................... 55 II 1 2 Stichprobenpläne ........................................................... 56 Einfache Stichprobe ohne Zurücklegen: Grundlagen ...... 56 Zugehörigkeitsfunktionen ................................................ 58 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 3 3 4 5 6 7 8 Schätzfunktionen ............................................................. 59 Notwendiger Stichprobenumfang .................................... 60 Geschichtete Stichproben: Grundlagen............................ 61 Proportionale geschichtete Stichproben ........................... 62 Schichtungseffekt ............................................................ 63 Gebundene Hochrechnung............................................... 64 III 1 2 3 4 5 6 7 8 9 10 11 12a Induktive Statistik ......................................................... 65 Stichprobenfunktionen..................................................... 65 Parameterabhängige Verteilungen ................................... 67 Likelihoodfunktion .......................................................... 68 Maximum-Likelihood-Schätzfunktion ............................ 68 Bayessche Schätzfunktion ............................................... 69 Punktschätzungen ............................................................ 70 Parametertest: Grundlagen............................................... 72 Bester Test zum Niveau α ............................................... 73 Tests für den Erwartungswert einer Normalverteilung .... 75 Test für den Parameter einer Binomialverteilung ............ 77 Allgemeines Vorgehen bei Signifikanztests .................... 79 Vorzeichentest ................................................................. 80 12b χ -Anpassungstest ......................................................... 81 13 Konfidenzintervalle: Grundlagen .................................... 83 14 Beste Konfidenzintervalle für den Erwartungswert einer Normalverteilung ............................................................. 84 15 Konfidenzintervall für den Parameter θ einer Binomialverteilung .......................................................... 86 16 Konfidenzintervall für den Erwartungswert bei beliebigen Verteilungen ................................................... 89 17 Konfidenzintervall für die Varianz einer Normalverteilung ......................................................................... 90 18 Konfidenzintervall für die Korrelation zweier Normalverteilungen ......................................................... 91 2 Vorlesung Statistische Inferenz IV 1 2 3 4 5 6 7 8 8A 9 10 11 12 13 14 15 V 1 2 3 4 5 6 7 8 9 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 4 Regressionsverfahren .................................................... 92 Standardmodell I der einfachen linearen Regression ....... 92 Standardmodell II der einfachen linearen Regression...... 93 KQ-Methode .................................................................... 94 Eigenschaften der KQ-Schätzfunktion ............................ 96 Alternative Darstellungen ................................................ 98 Verteilung der KQ-Schätzfunktionen unter Normalverteilungsannahmen ..................................................... 100 Tests und Konfidenzintervalle für die Parameter der Regression ..................................................................... 101 Gauss-Markov-Theorem ................................................ 102 Residuen und Bestimmtheitsmaß................................... 103 Multiple lineare Regression ........................................... 106 KQ-Schätzwerte ............................................................ 107 Bestimmtheitsmaß ......................................................... 108 Tests und Konfidenzintervalle für die KQ-Schätzwerte 109 Dichotome abhängige Variablen ................................... 111 Logitmodell ................................................................... 113 Marginale Effekte im Logitmodell ................................ 114 Statistische Entscheidungstheorie .............................. 115 ’Bausteine’ der Statistischen Entscheidungstheorie....... 115 Minimax-Entscheidungsfunktionen ............................... 117 Bayes’sche Entscheidungen........................................... 119 Bayes’sche Entscheidungsfunktionen............................ 120 A priori und a posteriori Verteilung .............................. 122 Konstruktion von Bayes’scher Entscheidungsfunktion . 123 Kosten der Information .................................................. 124 Aufeinanderfolgende Informationsbeschaffung............. 125 Bayes’sche Entscheidungsfunktionen und Punktschätzungen ................................................................... 126 10 Bayes’sche Entscheidungsfunktionen und Tests ........... 127 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik I Grundlagen der Wahrscheinlichkeitstheorie 1 Wahrscheinlichkeitsraum (Ω, ε, P) Wahrscheinlichkeitsraum Ω Menge der möglichen Ergebnisse ε σ -Algebra auf Ω , d.h. ε ist eine Menge von Teilmengen von Ω mit folgenden Eigenschaften: i) ∅ ∈ε ii) A ∈ ε ⇒ Ac ∈ ε ε iii) A i ∈ = (i 1, 2,) ⇒ ∪ Ai ∈ P i Wahrscheinlichkeitsmaß auf ε ε, d.h. i) P(A) ∈ [0,1] für alle A ∈ ε ii) P(Ω) =1 iii) A1 , A 2 , ∈ ε, Ai ∩ A j = ∅ für i ≠ j ⇒ P(∪ Ai ) = ∑ P(Ai ) i i 5 Vorlesung Statistische Inferenz 2 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Eindimensionale Zufallsvariablen und ihre Verteilung (Ω, ε, P) sei ein Wahrscheinlichkeitsraum _________ X : Ω → IR heißt Zufallsvariable (ZV), falls für alle Intervalle I gilt: X −1 (I) := {ω∈ Ω | X(ω) ∈ I} ∈ ε ___ Sei X ZV. Die Verteilung PX von X ist gegeben durch PX (I) : = P(X −1 (I)) = P({ω∈ Ω | X(ω) ∈ I}) für alle Intervalle I ___ 6 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Schreibweise: PX (I)= P(X ∈ I) PX ([a, b]) = P(a ≤ X ≤ b) Ist I einpunktig, I = {x} PX= (I) P(X = x) . ___ Sei X ZV FX : IR → [0,1] x → P(X ≤ x) mit P(X ≤ x) = PX (] − ∞, x]) = P({ω∈ Ω | X(ω) ≤ x}) heißt Verteilungsfunktion (VF) von X. Wenn keine Verwechslungen möglich sind, wird F statt FX verwendet. 7 Vorlesung Statistische Inferenz 3 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Grundlegende Eigenschaften von Verteilungen ε X sei ZV auf (Ω, , P) Sei X(Ω = ) {X(ω) | ω∈ Ω} ⊂ [a, b]. Dann gilt: P(X ∈ [a, b]) = 1 Insbesondere gilt: P(X ∈ IR) = 1 ___ Additionsregel: Seien [a, b], [c,d] zwei Intervalle P(X ∈ [a, b] ∪ [c,d]) = = P(X ∈ [a, b]) + P(X ∈ [c,d]) − P(X ∈ [a, b] ∩ [c,d]) 8 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Folgerungen: P(X ∈ [a, b] ∪ [c,d]) ≤ P(X ∈ [a, b]) + P(X ∈ [c,d]) Für [a, b] ∩ [c,d] = ∅ P(X ∈ [a, b] ∪ [c,d]) = P(X ∈ [a, b]) + P(X ∈ [c,d]) P(X ∈ [a, b]) = 1 − P(X ∉ [a, b]) Eigenschaften der Verteilungsfunktion F(x) → 0 für x → −∞ F(x) → 1 für x → +∞ F ist monoton wachsend Für x1 < x 2 : F(x 2 ) − F(x1 ) = P(X ∈]x1 , x 2 ]) = P(x1 < X ≤ x 2 ) 9 Vorlesung Statistische Inferenz 4 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Diskrete Zufallsvariablen Eine ZV X heißt diskret, wenn sie nur endlich viele Werte {x1 ,, x n } oder abzählbar unendlich viele Werte {x i | i ∈ IN} annimmt. ___ Die Verteilung von X ist bestimmt durch = P(X x= i ) i 1, , n oder i ∈ IN ___ = x= ∑ P(X i) 1 i ___ F(x)= P(X ≤ x)= ∑ P(X= x i ) i:x i ≤ x 10 Vorlesung Statistische Inferenz 5 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Stetige Zufallsvariablen Eine ZV X heißt stetig, wenn eine nicht negative integrierbare Funktion f existiert mit F(x)= P(X ≤ x)= x ∫ f (y)dy −∞ f heißt Dichte von X ___ Für alle Intervalle [a, b]: b P(X ∈ [a, b]) = ∫ f (y)dy a P(X ∈= IR) +∞ = 1 ∫ f (y)dy −∞ ___ P(X = x) = 0 für alle x ∈ IR ___ F'(x) = f (x) für alle x, an denen f stetig ist. 11 Vorlesung Statistische Inferenz 6 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Funktionen von Zufallsvariablen Sei X eine ZV. Sei g eine Funktion auf IR, derart, dass Y ) : g(X(ω)) =: g X mit g X(ω= eine ZV ist. ___ P(Y ∈ [a, b]) =P(X ∈ g −1 ([a, b])) mit g −1 ([a, b]) = {x ∈ IR | a ≤ g(x) ≤ b} ___ Sei g(x) = α + β x mit β > 0 y−α y−α FY (y)= P(Y ≤ y)= P X ≤ = F x ß ß Für β < 0 erhält man y−α y−α FY (y) = 1 − Fx + P X = β β 12 Vorlesung Statistische Inferenz 7 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 13 Erwartungswert von Zufallsvariablen Sei X eine diskrete ZV und es gelte = xi ) < ∞ . ∑ | x i |P(X i Dann heißt = E(X) ∑= x i P(X x i ) i Erwartungswert von X. ___ +∞ Sei X stetige ZV mit Dichte f und es gelte ∫ | x | f (x)dx < ∞ . −∞ Dann heißt +∞ E(X) = ∫ x f (x)dx −∞ Erwartungswert von X. ___ Im Folgenden gehen wir immer davon aus, dass der Erwartungswert definiert ist. ___ Sei Y = g X (vgl. 6) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Dann gilt: ∑ g(x i )P(X = x i ) i E(Y) = +∞ ∫ g(x)f (x)dx −∞ Für g(x) = α + β x gilt Y = α + βX , E(Y) = α + β E(X) ___ Für alle ZVen X mit VF F gilt: ∞ 0 0 −∞ E(X) =− ∫ (1 F(x))dx − ∫ F(x)dx ___ 14 Vorlesung Statistische Inferenz 8 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Varianz von Zufallsvariablen Sei X diskrete ZV und es gelte 2 = xi ) < ∞ . ∑ x i P(X i Dann heißt 2 Var(X) =− xi ) ∑ (x i E(X)) P(X = i Varianz von X. ___ +∞ Sei X stetige ZV mit Dichte f und es gelte 2 ∫ x f (x)dx < ∞ . −∞ Dann heißt Var(X) = +∞ 2 x − E(X) f (x)dx ( ) ∫ −∞ Varianz von X. ___ Standardabweichung von X : Var(X) 15 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Im Folgenden gehen wir davon aus, dass die Varianz definiert ist. ___ Var(X)= 0 ⇔ die ZV X ist degeneriert (X ≡ c) ___ Sei Y = g X (vgl. 6) Dann gilt: ∑ (g(x i ) − E(Y)) 2 P(X = xi ) i Var(Y) = +∞ ∫ (g(x) − E(Y)) 2 f (x)dx −∞ Sei g(x) = α + β x Y = α + βX Var(Y) = β2 Var(X) ___ Für alle ZV X gilt Var(X) = E((X − E(X)) 2 ) Var(X) = E(X 2 ) − (E(X)) 2 16 Vorlesung Statistische Inferenz 9 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik α- Quantil einer Zufallsvariablen Sei α ∈]0,1[ . Eine Zahl x α mit P(X ≤ x α ) ≥ α und P(X ≥ x α ) ≥ 1 − α heißt α-Quantil von X. ___ Für ein α-Quantil x α gilt α ≤ F(x α ) ≤ α + P(X = x α ) . Ist X stetig, so gilt F(x α ) = α . ___ Ist F strikt monoton wachsend, so ist das α-Quantil eindeutig bestimmt. ___ Für α = 1 heißt ein α-Quantil Median. 2 17 Vorlesung Statistische Inferenz 10 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Tschebyscheffsche Ungleichung Sei X ZV und sei σ 2 = Var(X) . Für alle ZV X und c > 0 gilt σ2 P(| X − E(X) |≥ c) ≤ 2 . c Die Ungleichung heißt Tschebyscheffsche Ungleichung. ___ Für c= k ⋅ σ gilt (k = 1, 2,...) P(| X − E(X) |≥ k ⋅ σ) ≤ ( k ⋅ σ Regel) 1 k2 18 Vorlesung Statistische Inferenz 11 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Mehrdimensionale ZVen ε Sei (Ω, , P) ein Wahrscheinlichkeitsraum (vgl. 1) Die Abb. = X (X1 ,, X k ) : Ω → IR k heißt k-dimensionale ZV, falls für alle k-dimensionalen Intervalle I gilt X −1 (I) = {ω∈ Ω | (X1 (ω),, X k (ω)) ∈ I} ∈ ε . ___ Zweidimensionale ZVen werden im Folgenden mit (X, Y) bezeichnet. ___ 19 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Sei (X, Y) eine zweidimensionale ZV. Die gemeinsame Verteilung P(X,Y) von (X, Y) ist gegeben durch die Angabe von P(X,Y) ([ a1 , b1 ] × [ a 2 , b 2 ]) := P ({ω | a1 ≤ X(ω) ≤ b1 ,a 2 ≤ Y(ω) ≤ b 2 } ) für alle Intervalle [a i , bi ] (i = 1, 2). Analog ist die Verteilung PX für k-dimensionale ZVen definiert. 20 Vorlesung Statistische Inferenz 12 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 21 Diskrete mehrdimensionale ZV Sei (X, Y) eine zweidimensionale ZV mit endlich vielen Werten (x1 , y1 ), ,(x n , y n ) oder mit abzählbar unendlich vielen Werten (x i , yi ) (i ∈ IN) . Dann heißt (X, Y) diskrete ZV. ___ Die Verteilung einer diskreten ZV ist gegeben durch ({ P(X= x i , Y= y j = ) P ω∈ Ω | X(ω= ) x i und Y(ω= ) yj für 1 ≤ i, j ≤ n oder für i, j ∈ IN . ___ Analoge Definition für k-dimensionale ZV }) Vorlesung Statistische Inferenz 13 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 22 Stetige mehrdimensionale ZVen Sei (X, Y) eine zweidimensionale ZV und f eine nichtnegative, integrierbare Funktion, so dass für alle x, y ∈ IR gilt x y P(X ∈] − ∞, x], Y ∈] − ∞, y]) = ∫ ∫ f (w, r)dr dw . −∞ −∞ Dann heißt (X, Y) stetige ZV mit Dichte f. ___ Für alle Intervalle [a1 , b1 ] × [a 2 , b 2 ] gilt b1 b 2 P(X ∈ [a1 , b1 ], Y ∈ [a 2 , b 2 ]) = ∫ ∫ f (x, y)dy dx . a1 a 2 Insbesondere gilt: +∞ +∞ ∫ ∫ f (x, y)dy dx = 1. −∞ −∞ ___ Analoge Definition für k-dimensionale ZV X Vorlesung Statistische Inferenz 14 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 23 Randverteilung Sei (X, Y) eine diskrete ZV P1 (X = x) =: = x, Y = yi ) (x ∈ IR) ∑ P(X i P2 (Y = y) =: = xi , Y = y) (y ∈ IR) ∑ P(X i definieren die zur gemeinsamen Verteilung P(X,Y) gehörenden Randverteilungen P1 bzw. P2 von X bzw. Y. ___ Sei (X, Y) eine stetige ZV mit Dichte f +∞ f1 (x) : f 2 (y) : ∫ f (x, y)dy (x ∈ IR) −∞ +∞ ∫ f (x, y)dx (y ∈ IR) −∞ definieren die zur gemeinsamen Verteilung P(X,Y) gehörenden Dichten der (stetigen) Randverteilungen P1 bzw. P2 von X bzw. Y. Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 24 Es gilt: b P1 (X ∈ [a, b]) = ∫ f1 (x)dx a d P2 (Y ∈ [c,d]) = ∫ f 2 (y)dy c ___ Sei (X, Y, Z) eine dreidimensionale diskrete ZV P2 (Y = y) = ∑ ∑ P(X = xi , Y = y, Z = z ) (y ∈ IR) i definiert die Randverteilung von Y. P13 (X= x, Z= z)= ∑ P(X= x, Y= y j , Z= z) (x, z ∈ IR) j definiert die Randverteilung von (X, Z) Analog für andere Kombinationen, für k-dimensionale ZV und für den stetigen Fall. Vorlesung Statistische Inferenz 15 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Bedingte Verteilungen Sei (X, Y) eine diskrete zweidimensionale ZV mit Randverteilungen P1 , P2 Bedingte Verteilung von X gegeben Y = y j heißt die Verteilung (P2 (Y = y j ) > 0) : P(X = x i |= Y y= j) P(X = x= y j) i,Y P2 (Y = y j ) für alle x i Bedingte Verteilung von Y gegeben X = x i heißt die Verteilung (P1 (X = x i ) > 0) : = y j |= P(Y X x= i) P(X = x= y j) i,Y P1 (X = x i ) für alle y j ___ Sei (X, Y, Z) eine diskrete dreidimensionale ZV mit Randverteilung P1 , P2 , P3 25 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Bedingte Verteilung von (X, Z) gegeben Y = y j heißt die Verteilung (P2 (Y = y j ) > 0) : P(X = x i ,= Z z |= Y y= j) P(X = x= y= i,Y j , Z z ) P2 (Y = y j ) für alle (x i , z ) Bedingte Verteilung von Y gegeben = X x= i , Z z heißt die Verteilung (P13 (X = x i ,= Z z ) > 0) : P(Y = y j |= X x i ,= Z z= ) P(X = x= y= i,Y j , Z z ) P13= (X x= i , Z z ) für alle y j ___ Faktorisierungssatz: P(X = x, Y = y, Z = z) ___ = P(X = x)P(Y = y|X = x)P(Z = z|X = x, Y = y) Analog für allgemeine k-dimensionale ZV ____ 26 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Sei (X, Y) eine stetige zweidimensionale ZV mit stetiger Dichte f und mit Dichte f1 ,f 2 der Randverteilungen Dichte der bedingten Verteilung von X gegeben = Y y (f 2 (y) > 0) : = f (x | y) f (x, y) f 2 (y) (x ∈ IR) Dichte der bedingten Verteilung von Y gegeben = X x (f1 (x) > 0) : = f (y | x) f (x, y) f1 (x) (y ∈ IR) Es gilt b P(X ∈ [a, b] | Y = y) = ∫ f (x | y)dx a Analog für Y. ___ Verallgemeinerungen auf 3- bzw. k-dimensionaler ZVen wie im diskreten Fall 27 Vorlesung Statistische Inferenz 16 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Gestutzte Verteilungen Sei X eine eindimensionale diskrete ZV. Sei T ⊂ IR mit 0 < P(X ∈ T) < 1. Die durch T gestutzte Verteilung von X ist gegeben durch P(X = x i | X ∈ T) = P(X = x i , X ∈ T) P(X ∈ T) P(X = x i ) = P(X ∈ T) 0 falls x i ∈ T falls x i ∉ T. ___ Sei X eine stetige eindimensionale ZV mit Dichte f. Sei 0 < ∫ f (y)dy < 1. T 28 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Die Dichte der durch T gestutzten Verteilung von X ist f (x) f (y)dy h(x) = ∫ T 0 für x ∈ T für x ∉ T. Es gilt b P(X ∈ [a, b] | X ∈ T) = ∫ h(x)dx . a 29 Vorlesung Statistische Inferenz 17 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Satz von Bayes Sei (X, Y) eine diskrete zweidimensionale ZV P(X = x i |= Y y= j) = P(Y y= xi ) P = xi ) j|X 1 (X P2 (Y = y j ) ___ P= y= 2 (Y j) = ∑ P(X x= y j) ,Y P(Y ∑= = y= j | X x )P 1 (X x ) = ___ Satz von Bayes für diskrete ZV (X, Y) P(X = x i |= Y y= j) = P(Y y= = j | X xi ) P 1 (X x i ) ∑ P(Y =y j | X =x ) ⋅ P1 (X =x ) Analog für k-dimensionale ZV und für den stetigen Fall. 30 Vorlesung Statistische Inferenz 18 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 31 Unabhängige ZVen Sei (X, Y) eine diskrete ZV. X und Y heißen unabhängig, falls gilt P(X = xi , Y = y j) = P1 (X = x i ) ⋅ P2 (Y = y j) für alle x i , y j . Es gilt für unabhängige ZV ___ P(X = x i |= Y y= = xi ) j ) P1 (X für alle x i , y j . = y j |= = yj) P(Y X x= i ) P2 (Y für alle x i , y j . Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Sei (X, Y) eine stetige ZV mit Dichte f. X und Y heißen unabhängig, falls gilt f (x, y) f1 (x) ⋅ f 2 (y) = für alle x, y. Es gilt für unabhängige ZV b P(X ∈ [a, b] | Y == y j ) ∫ f1 (x)dx a d P(Y ∈ [c,d] | X == x i ) ∫ f 2 (y)dy . c ___ Seien g X, h Y Funktionen von X bzw. Y (vgl. 6) Sind X und Y unabhängig, so sind auch g X und h Y unabhängig. 32 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 33 n ZVen X1 , , X n heißen gemeinsam unabhängig, wenn ihre gemeinsame Verteilung (vgl. 11) das Produkt ihrer n Randverteilungen ist. ___ n ZVen X1 , , X n heißen i. i. d. (independently, identically distributed), wenn sie (gemeinsam) unabhängig sind und alle dieselbe Verteilung besitzen. Vorlesung Statistische Inferenz 19 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 34 Austauschbare ZVen n ZVen X1 , , X n heißen austauschbar, wenn die gemeinsame Verteilung von X1 , , X n übereinstimmt mit der gemeinsamen Verteilung X i , , X i für alle Permutationen 1 n i1 ,,i n von 1,, n . ___ Sind X1 , , X n austauschbar, so besitzen alle X i dieselbe Verteilung. Die ZVen X1 , , X n sind jedoch nicht notwendig unabhängig. Vorlesung Statistische Inferenz 20 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Kovarianz und Korrelation Sei (X, Y) eine zweidimensionale ZV, so dass der Erwartungswert von (X − E(X)) ⋅ (Y − E(Y)) existiert. Die Kovarianz von X und Y ist cov(X, Y) := E((X − E(X))(Y − E(Y))) . Es gilt cov(X, Y) = E(X ⋅ Y) − E(X)E(Y) . Für alle α, β, γ , δ ∈ IR gilt cov(α + βX, γ + δY) = β ⋅ δ ⋅ cov(X, Y) . ___ 35 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Die Korrelation von X und Y ist corr(X, Y) = cov(X, Y) . Var(X) ⋅ Var(Y) Für alle α, β, γ , δ ∈ IR gilt corr(X, Y) falls β ⋅ δ > 0 corr(α + βX, γ + δY) = −corr(X, Y) falls β ⋅ δ < 0. Es gilt für alle (X, Y) ___ • − 1 ≤ corr(X, Y) ≤ +1 • corr(X, Y) = +1 ⇔ Y = α + β X mit β > 0 • corr (X, Y) = −1 ⇔ Y = α + βX mit β < 0 . 36 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Zwei ZVen X, Y mit corr(X, Y) = 0 heißen unkorreliert. Für unkorrelierte ZVen X, Y gilt: E(X ⋅ Y)= E(X) ⋅ E(Y) Var(X + = Y) Var(X) + Var(Y) ___ Sind die ZVen X, Y unabhängig, so sind sie auch unkorreliert. Sei (X1 , , X k ) eine k-dimensionale ZV (vgl. 11). Die Varianz-Kovarianzmatrix von (X1 , , X k ) ist die k × kMatrix (σij ) mit σij =cov(Xi , X j ) (1 ≤ i, j ≤ k) 37 Vorlesung Statistische Inferenz 21 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 38 Summe zweier ZVen Sei (X, Y) eine zweidimensionale diskrete ZV. Die Verteilung von Z= X + Y ist gegeben durch P(Z = z) = x i , Y z − x i ) (z ∈ IR). ∑ P(X == i Sind X und Y unabhängig, so gilt P(Z = z) = x i ) P2 (Y = z − x i ). ∑ P1 (X =⋅ i ___ Sei (X, Y) eine zweidimensionale stetige ZV mit gemeinsamer Dichte f. Die Verteilung von Z= X + Y besitzt die Dichte = f Z (z) +∞ ∫ f (x, z − x)dx . −∞ Sind X und Y unabhängig, so gilt: f Z (z) = +∞ ∫ f1 (x) ⋅ f 2 (z − x)dx . −∞ Für alle zweidimensionalen ZVen (X, Y) gilt Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 39 E(X + Y)= E(X) + E(Y) . Für alle α, β, γ ∈ IR gilt E(α + βX + γY) = α + βE(X) + γE(Y) . ___ Für alle unkorrelierten ZVen (X, Y) gilt Var(X + = Y) Var(X) + Var(Y) . Für alle α, β, γ ∈ IR gilt Var(α + βX + γY) = β2 Var(X) + γ 2 Var(Y) ___ Die Eigenschaften des Erwartungswerts und der Varianz gelten analog für k-dimensionale ZV. ___ (X1 ,, X k ) mit Varianz-Kovarianzmatrix Σ Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik T Var(a 0 + a1X1 + a k X= k ) (a1 , ,a k )Σ(a1 , ,a k ) für alle a j ∈ , z. B. Var(X1 + X= 2 ) Var(X1 ) + Var(X 2 ) + 2cov(X1 , X 2 ) für beliebige ZV 40 Vorlesung Statistische Inferenz 22 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 41 Bedingter Erwartungswert und bedingte Erwartung Sei (X, Y) eine zweidimensionale ZV und sei g X eine Funktion von X (vgl. 6, 11). Bedingter Erwartungswert von g X gegeben Y = y heißt ∑ g(x i ) ⋅ P(X = x i | Y = y) i E(g X | y) = +∞ ∫ g(x)f X|Y (x | y)dx −∞ Insbesondere ist dadurch E(X | y) definiert. Bedingte Erwartung von g X gegeben Y heißt die ZV E(g X | Y), die den Wert E(g X | y) annimmt, wenn Y den Wert y annimmt. E(g X | Y) : Ω → IR ω → E(g X | Y(ω)) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Es gilt: E(α(g1 X) + β(g 2 X) | Y) = a) = αE(g1 X | Y) + βE(g 2 X | Y) b) P(X ≥ 0) =1 ⇒ E(X | Y) ≥ 0 c) Sind X und Y unabhängig, so gilt E(X | Y) ≡ E(X) d) Ist q (X, Y) eine Funktion von (X, Y), so gilt E(q (X, Y) | y) = E(q (X, y) | y) e) E(g X) = E(E(g X | Y)) 42 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 23 Spezielle diskrete Verteilungen a) X genügt einer Bernoulli-Verteilung, falls gilt: 43 P(X =1) =p, P(X =0) =1 − p (0 < p < 1) ⇒ E(X) = p, Var(X) = p ⋅ (1 − p) b) X genügte einer diskreten Gleichverteilung mit n Werten x1 , , x n , falls gilt: P(X= x i )= 1 n (1 ≤ i ≤ n) 1 n 1 n 2 ⇒ E(X) = ∑ x i = x, Var(X) = ∑ (x i − x) n i 1= ni1 = c) X genügt einer Binomialverteilung, B(n, p) mit n ∈ IN , 0 ≤ p ≤ 1, falls gilt: n x P(X = x) = p (1 − p) n − x x (0 ≤ x ≤ n) ⇒ E(X) = n ⋅ p, Var(X) = n ⋅ p ⋅ (1 − p) d) X genügt einer negativen Binomialverteilung NB(k, p) mit k ∈ IN, 0 < p < 1, falls gilt: Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik x + k − 1 k x P(X = x) = x p (1 − p) = ⇒ E(X) e) 44 (x = 0,1,) k ⋅ (1 − p) k ⋅ (1 − p) = , Var(X) p p2 X genügt einer hypergeometrischen Verteilung Η (L, M, n) mit n, M, L ∈ IN, M ≤ L, falls gilt: M L − M x n − x (max(0, M + n − L) ≤ x ≤ P(X = x) = L n ≤ min(M, n)) ⇒ E(X) =⋅ n f) M M M L−n , Var(X) =⋅ n 1 − ⋅ L L L L −1 X genügt einer Poissonverteilung, P0 (λ ) mit λ > 0 , falls gilt: λx P(X = x) = e ⋅ (x = 0,1,) x! ⇒ E(X) = Var(X) = λ −λ Vorlesung Statistische Inferenz g) Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 45 Eine k-dimensionale ZV (X1 ,, X k ) genügt einer Multinomialverteilung mit Parametern n, p1 , , p k k (n ∈ IN, p j ≥ 0, ∑ p j = 1) , falls gilt: j=1 P(X1 = x1 ,, X k = x k )= für alle x i ∈ IN mit n! ⋅ p1x1 ⋅ ⋅ p kx k x1 !⋅ ⋅ x k ! n ∑ x i = n. i =1 ⇒ E(X j ) = np j , Var(X j ) = n ⋅ p j (1 − p j ) (1 ≤ j ≤ k) cov(Xi , X j ) =−n ⋅ pi p j (1 ≤ i, j ≤ k, i ≠ j) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 24 Spezielle stetige Verteilungen a) X genügt einer Rechteckverteilung über dem Intervall [a, b], Re[a, b], falls für die Dichte gilt: 1 b − a f (x) = 0 a≤x≤b für sonst a+b (b − a) 2 E(X) , Var(X) ⇒= = 2 12 b) X genügt einer Gammaverteilung, G(α, β) mit α > 0, β > 0 , falls für die Dichte gilt: x 1 − α−1 β x e α Γ(α)β f (x) = 0 x>0 für ⇒ E(X) = α ⋅β, Var(X) = αβ2 x≤0 46 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Für α =1 liegt eine Exponentialverteilung vor: 1 −x ⋅e β β f (x) = 0 c) x>0 für x≤0 X genügt einer Normalverteilung, N(µ, σ 2 ) mit µ ∈ IR , σ2 > 0 , falls für die Dichte gilt: f (x) = 1 ⋅e 2πσ − 1 2σ 2 (x −µ )2 ⇒ E(X) = µ, Var(X) = σ2 Es gilt: X-μ σ ~ N(0;1) Die Verteilungsfunktion einer N(0,1)-verteilten ZVen wird mit Φ bezeichnet. 47 Vorlesung Statistische Inferenz d) Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Seien X1 , , X n unabhängige N(0,1)-verteilte ZVen. n Die Verteilung von Z = ∑ X i2 heißt χ 2 -Verteilung mit i =1 n Freiheitsgraden, i. Z. χ 2 (n) . Es = gilt: E(Z) n, = Var(Z) 2n e) Sei X eine N(0,1) − verteilte ZV und sei Z eine χ 2 (n) verteilte ZV. Dann heißt die Verteilung von T= X 1 ⋅Z n t-Verteilung mit n Freiheitsgraden, i. Z. t(n). Für n > 2 gilt: = E(T) 0,= Var(T) f) n n−2 Sei X eine N(µ, σ 2 ) -verteilte ZV und sei Y = e X . Dann besitzt Y eine logarithmische Normalverteilung, LN(µ, σ2 ) mit µ ∈ IR, σ2 > 0 , und für die Dichte gilt: 48 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik (ln y −µ )2 − 1 ⋅ 1 ⋅ e 2 σ2 2πσ y f (y) = 0 ⇒ E(Y) = e 25 µ+ σ2 2 , = e Var(Y) 49 y>0 für y≤0 2µ+σ2 (e σ2 − 1) Mehrdimensionale Normalverteilung Eine k-dimensionale ZV (X1 , , X k ) (vgl. 11) genügt einer kdimensionalen Normalverteilung, N(µ, ∑) mit µ = (µ1 ,, µ k ) ∈ IR k ∑ = (σij ) (k × k)-dimensionale positiv definite Matrix, wenn für ihre Dichte gilt: Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik f (x) f= (x1 , x k ) = ( det ∑ −1 2π ) k 1 − (x −µ ) ∑ −1 (x −µ )T e 2 Es gilt: E(X j ) =µ j (1 ≤ j ≤ k), cov(Xi , X j ) =σij (1 ≤ i, j ≤ k) Ist (X1 , , X k ) normalverteilt N(µ, ∑) , so genügt k Y :=α 0 + ∑ αi Xi i =1 einer Normalverteilung mit k E(Y) = α 0 + ∑ αiµi i =1 Var(Y) = (α1 ,, α k )∑ (α1 ,, α k )T ___ 2 ZVen X i , X j einer k-dimensionalen normalverteilten ZVen sind unabhängig genau dann, wenn σij = 0 ___ 50 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 51 Die ZVen X1 , , X k einer k-dimensionalen normalverteilten ZVen sind genau dann gemeinsam unabhängig, wenn gilt: σ = 0 (1 ≤ i, j ≤ k und i ≠ j) . ij ___ Eine zweidimensionale normalverteilte ZV (X, Y) besitzt die Dichte f (x, y) = 1 2π σ1σ2 1 − ρ2 e − q(x,y) mit (x − µ1 ) 2 (x − µ1 )(y − µ 2 ) (y − µ 2 ) 2 q(x, = y) − 2ρ + 2 σ1σ2 σ1 σ22 mit E(X) = µ1 , E(Y) = µ 2 , Var(X) = σ12 , Var(X) = σ22 cov(X, Y) = ρσ1 σ2 , corr(X, Y) = ρ Eine zweidimensionale normalverteilte ZV(X,Y) ist unabhängig genau dann, wenn ρ =0 . Vorlesung Statistische Inferenz 26 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 52 Gesetz der großen Zahlen Sei X eine ZV. Seien X1 , , X n i. i. d. (vgl. 18) wie X und sei n Sn = ∑ Xi . Dann gilt für alle c > 0 i =1 1 P ω / | Sn (ω) − E(X) |≥ c → 0 für n → ∞ n Vereinfacht ausgedrückt: 1 Sn → E(X) für n → ∞ , n d. h. das arithmetische Mittel von n i. i. d. ZVen konvergiert gegen den Erwartungswert. Vorlesung Statistische Inferenz 27 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Zentraler Grenzwertsatz Sei X eine ZV und seien X1 , , X n i. i. d. (vgl. 18) wie X, n Sn = ∑ Xi . i =1 Die Verteilung von Sn bzw. von 1 Sn ist für große n n annähernd normalverteilt. Sei = µ E(X),= σ 2 Var(X) . Für große n gilt: 1 x −µ ⋅ n (x ∈ IR) P Sn ≤ x ≈ Φ n σ (vgl. 24c) Es gibt zahlreiche Verallgemeinerungen des zentralen Grenzwertsatzes, z. B.: Seien X1 , , X n unabhängige ZVen (nicht notwendig mit n derselben Verteilung), Sn = ∑ X i . i =1 53 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Nehmen alle X i nur Werte in einem beschränkten Intervall [a, b] an und gilt Var(Sn ) → ∞ für n → ∞ , so ist Sn approximativ normalverteilt. 54 Vorlesung Statistische Inferenz 28 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Hauptsatz der Statistik Sei X eine ZV. Seien X1 , , X n i. i. d. wie X (vgl. 18). Sei F die VF von X. Seien x1 , , x n Realisationen von X1 , , X n und sei Fn die zugehörige empirische Verteilungsfunktion. Dann gilt für alle c > 0 : P(sup | Fn (x) − F(x) |≤ c) → 1 für n → ∞ x∈IR Vereinfacht ausgedrückt: Fn (x) ≈ F(x) für n → ∞ (x ∈ IR) 55 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik II Stichprobenpläne 1 Einfache Stichprobe ohne Zurücklegen: Grundlagen G {g1 ,,g N } = x i = Merkmalsausprägung eines kardinal skalierten Merkmals bei g i µ 1 N ∑ xi N i=1 = 1 Mittelwert von x in der Grundgesamtheit 2 σ2 = N−1 ∑N i=1(x i − µ) (Ω, ε, P) (1 ≤ i ≤ N) Varianz der Grundgesamtheit Wahrscheinlichkeitsraum (Vgl. I 1) Ω Menge aller n-elementigen Teilmengen (n < N) von G N Ω = {ω1 , ωL } mit L = n P(ω j ) = ε 1 = Wahrscheinlichkeit, dass die Stichprobe N n ω j gezogen wird (1 ≤ j ≤ L) = Menge aller Teilmengen von Ω 56 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 57 Eine einfache Stichprobe vom Umfang n (ohne Zurücklegen) 1 ist durch die Auswahl eines ω∈ Ω mit P(ω) = gegeben. N n Vorlesung Statistische Inferenz 2 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Zugehörigkeitsfunktionen Es liege eine einfache Stichprobe vor (II 1) Ai : Ω → {0,1} mit A i (ω) = 1 ⇔ g i ∈ ω (1 ≤ i ≤ N) heißt Zugehörigkeitsfunktion. Es gilt für 1 ≤ i, j ≤ N, P(A= i 1)= n N P(A= i 1, A = j 1)= E(Ai ) = Var(A = i) i ≠ j: n ⋅ (n − 1) N ⋅ (N − 1) n N (vgl. I 12) (vgl. I 7) n n 1 − N N n ⋅ (n − 1) n 2 cov(A = − 2 i , A j) N ⋅ (N − 1) N (vgl. I 8) (vgl. I 20) 58 Vorlesung Statistische Inferenz 3 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 59 Schätzfunktionen Es liege eine einfache Stichprobe vor (vgl. II 1) N 1 N Schätzung von ∑ x i bzw. x = ∑ x i aufgrund N i=1 i =1 Ziel: einer einfachen Stichprobe Y : Ω → IR 1 N ω → N ⋅ ⋅ ∑ x i Ai (ω) n i=1 (vgl. II 2) Es gilt: N E(Y) = ∑ x i i =1 E(Y) = x mit 1 n Var(Y) = N 2 ⋅ ⋅ 1 − ⋅ σ2 n N Var(Y)= Y= (vgl. II 1, I 8) 1 n ⋅ 1 − ⋅ σ2 n N Häufig kann angenommen werden 1 Y N n ≈0 N (vgl. I 7) Vorlesung Statistische Inferenz 4 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 60 Notwendiger Stichprobenumfang Es liege eine einfache Stichprobe vor (vgl. II 1) Ziel: Falls Var(Y) ≤ a gilt. Bestimme n so, dass n ≈ 0 , muss gelten N = Var(Y) σ2 ≤a n σ σ2 ⇔ n ≥ ⇔n≥ 2 a a „Verdoppelung der Genauigkeit“ a σ2 Var(Y) ≤ ⇔ n ≥ 4 ⋅ 2 2 a ( n − Gesetz) Hinweis: Zur Bestimmung des notwendigen Stichprobenumfangs müssen (Vor-)Kenntnisse über die Varianz des x-Merkmals vorliegen. σ2 in der Grundgesamtheit Vorlesung Statistische Inferenz 5 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 61 Geschichtete Stichproben: Grundlagen G = G1 ∪ ∪ G H H Schichten N = N1 + + N H ; Nh Umfang von Schicht h (1 ≤ h ≤ H) n = n1 + + n H ; nh Stichprobenumfang in Schicht h (1 ≤ h ≤ H) ω = ω1 ∪ ∪ ωH mit ωh ⊂ G h ωh einfache Stichprobe vom Umfang n h in Schicht G h Yh (ωh ) Schätzwert für Merkmalssumme der Schicht h (vgl. II 3) H Ys= (ω) ∑ Yh (ωh ) Schichtschätzfunktion zum Schätzen h =1 N von ∑ xi i =1 N E(Ys ) = ∑ x i i =1 H = Var(Y ∑ s) h =1 N 2h nh 1 ⋅ 1 − n h Nh 2 ⋅ σh (vgl. I 21) ( σ 2h Varianz des x-Merkmals in Schicht h) Vorlesung Statistische Inferenz 6 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Proportionale geschichtete Stichproben Gegeben seien n, N h n h =: n ⋅ Nh N (h = 1,, H) (bzw. die kleinste ganze Zahl ≥ n ⋅ Nh ) N Ys mit diesen n h heißt proportional geschichtete Stichprobe, i. Z. YPS N nH Var(YPS = ) ⋅ 1 − ∑ N h ⋅ σ2h n N h =1 62 Vorlesung Statistische Inferenz 7 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 63 Schichtungseffekt Es gelte nh n ≈ 0, ≈0 Nh N Vergleich einer einfachen Stichprobe Y vom Umfang n mit einer proportional geschichteten Stichprobe YPS mit H ∑ nh = n . h =1 Sei µ h Mittelwert des x-Merkmals in Schicht h N H Var(Y) Var(YPS ) + ⋅ ∑ N h ⋅ (µ − µ h ) 2 = n h =1 Folgerung: Der Schichtungseffekt (d. h. Verringerung der Varianz beim Einsatz proportional geschichteter Stichproben) ist desto größer, je homogener die Schichten bzgl. des xMerkmals sind. Vorlesung Statistische Inferenz 8 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Gebundene Hochrechnung ω ⊂ G, Stichprobe vom Umfang n (vgl. II 1) w i (1 ≤ i ≤ N) für alle Merkmalsträger bekanntes Merk- mal N N Yv (ω) =∑ w j j=1 ∑ x i Ai (ω) i =1 N ∑ w i A i (ω) i =1 mit Zugehörigkeitsfunktion A i (vgl. II 2) Yv (ω) bezeichnet man als Verhältnisschätzfunktion. Für x i =αw i (1 ≤ i ≤ N) gilt: N Yv ≡ ∑ x j j=1 Yv ist „besser“ als eine einfache Stichprobe Y, falls 2⋅ σ xw σ2x σ2w σw > µw σx : µ x 64 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik III Induktive Statistik 1 Stichprobenfunktionen 65 X1 ,, X n i. i. d. (vgl. I 18) Eine eindimensionale Zufallsvariable g (X1 , , X n ) heißt Stichprobenfunktion. Beispiele: 1 n X := ∑ Xi n i=1 (Stichprobenmittelwert) 1 n 2 = S : ∑ (Xi − X) n − 1 i=1 2 Seien = µ E(Xi= ), σ2 Var(Xi ) Dann gilt: E(X) = Var(X)= E(S2 ) = µ 1 2 ⋅σ n σ2 (Stichprobenvarianz) (1 ≤ i ≤ n) . Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Xi ~ N(µ, σ2 ) (1 ≤ i ≤ n) Es gilt (vgl. I 24) X −µ n ~ N(0,1) σ 1 n 2 2 (X ) ~ (n) − µ χ ∑ i 2 σ i=1 1 n 2 2 − χ (X X) ~ (n − 1) ∑ i 2 σ i=1 X −µ ⋅ n ~ t(n − 1) S 66 Vorlesung Statistische Inferenz 2 a) Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 67 Parameterabhängige Verteilungen Sei X ~ B(n, θ) (0 ≤ θ ≤ 1) (vgl. I 23) n f (x | θ)= P(X= x | θ)= θx (1 − θ) n − x (x = 0,, n) x (diskrete Verteilung von X in Abhängigkeit von θ) b) Sei X ~ Ex(θ) (θ > 0) f (x | θ) = θ ⋅ e −θx (x > 0) (Dichte von X in Abhängigkeit von θ) Allgemein: X ~ f ( | θ) X besitzt (diskrete oder stetige) Verteilung in Abhängigkeit von einem Parameter θ. Θ Menge aller betrachteten Parameter Vorlesung Statistische Inferenz 3 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Likelihoodfunktion X1 ,, X n i.i.d. , Xi ~ f ( | θ) (θ ∈ Θ) L(x1 ,, x n |= θ) : f (x1 | θ) ⋅ ⋅ f (x n | θ) heißt Likelihoodfunktion. 4 Maximum-Likelihood-Schätzfunktion X1 ,, X n i.i.d. , X ~ f ( | θ) (θ ∈ Θ) x1 ,, x n Realisationen von X1 , , X n θ̂ML ∈ Θ mit L(x1 ,, x n | θˆ ML ) ≥ L(x1 ,, x n | θ) für alle θ ∈ Θ heißt Maximum-Likelihood-Schätzwert von θ. 68 Vorlesung Statistische Inferenz 5 69 Bayessche Schätzfunktion X1 ,, X n ϕ Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik i.i.d. , X ~ f ( | θ) , (θ ∈ Θ) a priori Verteilung von θ x1 ,, x n Realisationen von X1 , , X n ψ (θ0 | x1 ,, x n ) a posteriori Verteilung von θ an der Stelle θ 0 (vgl. I 17) L(x1 ,, x n | θ0 ) ⋅ ϕ(θ0 ) L(x ,, x | θ) ⋅ ϕ(θ) dθ (stetiger Fall) 1 n Θ∫ = L(x1 ,, x n | θ0 ) ⋅ ϕ(θ0 ) (diskreter Fall) ∑ L(x1 ,, x n | θ j ) ⋅ ϕ(θ j ) j Als Bayesscher Schätzwert θ̂B kann der Erwartungswert von θ bzgl. der a posteriori Verteilung ψ (θ | x1 , , x n ) gewählt werden. ∫ θψ (θ | x1 ,, x n ) dθ (stetiger Fall) Θ θˆ B = ∑ θ jψ (θ j | x1 ,, x n ) (diskreter Fall) j Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 70 ___ Alternativ kann z. B. auch der Modus der a posteriori Verteilung als Schätzwert gewählt werden. 6 Punktschätzungen Eine Stichprobenfunktion g (X1 , , X n ) zum Schätzen des (unbekannten) Wertes von θ heißt Punktschätzung. Eine Punktschätzung g (X1 , , X n ) für θ heißt erwartungstreu, falls E(g (X1 ,, X n ) | θ) =θ für alle θ ∈ Θ Eine erwartungstreue Punktschätzung g (X1 , , X n ) heißt effizient, falls für alle erwartungstreuen Schätzfunktionen g ' (X1 ,, X n ) gilt: Var(g (X1 ,, X n ) | θ) ≤ Var(g ' (X1 ,, X n ) | θ) für alle θ ∈ Θ Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 71 Es gilt immer: 1 n Stichprobenmittelwert X := ∑ X i n i=1 ist erwartungstreu zum Schätzen von E(X). 1 n 2 Stichprobenvarianz S : = ∑ (Xi − X) n − 1 i=1 2 ist erwartungstreu zum Schätzen von Var(X). Für eine beliebige Punktschätzung g (X1 , , X n ) heißt = MSE(θ) E((g (X1 , , X n ) − θ) 2 | θ) mittlerer quadratischer Fehler bei θ. Für erwartungstreue Punktschätzungen gilt: MSE(θ) Var(g (X1 ,, X n ) | θ) Eine Punktschätzung g (X1 , , X n ) heißt konsistent, wenn sie mit wachsendem n gegen (das wahre) θ konvergiert. Vorlesung Statistische Inferenz 7 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 72 Parametertest: Grundlagen X1 ,, X n i.i.d. , X ~ f ( | θ) (θ ∈ Θ) Θ0 ⊂ Θ, Θ1 ⊂ Θ mit Θ0 ∩ Θ1 = ∅ (Null-) Hypothese H 0 : θ ∈ Θ0 Alternative: H1 : θ ∈ Θ1 g (X1 ,, X n ) B Testfunktion (Stichprobenfunktion) Ablehnungsbereich der Hypothese H 0 P(ϕ= 1| θ) =: P(g (X1 ,, X n ) ∈ B | θ) Wahrscheinlichkeit, die Hypothese H 0 abzulehnen, falls X ~ f ( | θ) P(ϕ= 0 | θ) Wahrscheinlichkeit, die Hypothese H 0 nicht abzulehnen, falls X ~ f ( | θ) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 73 Ein Signifikanztest, um H 0 gegen H1 zu testen, ist durch Angabe von g (X1 , , X n ) und B bzw. durch die Angabe von ϕ gegeben. 8 Bester Test zum Niveau α Sei ϕ ein Signifikanztest (vgl. III 7) Für θ ∈ Θ0 : P(ϕ= 1| θ) Wahrscheinlichkeit für Fehler 1. Art Für θ ∈ Θ1 P(ϕ= 0 | θ) Wahrscheinlichkeit für Fehler 2. Art Sei α ∈]0,1[ gegeben. ϕ heißt Test zum Niveau α, falls gilt: P(ϕ= 1| θ) ≤ α für alle θ ∈ Θ0 . Ein Test ϕ0 zum Niveau α heißt bester Test gegen ein θ ∈ Θ1 , falls gilt: P(ϕ0= 1| θ ) ≥ P(ϕ= 1| θ ) für alle Tests ϕ zum Niveau α Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 74 Ein Test ϕ0 zum Niveau α heißt gleichmäßig bester Test zum Niveau α, falls gilt: P(ϕ0= 1| θ) ≥ P(ϕ= 1| θ) für alle θ ∈ Θ1 und für alle Tests ϕ zum Niveau α Gleichmäßig beste Tests existieren für viele Hypothesen nicht. Beste Tests sind dann für eine eingeschränkte Menge von Tests zum Niveau α definiert. Vorlesung Statistische Inferenz 9 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 75 Tests für den Erwartungswert einer Normalverteilung X1 ,, X n i.i.d. , Xi ~ N(θ, σ2 ) 1. Fall: σ 2 bekannt Bester Test zum Niveau α (vgl. III 8) , Xn ) Testfunktion g (X1 ,= X − θ0 ⋅ n σ Seien z1−α , z1−α die Quantile zum Niveau 1 - α bzw. 1 − α 2 der Standardnormalverteilung. a) H 0 : θ ≤ θ0 , H1 : θ > θ0 B ]z1−α , ∞[ = b) H 0 : θ ≥ θ0 , H1 : θ < θ0 B = ] − ∞, − z1−α [ c) H 0 : θ = θ0 , H1 : θ ≠ θ0 B = ] − ∞, − z1−α [ ∪ ]z1−α , +∞[ 2 2 2 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 76 2. Fall: σ 2 unbekannt Sei S2 die Stichprobenvarianz (vgl. III 1) und S = S2 Bester Test zum Niveau α: , Xn ) Testfunktion g (X1 ,= X − θ0 ⋅ n S Es gelten die Ablehnungsbereiche des 1. Falls, wobei die Quantile der Standardnormalverteilung durch die Quantile einer t-Verteilung mit n – 1 Freiheitsgraden ersetzt werden. Sind die X i nicht normalverteilt, so können für n > 30 die obigen Tests verwendet werden; für n > 30 können die Quantile der t-Verteilung durch die der Standardnormalverteilung ersetzt werden. Vorlesung Statistische Inferenz 10 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Test für den Parameter einer Binomialverteilung X ~ B(1, θ) θ ∈ Θ = [ 0,1] H 0 : 0 ≤ θ ≤ θ0 (Θ0= [0, θ0 ]) H1 : θ0 < θ ≤ 1 (Θ1 = ]θ0 ,1]) α ∈]0,1[ Test zum Niveau α: = g (X 1 ,..., X n ) : = B ]z1−α , ∞[ anwendbar, falls: n ⋅ x ⋅ (1 − x) > 9 . X − θ0 ⋅ n θ0 (1 − θ0 ) 77 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Für andere Hypothesen gilt: - gleiche Stichprobenfunktion - Ablehnungsbereich wie Normalverteilung. Interpretation für H 0 : 0 ≤ θ ≤ θ0 - Ist x ≤ θo , so wird H 0 bei keinem α abgelehnt (z1−α > 0) - Je kleiner α (d. h. je größer z1−α ), desto eher wird H 0 auch bei x > θo nicht abgelehnt. 78 Vorlesung Statistische Inferenz 11 Die Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 79 Allgemeines Vorgehen bei Signifikanztests folgenden Ausführungen gelten nicht nur Parametertests. (X1 ,, X n ) i. i. d. ( Xi kann eine mehrdimensionale ZV sein, vgl. III 12) - Vorgabe von Hypothese H 0 , Alternative H1 - Festlegung eines Signifikanzniveaus α ∈]0,1[ - Testfunktion g (X1 , , X n ) - Festlegung des Ablehnungsbereichs B - Durchführung des Tests mit Ergebnis x1 , , x n - H 0 wird abgelehnt ⇔ g(x1 ,, x n ) ∈ B Übersicht über Signifikanztest in Bamberg/Bauer/Krapp, S. 170 -171 für Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 80 12a Vorzeichentest (X1 , Y1 ),,(X n , Yn ) i. i. d. - H 0 : P(X > Y) = P(X < Y) - H1 : P(X > Y) ≠ P(X < Y) - α ∈]0,1[ - g ((X1 , Y1 ),,(X n , Yn )) mit g ((x1 , y1 ), ,(x n= , y n )) # {i | x i > yi } m : #= = {i | x i yi } ( F: VF von B n − m, 1 c ∈ IN mit F(c) ≤ - = B 2 ) (vgl. I 23) α α , F(c + 1) > 2 2 {0,,c} ∪ {n − m − c,, n − m} Ablehnung von H 0 , wenn die Anzahl der x i mit x i > yi in B liegt (d. h. sehr groß oder sehr klein ist) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik χ 2 -Anpassungstest 12b X mit Verteilungsfunktion F X1 ,..., X n einfache Stichprobe vom Umfang n zu einer Zufallsvariablen X H 0 : 𝐹 = 𝐹0 H1: 𝐹 ≠ 𝐹0 α ∈] 0,1[ Testniveau A1 ,..., A k k disjunkte, aneinander grenzende Intervalle Aj | A1 | A2 x1 ,..., x n | A3 | … Ak Realisation der Stichprobe hj = Anzahl der tatsächlichen Beobachtungen x i aus A j 𝑝𝑗 ≔ 𝑃(𝑋 ∈ 𝐴𝑗 |𝐹0 ) ⇒ n ⋅ p j = theoretische Anzahl der Beobachtungen aus A j bei einer Stichprobe vom Umfang n, falls H0 gilt Es muss gelten: 𝒏𝒑𝒋 ≥ 𝟓 (𝟏 ≤ 𝒋 ≤ 𝒌) 81 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik g (X1 ,, X n ) Testfunktion mit k (h j − np j ) 2 j=1 np j g(x1 ,, x n ) = ∑ 𝒙𝟏−𝜶 = (1-α)-Quantil einer χ2-Verteilung mit (k-1) Freiheitsgraden 𝑩 = ]𝒙𝟏−𝜶 , +∞[ 82 Vorlesung Statistische Inferenz 13 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 83 Konfidenzintervalle: Grundlagen X ~ f ( | θ) X1 ,, X n i. i. d. g1 (X1 ,, X n ) =: Vu g 2 (X1 ,, X n ) =: Vo α ∈]0,1[ Die Zufallsvariablen Vu , Vo bilden ein Konfidenzintervall zum Niveau 1− α , wenn Vu ≤ Vo und wenn für alle θ ∈ Θ gilt: P(Vu ≤ θ ≤ Vo | θ) ≥ 1 − α Gesucht sind möglichst kleine Konfidenzintervalle zum vorgebenen Niveau (1 - α). Vorlesung Statistische Inferenz 14 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Beste Konfidenzintervalle für den Erwartungswert einer Normalverteilung - X ~ N(θ, σ2 ) mit bekannter Varianz σ2 X1 ,, X n i. i. d. α ∈]0,1[ Vu : = X n − σ ⋅ z1−α ⋅ 1 n Vo : = X n + σ ⋅ z1−α ⋅ 1 n 2 2 mit z1−α :1 − α 2 2 Quantil der N(0,1)-Verteilung (vgl. I 9) - X ~ N(θ, σ2 ) mit unbekannter Varianz σ2 X1 ,, X n i. i. d. α ∈]0,1[ V= u: X n − S ⋅ t (nα−1) ⋅ 2 1 n V= o: X n + S ⋅ t (nα−1) 1− 2 1 ⋅ n 1− 84 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 2 1 n mit S = ∑ ( Xi − X n ) (vgl. III 1) n − 1 i=1 2 t (nα−1) :1 − α Quantil der t-Verteilung mit (n – 1) 2 1− 2 Freiheitsgraden (vgl. I 9,I 24) 85 Vorlesung Statistische Inferenz 15 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Konfidenzintervall für den Parameter θ einer Binomialverteilung X ~ B (1, θ) ⇒ E(X) = θ, Var(X) = θ ⋅ (1 − θ) X1 ,..., X n n ⇒ Sn := ∑ Xi ~ B (n, θ) , i =1 E(Sn )= n ⋅ θ, Var (Sn )= n ⋅ θ ⋅ (1 − θ) Normierung Sn − n ⋅ θ n ⋅ θ ⋅ (1 − θ) (nicht binomialverteilt!) Approximation der Binomial- durch die Normalverteilung für nθ(1 − θ) > 9 ist Sn − n ⋅ θ ~ n ⋅ θ ⋅ (1 − θ) aber: θ ist nicht bekannt! N(0,1) 86 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 1. Möglichkeit 1 n − Schätze θ durch ⋅ ∑ x i = xn n i=1 − Berechne nachfolgendes Konfidenzintervall, falls nx(1 − x) > 9 2. Möglichkeit Oft sind Grenzen für die möglichen Werte von θ bekannt 0 < θ1 ≤ θ ≤ θ2 < 1 Gilt n ⋅ θ1 (1 − θ2 ) > 9 so auch n ⋅ θ(1 − θ) > 9 für alle θ mit θ1 ≤ θ ≤ θ2 87 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik In diesen Fällen Sn − n ⋅ θ = n ⋅ θ ⋅ (1 − θ) Xn − θ ⋅ n ~ N(0,1) θ ⋅ (1 − θ) (1-α)-Konfidenzintervall X n ⋅ (1 − X n ) ⋅ z1−α Vu (X1 ,..., X n ) := Xn − 2 n X n ⋅ (1 − X n ) ⋅ z1−α Vo (X1 ,..., X n ) := Xn + 2 n ( X n ⋅ (1 − X n ) ist Schätzung für σ= θ ⋅ (1 − θ) ) 88 Vorlesung Statistische Inferenz 16 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Konfidenzintervall für den Erwartungswert bei beliebigen Verteilungen X1 ,..., X n Anwendung des zentralen Grenzwertsatzes Für große n ist Sn − n ⋅ E(X) ~ N(0,1) n ⋅ Var(X) (1-α)-Konfidenzintervall: Vu (X1 ,..., X n ) := X n − S ⋅z α n 1− 2 S Vo (X1 ,..., X n ) := X n + ⋅z α n 1− 2 mit S = Stichprobenvarianz Sinnvoll i.A. für n ≥ 50 89 Vorlesung Statistische Inferenz 17 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Konfidenzintervall für die Varianz einer Normalverteilung X ~ N(µ, θ) X1 ,..., X n , (µ unbekannt) α ∈]0,1[ (1 − α) − Konfidenzintervall für Varianz θ (n − 1) ⋅ S2 Vu (X1 ,..., X n ) := c2 (n − 1) ⋅ S2 Vo (X1 ,..., X n ) := c1 mit S2 − Stichprobenvarianz α -Fraktil der χ 2 Verteilung mit (n-1) FHG 2 c2 = 1 − α -Fraktil der χ 2 Verteilung mit (n-1) FHG 2 ⇒ c1 < c 2 ⇒ Vu < Vo c1 Häufige Schreibweise: c1 = χ 2n −1, α 2 c 2 = χ 2n −1,1−α 2 90 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 18 Konfidenzintervall für die Korrelation zweier Normalverteilungen (X, Y) – zweidimensionale Normalverteilung cov(X,Y) =θ Var(X) ⋅ Var(Y) ρ = corr(X,Y) = (X1,Y1),,(Xn ,Yn ) Schätzfunktion für ρ n rxy = ∑ (xi − x)(yi − y) i=1 n ∑ (xi − x)2 ⋅ n ∑ (yi − y)2 =i 1 =i 1 (1-α)-Konfidenzintervall: 1 ln 1+ rxy ≈ N 1 ln 1+θ , 1 2 1−θ n − 3 2 1− rxy z1−α 1+ r eA −1= xy ( ) eA +1 mit A ln 1− rxy − 2 n − 23 z1−α 1+ r B −1 e xy +2 2 Vo X1,Y1 ,, (= Xn ,Yn ) B = mit B ln 1− rxy n −3 e +1 Vu X1,Y1 ,, = Xn ,Yn 91 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik IV Regressionsverfahren 1 Standardmodell I der einfachen linearen Regression Yi = b0 + b1x i + Ui (1 ≤ i ≤ n) mit Ui i. i. d. E(Ui ) = 0, Var(U i ) = σ2 xi gegebene deterministische Werte Es gilt: Yi sind unabhängige Zufallsvariablen E(Yi= ) b0 + b1x i Var(Yi ) = σ2 Spezialfall: Ui ~ N(0, σ2 ) ⇒ Yi ~ N(b0 + b1x i , σ2 ) 92 Vorlesung Statistische Inferenz 2 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 93 Standardmodell II der einfachen linearen Regression (Yi | Xi =x i ) = b0 + b1x i + Ui mit (Xi , Yi ) i. i. d. 2 E(Ui | X= x) = 0, Var(U | X = x) = σ i i i für alle x, (1 ≤ i ≤ n) Es gilt: Yi sind unabhängige Zufallsvariablen E(Yi | X= x) = b0 + b1x i Var(Yi | Xi = x) = σ2 Spezialfall: = (Ui | Xi x) ~ N(0, σ2 ) für alle x ⇒ (Yi= | Xi x) ~ N(b0 + b1x, σ2 ) Das Standardmodell II kann auch in nicht durch X i = x i bedingter Form geschrieben werden: Yi = b0 + b1Xi + Ui Vorlesung Statistische Inferenz 3 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik KQ-Methode Gegeben sei IV 1 bzw. IV 2 Seien (x i , yi ) die Beobachtungen (1 ≤ i ≤ n) Die KQ-Schätzwerte für b0 bzw. b1 sind Lösungen von n min ∑ (yi − b0 − b1x i ) 2 b0 ,b1 i =1 und gegeben durch n ∑ (x i − x)(yi − y) b̂1 = i=1 n ∑ (x i − x) 2 i =1 bˆ 0= y − bˆ 1x Schätzwert für die Varianz σ 2 ist 1 n 2 = σˆ ∑ (yi − bˆ 0 − bˆ 1x i ) n − 2 i=1 2 94 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 95 Bei gegebenen x1 , , x n betrachten wir die folgenden KQSchätzfunktionen: n ∑ (x i − x)(Yi − Y) B1 = i=1 n ∑ (x i − x) 2 i =1 B0= Y − B1x 1 n 2 Bσ2 = ∑ (Yi − B0 − B1x i ) n − 2 i=1 Vorlesung Statistische Inferenz 4 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 96 Eigenschaften der KQ-Schätzfunktion Gegeben sei das Standardmodell der einfachen linearen Regression. Für die Schätzfunktionen B0 , B1 , B σ2 aus IV 3 gilt: E(B0 ) = b0 E(B1 ) = b1 E(Bσ2 ) = σ2 Die Schätzfunktionen sind erwartungstreu (vgl. III 6) Var(B0 ) =σ ⋅ 2 ∑ xi 2 n(∑ x i2 − nx 2 ) 1 Var(B1 ) =σ ⋅ 2 2 ∑ x i − nx 2 n Gilt 2 ∑ (x i − x) → ∞ für i =1 n → ∞, so sind die Schätzfunktionen auch konsistent (vgl. III 6) Für die Schätzung von Var(B0 ), Var(B1 ) wird für σ 2 der Schätzwert σ̂ 2 aus IV 3 eingesetzt. Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 97 Die obigen Anmerkungen gelten für den durch X i = x i bedingten Fall. Erwartungstreue der Schätzfunktionen liegt auch vor, wenn man vom Modell Yi = b0 + b1 Xi + Ui ausgeht. In den Formeln für die Varianzen müssen dann jedoch die Erwartungswerte bzw. die Varianz von X verwendet werden. Vorlesung Statistische Inferenz 5 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 98 Alternative Darstellungen Für den KQ-Schätzwert b̂1 (vgl. IV 3) kann geschrieben werden b̂= 1 rxy ⋅ sy sx mit rxy corr(x, y) = = = sx ∑ (x i − x)(yi − y) 2 2 ∑ (x i − x) ⋅ ∑ (yi − y) 1 2 sy ∑ (x i − x) , = n −1 1 2 ∑ (yi − y) n −1 Für die Schätzfunktion B1 gilt (bei gegeben x1 , , x n ) n (x i − x) B1 = ∑ ⋅ Yi = ∑ αi Yi , 2 i 1= i 1 ∑ (x j − x) n j d.h. B1 ist eine in Y lineare Schätzfunktion. Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Für die Schätzfunktion B0 gilt (bei gegeben x1 , , x n ) n 1 n (x i − x) B0 = ∑ − n ⋅ x ⋅ Yi = ∑ βi Yi , n 2 i 1 = i 1 (x x) − ∑ j j=1 d. h. B0 ist eine in Y lineare Schätzfunktion. 99 Vorlesung Statistische Inferenz 6 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Verteilung der KQ-Schätzfunktionen unter Normalverteilungsannahmen (Yi= | Xi x i ) ~ N(b0 + b1x i , σ2 ) ⇒ B0 ~ N(b0 , Var(B0 )) (vgl. IV. 4) B1 ~ N(b1 , Var(B1 )) mit Var(B0 ) =σ ⋅ ∑ xi 2 2 Var(B1 ) =σ2 ⋅ (vgl. IV.4) n ∑ (x i − x) 2 1 n ∑ (x i − x) 2 i =1 Schätzwerte für die Varianzen ergeben sich mit 1 n 2 = σˆ ∑ (yi − bˆ 0 − bˆ 1x i ) n − 2 i=1 2 Es gilt: B0 − b 0 ~ t(n − 2) Var (B0 ) B1 − b1 ~ t(n − 2) Var (B1 ) (vgl. IV. 3) 100 Vorlesung Statistische Inferenz 7 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 101 Tests und Konfidenzintervalle für die Parameter der Regression = (Yi | Xi x i ) ~ N(b0 + b1x i , σ2 ) (1 ≤ i ≤ n) H 0 : b1 = a H1 : b1 ≠ a B1 − a Var (B1 ) Testfunktion: (vgl. IV 6) Ablehnungsbereich: B = ] − ∞, − t (nα−2) [ ∪ ] t (nα−2) , +∞[ 1− 1− 2 2 Analog (vgl. III 9) für einseitige Nullhypothesen Das (1 − α) − Konfidenzintervall für b1 ist [B1 − Var B1 ⋅ t1n−−α2 , B1 + Var B1 ⋅ t1n−−α2 ] 2 2 Vorlesung Statistische Inferenz 8 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 102 Gauss-Markov-Theorem Es gelte zusätzlich zu den Annahmen des einfachen linearen Regressionsmodells, dass die vierten Momente von (X i , U i ) existieren. Bei gegebenen x1 , , x n ist die Schätzfunktion B1 aus IV 3 die beste lineare erwartungstreue Schätzfunktion zum Schätzen von b1 , d. h.: Für alle linearen Schätzfunktionen G = g (Y1 , , Yn ) mit E(G) = b1 gilt Var(B1 ) ≤ Var(G) ( B1 ist lineare Schätzfunktion (vgl. IV 5)) Vorlesung Statistische Inferenz 8A Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Residuen und Bestimmtheitsmaß (x i , yi ) Beobachtungen (1 ≤ i ≤ n) bˆ 0 , bˆ 1 KQ-Schätzwerte (vgl. IV 3) ŷi = bˆ 0 + bˆ 1x i (1 ≤ i ≤ n) („theoretische Werte“) ˆ i Residuen (1 ≤ i ≤ n) uˆ = i : yi − y Eigenschaften n ∑ û i = 0 a) i =1 n n ⇒ ∑ yi = ∑ yˆ i =i 1 =i 1 ⇒y= yˆ n uˆ i ∑= b) 2 n 2 ˆ (y − y ) ∑ i i =i 1 =i 1 = = n n ∑ (yi − y) − ∑ (yˆ i − y)2 2 =i 1 =i 1 1 n 2 2 ˆ c) Varianz der uˆ i : (u 0) s − = ∑ i uˆ n − 2 i=1 103 Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Es gilt: n n ∑ (yi − yˆ i ) = n 2 ˆ (y y) (y y) − + − ∑ i ∑ i 2 2 =i 1 =i 1 =i 1 (Varianzzerlegung) d) ∑ uˆ i2 =0 ⇔ yi =yˆ i ⇔ alle Beobachtungen liegen auf einer Geraden 2 û ∑ i ist kein geeignetes Gütemaß 2 2 ˆ s (y y) − ŷ ∑= i 2 = e) R : 2 2 (y y) s − ∑ i y (s 2y > 0) Bestimmtheitsmaß = Anteil der erklärten Varianz f) Eigenschaften von R - 2 0 ≤ R2 ≤ 1 n - - R2 = 1− ∑ (yi − yˆ i )2 i =1 n ∑ (yi − y)2 i =1 R 2 =1 ⇔ s 2û =0 ⇔ yi =yˆ i R 2 =0 ⇔ s 2ŷ =0 ⇔ bˆ 1 =0 104 Vorlesung Statistische Inferenz - Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik R 2 = (rxy ) 2 mit rxy = Korrelationskoeffizient = 1 (x i − x)(yi − y) ∑ n s 2x ⋅ s 2y - Anpassung der Daten (x i , yi ) an die Gerade ˆ + bˆ x ist desto besser, je größer R 2 ŷ= b i 0 1 i 105 Vorlesung Statistische Inferenz 9 p Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 106 Multiple lineare Regression erklärende Variablen, n ≥ p + 1 Yi = b0 + b1x i1 + + b p x ip + U i (1 ≤ i ≤ n) bzw. Yi = b0 + b1Xi1 + + b p Xip + Ui (1 ≤ i ≤ n) (Yi | Xi1 = x i1 ,,Xip = x ip ) = b0 + b1x i1 + + b p x ip + Ui (1 ≤ i ≤ n) 1 x11 x1p X := 1 x n1 x np b0 , Y = b = bp Y1 = , U Y n U1 U n Es muss gelten Rg(X)= p + 1. Matrixschreibweise für die n Gleichungen: = Y Xb + U Es gelte Rg (X)= p + 1 (keine Multikollinearität) Vorlesung Statistische Inferenz 10 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 107 KQ-Schätzwerte (x i1 ,, x ip , yi ) (1 ≤ i ≤ n) seien gegebene Beobachtungen. Die KQ-Schätzwerte bˆ 0 ,, bˆ p sind die Lösung von n min ∑ (yi − b0 − b1x i1 − − b p x ip ) 2 . b0 ,,b p i =1 b̂ y1 0 b̂= = (X T X) −1 ⋅ X T ⋅ ˆ y b n p Schätzwert für Var(U i ) ist n 1 2 = σˆ ∑ (yi − yˆ i ) n − p − 1 i=1 2 mit ŷi = bˆ 0 + bˆ 1x i1 + + bˆ p x ip Mit B0 , , Bp , B σ2 werden analog zu IV 3 die KQ- Schätzfunktionen für b0 , , b p ,σ 2 bezeichnet. Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 11 Bestimmtheitsmaß 2 R adj n − 1 ∑ (yi − yˆ i ) 2 1− = ⋅ n − p − 1 ∑ (yi − y) 2 108 heißt (verallgemeinertes) Bestimmtheitsmaß Für p = 1 wird das Bestimmtheitsmaß ∑ (yi − yˆ i ) = ∑ (yˆ i − y) R = 1− 2 2 ∑ (yi − y) ∑ (yi − y) 2 2 2 verwendet. Es gilt 0 ≤ R 2 ≤ 1. Je größer R2 oder 2 R adj desto besser Beobachtungen durch den linearen Ansatz erklärt. werden die Vorlesung Statistische Inferenz 12 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 109 Tests und Konfidenzintervalle für die KQ-Schätzwerte Die bedingte Verteilung der Ui gegeben = Xi1 x= x ip sei eine Normalverteilung i1 , , X ip H0 : b j = a H1 : b j ≠ a Bj − a Testfunktion Var(B j ) Ablehnungsbereich ] − ∞, − t n −αp−1 [ ∪ ] t n −αp−1 , + ∞ [ 1− 2 1− 2 t n −αp−1 ist das (1 − α ) -Quantil einer t-Verteilung mit n − p − 1 1− 2 2 Freiheitsgraden. Analog für einseitige Nullhypothesen (vgl. III 9) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 110 H 0 : b= b= = b= 0 1 2 p H j : b j ≠ 0 für mindestens ein j Testfunktion (1 ≤ j ≤ p) R 2 n − p −1 ⋅ 2 p 1− R mit R 2 aus IV 11 − p −1 Ablehnungsbereich ]F1p,n , +∞[. −α − p −1 ist das (1 - α)-Quantil einer F-Verteilung mit p und F1p,n −α n – p – 1 Freiheitsgraden. Vorlesung Statistische Inferenz 13 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 111 Dichotome abhängige Variablen Gegeben sei (vgl. IV 2) (Yi | Xi1 = x i1 ,, Xip = x ip ) = b0 + b1x i1 + + b p x ip + U i mit E(U i ) = 0, Var(U i ) = σ2 (1 ≤ i ≤ n) (Yi , Xi1 ,, Xip ) seien i. i. d. Sei Yi dichotom; dann gilt: = E(Yi | X i1 x= = x ip= ) P(Y= x ip ) i1 , , X ip i 1| X i1 x= i1 , , X ip Sei F eine gegebene Verteilungsfunktion Ansatz: P(Yi = 1| Xi1= x i1 ,,Xip = x ip )= F(b0 + b1x i1 + + b p x ip ) Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 112 Bestimme die Maximum-Likelihood-Schätzwerte zu den Beobachtungen (yi , x i1 ,, x in ) mit der logarithmierten Likelihoodfunktion (vgl. III 3) max ln L(y1 ,, y n | b0 ,, p p ) = b0 ,,b p n max ∑ yi ln(F(b0 + b1x i1 + + b p x ip ) + b0 ,,b p i =1 + (1 − yi ) ln(1 − F(b0 + b1x i1 + + b p x ip )) Vorlesung Statistische Inferenz 14 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Logitmodell Gegeben sei das Modell IV 13 mit ez Λ (z) = z F(z) = 1+ e (z ∈ IR) Damit ist das Logitmodell gegeben. Für die logarithmierte Likelihoodfunktion erhält man n ln L(yi ,, y n | b0 , = , b p ) ∑ (yi (b x i ) − ln(1 + e i =1 1 b0 x i1 = b = , xi mit bp x ip T bT x i )) 113 Vorlesung Statistische Inferenz 15 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 114 Marginale Effekte im Logitmodell Gegeben sei ein Logitmodell P(Yi = 1| x i ) = Λ (bT x i ) Sei die j-te erklärende Variable stetig. Der marginale Effekt der j-ten Variablen ist gegeben durch 1| x i ) ∂P(Yi = = Λ (bT x i )(1 − Λ (bT x i ))b j ∂x ij 1 xi1 mit xi = � ⋮ � xip Sei die j-te erklärende Variable diskret und seien x i , x i' zwei Variablenvektoren, die sich nur in der j-ten erklärenden Variablen unterscheiden. Der marginale Effekt ist gegeben durch P(Yi = 1| x i ) − P(Yi = 1| x 'i ) In beiden Fällen hängt der marginale Effekt vom gesamten Vektor x i ab. Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik V Statistische Entscheidungstheorie 1 ’Bausteine’ der Statistischen Entscheidungstheorie Θ Menge der unbekannten Parameter ∆ Menge der möglichen Entscheidungen L: Θ × ∆ → IR + 115 (θ,d) → L(θ,d) Verlustfunktion; L(θ,d) = Verlust, falls Parameter θ ∈ Θ vorliegt und die Entscheidung d ∈ ∆ getroffen wird. Gehen nur die Größen Θ, ∆, L (und gegebenenfalls eine a priori Verteilung ϕ für θ (vgl. V3)) in Entscheidungsfindung ein, so liegt ein no data-Problem vor. X ~ f ( | θ) (θ ∈ Θ) Wertebereich von X D: → ∆ x → D(x) Entscheidungsfunktion die Vorlesung Statistische Inferenz Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik D Menge der Entscheidungsfunktionen R: Θ×D → IR + 116 (θ, D) → R(θ, D) Erwarteter Verlust, falls der Parameter θ vorliegt und die Entscheidungsfunktion D verwendet wird: R(θ, D)= E (L(θ, D X)) Vorlesung Statistische Inferenz 2 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 117 Minimax-Entscheidungsfunktionen D0 ∈ heißt Minimax-Entscheidungsfunktion, falls gilt (vgl. V1): sup R( = θ, D0 ) θ∈Θ min sup R(θ, D) D∈ θ∈Θ Spezialfälle a) X ~ B(n, θ) , = {0,, n} Θ = ∆ =]0,1[ L(θ,d) = (θ − d) 2 Die Minimax-Entscheidungsfunktion ist gegeben durch = D0 (x) 1 n (x + ) 2 n+ n Vorlesung Statistische Inferenz b) Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik X ~ H(L, θ, n) 118 (vgl.I 23) Θ = {0,, L} = ∆ X = {0,…,n} L(θ,d) = (θ − d) 2 Die Minimax-Entscheidungsfunktion D0 ist gegeben durch D0 (x) = L 1 n ⋅ (L − n) (x + ) 2 L −1 n ⋅ (L − n) n+ L −1 Vorlesung Statistische Inferenz 3 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 119 Bayes’sche Entscheidungen Im Folgenden wird stets der diskrete Fall betrachtet Θ = {θ1 ,, θn } Eine Wahrscheinlichkeitsverteilung ϕ über Θ heißt a priori Verteilung: ϕ(θi ) =Wahrscheinlichkeit, dass der Parameter θi vorliegt (1 ≤ i ≤ n) Bayes’sches Risiko (gegen ϕ) einer Entscheidung d ∈ ∆ heißt n ρ(ϕ,d) = ∑ L(θi ,d) ϕ(θi ) i =1 ρ(ϕ,d) ist der erwartete Verlust bei Treffen der Entscheidung d und Vorliegen der a priori Information ϕ. Die Bayes’sche Entscheidung d* minimiert ρ(ϕ, d) ρ* (ϕ) :=ρ(ϕ,d* ) = min ρ(ϕ,d) d∈∆ ρ* (ϕ) heißt Bayes’sches Risiko (gegen ϕ). Vorlesung Statistische Inferenz 4 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 120 Bayes’sche Entscheidungsfunktionen X ~ f ( | θ) Im Folgenden werden diskrete Zufallsvariablen X betrachtet: P(X = x | θ) . Für D ∈ gilt: R(θ, D) =∑ L(θ, D(x)) P(X =x | θ) x Der erwartete Verlust von D ∈ bei Vorliegen ϕ ist gegeben durch r(ϕ, D)= ∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi ) θi x Spezialfälle: a) ϕ(θ j ) =1 für ein θ j : r(ϕ, D) =R(θ j , D) b) D(x) ≡ d (x ∈ ) : r(ϕ, D) =ρ(ϕ,d) (vgl. V 3) Vorlesung Statistische Inferenz c) Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 121 D(x) ≡ d (x ∈ ), ϕ(θ j ) =1 für ein θ j : r(ϕ, D) =L(θ j ,d) Die Bayes’sche Entscheidungsfunktion D* (gegen ϕ ) ist gegeben durch r(ϕ, D* ) = min r(ϕ, D) D∈ Vorlesung Statistische Inferenz 5 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 122 A priori und a posteriori Verteilung Gegeben sei die a priori Verteilung ϕ P(θ = θ j | X = x) = = = P(X = x, θ = θ j ) P(X = x) P(X = x | θ = θ j )P(θ = θ j ) P(X = x) P(X= x | θ j )ϕ(θ j ) ∑ P(X= x | θi )ϕ(θi ) θi = ψ (θ j | X = x) ψ (θ | X =x) heißt a posteriori Verteilung von θ, falls X = x beobachtet wurde (bei gegebenem ϕ) Vorlesung Statistische Inferenz 6 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 123 Konstruktion von Bayes’scher Entscheidungsfunktion Für D ∈ gilt (vgl. V 4) r(ϕ, D) = = ∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi ) θi x ∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi ) x θi Für die Bayes’sche Entscheidungsfunktion D* und x 0 ∈ gilt daher D* (x 0 ) = = arg min ∑ L(θi ,d)P(X = x 0 | θi )ϕ(θi ) d θi arg min ∑ L(θ= x0 ) i ,d)ψ (θi | X d θi Die optimale Entscheidungsfunktion D* an der Stelle x 0 kann also berechnet werden als Lösung der Aufgabe min ρ(ψ,d) (vgl. V 3) d mit der a posteriori Verteilung ψ (θ | X =x 0 ) . Vorlesung Statistische Inferenz 7 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 124 Kosten der Information Beobachtung der ZV X verursacht Kosten c > 0 . Zu vergleichen sind: min ρ(ϕ,d) d∈∆ erwarteter Verlust ohne Einbeziehung von X (vgl. V 3) mit min r(ϕ, D) + c erwarteter Verlust mit Einbeziehung von D∈ X und Berücksichtigung der Kosten (vgl. V 4) Wiederholte Beobachtung von X : X1 , , X n i. i. d. Dn : n → ∆ Erwarteter Verlust unter Berücksichtigung der Kosten bei Verwendung von X1 , , X n (n = 1, 2,) r(ϕ, D n ) + c ⋅ n Gesucht ist das minimierende n. Vorlesung Statistische Inferenz 8 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 125 Aufeinanderfolgende Informationsbeschaffung Zwei Informationsquellen X, Y: (X, Y) ~ f ( | θ) a posteriori Verteilung (vgl. V 5) P(X= x, Y= y | θ j )ϕ(θ j ) ψ (θ j | X= x, Y= y)= ∑ P(X= x, Y= y | θi )ϕ(θ j ) θi Es gilt: ψ (θ j | X= x,Y= y)= P(Y = y | X = x, θ = θ j )ψ (θ j | X = x) ∑ P(Y = y | X = x, θ = θi )ψ(θ j | X = x) θi Folgerung: Wird zuerst X, dann Y beobachtet, so kann die a posteriori Verteilung ψ (θ j |= X x,= Y y) berechnet werden als a posteriori Verteilung bzgl. der Beobachtung Y = y und der a posteriori Verteilung ψ (θ j | X =x) . Vorlesung Statistische Inferenz 9 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik Bayes’sche Entscheidungsfunktionen und Punktschätzungen Θ = ∆ ⊂ IR L(θ,d) = (θ − d) 2 D* sei die Bayes’sche Entscheidungsfunktion (gegen ϕ) (vgl. V 5). Dann gilt: ∑ θi ϕ(θi )P(X= x | θi ) D* (x) = θi ∑ ϕ(θi )P(X= x | θi ) θi 126 Vorlesung Statistische Inferenz 10 Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik 127 Bayes’sche Entscheidungsfunktionen und Tests Θ = {θ1 , θ2 }, ∆ = {d1 ,d 2 } L(θi ,d j ) = 0 für i = j L(θ1 ,d 2 ) = a > 0, L(θ2 ,d1 ) = b>0 D* sei die Bayes’sche Entscheidungsfunktion (gegen ϕ) (vgl. V 5) Dann gilt: d 2 * D (x) = d 1 falls sonst P(X = x | θ2 ) > ϕ(θ1 ) ⋅ a ⋅ P(X = x | θ1 ) ϕ(θ2 ) ⋅ b