Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael H. Faber 8. Vorlesung 22.04.2009 1 Statistik und Wahrscheinlichkeitsrechnung Inhalte der heutigen Vorlesung Überblick über Schätzung und Modellbildung Wahrscheinlichkeitsverteilungen in der Statistik Parameterschätzung - Statistische Charakteristiken von Stichproben: Mittelwert - Statistische Charakteristiken von Stichproben: Varianz - Konfidenzintervalle der Schätzer 22.04.2009 2 Statistik und Wahrscheinlichkeitsrechnung Überblick Schätzung und Modellbildung Wie kommen Ingenieure zu Wissen? Reale Welt Erfahrung Daten Modelle 22.04.2009 3 Statistik und Wahrscheinlichkeitsrechnung Überblick Schätzung und Modellbildung Unterschiedliche Typen an Informationen werden zur Bildung von Ingenieurmodellen verwendet – Subjektive Information – Frequentistische Information 22.04.2009 4 Statistik und Wahrscheinlichkeitsrechnung Überblick Schätzung und Modellbildung Die Modellbildung kann in fünf Schritten erfolgen: 1) Bewertung und statistische Erfassung verfügbarer Daten 2) Wahl einer Verteilungsfunktion 3) Schätzung der Verteilungsparameter 4) Testen des Modells 5) Aktualisierung der Parameter des Modells 22.04.2009 5 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen In der klassischen Statistik werden häufig bestimmte Wahrscheinlichkeitsverteilungsfunktionen, welche alle von der Normalverteilung abgeleitet werden können, verwendet und zur Bewertung und zum Testen verwendet. Diese Wahrscheinlichkeitsverteilungsfunktionen sind: Chi-Quadrat Verteilung Chi-Verteilung t-Verteilung F-Verteilung 22.04.2009 6 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 2 χ Chi-Quadrat Verteilung ( - Verteilung) Wenn X i , i = 1, 2,...n standardnormalverteilte und unabhängige Zufallsvariablen sind , dann ist die Summe der Quadrate der Zufallsvariablen, also: n Yn = ∑ X i2 Chi-Quadrat verteilt. i =1 Die Chi-Quadrat Verteilung ist regenerativ, d.h. die Summe der ChiQuadrat verteilten Zufallsvariablen ist auch wieder Chi-Quadratverteilt. 22.04.2009 7 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 2 χ Chi-Quadrat Verteilung ( - Verteilung) Betrachte den einfachsten Fall mit n = 1, d.h. Y1 = X 2 dann können wir schreiben FY1 ( y ) = P(Y1 ≤ y ) = P( X 2 ≤ y ) = P(− y ≤ X ≤ + y ) = FX ( y ) − FX (− y ) = FX ( y ) − (1 − FX ( y )) = = 2 FX ( y ) − 1 und bekommen fY1 ( y ) = 22.04.2009 dFY1 ( y ) dy 1 − d (2 FX ( y ) − 1) 1 1 = = y 2 fX ( y) = exp(− y ) dy 2 2πy 8 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 2 χ Chi-Quadrat Verteilung ( - Verteilung) Chi-Quadrat Wahrscheinlichkeitsverteilung ist gegeben durch fYn ( yn ) n −1 yn 2 exp n n 2 2 Γ 2 − yn , 2 Der Mittelwert ist µ Yn = n Die Varianz ist σ Y2n = 2n yn ≥ 0 Freiheitsgrade ∞ −t x −1 Γ ( x ) = e ∫0 t dt ist die komplette Gamma Funktion. Für grosse n konvergiert die Chi-Quadrat Verteilung zu einer Normalverteilung. 22.04.2009 9 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 22.04.2009 10 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Chi-Verteilung ( χ - Verteilung) Wenn die Zufallsvariable Z durch die Wurzel von der Chi-Quadrat verteilten Zufallsvariable gegeben ist, d.h. Z = Yn = n 2 X ∑ i i =1 dann ist sie Chi-verteilt mit n Freiheitsgraden. 22.04.2009 11 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Chi-Verteilung ( χ - Verteilung) Angenommen, dass Yn Chi-Quadrat verteilt ist mit n Freiheitsgraden. Mit Z = Yn können wir schreiben FZ ( z ) P( Z z ) P( Yn z ) P(Yn z 2 ) FYn ( z 2 ) Und wir bekommen 2 dF z ( ) dFZ ( z ) Yn 2 f Z ( z ) = = 2 zf= z ( ) = Yn dz dz 22.04.2009 z n −1 z2 exp(− ) n 2 −1 n 2 2 Γ 2 12 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Chi-Verteilung ( χ - Verteilung) −z2 exp , fZ ( z) n Ist= gegeben durch −1 n 2 2 2 Γ 2 z ( n −1) Der Mittelwert ist n +1 Γ 2 µz = 2 n Γ 2 Die Varianz ist n +1 Γ2 2 2 σ z= n − 2 2n Γ 2 22.04.2009 z≥0 13 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 22.04.2009 14 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen t-Verteilung (Student-Verteilung) Wenn eine standardnormalverteilte Zufallsvariable X durch eine Chi-verteilte Zufallsvariable geteilt wird, d.h. S = X n = ∑X i =1 2 i X X = = Z Yn n n nX Z n dann heisst die Verteilung von S t-Verteilung bzw. StudentVerteilung mit n Freiheitsgraden. Für grosse n konvergiert die t-Verteilung zu einer Normalverteilung 22.04.2009 15 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen t-Verteilung (Student-Verteilung) Ist gegeben durch = fS ( s ) n +1 n +1 − Γ s 2 2 2 1+ , n n nπ Γ 2 -∞ ≤ s ≤ ∞ Der Mittelwert ist 0 Die Varianz ist σ S2 = n n−2 22.04.2009 16 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 22.04.2009 17 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen F-Verteilung Wenn eine Zufallvariable Q gegeben ist als das Verhältnis zwischen zwei Chi-Quadrat-verteilten Zufallsvariablen, d.h. Q= Yn1 Yn2 Dann ist Q F-verteilt mit den Freiheitsgraden n1, n2. 22.04.2009 18 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen F-Verteilung Die F-Wahrscheinlichkeitsdichtefunktion ist gegeben als n1 − 2 2 n +n Γ 1 2 q (1 + q) 2 fQ (q) n n Γ 1 Γ 2 2 2 n +n − 1 2 2 n2 , Der Mittelwert ist µ Q = n2 − 2 Die Varianz ist 22.04.2009 2n22 (n1 + n2 − 2) σ = , 2 n1 (n2 − 2) (n2 − 4) 2 Q , q≥0 n2 > 2 n2 > 4 19 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen 22.04.2009 20 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Zusammenfassung: Basierend auf unabhängigen normal verteilten Zufallsvariablen lassen sich folgende Verteilungen ableiten Verteilungstyp Wann Chi-Quadrat-Verteilung Summe der Quadrate N(0;1) Chi-Verteilung Wurzel von Chi-Quadrat t-Verteilung Verhältnis von N(0;1) zu Chi/n F-Verteilung Verhältnis von zwei Chi-Quadrat 22.04.2009 21 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Beispiel: Chi-Verteilung Es wurden Messungen von den Seiten a und b durchgeführt, mit der Absicht, die Seite c bestimmen zu können. c a b 22.04.2009 22 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Beispiel: Chi-Verteilung c a b Es wird angenommen, dass die Messungen von a und b mit dem selben absoluten Fehler ε durchgeführt werden, welcher als N(0; σε ) angenommen wird (Normalverteilt, erwartungstreu -> d. h. ohne systematischen Fehler und mit einer Standardabweichung σε.). Bestimme die statistischen Charakteristiken des Fehlers in c, welcher durch a und b bestimmt wurde. 22.04.2009 23 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Beispiel: Chi-Verteilung c a Der Fehler setzt sich folgendermassen fort: b ε c = ε a2 + ε b2 Daraus lässt sich folgen, dass 2 εa εb εc = + σε σε σε 22.04.2009 2 Chi-verteilt ist, mit zwei Freiheitsgraden. 24 Statistik und Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungsfunktionen Beispiel: Chi-Verteilung c a b εc Die Wahrscheinlichkeitsdichtefunktion von Z = σε kann bestimmt werden durch f Z ( z ) = z exp(−0.5 z 2 ), z≥0 −0.5 ⋅ ε c2 εc Unter Einhaltung von fε c (ε c ) = exp , 2 σε σε 22.04.2009 εc ≥ 0 25 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Wenn neue Daten verfügbar sind, besteht der erste Schritt darin, diese zu beurteilen. xˆno Daten/Beobachtungen n 22.04.2009 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24.4 27.6 27.8 27.9 28.5 30.1 30.3 31.7 32.2 32.8 33.3 33.5 34.1 34.6 35.8 35.9 36.8 37.1 39.2 39.7 FX (xn ) 0.047619048 0.095238095 0.142857143 0.19047619 0.238095238 0.285714286 0.333333333 0.380952381 0.428571429 0.476190476 0.523809524 0.571428571 0.619047619 0.666666667 0.714285714 0.761904762 0.80952381 0.857142857 0.904761905 0.952380952 Mittelwert Varianz Median Funktion von Stichproben Stichprobencharakteristik oder Usw. Stichprobenstatistik 26 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Die statistischen Eigenschaften von Stichprobenstatistiken werden im folgenden genauer betrachtet, um die darin enthaltenen Informationen besser zu verstehen. Angenommen wir haben noch unbekannte Stichproben X i , i = 1,2,..n aus einem Experimentergebnis generiert durch die kumulative Verteilungsfunktion FX i ( xi , p) = FX ( x, p), i = 1,2,..n Dann können wir die Stichprobenstatistiken beschreiben für den Stichprobenmittelwert und die Stichprobenvarianz. n 1 n 1 2 X = ∑ Xi S = ∑ ( X i − X )2 n i =1 n i =1 22.04.2009 27 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Die Stichprobenstatistiken sind Zufallsvariablen, solange die Ergebnisse das Experiments noch nicht realisiert sind. Daher kann der Erwartungswert und die Varianz für den Stichprobenmittelwert folgendermassen bestimmt werden: 1 1 n 1 n X E ∑ E= Xi E= nµ X µ X = [ Xi ] = ∑ n = n i 1= ni1 1 2 1 n 1 n 1 n Var X Var X Var X Var X σX = = = = [ ] i n ∑ i n2 ∑ i n2 ∑ n = i 1 i1 = i 1= 22.04.2009 28 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Die Wahrscheinlichkeitsdichtefunktion für den Stichprobenmittelwert kann als eine Normalverteilung angenommen werden – Zentraler Grenzwertsatz 22.04.2009 29 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Beispiel: Körpergewicht der Studierenden. 1 2 3 4 5 6 7 8 9 10 Mittelwert Standardabweichung 22.04.2009 1. Probe G [kg] 75 75 80 72 84 90 55 85 69 70 75.5 8.99 30 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Beispiel: Körpergewicht der Studierenden. 1 2 3 4 5 6 7 8 9 10 Mittelwert Standardabweichung 22.04.2009 1. Probe G [kg] 75 75 80 72 84 90 55 85 69 70 2. Probe G [kg] 65 77 68 85 71 76 79 80 75 80 75.5 8.99 75.6 5.47 31 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Beispiel: Körpergewicht der Studierenden. 1 2 3 4 5 6 7 8 9 10 Mittelwert Standardabweichung 22.04.2009 1. Probe G [kg] 75 75 80 72 84 90 55 85 69 70 2. Probe G [kg] 65 77 68 85 71 76 79 80 75 80 3. Probe G [kg] 63 62 58 76 93 72 58 76 58 79 4. Probe G [kg] 72 78 59 65 90 76 62 77 57 63 5. Probe G [kg] 59 73 73 69 56 60 71 75 60 70 75.5 8.99 75.6 5.47 69.5 10.51 69.9 9.40 66.6 6.34 32 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Für die Stichprobenvarianz erhalten wir: [ ] n n 1 1 E S 2 = E ∑ ( X i − X ) 2 = E ∑ (( X i − µ ) − ( X − µ )) 2 n i =1 n i =1 1 n 2 2 = ∑ E (Xi − µ) - n E (X − µ) n i =1 ] [ ] ( [ ] [ ]) 1 n ⋅ E ( X i − µ )2 - n E ( X − µ )2 = n 2 1 σ 2 X = n ⋅ σ X - n Der Schätzer der n n Stichprobenvarianz ist nicht 1 (n − 1) 2 erwartungstreu (biased). = σ X2 − σ X2 = σX n n = 22.04.2009 [ 33 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben (n − 1) 2 E S = σX n Wir können nun einfach erwartungstreue (unbiased) Schätzer für die Varianz bestimmen: 2 n 2 S = S n −1 2 n 1 n 2 X X ( ) = − ∑ i n − 1 n i =1 1 n 2 X X ( ) = − ∑ i n − 1 i =1 22.04.2009 34 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben (n − 1) 2 E S = σX n Wir können nun einfach erwartungstreue (unbiased) Schätzer für die Varianz bestimmen: 2 n 2 S = S n −1 2 n 1 n 2 X X ( ) = − Nicht n wie bei der ∑ i n − 1 n i =1 Varianz in der beschreibenden Statistik! 1 n 2 X X ( ) = − ∑ i n − 1 i =1 22.04.2009 35 Statistik und Wahrscheinlichkeitsrechnung Parameterschätzung für Stichproben Die Qualität eines Schätzers kann nicht alleine dadurch bewertet werden, ob er erwartungstreu ist. Es spielen auch andere Eigenschaften eine wichtige Rolle wie: – Effizienz kleinste Fehlerquadrate – Invarianz h(θ ) = h(θ ) – Konsistenz Konvergenz zu wahren Werten – Hinlänglichkeit Maximaler Nutzen aus den Daten – Robustheit Sensitivität bei Weglassen individueller Daten Wir werden dies nicht im Detail anschauen – Merken Sie sich, dass diese Überlegungen von Bedeutung sind. 22.04.2009 36 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Wir haben gesehen, dass Schätzer z.B. des Mittelwertes mit statistischen Unsicherheiten assoziiert sind, und wir haben ihren Mittelwert und ihre Varianz bestimmt. Basierend auf diesen Informationen ist es uns möglich, ein Konfidenzintervall für die Schätzer zu bestimmen. Konfidenzintervalle können als Intervalle verstanden werden, innerhalb welcher z.B. der Mittelwert mit einer bestimmten Wahrscheinlichkeit gefunden werden kann. 22.04.2009 37 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Wir können ein Konfidenzintervall z.B. für den Mittelwert erstellen. Für den Fall, dass der Mittelwert unsicher und die Varianz bekannt ist: Aufgrund von n Beobachtungen lässt sich der Mittelwert schätzen als (normalverteilte) Zufallsvariable mit Mittelwert gleich X und Standardabweichung σ 1 . X n Durch Transformation erhalten wir die standardnormalverteilte Zufallsvariable X − µX 1 σX n 22.04.2009 38 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Das zweiseitige und symmetrische Konfidenzintervall des Mittelwertes ist gegeben durch: Stichprobenmittelwert wahrer Mittelwert X − µX 1 1 < kα /2 =P −kα /2σ X < X − µ X < kα /2σ X =1 − α P −kα /2 < 1 n n σX Anzahl Stichproben n bekannte Standardabweichung 22.04.2009 Signifikanzniveau 39 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Das Konfidenzintervall definiert ein Intervall, in dem der Stichprobenmittelwert mit der Wahrscheinlichkeit 1 − α liegt. 1 1 P − kα / 2σ X < X − µ X < kα / 2σ X = 1−α n n Bekannte Standardabweichung Stichprobenmittelwert Anzahl Stichproben Wahrer Mittelwert Das Konfidenzintervall kann, durch die Annahme, dass der Mittelwert normalverteilt ist, wie folgt bestimmt werden: 0.05 α −1 kα / 2 = Φ 1 − = Φ 1 − = 1.96 2 2 −1 22.04.2009 40 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Für den Fall, dass = α 0.05, = n 16 und = σX 20 erhalten wir X - µX < 1.96 = P −1.96 < 1- 0.05 1 20 n P −9.8 < X − µ X < 9.8 = 0.95 22.04.2009 41 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Wenn wir beobachten, dass der Stichprobenmittelwert z.B. gleich 400 ist, wissen wir, dass der wahre Mittelwert mit einer Wahrscheinlichkeit von 0.95 innerhalb des Intervalles liegt. P[− 9.8 < X − µ X < 9.8] = 0.95 390.2 < µ X < 409.8 Normalerweise werden Konfidenzintervalle für Mittelwert, Varianz und charakteristische Werte (Fraktilwerte) in Betracht gezogen. Das Konfidenzintervall repräsentiert / beschreibt die (statistische) Unsicherheit, welche durch zu wenig Daten entsteht. 22.04.2009 42 Statistik und Wahrscheinlichkeitsrechnung Konfidenzintervalle für Schätzer Die Anzahl verfügbarer Daten hat einen signifikanten Einfluss auf das Konfidenzintervall. Unter Verwendung des vorherigen Beispiels ( σ X = 20 ) ist in der folgenden Graphik die Abhängigkeit des Konfidenzintervalls von der Anzahl der Experimente n illustriert. 22.04.2009 43 Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael Havbro Faber 22.04.2009 44