Zufallsvariablen √ Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung: (Skriptum Angewandte Mathematik 1, S. 131 ff) Gegeben f (x), eine differenzierbare Funktion F(x) mit F′ (x) = f (x) heißt unbestimmtes Integral oder Stammfunktion von f. Grundintegrale : F ( x) = ∫ f ( x) dx Man schreibt: Beispiele: α +1 x ∫ x dx = α + 1 α 1 ∫ x dx = ln x 1 αx αx ∫ e dx = e α für α ≠ 0 Das bestimmte Integral b ∫ f ( x ) dx = F (b ) − F ( a ) a Das bestimmte Integral ist die Fläche unter der Kurve f (x) zwischen den Grenzen a und b Stetige Verteilungen: Interpretation b ∫ f ( x ) dx = F (b ) − F ( a ) a F … Verteilungsfunktion, f … zugehörige Dichte Das bestimmte Integral über die Dichte gibt die Wahrscheinlichkeit, dass die Zufallsvariable ihren Wert im Intervall [a,b] annimmt b Speziell gilt (Buch S. 104): F (b ) = ∫ f ( x ) dx -∞ Mittelwert und Varianz Bei gegebener Dichte f werden Mittelwert und Varianz mit folgenden Formeln berechnet: b E ( X ) = µ = ∫ x f ( x ) dx a b Var ( x ) = σ = ∫ ( x − µ ) f ( x ) dx 2 2 a Beachte die Analogie zu den entsprechenden Formeln für diskrete Variablen (Summen anstelle von Integralen, Wahrscheinlichkeitsfunktion anstelle von Dichte). Exponentialverteilung Und daher Für die Exponentialverteilung lassen sich aufgrund der einfachen Gestalt der Dichtefunktion die Integrale zur Berechnung von Mittelwert und Varianz unmittelbar lösen (vgl. Skriptum „Angewandte Mathematik 1“). Im allgemeinen ist dies nicht der Fall! Normalverteilung Dichte der Normalverteilung, X ~ N(µ,σ2): Parameter: µ … Mittelwert σ … Standardabweichung Die Normalverteilung ist mit Abstand die wichtigste Verteilung in der Statistik. Sie taucht in den meisten klassischen Testverfahren auf – zentraler Grenzwertsatz! Standardnormalverteilung N(0,1) Eine spezielle Rolle nimmt die Standardnormalverteilung ein, mit Mittelwert 0 und Standardabweichung 1 Die Verteilungsfunktion der Standardnormalverteilung wird üblicherweise als Φ(x) bezeichnet Zentrale Flächen von N(0,1) Φ(1) - Φ(-1) ~ 0.68 Φ(2) - Φ(-2) ~ 0.95 Die Verteilungsfunktion Φ(x) lässt sich nicht in geschlossener Form berechnen ( Computer oder Tabellen!) Verteilungsfunktion Φ(x) Die Werte der Verteilungsfunktion sind der Tabelle im Anhang des Buches (S. 316, S.317) zu entnehmen. Da f(x) symmetrisch ist gilt: Φ(-x) = 1 - Φ(x) Φ(0) = 1/2, Φ(-2) = 1 - Φ(2) = 0,02275 Φ(0) - Φ(-2) = 0,47725 N(-5,1) N(0,1) N(-5,1/4) N(5,1) 0.4 f(x) N(0,1) 0.2 0.2 N(5,4) 0.0 0.1 0.0 f(x) 0.3 0.6 0.4 0.8 Allgemeine Normalverteilung N(µ,σ2) -5 0 x 5 -5 0 x 5 Standardisierung Die Standardnormalverteilung kann auch verwendet werden, um Wahrscheinlichkeiten einer allgemein normalverteilten Zufallsvariable zu berechnen: Sei X ~ N(µ,σ2), dann ist die Zufallsvariable Z = (X - µ)/σ standardnormalverteilt: Z ~ N(0,1). Für die Praxis bedeutet das: Wichtige Eigenschaften Die Summe zweier unabhängiger Normalverteilungen ist wieder normalverteilt: Sei X ~ N(µ1,σ12), und Y ~ N(µ2,σ22). Dann gilt Z = (X +Y) ~ N(µ1 + µ2 , σ12 + σ22 ). Sei X ~ N(µ,σ2), und α eine reelle Zahl. Dann gilt: α X ~ N(α µ , α2 σ2). Vergleiche die Eigenschaften von Mittelwert und Varianz für allgemeine Zufallsvariablen. Wichtige Eigenschaften Die Summe zweier unabhängiger Normalverteilungen ist wieder normalverteilt: Sei X ~ N(µ1,σ12), und Y ~ N(µ2,σ22). Dann gilt Z = (X +Y) ~ N(µ1 + µ2 , σ12 + σ22 ). Sei X ~ N(µ,σ2), und α eine reelle Zahl. Dann gilt: α X ~ N(α µ , α2 σ2). Vergleiche die Eigenschaften von Mittelwert und Varianz für allgemeine Zufallsvariablen. Verteilung der Stichprobenkennzahlen Arithmetisches Mittel Zentraler Grenzwertsatz (Normalverteilungsapproximation von diskreten Verteilungen) Stichprobenvarianz Chi-Quadrat Verteilung Standardisierung des arithmetischen Mittels T-Verteilung Verteilung des arithmetischen Mittels Aus den beiden zuletzt besprochenen Eigenschaften der Normalverteilung folgt unmittelbar die Verteilung des arithmetischen Mittels einer zufälligen Stichprobe: Seien Xi, i = 1…n unabhängig normalverteilt mit Mittelwert µ und Standardabweichung σ. Dann gilt n 2 1 σ X = ∑ X i ~ N (µ , ) n n i =1 Der Mittelwert bleibt gleich, allerdings streut das arithmet. Mittel weniger als die einzelnen Beobachtungen. X wird verwendet um µ zu schätzen (vgl. deskr. Stat.). Bsp 4-28 (mit Varianz 0,01) Füllmenge von Weinflaschen sei N(0.75, 0.12). Unabhängige Stichprobe von 10 Flaschen, welche Füllmenge erwartet man im Mittel? 0,75 Wie streut dieser Mittelwert, sprich welche Abweichung des Mittelwerts von 0,75 kann man erwarten? 2 σ Var ( X ) = n Bzw. = σ ≅ 0.0316 0,12 10 = 0,001 Zentraler Grenzwertsatz Interessanterweise spielt es für die Verteilung des arithmetischen Mittels keine große Rolle, ob die Einzelbeobachtungen normalverteilt sind: Seien Xi, i=1…n unabhängig (aber gleich) verteilt mit Mittelwert µ und Standardabweichung σ. Dann gilt für hinreichend großes n näherungsweise: 2 1 n σ X = ∑ X i ~ N (µ , ) n n i =1 Das arithmetische Mittel kann als normalverteilt betrachtet werden selbst wenn die einzelnen Beobachtungen nicht normalverteilt sind. Typische Anwendung Für großen Stichprobenumfang n kann man die Binomialverteilung durch eine Normalverteilung approximieren: Sei X ~ B(n,p), µ = n p und σ2 = n p q. Falls σ2 ≥ 9 dann gilt Verschiebung der Grenzen a und b in der Approximation: Stetigkeitskorrektur! ACHTUNG: P(X · b) ≠ P(X < b) Bsp 4-17: Wiederholung Beispiel zur Poisson-Approximation, X~B(250;0.04) Beachte Ähnlichkeit der Wahrscheinlichkeitsfunktion zur Dichte einer Normalverteilung! Wahrscheinlichkeits funktion 14 Verteilungsfunktion 120 12 100 10 80 8 60 6 40 4 20 2 POISSON BINOM 0 ,0 K 2 4 6 8 10 12 14 16 18 20 22 24 POICUM BINCUM 0 ,0 K 2 4 6 8 10 12 14 16 18 20 22 24 Typische Anwendung 2 Ebenso kann die hypergeometrische Verteilung durch eine Normalverteilung approximiert werden: Seien X ~ H(N,M,n), dann gilt wiederum falls σ2 ≥ 9 und zusätzlich N ≥ 2n Verschiebung der Grenzen a und b in der Approximation: Stetigkeitskorrektur! ACHTUNG: P(X · b) ≠ P(X < b) Bsp 4-32 N=2500 Milchpackungen, davon 12% verdorben n=100 Packungen kontrolliert P … Anteil der davon verdorbenen Packungen P = X/100, X … hypergeometrisch verteilt (M = 2500·0.12 = 300) a) Berechne E(P) und Var(P) E(X) = 100·0.12 = 12 E(P) = 0.12 Var(X) = 12·0.88·2400/2499=10.142 Var(P) = 10.142/1002 = 0.0010142 Bsp 4-32, Fortsetzung b) Mit welcher Wahrscheinlichkeit liegt P zwischen 5% und 15%? E(X) = 12, Var(X) = 10.142 Die χ2-Verteilung Seien Z1,…Zr unabhängig und standardnormalverteilt. Man definiert die Verteilung der Zufallsvariable r S = ∑ Z i2 2 r i =1 als χ2-Verteilung mit r Freiheitsgraden Im wesentlichen werden wir im Zusammenhang mit dem Schätzen von Konfidenzintervallen und bei statistischen Tests jeweils die Quantile der χ2-Verteilung benötigen! Dichte der χ2-Verteilung Verteilung der Stichprobenvarianz Sei X1,…Xn eine zufällige Stichprobe mit E(Xi) =µ und Var(Xi) =σ2. Dann hat die empirische Varianz S 2 n −1 = 1 n (X ∑ n −1 i =1 i −X ) 2 Mittelwert σ2. Aus diesem Grund wird Sn-1 verwendet um σ2 zu schätzen (vgl. deskr. Stat.). Die Zufallsvariable (n − 1) ⋅ S 2 n −1 /σ 2 folgt einer χ2-Verteilung mit df = n-1 Freiheitsgraden. Genauigkeit des arithmetischen Mittels als Schätzer von µ Das arithmetische Mittel wird verwendet um von einer Stichprobe X1,…Xn den theoretischen Mittelwert µ zu schätzen. Zur Prüfung der Genauigkeit dieses Schätzers braucht man die Varianz des arithmetischen Mittels σ2 /n (vgl. Bsp. 4-28) Nun ist aber im allgemeinen σ2 nicht bekannt und muss selbst aus den Daten geschätzt werden, wofür 2 S n −1 verwendet wird. Verteilung des standardisierten arithmetischen Mittelwert Falls X ~ N(µ,σ2), dann wissen wir: Z = (X - µ)/σ standardnormalverteilt: Z ~ N(0,1). Es gilt E(X) ~ N(µ,σ2/n), und somit: X −µ Z= standardnormalverteilt: Z ~ N(0,1). (σ / n ) Ersetze nun σ2 durch Sn-1: X −µ T := ( S n−1 / n ) Die T-Verteilung Die so erhaltene Teststatistik X −µ T := ( S n−1 / n ) folgt einer Verteilung, welche Studentverteilung oder auch T-Verteilung genannt wird. Sie wird im folgenden wesentlich sein beim statistischen Testen, wenn man etwa Mittelwerte vergleichen möchte. Speziell werden wir wieder die Quantile der Verteilung benötigen. Dichte der T-Verteilung Zusammenfassung Sei X1,…Xn eine zufällige Stichprobe mit E(Xi) =µ und Var(Xi) =σ2. 1) Verteilung des arithmetischen Mittels: 2 σ N (µ , ) n 2) Verteilung der standardisierten empirischen Varianz χ2-Verteilung mit df =n-1 Freiheitsgraden 3) Verteilung des standardisierten arithmetischen Mittel: Student-Verteilung mit df = n-1 Freiheitsgraden Quantile einer Verteilung Verteilungsfunktion: Das γ-Quantil einer Verteilung löst die Umkehraufgabe: Für welches xγ gilt Typischerweise lässt sich das γ-Quantil nicht einfach berechnen, sondern man muss in Tabellen nachschlagen Tabellen der Quantile Normalverteilung: Verwende die Tabelle der Verteilungsfunktion S. 316/317 Die Tabelle ist entsprechend umgekehrt zu lesen χ2-Verteilung: Tabelle S. 320 T-Verteilung: Tabelle S. 318/319 Normalverteilung: entspricht T-Verteilung mit df = ∞ Bsp. 4-22 an der Tafel Symmetrische Intervalle Sei X ~ N(µ,σ2) und γ eine vorgegebene Wahrscheinlichkeit. Dann gilt: für Beweis: