Wahrscheinlichkeitsrechnung und Statistik für Biologen 3. Grundlagen aus der Wahrscheinlichkeitstheorie Matthias Birkner & Dirk Metzler http://www.zi.biologie.uni-muenchen.de/evol/StatGen.html 30. April / 4. Mai 2009 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Warnung Diese Folien enthalten nur eine Zusammenfassung. Details werden an der Tafel ausgeführt. Zufallsvariablen und Verteilung Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Zufallsvariablen und Verteilung Zufallsvariablen und Wahrscheinlichkeitsverteilung Eine Zufallsgröße X besitzt einen Wertebereich S , also die Menge aller möglichen Ausgänge, und eine (Wahrscheinlichkeits-) Verteilung . Letztere definiert definiert für alle Teilmengen A ⊆ S die Wahrscheinlichkeit Pr(X ∈ A), dass X einen Wert in A annimmt. Üblicherweise verwendet man Großbuchstaben für Zufallsgrößen und Kleinbuchstaben für konkrete Ausgänge und Beobachtungen (also Daten). Zufallsvariablen und Verteilung Rechenregeln 0 ≤ Pr(X ∈ A) ≤ 1 Sind A, B ⊆ S disjunkt, d.h. A ∩ B = ∅, Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) Zufallsvariablen und Verteilung Rechenregeln 0 ≤ Pr(X ∈ A) ≤ 1 Sind A, B ⊆ S disjunkt, d.h. A ∩ B = ∅, Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) Allgemein gilt Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) − Pr(X ∈ A ∩ B) Zufallsvariablen und Verteilung Beispiele Münzwurf: Pr(X = Kopf) = Pr(X = Zahl) = 12 , Pr(X ∈ {Kopf, Zahl}) = 1 Uniforme Verteilung auf einer endlichen Menge S: |A| Pr(X ∈ A) = |S| Ziehen zweier Karten aus Skatblatt 1 , Pr(K1 ist eine 7, K2 ist ein Herz) = 18 · 14 = 32 3 3 1 Pr(K1 ist eine 7, K2 ist eine 7) = 8 · 31 = 248 , Details an der Tafel Zufallsvariablen und Verteilung In dem Skatbeispiel haben wir verwendet: Pr(X1 ∈ A, X2 ∈ B) = Pr(X1 ∈ A) · Pr(X2 ∈ B | X1 ∈ A) Dabei bezeichnet Pr(X2 ∈ B | X1 ∈ A) die Wahrscheinlichkeit von {X2 ∈ B} unter der Bedingung, dass {X1 ∈ A} eintritt, kurz: “bedingte Wahrscheinlichkeit von {X2 ∈ B}, gegeben {X1 ∈ A}” Zufallsvariablen und Verteilung In dem Skatbeispiel haben wir verwendet: Pr(X1 ∈ A, X2 ∈ B) = Pr(X1 ∈ A) · Pr(X2 ∈ B | X1 ∈ A) Dabei bezeichnet Pr(X2 ∈ B | X1 ∈ A) die Wahrscheinlichkeit von {X2 ∈ B} unter der Bedingung, dass {X1 ∈ A} eintritt, kurz: “bedingte Wahrscheinlichkeit von {X2 ∈ B}, gegeben {X1 ∈ A}” Bayes-Formel für die bedingte Wahrscheinlichkeit: Pr(X2 ∈ B | X1 ∈ A) = Pr(X1 ∈ A, X2 ∈ B) Pr(X1 ∈ A) Zufallsvariablen und Verteilung In dem Skatbeispiel haben wir verwendet: Pr(X1 ∈ A, X2 ∈ B) = Pr(X1 ∈ A) · Pr(X2 ∈ B | X1 ∈ A) Dabei bezeichnet Pr(X2 ∈ B | X1 ∈ A) die Wahrscheinlichkeit von {X2 ∈ B} unter der Bedingung, dass {X1 ∈ A} eintritt, kurz: “bedingte Wahrscheinlichkeit von {X2 ∈ B}, gegeben {X1 ∈ A}” Bayes-Formel für die bedingte Wahrscheinlichkeit: Pr(X2 ∈ B | X1 ∈ A) = Pr(X1 ∈ A, X2 ∈ B) Pr(X1 ∈ A) mehr dazu später im Semester.... Von der Unabhängigkeit zur Binomialverteilung Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Von der Unabhängigkeit zur Binomialverteilung Sochastische Unabhängigkeit Definition Zwei Zufallsgrößen X und Y heißen (stochastisch) unabhängig, wenn für alle Ereignisse {X ∈ A}, {Y ∈ B} gilt Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) · Pr(Y ∈ B) Von der Unabhängigkeit zur Binomialverteilung Beispiele für stochastische Unabhängigkeit Werfen zweier Würfel: X = Augenzahl Würfel 1, Y = Augenzahl Würfel 2. Pr(X = 2, Y = 5) = Pr(X = 2) · Pr(Y = 5) = 1 1 1 · = 6 6 36 Von der Unabhängigkeit zur Binomialverteilung Beispiele für stochastische Unabhängigkeit Werfen zweier Würfel: X = Augenzahl Würfel 1, Y = Augenzahl Würfel 2. Pr(X = 2, Y = 5) = Pr(X = 2) · Pr(Y = 5) = Zurück zum Bsp. mit 2 Skatkarten: W1 = Wert von K1 , F2 = Farbe von K2 . 1 1 1 · = 6 6 36 Von der Unabhängigkeit zur Binomialverteilung Beispiele für stochastische Unabhängigkeit Werfen zweier Würfel: X = Augenzahl Würfel 1, Y = Augenzahl Würfel 2. Pr(X = 2, Y = 5) = Pr(X = 2) · Pr(Y = 5) = 1 1 1 · = 6 6 36 Zurück zum Bsp. mit 2 Skatkarten: W1 = Wert von K1 , F2 = Farbe von K2 . Obwohl (K1 , K2 ) voneinander abhängig sind, sind (W1 , F2 ) stochastisch unabhängig: Pr(W1 = 7, F2 = Herz) = Pr(W1 = 7) · Pr(F2 = Herz) 1 1 1 = · = 8 4 32 Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? p · p · p · · · p = pn Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? p · p · p · · · p = pn 2 ...immer scheitert? Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? p · p · p · · · p = pn 2 ...immer scheitert? (1 − p) · (1 − p) · · · (1 − p) = (1 − p)n Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? p · p · p · · · p = pn 2 ...immer scheitert? (1 − p) · (1 − p) · · · (1 − p) = (1 − p)n 3 ...erst k mal gelingt und dann n − k mal scheitert? Von der Unabhängigkeit zur Binomialverteilung Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1 ...immer gelingt? p · p · p · · · p = pn 2 ...immer scheitert? (1 − p) · (1 − p) · · · (1 − p) = (1 − p)n 3 ...erst k mal gelingt und dann n − k mal scheitert? pk · (1 − p)n−k 4 ...insgesamt k mal gelingt und n − k mal scheitert? Von der Unabhängigkeit zur Binomialverteilung Sei X die Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit von jeweils p. Dann gilt für k ∈ {0, 1, . . . , n} µ ¶ n k Pr(X = k) = p · (1 − p)n−k k und X ist binomialverteilt, kurz: X ∼ bin(n, p). Von der Unabhängigkeit zur Binomialverteilung Sei X die Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit von jeweils p. Dann gilt für k ∈ {0, 1, . . . , n} µ ¶ n k Pr(X = k) = p · (1 − p)n−k k und X ist binomialverteilt, kurz: X ∼ bin(n, p). Erläuterung ¡n ¢ n! = k!·(n−k)! ist die Anzahl der Möglichkeiten, die k Erfolge in k die n Versuche einzusortieren. Von der Unabhängigkeit zur Binomialverteilung 0.30 probabilities of bin(n=10,p=0.2) ● 0.20 0.25 ● ● ● 0.05 0.10 0.15 ● 0.00 ● ● 0 2 4 6 k ● ● 8 ● ● 10 Von der Unabhängigkeit zur Binomialverteilung 0.10 probabilities of bin(n=100,p=0.2) ●● ● ● 0.08 ● ● ● 0.06 ● ● ● 0.04 ● 0.02 ● ● ● ● ● 0.00 ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●● 0 20 40 60 k 80 100 Erwartungswert Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Erwartungswert Definition (Erwartungswert) Sei X eine Zufallsvariable mit endlichem oder aufzählbaren Wertebereich S = {a1 , a2 , a3 . . . } ⊆ R. Erwartungswert Definition (Erwartungswert) Sei X eine Zufallsvariable mit endlichem oder aufzählbaren Wertebereich S = {a1 , a2 , a3 . . . } ⊆ R. Dann ist der Erwartungswert von X definiert durch X EX = a · Pr(X = a) a Erwartungswert Definition (Erwartungswert) Sei X eine Zufallsvariable mit endlichem oder aufzählbaren Wertebereich S = {a1 , a2 , a3 . . . } ⊆ R. Dann ist der Erwartungswert von X definiert durch X EX = a · Pr(X = a) a Manche schreiben auch µX statt EX . Erwartungswert Rechnen mit Erwartungswerten Satz (Linearität der Erwartung) Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: E(a · X ) = a · EX E(X + Y ) = EX + EY Erwartungswert Rechnen mit Erwartungswerten Satz (Linearität der Erwartung) Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: E(a · X ) = a · EX E(X + Y ) = EX + EY Satz (Nur für Unabhängige!) Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten in R, so gilt E(X · Y ) = EX · EY . Erwartungswert Rechnen mit Erwartungswerten Satz (Linearität der Erwartung) Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: E(a · X ) = a · EX E(X + Y ) = EX + EY Satz (Nur für Unabhängige!) Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten in R, so gilt E(X · Y ) = EX · EY . Beweise an der Tafel. Erwartungswert Was heißt überhaupt aX ? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Erwartungswert Was heißt überhaupt aX ? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an. Erwartungswert Was heißt überhaupt aX ? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an. Beispiel: Bei einem Brettspiel ist ein Spieler in Besitz einer Speed-Karte und darf die doppelte Augenzahl seines Würfelwurfs vorwärtsgehen. Erwartungswert Was heißt überhaupt aX ? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an. Beispiel: Bei einem Brettspiel ist ein Spieler in Besitz einer Speed-Karte und darf die doppelte Augenzahl seines Würfelwurfs vorwärtsgehen. Dann ist X die gewürfelte Augenzahl und a · X mit a = 2 die Anzahl der Schritte. Erwartungswert Was heißt überhaupt aX ? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an. Beispiel: Bei einem Brettspiel ist ein Spieler in Besitz einer Speed-Karte und darf die doppelte Augenzahl seines Würfelwurfs vorwärtsgehen. Dann ist X die gewürfelte Augenzahl und a · X mit a = 2 die Anzahl der Schritte. Die Zufallsgröße a · X nimmt die Werte 2, 4, 6, 8, 10, 12 jeweils mit Wahrscheinlichkeit 16 an. Erwartungswert Und was ist X + Y ? Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße. Erwartungswert Und was ist X + Y ? Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße. Nehmen X den Wert x und Y den Wert y an, so nimmt X + Y den Wert x + y an. Erwartungswert Und was ist X + Y ? Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße. Nehmen X den Wert x und Y den Wert y an, so nimmt X + Y den Wert x + y an. Bespiel: Sind X und Y die Augenzahlen zweier Würfel, so ist X + Y die zufällige Summe der Augenzahlen. Erwartungswert Und was ist X + Y ? Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße. Nehmen X den Wert x und Y den Wert y an, so nimmt X + Y den Wert x + y an. Bespiel: Sind X und Y die Augenzahlen zweier Würfel, so ist X + Y die zufällige Summe der Augenzahlen. X + Y nimmt die Werte 2, 3, 4, . . . , 12 mit den 1 1 1 1 Wahrscheinlichkeiten 36 , 18 , 12 , . . . , 36 an. Erwartungswert Frage and Auditorium: Ist Ihnen nun auch klar, was X · Y ist? Erwartungswert Frage and Auditorium: Ist Ihnen nun auch klar, was X · Y ist? Oder auch X 2, log(X ), . . . ? Erwartungswert Rechnen mit Erwartungswerten Satz (Linearität der Erwartung) Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: E(a · X ) = a · EX E(X + Y ) = EX + EY Satz (Nur für Unabhängige!) Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten in R, so gilt E(X · Y ) = EX · EY . Beweise an der Tafel. Erwartungswert Erwartungswert der Binomialverteilung Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h. ½ 1 falls der i − te Versuch gelingt Yi = 0 falls der i − te Versuch scheitert Erwartungswert Erwartungswert der Binomialverteilung Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h. ½ 1 falls der i − te Versuch gelingt Yi = 0 falls der i − te Versuch scheitert Dann ist X = Y1 + · · · + Yn binomialverteilt mit Parametern (n, p), wobei p die Erfolgswahrscheinlichkeit der Versuche ist. Erwartungswert Erwartungswert der Binomialverteilung Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h. ½ 1 falls der i − te Versuch gelingt Yi = 0 falls der i − te Versuch scheitert Dann ist X = Y1 + · · · + Yn binomialverteilt mit Parametern (n, p), wobei p die Erfolgswahrscheinlichkeit der Versuche ist. Wegen der Linearität der Erwartung gilt EX = E(Y1 + · · · + Yn ) = EY1 + · · · + EYn Erwartungswert Erwartungswert der Binomialverteilung Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h. ½ 1 falls der i − te Versuch gelingt Yi = 0 falls der i − te Versuch scheitert Dann ist X = Y1 + · · · + Yn binomialverteilt mit Parametern (n, p), wobei p die Erfolgswahrscheinlichkeit der Versuche ist. Wegen der Linearität der Erwartung gilt EX = E(Y1 + · · · + Yn ) = EY1 + · · · + EYn = p + · · · + p = np Erwartungswert Erwartungswert der Binomialverteilung Wir halten fest: X ∼ bin(n, p) ⇒ EX = n · p Varianz und Kovarianz Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Varianz und Kovarianz Definition (Varianz, Kovarianz und Korrelation) Die Varianz einer R-wertigen Zufallsgröße X ist £ ¤ VarX = σX2 = E (X − EX )2 . σX = √ Var X ist die Standardabweichung. Varianz und Kovarianz Definition (Varianz, Kovarianz und Korrelation) Die Varianz einer R-wertigen Zufallsgröße X ist £ ¤ VarX = σX2 = E (X − EX )2 . √ σX = Var X ist die Standardabweichung. Ist Y eine weitere reellwertige Zufallsvariable, so ist Cov(X , Y ) = E [(X − EX ) · (Y − EY )] die Kovarianz von X und Y . Varianz und Kovarianz Definition (Varianz, Kovarianz und Korrelation) Die Varianz einer R-wertigen Zufallsgröße X ist £ ¤ VarX = σX2 = E (X − EX )2 . √ σX = Var X ist die Standardabweichung. Ist Y eine weitere reellwertige Zufallsvariable, so ist Cov(X , Y ) = E [(X − EX ) · (Y − EY )] die Kovarianz von X und Y . Die Korrelation von X und Y ist Cor(X , Y ) = Cov(X , Y ) . σX · σY Varianz und Kovarianz 10 Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? ● 8 ● ● ● Y 6 ● 4 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 2 ● 0 ● 0 2 4 6 8 10 Varianz und Kovarianz 10 Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? ● 8 ● ● ● 6 ● ● 4 Y [X−EX]<0 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● [X−EX]>0 ● 2 ● 0 ● 0 2 4 6 8 10 Varianz und Kovarianz 10 Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? ● 8 [Y−EY]>0 ● ● ● 6 ● ● 4 Y [X−EX]<0 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● [X−EX]>0 ● 2 ● ● 0 [Y−EY]<0 0 2 4 6 8 10 Varianz und Kovarianz 10 Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? ● 8 ● ● ● Y 6 [X−EX]*[Y−EY]<0 4 ● ● ● ● ● ● [X−EX]*[Y−EY]>0 ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 2 ● [X−EX]*[Y−EY]>0 [X−EX]*[Y−EY]<0 0 ● 0 2 4 6 8 10 Varianz und Kovarianz Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? 10 Cov(X,Y)= 1.11 ● 8 ● ● ● Y 6 [X−EX]*[Y−EY]<0 4 ● ● ● ● ● ● [X−EX]*[Y−EY]>0 ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 2 ● [X−EX]*[Y−EY]>0 [X−EX]*[Y−EY]<0 0 ● 0 2 4 6 8 10 Varianz und Kovarianz 10 Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? 8 ● [X−EX]*[Y−EY]<0 [X−EX]*[Y−EY]>0 ● ● ● ● 6 ● ● ● ● 4 Y ● ● ● ●● ●● ● ●● ● ●●● ● ●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● 2 ● ● ● [X−EX]*[Y−EY]<0 0 [X−EX]*[Y−EY]>0 0 2 4 6 8 10 Varianz und Kovarianz Wieso Cov(X , Y ) = E([X − EX ][Y − EY ])? 10 Cov(X,Y)= −0.78 8 ● [X−EX]*[Y−EY]<0 [X−EX]*[Y−EY]>0 ● ● ● ● 6 ● ● ● ● 4 Y ● ● ● ●● ●● ● ●● ● ●●● ● ●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● 2 ● ● ● [X−EX]*[Y−EY]<0 0 [X−EX]*[Y−EY]>0 0 2 4 6 8 10 Varianz und Kovarianz Beispiel: Die empirische Verteilung Sind x1 , . . . , xn ∈ R Daten und entsteht X durch rein zufälliges Ziehen aus diesen Daten, so gilt: EX = x und n Var X = 1X (xi − x)2 n i=1 Varianz und Kovarianz Beispiel: Die empirische Verteilung Sind x1 , . . . , xn ∈ R Daten und entsteht X durch rein zufälliges Ziehen aus diesen Daten, so gilt: EX = x und n Var X = 1X (xi − x)2 n i=1 Entsprechend kann man auch für Daten (xi , yi ) die empirischen Kovarianzen und Korrelationen ausrechen, siehe nächste Seite... Varianz und Kovarianz 8 10 σX = 0.95, σY = 0.92 ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● Y 6 ● ● ● ● ● ● 4 ● ● ● ● ● ● 0 2 ● 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.95, σY = 0.92 8 10 Cov(X , Y ) = −0.06 ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● Y 6 ● ● ● ● ● ● 4 ● ● ● ● ● ● 0 2 ● 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.95, σY = 0.92 Cov(X , Y ) = −0.06 8 10 Cor(X , Y ) = −0.069 ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● Y 6 ● ● ● ● ● ● 4 ● ● ● ● ● ● 0 2 ● 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.95, σY = 0.92 Cov(X , Y ) = −0.06 10 ●● 8 8 10 Cor(X , Y ) = −0.069 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● 6 Y 4 4 Y 6 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● 2 0 0 2 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.95, σY = 0.92 σX = 1.13, σY = 1.2 Cov(X , Y ) = −0.06 10 ●● 8 8 10 Cor(X , Y ) = −0.069 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● 6 Y 4 4 Y 6 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● 2 0 0 2 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.95, σY = 0.92 σX = 1.13, σY = 1.2 Cov(X , Y ) = −0.06 Cov(X , Y ) = −1.26 10 ●● 8 8 10 Cor(X , Y ) = −0.069 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● 6 Y 4 4 Y 6 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● 2 0 0 2 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 1.14, σY = 0.78 σX = 1.13, σY = 1.2 Cov(X , Y ) = −1.26 10 ●● 8 8 10 Cor(X , Y ) = −0.92 ● Y 6 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 1.14, σY = 0.78 σX = 1.13, σY = 1.2 Cov(X , Y ) = 0.78 Cov(X , Y ) = −1.26 10 ●● 8 8 10 Cor(X , Y ) = −0.92 ● Y 6 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz Cov(X , Y ) = 0.78 Cov(X , Y ) = −1.26 Cor(X , Y ) = 0.71 Cor(X , Y ) = −0.92 ●● 8 8 10 σX = 1.13, σY = 1.2 10 σX = 1.14, σY = 0.78 ● Y 6 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 1.14, σY = 0.78 Cov(X , Y ) = 0.78 10 ● 8 8 10 Cor(X , Y ) = 0.71 ● ● ●●● Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 1.14, σY = 0.78 σX = 1.03, σY = 0.32 Cov(X , Y ) = 0.78 10 ● 8 8 10 Cor(X , Y ) = 0.71 ● ● ●●● Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 1.14, σY = 0.78 σX = 1.03, σY = 0.32 Cov(X , Y ) = 0.78 Cov(X , Y ) = 0.32 10 ● 8 8 10 Cor(X , Y ) = 0.71 ● ● ●●● Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.91, σY = 0.88 σX = 1.03, σY = 0.32 Cov(X , Y ) = 0.32 10 10 8 8 Cor(X , Y ) = 0.95 ● 6 ● ●●● Y Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 ● 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 0 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ●●● ●● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz σX = 0.91, σY = 0.88 σX = 1.03, σY = 0.32 Cov(X , Y ) = 0 Cov(X , Y ) = 0.32 10 10 8 8 Cor(X , Y ) = 0.95 ● 6 ● ●●● Y Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 ● 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 0 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ●●● ●● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz Cor(X , Y ) = 0 Cor(X , Y ) = 0.95 10 Cov(X , Y ) = 0.32 8 Cov(X , Y ) = 0 10 σX = 1.03, σY = 0.32 8 σX = 0.91, σY = 0.88 ● 6 ● ●●● Y Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 ● 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 0 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ●●● ●● 0 2 4 6 X 8 10 0 2 4 6 X 8 10 Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Cov(X , Y ) = E(X · Y ) − EX · EY Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Cov(X , Y ) = E(X · Y ) − EX · EY Cov(a · X , Y ) = a · Cov(X , Y ) = Cov(X , a · Y ) Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Cov(X , Y ) = E(X · Y ) − EX · EY Cov(a · X , Y ) = a · Cov(X , Y ) = Cov(X , a · Y ) Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y ) Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Cov(X , Y ) = E(X · Y ) − EX · EY Cov(a · X , Y ) = a · Cov(X , Y ) = Cov(X , a · Y ) Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y ) Cov(X , Z + Y ) = Cov(X , Z ) + Cov(X , Y ) Varianz und Kovarianz Rechenregeln für Kovarianzen Cov(X , Y ) = E[(X − EX ) · (Y − EY )] Sind X und Y unabhängig, so folgt Cov(X , Y ) = 0 (die Umkehrung gilt nicht!) Cov(X , Y )=Cov(Y , X ) Cov(X , Y ) = E(X · Y ) − EX · EY Cov(a · X , Y ) = a · Cov(X , Y ) = Cov(X , a · Y ) Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y ) Cov(X , Z + Y ) = Cov(X , Z ) + Cov(X , Y ) Die letzten drei Regeln beschreiben die Bilinearität der Covarianz. Varianz und Kovarianz Rechenregeln für die Korrelation Cor(X , Y ) = Cov(X , Y ) σX · σY −1 ≤ Cor(X , Y ) ≤ 1 Cor(X , Y ) = Cor(Y , X ) Cor(X , Y ) = Cov(X /σX , Y /σY ) Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Var(a · X ) = Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Var(a · X ) = a2 · VarX Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Var(a · X ) = a2 · VarX Var(X + Y ) = Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Var(a · X ) = a2 · VarX Var(X + Y ) = VarX + VarY + 2 · Cov(X , Y ) Varianz und Kovarianz Rechenregeln für Varianzen VarX = E(X − EX )2 VarX = Cov(X , X ) VarX = EX 2 − (EX )2 Var(a · X ) = a2 · VarX Var(X + Y ) = VarX + VarY + 2 · Cov(X , Y ) Sind (X , Y ) stochastisch unabhängig, so folgt: Var(X + Y ) = VarX + VarY Varianz und Kovarianz Mit diesen Rechenregeln können wir nun endlich beweisen: Satz Sind X1 , X2 , . . . Xn unabhängige R-wertige Zufallsgr ößen mit P Mittelwert µ und Varianz σ 2 , so gilt für X = n1 i Xi : EX = µ und Var X = d.h. 1 2 σ , n σ σX = √ n Varianz und Kovarianz Bernoulli-Verteilung Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulli-verteilt. EY = p Var Y = p · (1 − p) (s. Tafel) Varianz und Kovarianz Bernoulli-Verteilung Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulli-verteilt. EY = p Var Y = p · (1 − p) (s. Tafel) Sei Y1 , · · · , Yn unabhängig Bernoulli-verteilt mit Parameter p. Dann gilt X Yi =: X ∼ bin(n, p) und es folgt: Var X = Varianz und Kovarianz Bernoulli-Verteilung Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulli-verteilt. EY = p Var Y = p · (1 − p) (s. Tafel) Sei Y1 , · · · , Yn unabhängig Bernoulli-verteilt mit Parameter p. Dann gilt X Yi =: X ∼ bin(n, p) und es folgt: Var X = X Var Yi = Varianz und Kovarianz Bernoulli-Verteilung Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulli-verteilt. EY = p Var Y = p · (1 − p) (s. Tafel) Sei Y1 , · · · , Yn unabhängig Bernoulli-verteilt mit Parameter p. Dann gilt X Yi =: X ∼ bin(n, p) und es folgt: Var X = X Var Yi = n · p · (1 − p) Varianz und Kovarianz Satz (Erwartungswert und Varianz der Binomialverteilung) Ist X binomialverteilt mit Parametern (n, p), so gilt: EX = n · p und Var X = n · p · (1 − p) Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. EX = n · p = 104001.5 Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. EX = n · p = 104001.5 σX = p n · p · (1 − p) ≈ 230 Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. EX = n · p = 104001.5 σX = p n · p · (1 − p) ≈ 230 104001.5 − 101844 = 2157.5 ≈ 9.5 · σX Varianz und Kovarianz Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. EX = n · p = 104001.5 σX = p n · p · (1 − p) ≈ 230 104001.5 − 101844 = 2157.5 ≈ 9.5 · σX Sieht das nach Zufall aus? Varianz und Kovarianz ¡n ¢ exakt zu berechnen, kann für große n sehr aufwändig sein, daher wir die Binomialverteilung oft durch andere Verteilungen approximiert. k Die Normalverteilung Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test 0.025 Die Normalverteilung 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.015 ● ● ● ● ● ● ● ● ● ● 0.005 0.010 ● 0.000 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 400 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 400:600 550 600 0.025 Die Normalverteilung 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.015 ● ● ● ● ● ● ● ● ● ● 0.005 0.010 ● 0.000 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 400 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 400:600 550 600 Die Normalverteilung Dichte der Standardnormalverteilung Eine Zufallsvariable Z mit der Dichte x2 1 f (x) = √ · e− 2 2π 0.0 0.1 0.2 0.3 0.4 “Gauß-Glocke” −3 −2 −1 0 1 2 heißt standardnormalverteilt. 3 Die Normalverteilung Dichte der Standardnormalverteilung Eine Zufallsvariable Z mit der Dichte x2 1 f (x) = √ · e− 2 2π “Gauß-Glocke” 0.0 0.1 0.2 0.3 0.4 kurz: Z ∼ N (0, 1) −3 −2 −1 0 1 2 heißt standardnormalverteilt. 3 Die Normalverteilung Dichte der Standardnormalverteilung Eine Zufallsvariable Z mit der Dichte x2 1 f (x) = √ · e− 2 2π “Gauß-Glocke” 0.2 0.3 0.4 kurz: Z ∼ N (0, 1) 0.1 EZ = 0 0.0 Var Z = 1 −3 −2 −1 0 1 2 heißt standardnormalverteilt. 3 Die Normalverteilung Ist Z N (0, 1)-verteilt, so ist X = σ · Z + µ normalverteilt mit Mittelwert µ und Varianz σ 2 , kurz: X ∼ N (µ, σ 2 ) Die Normalverteilung Ist Z N (0, 1)-verteilt, so ist X = σ · Z + µ normalverteilt mit Mittelwert µ und Varianz σ 2 , kurz: X ∼ N (µ, σ 2 ) X hat dann die Dichte f (x) = √ 1 2πσ ·e − (x−µ)2 2σ 2 . Die Normalverteilung Merkregeln Ist Z ∼ N (µ, σ 2 ), so gilt: Pr(|Z − µ| > σ) < 31 Die Normalverteilung Merkregeln Ist Z ∼ N (µ, σ 2 ), so gilt: Pr(|Z − µ| > σ) < 31 Pr(|Z − µ| > 2 · σ) < 0.05 Die Normalverteilung Merkregeln Ist Z ∼ N (µ, σ 2 ), so gilt: Pr(|Z − µ| > σ) < 31 Pr(|Z − µ| > 2 · σ) < 0.05 Pr(|Z − µ| > 3 · σ) < 0.003 Die Normalverteilung 2πσ ·e − (x−µ)2 2σ 2 0.00 0.05 0.10 0.15 0.20 0.25 f (x) = √ 1 0 2 µ−σ 4 µ µ+σ 6 8 10 Die Normalverteilung Dichten brauchen Integrale 0.00 0.05 0.10 0.15 0.20 0.25 Sei Z eine Zufallsvariable mit Dichte f (x). 0 2 4 6 a Dann gilt Pr(Z ∈ [a, b]) = 8 b 10 Die Normalverteilung Dichten brauchen Integrale 0.00 0.05 0.10 0.15 0.20 0.25 Sei Z eine Zufallsvariable mit Dichte f (x). 0 2 4 6 8 a b Dann gilt Z Pr(Z ∈ [a, b]) = b f (x)dx. a 10 Die Normalverteilung Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Die Normalverteilung Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Berechnung von Pr(Z ∈ [3, 4]): Die Normalverteilung Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Berechnung von Pr(Z ∈ [3, 4]): Pr(Z ∈ [3, 4]) = Pr(Z < 4) − Pr(Z < 3) Die Normalverteilung Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Berechnung von Pr(Z ∈ [3, 4]): Pr(Z ∈ [3, 4]) = Pr(Z < 4) − Pr(Z < 3) > pnorm(4,mean=5,sd=1.5)-pnorm(3,mean=5,sd=1.5) Die Normalverteilung Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Berechnung von Pr(Z ∈ [3, 4]): Pr(Z ∈ [3, 4]) = Pr(Z < 4) − Pr(Z < 3) > pnorm(4,mean=5,sd=1.5)-pnorm(3,mean=5,sd=1.5) [1] 0.1612813 Die Normalverteilung Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? Die Normalverteilung Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0 Die Normalverteilung Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0 P Was wird dann aus EZ = a a · Pr(Z = a) ? Die Normalverteilung Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0 P Was wird dann aus EZ = a a · Pr(Z = a) ? Muss reformiert werden: Z ∞ x · f (x)dx EZ = −∞ Die Normalverteilung Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0 P Was wird dann aus EZ = a a · Pr(Z = a) ? Muss reformiert werden: Z ∞ x · f (x)dx EZ = −∞ Aber zum Glück kennen wir schon das Ergebnis EZ = µ. Die Normalverteilung Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Die Normalverteilung Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Ist X ∼ bin(n, p) und Z ∼ N (µ = , σ2 = Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b]) ), so gilt Die Normalverteilung Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Ist X ∼ bin(n, p) und Z ∼ N (µ = n · p, σ 2 = Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b]) ), so gilt Die Normalverteilung Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Ist X ∼ bin(n, p) und Z ∼ N (µ = n · p, σ 2 = n · p · (1 − p)), so gilt Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b]) Die Normalverteilung Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Ist X ∼ bin(n, p) und Z ∼ N (µ = n · p, σ 2 = n · p · (1 − p)), so gilt Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b]) (eine Faustregel: für den Hausgebrauch meist okay, wenn n · p · (1 − p) ≥ 9) Die Normalverteilung 0.025 n = 1000, p = 0.5, n · p · (1 − p) = 250 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.015 ● ● ● ● ● ● ● ● ● ● 0.005 0.010 ● 0.000 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 400 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 400:600 550 600 Die Normalverteilung 0.025 n = 1000, p = 0.5, n · p · (1 − p) = 250 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.015 ● ● ● ● ● ● ● ● ● ● 0.005 0.010 ● 0.000 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 400 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 400:600 550 600 Die Normalverteilung 0.30 n = 10, p = 0.2, n · p · (1 − p) = 1.6 ● 0.20 ● ● 0.05 0.10 0.15 ● ● 0.00 dbinom(0:10, 10, 0.2) 0.25 ● ● 0 2 4 6 0:10 ● ● 8 ● ● 10 Die Normalverteilung 0.30 n = 10, p = 0.2, n · p · (1 − p) = 1.6 ● 0.20 ● ● 0.05 0.10 0.15 ● ● 0.00 dbinom(0:10, 10, 0.2) 0.25 ● ● 0 2 4 6 0:10 ● ● 8 ● ● 10 Die Normalverteilung Theorem (Zentraler Grenzwertsatz) Die R-wertigen Zufallsgrößen X1 , X2 , . . . seien unabhängig identisch verteilt mit Erwartungswert EXi = µ und Varianz Var Xi = σ 2 , wobei −∞ < µ < ∞ und 0 < σ < ∞. Sei außerdem Yn := X1 +···+Xn n −µ √ . σ/ n Dann gilt für alle −∞ ≤ a < b ≤ ∞ lim Pr(a ≤ Yn ≤ b) → Pr(a ≤ Z ≤ d), n→∞ wobei Z eine standardnormalverteilte Zufallsvariable ist. Der z-Test Inhalt 1 Zufallsvariablen und Verteilung 2 Von der Unabhängigkeit zur Binomialverteilung 3 Erwartungswert 4 Varianz und Kovarianz 5 Die Normalverteilung 6 Der z-Test Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. d.h. X , die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und p = 0.5. Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. d.h. X , die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und p = 0.5. Normalapproximation: X ist ungefähr N (µ, σ 2 )-verteilt mit µ = n · p = 104001.5 Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. d.h. X , die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und p = 0.5. Normalapproximation: X ist ungefähr N (µ, σ 2 )-verteilt mit µ = n · p = 104001.5 ≈ 104000 und σ= p n · p · (1 − p) = 228.0367 Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. d.h. X , die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und p = 0.5. Normalapproximation: X ist ungefähr N (µ, σ 2 )-verteilt mit µ = n · p = 104001.5 ≈ 104000 und σ= p n · p · (1 − p) = 228.0367 ≈ 230 Der z-Test Frage: Ist es plausibel, dass eine Größe X , die den Wert k = 101844 angenommen hat, ungefähr N (104000, 2302 )-verteilt ist? k Der z-Test Frage: Ist es plausibel, dass eine Größe X , die den Wert k = 101844 angenommen hat, ungefähr N (104000, 2302 )-verteilt ist? k Wenn diese Nullhypothese H0 gilt, dann folgt Pr(X = 101844) = Der z-Test Frage: Ist es plausibel, dass eine Größe X , die den Wert k = 101844 angenommen hat, ungefähr N (104000, 2302 )-verteilt ist? k Wenn diese Nullhypothese H0 gilt, dann folgt Pr(X = 101844) = 0 Der z-Test Frage: Ist es plausibel, dass eine Größe X , die den Wert k = 101844 angenommen hat, ungefähr N (104000, 2302 )-verteilt ist? k Wenn diese Nullhypothese H0 gilt, dann folgt Pr(X = 101844) = 0 Aber das bedeutet nichts, denn Pr(X = k) = 0 gilt für jeden Wert k! Der z-Test Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt: k Der z-Test Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt: k Pr(|X −µ| ≥ |k −µ|) Der z-Test Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt: k Pr(|X −µ| ≥ |k −µ|) = Pr(|X −µ| ≥ 2156) Der z-Test Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt: k Pr(|X −µ| ≥ |k −µ|) = Pr(|X −µ| ≥ 2156) ≈ Pr(|X −µ| ≥ 9.37·σ) Der z-Test Wir wissen bereits: Pr (|X − µ| ≥ 3 · σ) < 0.003 Der z-Test Wir wissen bereits: Pr (|X − µ| ≥ 3 · σ) < 0.003 (siehe Merkregeln!) Der z-Test Wir wissen bereits: Pr (|X − µ| ≥ 3 · σ) < 0.003 (siehe Merkregeln!) Also muss Pr(|X − µ| ≥ 9.37 · σ) extrem klein sein. Der z-Test Wir wissen bereits: Pr (|X − µ| ≥ 3 · σ) < 0.003 (siehe Merkregeln!) Also muss Pr(|X − µ| ≥ 9.37 · σ) extrem klein sein. In der Tat: > 2 * pnorm(101844,mean=104000,sd=230) [1] 6.989218e-21 Der z-Test Wir wissen bereits: Pr (|X − µ| ≥ 3 · σ) < 0.003 (siehe Merkregeln!) Also muss Pr(|X − µ| ≥ 9.37 · σ) extrem klein sein. In der Tat: > 2 * pnorm(101844,mean=104000,sd=230) [1] 6.989218e-21 Ohne Normalapproximation: > pbinom(101844,size=208003,p=0.5) + + pbinom(106158.99,size=208003,p=0.5,lower.tail=FALSE) [1] 3.098994e-21 Der z-Test Wir können also argumentieren, dass eine derartig starke Abweichung vom Erwartungswerte nur durch einen extremen Zufall zu erklären ist. Wir werden also die Nullhypothese “alles nur Zufall” verwerfen und nach alternativen Erklärungen suchen, etwa unterschiedliche Effizienz von CCA und CCT oder unterschiedliche Verfügbarkeit von A und T. Der z-Test Zusammenfassung z-Test Nullhypothese H0 (möchte man meistens verwerfen): der beobachtete Wert x kommt aus einer Normalverteilung mit Mittelwert µ und bekannter Varianz σ 2 . Der z-Test Zusammenfassung z-Test Nullhypothese H0 (möchte man meistens verwerfen): der beobachtete Wert x kommt aus einer Normalverteilung mit Mittelwert µ und bekannter Varianz σ 2 . p-Wert =Pr(|X − µ| ≥ |x − µ|), wobei X ∼ N (µ, σ 2 ), also die Wahrscheinlichkeit einer mindestens so großen Abweichung wie der beobachteten. Der z-Test Zusammenfassung z-Test Nullhypothese H0 (möchte man meistens verwerfen): der beobachtete Wert x kommt aus einer Normalverteilung mit Mittelwert µ und bekannter Varianz σ 2 . p-Wert =Pr(|X − µ| ≥ |x − µ|), wobei X ∼ N (µ, σ 2 ), also die Wahrscheinlichkeit einer mindestens so großen Abweichung wie der beobachteten. Signifikanzniveau α : oft 0.05. Wenn der p-Wert kleiner ist als α, verwerfen wir die Nullhypothese und suchen nach einer alternativen Erklärung. Der z-Test Grenzen des z-Tests Der z-Test kann nur angewendet werden, wenn die Varianz der Normalverteilung bekannt ist oder zumindest in der Nullhypothese als bekannt angenommen wird. Der z-Test Grenzen des z-Tests Der z-Test kann nur angewendet werden, wenn die Varianz der Normalverteilung bekannt ist oder zumindest in der Nullhypothese als bekannt angenommen wird. Das ist meistens nicht der Fall, wenn die Normalverteilung beim statistischen Testen verwendet wird. Der z-Test Grenzen des z-Tests Der z-Test kann nur angewendet werden, wenn die Varianz der Normalverteilung bekannt ist oder zumindest in der Nullhypothese als bekannt angenommen wird. Das ist meistens nicht der Fall, wenn die Normalverteilung beim statistischen Testen verwendet wird. Meistens wird die Varianz aus den Daten geschätzt. Dann muss statt dem z-Test der berühmte t-Test angewendet werden.