FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Herzlich willkommen zur Vorlesung Zufallsvariablen und ihre Verteilung Teil B: Stetige Variablen 1 FB 1 W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen ... if the number of observations is large, the distribution of θ in repeated sampling tends to be, and for practical purposes is actually normal. Neyman, Jerzy: On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection, in: Journal of the Royal Statistical Society, Series A 97, 1934, S. 558-625, hier S. 566. 2 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Die Gaußsche Normalverteilung Verteilung einer stetigen (Zufalls-)Variablen. Ihre Dichteverteilung kann beschrieben werden durch die (nicht zu lernende!) Formel 1 f ( x | µ ,σ ) = e σ 2π ( x − µ )2 − 2σ 2 µ = Erwartungswert („Mittelwert“ einer Zufallsvariablen) σ² = Varianz π=3,14... e=2,72 (Basis des natürl. Log.) 3 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Die Normalverteilung • • • Stetige Zufallsvariable Symmetrisch (um µ), unimodal, glockenförmig Nähert sich asymptotisch der X-Achse 0.4 0.3 0.2 0.1 0.0 -4 -3 -2 -1 0 standnor 1 2 3 4 4 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Normalverteilung Je nach µ und σ kann die Normalverteilung unterschiedliche Lage und Form aufweisen. 5 FB 1 W. Ludwig-Mayerhofer Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression Statistik II – Zufallsvariablen Allgemein: Bestimmung von Wahrscheinlichkeiten bei stetigen Verteilungen • • Da die Normalverteilung stetig ist, hat ein ganz bestimmter Wert keine zuordenbare Wahrscheinlichkeit bzw. eine Wahrscheinlichkeit von Null. Es können nur Wahrscheinlichkeiten in einem Intervall über die Bestimmung des Integrals über dieses Intervall berechnet werden. 6 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Bestimmung von Wahrscheinlichkeiten bei stetigen Verteilungen Wahrscheinlichkeitsdichte b P(a ≤ X ≤ b) = ∫ f(x)dx a Verteilungsfunktion x F ( x) = P(−∞ ≤ X ≤ x) = ∫ f (u )du −∞ 7 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Allgemein: Erwartungswert und Varianz stetiger Zufallsvariablen In Analogie zu diskreten Variablen gilt: ∞ µx = ∫ x ⋅ f (x)dx −∞ ∞ σ 2x = 2 (x − µ ) ⋅ f (x)dx x ∫ −∞ 8 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Stichproben als Zufallsvariablen: Summen, Mittelwerte und deren Varianzen Erwartungswert der Summe von n Zufallsvariablen: Yn = n ⋅ µ X Erwartungswert des Stichprobenmittelwertes: 1 Yn = ⋅ (n ⋅ µ X ) = µ X n Varianz der Stichprobenmittelwerte: 2 σ (Yn ) = σ X2 n 9 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Bedeutung der Normalverteilung • • • Empirische Verteilung: Viele Merkmale sind normalverteilt (Körpergröße, Gewicht) oder werden so konstruiert, dass sie normalverteilt sind (Tests). Fehlerverteilung: Zufällige Messfehler folgen einer Normalverteilung. Grundlegende Verteilung für die Statistik: Bei großen Stichproben nähern sich andere Verteilungen der Normalverteilung an; gleichzeitig ist die Normalverteilung „Mutter“ einiger anderer Verteilungen. 10 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Standardnormalverteilung • Durch Standardisierung wird die Normalverteilung in die Standardnormalverteilung N (0;1) überführt. • Standardisierung (oder z-Transformation; kann mit jeder metrischen Variablen durchgeführt werden): Für Z gilt: Z= • X − µx µ=0 σ=1 σx Die Dichtefunktion vereinfacht sich so zu dem (nicht zu lernenden) Ausdruck φ ( x) = 1 e 2π ( x )2 − 2 11 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 12 Ca. zwei Drittel der Werte (genau: 68,26 %) liegen im Bereich -1 bis +1 Für die Standardnormalverteilung lassen sich besonders einfache Regeln formulieren 0.4 0.3 0.2 0.1 0.0 -4 -3 -2 -1 0 standnor 1 2 3 4 Ca. 95 % der Werte (genau: 95,45 %) liegen im Bereich -2 bis +2 Ca. 99,7 % der Werte (genau: 99,73 %) liegen im Bereich -3 bis +3 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 -4 -3 -2 -1 0 standnor 1 2 3 4 -4 -3 -2 -1 0 standnor 1 2 3 4 FB 1 W. Ludwig-Mayerhofer Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression Statistik II – Zufallsvariablen 13 Verteilungsfunktion der StandardStandardnormalverteilung (Auszüge) z Quantil z Quantil -2,576 0,005 0,675 0,75 -2,325 0,01 1,282 0,90 -1,96 0,025 1,645 0,95 -1,645 0,05 1,96 0,975 -1,282 0,10 2,325 0,99 -0,675 0,25 2,576 0,995 0 0,5 Zwischen −∞ und –1,96 liegen 2,5 % aller Werte Zwischen −∞ und 1,282 liegen 90 % aller Werte Zwischen –1,282 und 1,96 liegen 0,875 aller Werte 95 % aller Werte symmetrisch um 0 liegen zwischen -1,96 und +1,96 FB 1 W. Ludwig-Mayerhofer Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression Statistik II – Zufallsvariablen Verallgemeinerung für Normalverteilung • • • Ca. 68 % der Werte liegen in einem Bereich von +/- 1 σ um den Mittelwert. Gut 95 % der Werte liegen in einem Bereich von +/- 2 σ um den Mittelwert. 99,7 % der Werte liegen in einem Bereich von +/3 σ um den Mittelwert. 14 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen W. Ludwig-Mayerhofer Zentraler Grenzwertsatz • Die Verteilung der standardisierten Summe von n unabhängigen Zufallsvariablen, die alle die identische Wahrscheinlichkeitsverteilung haben, nähert sich mit steigender Stichprobengröße der Standardnormalverteilung an. Daraus folgt u.a., dass Mittelwerte und Anteilswerte aus Zufallsstichproben bei „hinreichend großem“ n einer Normalverteilung folgen – auch wenn das Merkmal selbst in der Grundgesamtheit nicht normalverteilt ist. • „Hinreichend groß“ variiert je nach Umständen (Art es zugrunde liegenden Merkmals), mindestens gilt n ≥ 30. Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression Statistik II – Zufallsvariablen 15 12 10 8 10 6 4 Prozent Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression 16 14 20 0 2 3 4 5 6 7 8 9 10 11 2 0 3 12 6 9 12 15 18 Summe drei Würfe Summe zwei Würfe 12 10 10 8 8 6 6 4 4 2 2 Prozent Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Statistik II – Zufallsvariablen Zentraler Grenzwertsatz: Beispiel Summe der Augen beim Würfeln Prozent Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen W. Ludwig-Mayerhofer Prozent FB 1 0 4 6 8 10 12 Summe vier Würfe 14 16 18 20 22 24 0 6 9 12 15 18 Summe sechs Würfe 21 24 27 30 33 36 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Weitere Verteilungen I: χ² χ²--Verteilung Verteilung einer Summe quadrierter standardnormalverteilter Zufallsvariablen Z: χ df2 = n = Z12 + Z 22 + ... + Z n2 mit df=Zahl der Freiheitsgrade (degrees of freedom), d.h. Zahl der (von einander unabhängigen) Variablen Z. Wichtige Anwendungsfälle: Analyse von Kreuztabellen; Likelihood-Ratio-Test in der Maximum-LikelihoodSchätzung 17 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Anlässlich χ² χ²-- und weiterer VerVerteilungen:: Was sind Freiheitsgrade? teilungen „Freiheitsgrade“ bezieht sich auf die Zahl der Größen, die frei, d.h. nicht durch andere Größen festgelegt sind. Beispiele: • Arithmetisches Mittel und Varianz: Liegt bspw. das ar. Mittel fest und stehen n-1 Datenwerte fest, so ist der n.te Datenwert nicht mehr frei n-1 Freiheitsgrade • Vierfelder-Kreuztabelle: Sind die Randverteilungen und der Wert einer Zelle der Tabelle bekannt, so sind die übrigen drei Werte nicht mehr frei 1 Freiheitsgrad • Allgemein hat eine Kreuztabelle mit m Zeilen und k Spalten (m-1) * (k-1) Freiheitsgrade 18 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Weitere Verteilungen II: T-Verteilung Kann statt SNV herangezogen werden, wenn ein Merkmal in der Grundgesamtheit normalverteilt und die Varianz der Grundgesamtheit unbekannt ist. T= Z χ2 df Welche Form hat eine t-verteilte Zufallsvariable? Was ist der Mittelwert einer t-verteilten Variable, was ist Minimum und Maximum? Geht bei größerem Stichprobenumfang in SNV über. Wichtige Anwendungsfälle: Konfidenzintervall für Mittelwert bei kleinen Stichproben; Vergleich von Mittelwerten; Signifikanztest von Koeffizienten im linearen Regressionsmodell. 19 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Weitere Verteilungen III: F-Verteilung Entsteht aus zwei von einander unabhängigen chiquadrat-verteilten Zufallsvariablen: χ12 / df1 F= 2 χ 2 / df 2 Im Zähler und im Nenner taucht jeweils ein Freiheitsgrad auf. Es gibt also einen „ersten“ und einen „zweiten“ Freiheitsgrad. Wichtiger Anwendungsfall: Varianzanalyse (Vergleich von Gruppenmittelwerten, Test des Gesamtmodells im linearen Regressionsmodell) 20