Von der Normalverteilung zu z-Werten und Konfidenzintervallen Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected] Statistik 1 S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 1 / 50 Agenda Die Normalverteilung Zentrales Grenzwerttheorem z-Werte Konfidenzintervalle S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 2 / 50 Die Normalverteilung Outline Die Normalverteilung Von der Binomialverteilung zur Normalverteilung Verschiedene Normalverteilungen Bedeutung der Normalverteilung Dichte Standardnormalverteilung Flächenanteile der Standardnormalverteilung Verteilungsfunktion Quantilsfunktion S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 3 / 50 Die Normalverteilung Von der Binomialverteilung zur Normalverteilung Von der Binomialverteilung zur Normalverteilung 0.10 0.00 0.05 Wahrscheinlichkeit [0, 1] 0.15 0.20 p = 0.5 0 5 10 15 20 • Eine Binomialverteilung: • Jetzt stellen wir uns die Binomialverteilung mit folgenden Änderungen k vor: • Sehr vielen k, oder besser: k 7→ ∞. • Wir haben keine diskreten Stufen mehr, sondern stetige, dass heisst zwischen zwei Zahlen liegen unendlich viele weitere Zahlen, k ∈ R+ . • Dann wird aus den Stufen“ eine Linie. ” S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 4 / 50 Die Normalverteilung Von der Binomialverteilung zur Normalverteilung Von der Binomial- zur Normalverteilung 0.06 0.05 Dichte 0.04 0.03 0.10 0.01 0.00 0.02 0.05 Wahrscheinlichkeit [0, 1] 0.15 0.07 0.20 0.08 p = 0.5 5 10 15 20 k S. Garbade (SRH Heidelberg) 0 5 10 15 20 k Normalverteilung Statistik 1 5 / 50 Die Normalverteilung Von der Binomialverteilung zur Normalverteilung Eigenschaften der Normalverteilung • Wir erhalten eine glockenförmige, symmetrische, unimodale (eingipflige) Verteilung. • Nähert sich links und rechts asymptotisch der x-Achse. • Unterscheiden sich bezüglich ihres Mittelwertes und ihrer Standardabweichung. • Diese Verteilung wurde vom deutschen Mathematiker Carl Friedrich Gauß 1809 beschrieben. Sie heißt daher auch Gauß-Verteilung. Vorläufer sind Arbeiten zum Binomialkoeffizienten von Abraham de Moivre (1733) und Pierre-Simon Laplace (1782). S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 6 / 50 Die Normalverteilung Verschiedene Normalverteilungen Verschiedene Normalverteilungen 1.00 µ = 16; σ = 0.5 Dichte 0.75 0.50 0.25 µ = 15; σ = 1.2 0 13 S. Garbade (SRH Heidelberg) 14 15 16 17 Werte der Variablen Normalverteilung Statistik 1 7 / 50 Die Normalverteilung Bedeutung der Normalverteilung Bedeutung der Normalverteilung • Sehr bedeutsame Verteilung für die Statistik. • Für kontinuierliche Variablen. • Bei unendlichem n (z. B. unendlichem Münzwurf) geht die Binomial– in die Normalverteilung über. • Viele Merkmale sind in der Bevölkerung/Population normalverteilt (Bsp. IQ), oder können ausreichend gut durch eine Normalverteilung beschrieben werden. • Konvention: Populationsparameter wie Mittelwert und Standardabweichung werden mit griechischen Buchstaben bezeichnet: µ (sprich: mü) und σ (sprich: sigma). S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 8 / 50 Die Normalverteilung Dichte Dichte • Im Gegensatz zu diskreten Variablen können Wahrscheinlichkeiten für stetige Variablen nicht direkt berechnet werden. • Grund hierfür ist der Wertebereich: zwischen zwei reellen Zahlen liegen unendlich viele andere reelle Zahlen. • Beispiel: Zwei Menschen sind nicht exakt gleich groß. • Da der Ereignisraum unendlich groß ist, liegt die Wahrscheinlichkeit für ein Ereignis nahe bei Null. • Die Wahrscheinlichkeit einer stetigen Zufallsvariable wird daher darüber bestimmt, wie wahrscheinlich es ist, dass diese Zahl in ein bestimmtes Intervall fällt. • Dazu muss zunächst die Häufigkeitsverteilung der Variablen bestimmt werden: Diese nennt man Dichte bzw. Dichtefunktion. • Die Fläche unter einer Dichteverteilung ist 1, bzw. 100%. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 9 / 50 Die Normalverteilung Dichte Dichte (Forts. 2) • Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable mit bekannter Verteilung in ein bestimmtes Intervall fällt, ist der Flächenanteil, der unterhalb der Dichteverteilung liegt. • Flächenanteil unterhalb der Dichte ist gleich der Wahrscheinlichkeit, dass eine Zufallsvariable dieser Verteilung in diesem Intervall liegt. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 10 / 50 Die Normalverteilung Dichte Dichtefunktion der Normalverteilung Dichtefunktion der Normalverteilung Die Dichtefunktion der Normalverteilung ist definiert über: [ ] 1 (x − µ)2 f(x) = √ exp − mit: −∞ < x < ∞ 2σ 2 σ 2π wobei: f(x) µ σ π exp (1) Dichte an der Stelle x Populationsmittelwert Standardabweichung der Population 3.14159265. . . Exponentialfunktion ex mit e = 2.718282 . . . S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 11 / 50 Die Normalverteilung Dichte Rechenbeispiel Dichte • Für die normalverteilte Variable x = 14 ∼ N (µ = 15, σ = 1.2) soll die Dichte berechnet werden. • Einsetzen: ] [ 1 (x − µ)2 f(x) = √ exp − 2σ 2 σ 2π [ ] 1 (14 − 15)2 √ exp − = 2 · 1.22 1.2 · 2π ( ) 1 = 0.33 · exp − 2.88 = 0.33 · 0.71 = 0.23 S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 12 / 50 Die Normalverteilung Standardnormalverteilung Standardnormalverteilung Standardnormalverteilung Setzt man für µ = 0 und σ = 1 vereinfacht sich die Dichte der Normalverteilung zu: [ ] 1 (x − 0)2 √ exp − φ(x) = 2 · 12 1 · 2π [ 2] 1 x = √ exp − 2 2π (2) Diese Dichtefunktion nennt man Standardnormalverteilung. Jede normalverteilte Variable N (µ, σ) kann in die Standardnormalverteilung N (µ = 0, σ = 1) überführt werden. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 13 / 50 Die Normalverteilung Standardnormalverteilung Standardnormalverteilung µ = 0; σ = 1 Dichte -3σ -2σ S. Garbade (SRH Heidelberg) -1σ 0 Normalverteilung 1σ 2σ 3σ z-Werte Statistik 1 14 / 50 Die Normalverteilung Standardnormalverteilung Standardnormalverteilung µ = 0; σ = 1 Dichte ≈68.26% der Fläche -3σ -2σ -1σ ∫1 −1 S. Garbade (SRH Heidelberg) 0 √1 2π 1σ [ 2] exp − x2 dx Normalverteilung 2σ 3σ z-Werte Statistik 1 14 / 50 Die Normalverteilung Standardnormalverteilung Standardnormalverteilung µ = 0; σ = 1 Dichte ≈95.44% der Fläche -3σ -2σ -1σ ∫2 −2 S. Garbade (SRH Heidelberg) 0 √1 2π 1σ [ 2] exp − x2 dx Normalverteilung 2σ 3σ z-Werte Statistik 1 14 / 50 Die Normalverteilung Flächenanteile der Standardnormalverteilung Flächenanteile • Da die Berechnung der Flächenanteile der Dichte verschiedener Verteilungen und damit der Wahrscheinlichkeiten für stetige Variablen i. d. R. sehr aufwendig ist, existieren für viele Verteilungen entsprechende Tabellen. • Heuzutage können diese Flächenanteile auch mit Statistik- oder Tabellenkalkulationsprogrogrammen einfach bestimmt werden. • Typischerweise sind die Flächen links vom Wert der Variablen tabelliert. • Die Flächenanteile der Standardnormalverteilung sind tabelliert. Alle anderen normalverteilten Variablen müssen zunächst standardisiert werden, um die tabellierten Werte zu nutzen. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 15 / 50 Die Normalverteilung Flächenanteile der Standardnormalverteilung Flächenanteile der Standardnormalverteilung Angegeben sind die Flächenanteile links vom z-Wert: z -3 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.326 -2.3 -2.2 -2.1 -2 -1.96 -1.9 Fläche 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0100 0.0107 0.0139 0.0179 0.0228 0.0250 0.0287 z -1.8 -1.7 -1.645 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1 -0.9 -0.8 -0.7 -0.6 S. Garbade (SRH Heidelberg) Fläche 0.0359 0.0446 0.0500 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2749 z -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Fläche 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 Normalverteilung z 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.645 1.7 1.8 1.9 Fläche 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9500 0.9554 0.9641 0.9713 z 1.96 2 2.1 2.2 2.3 2.326 2.4 2.5 2.6 2.7 2.8 2.9 3 Fläche 0.9750 0.9772 0.9821 0.9861 0.9893 0.9900 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 Statistik 1 16 / 50 Die Normalverteilung Flächenanteile der Standardnormalverteilung Bestimmung des Flächenanteils µ ± 1σ • Wieviel Prozent der Messwerte der Standardnormalverteilung liegen im Bereich von ± einer Standardabweichung um den Mittelwert? • Die Tabelle liefert für: • F(z = 1) = 0.8413 • F(z = −1) = 0.1587 • Damit ist die Fläche im Bereich µ ± 1σ: 0.8413 − 0.1587 ≈ 0.6826. • Dies entspricht 68.26% der Fläche (unter Berücksichtigung der Rundungsungenauigkeiten). • Da die Fläche unterhalb der Dichte als Wahrscheinlichkeit interpretiert werden kann, gilt äquivalent: p(−1 < z < 1) = 0.6826. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 17 / 50 Die Normalverteilung Flächenanteile der Standardnormalverteilung Flächenanteile der Normalverteilung • Für alle Normalverteilungen gilt: • ± eine Standardabweichung um den Mittelwert liegen ≈68.24% aller Werte. • ± zwei Standardabweichungen um den Mittelwert liegen ≈95.44% aller Werte. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 18 / 50 Die Normalverteilung Verteilungsfunktion Verteilungsfunktion • Das Integral über die Dichtefunktion nennt man Verteilungsfunktion. Im englischen wird die Verteilungsfunktion als probability function (Wahrscheinlichkeitsfunktion) bezeichnet. • Im diskreten Fall entspricht dies der Aufsummation. • Die Verteilungsfunktion gibt an, wie wahrscheinlich es ist, dass eine Zufallsvariable kleiner oder gleich einem gegebenen Wert ist. • Die rechnerische Bestimmung ist i. d. R. sehr aufwendig. Alle Statistikprogramme und einige Tabellenkalkulationsprogramme bieten aber entsprechende Funktionen zur Berechnung der Verteilungsfunktion vieler wichtiger Wahrscheinlichkeitsfunktionen an. • Viele in der Statistik wichtige Funktionen sind in Tabellenwerken wiedergegeben. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 19 / 50 Die Normalverteilung Verteilungsfunktion Verteilungsfunktion bei N (µ = 0, σ = 1) Wahrscheinlichkeit [0,1] 1.0 0.75 0.5 0.25 0.0 -3 S. Garbade (SRH Heidelberg) -2 -1 0 1 z-Werte Normalverteilung 2 3 Statistik 1 20 / 50 Die Normalverteilung Verteilungsfunktion Verteilungsfunktion bei N (µ = 15, σ = 1.2) Wahrscheinlichkeit [0,1] 1.00 0.75 0.50 0.25 0 13 S. Garbade (SRH Heidelberg) 14 15 16 17 Werte der Variablen Normalverteilung 18 Statistik 1 21 / 50 Die Normalverteilung Quantilsfunktion Quantilsfunktion • In der Statistik ist auch oft von Interesse, welche Wahrscheinlichkeit einem bestimmen Wert entspricht. • Dies ist das Inverse der Verteilungsfunktion und wird als Quantilsfunktion bezeichnet. • Die Quantilsfunktion liefert also zu einem bestimmten Wahrscheinlichkeitswert (zwischen [0,1] bzw. 0 und 100%) den entsprechenden Wert der Variablen aus der Verteilung. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 22 / 50 Die Normalverteilung Quantilsfunktion Quantilsfunktion bei N (µ = 15, σ = 1.2) 16 15 14 12 13 Werte der Variablen 17 18 Quantilsfunktion bei µ = 15 und σ = 1.2 0.0 0.2 0.4 0.6 0.8 1.0 Wahrscheinlichkeit [0,1] S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 23 / 50 Zentrales Grenzwerttheorem Outline Zentrales Grenzwerttheorem Nicht-normalverteilte Population Simulation Zentrales Grenzwerttheorem S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 24 / 50 Zentrales Grenzwerttheorem Nicht-normalverteilte Population Nicht-normalverteilte Population • Ein Merkmal y im Wertebereich 10 bis 60 ist gleichverteilt. • Die Größe der Population beträgt N = 100000. • Mittelwert: µ = 35.02876. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 25 / 50 Zentrales Grenzwerttheorem Nicht-normalverteilte Population Histogramm 2000 0 1000 Frequency 3000 4000 Histogram of y 10 20 30 40 50 60 y S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 26 / 50 Zentrales Grenzwerttheorem Simulation Simulation • Nun ziehen wir m Zufallsstichproben der Größe n aus der Population und berechnen deren Mittelwert. • Beispiel: Es werden 1000 Zufallsstichproben der Größe 15 gezogen. Damit m = 1000, n = 15. Wir haben damit 1000 Mittelwerte, die aus jeweils 15 zufälligen Einheiten der Population berechnet wurden. • Aus diesen 1000 Mittelwerten wird wiederum der Mittelwert berechnet. • Wie sieht die Verteilung der Mittelwerte aus? Was passiert? S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 27 / 50 Zentrales Grenzwerttheorem Simulation Mittelwertsverteilungen bei µ = 35.02876 m = 1000, n = 8 Mittelwert = 35.2042 300 200 Frequency 0 20 30 40 50 60 20 30 40 50 Mittelwert m = 1000, n = 15 Mittelwert = 34.93 m = 1000, n = 40 Mittelwert = 35.0506 Frequency 50 0 50 100 0 100 200 Mittelwert 200 10 Frequency 100 150 0 50 Frequency 250 m = 1000, n = 4 Mittelwert = 34.9755 20 25 30 35 40 45 Mittelwert S. Garbade (SRH Heidelberg) 30 32 34 36 38 40 42 Mittelwert Normalverteilung Statistik 1 28 / 50 Zentrales Grenzwerttheorem Zentrales Grenzwerttheorem Zentrales Grenzwerttheorem Zentrales Grenzwerttheorem Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung über. Zitat aus Bortz und Schuster (2010, S. 86). S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 29 / 50 Zentrales Grenzwerttheorem Zentrales Grenzwerttheorem Standardfehler des Mittels • Aus der Mittelwertsverteilung kann die Standardabweichung s berechnet werden. • Man kann zeigen, dass die Varianz der Mittelwertsverteilung n mal kleiner ist als die Populationsvarianz. Standarddfehler des Mittels Allgemein kann die Varianz und Streuung der Mittelwertsverteilung berechnet werden über s2 n s Standardabweichung: σ̂x̄ = √ n Varianz: σ̂x̄2 = (3) (4) Die Standardabweichung der Mittelwertsverteilung wird als Standardfehler des Mittels bezeichnet. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 30 / 50 z-Werte Outline z-Werte Was sind z-Werte? Berechnung von z-Werten Anwendungsbeispiele Hinweise zur Interpretation S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 31 / 50 z-Werte Was sind z-Werte? Was sind z-Werte? • International gültige Standardeinheit. • z-Werte sind am Mittelwert und Streuung standardisiert: Sie haben einen Mittelwert von 0 und eine Streuung von 1. • Auch viele BMI und Größentabellen basieren auf z-Werten, werden hier aber als SD-Scores bzw. Standard Deviation Scores bezeichnet. • Vorteil: Werte sind unabhängig vom Mittelwert und der Standardabweichung, sind also standardisiert und somit auch zwischen verschiedenen Kohorten vergleichbar. • Zur Berechnung von Prozenträngen kann bei normalverteilten Variablen die Tabelle mit den z-Werten herangezogen werden. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 32 / 50 z-Werte Berechnung von z-Werten Berechnung von z-Werten Berechnung von z-Werten zi = xi − x s (5) mit: xi i-ter Messwert x Mittelwert aller xi s Standardabweichung von x z-transformierte Variablen haben einen Mittelwert von 0 und eine Standardabweichung von 1. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 33 / 50 z-Werte Berechnung von z-Werten Beispiel • Folgende Messwerte: 4, 7, 5, 9, 5, 9, 5, 9, 6, 3. • Kennwerte: • Mittelwert: 6.2 • s = 2.2 • z-Transformation: z1 = (4 − 6.2)/2.2, z2 = (7 − 6.2)/2.2, . . . • z-Werte: −1, 0.36, −0.55, 1.27, −0.55, 1.27, −0.55, 1.27, −0.09, −1.45. • → man kann somit sofort erkennen, ob ein Messwert über oder unter dem Mittelwert liegt, und wie wieviele Einheiten in Standardabweichungen er von diesem entfernt ist. • Kennwerte der z-Werte: • Mittelwert = 0.00 • s = 0.99 S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 34 / 50 z-Werte Anwendungsbeispiele Beispiel Normalverteilung Wie wahrscheinlich ist es, bei einer normalverteilten Zufallsvariable N (µ = 15, σ = 1.2) eine Zahl von bis zu 14 zu erhalten? F(x) = ∫ 14 1√ −∞ 1.2· 2π [ ] 2 exp − (x−15) dx 2·1.22 0.25 µ = 15; σ = 1.2 0 13 14 15 16 17 Werte der Variablen S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 35 / 50 z-Werte Anwendungsbeispiele Berechnung Ein Merkmal ist normalverteilt mit µ = 15, σ = 1.2. Wie wahrscheinlich ist es, einen Wert von bis zu 14 Punkten zu erreichen? 1 Berechne z-Wert: z = 2 Tabellenauszug: z -0.9 -0.8 -0.7 x−x s = Fläche 0.1841 0.2119 0.2420 −1 1.2 14−15 1.2 = z 0.5 0.6 0.7 Fläche 0.6915 0.7257 0.7580 = −0.833 z 1.7 1.8 1.9 Fläche 0.9554 0.9641 0.9713 3 Unsere Tabelle liefert für einen z-Wert von -0.8 ein Flächenanteil von ≈ 0.2119. 4 Damit erreichen etwa 21% aller Personen einen Wert von höchstens 14, etwa 79% haben einen höheren Wert. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 36 / 50 z-Werte Anwendungsbeispiele Vergleich zwischen unterschiedlichen Kohorten • Zwei Schüler haben folgende Noten: • Schüler A: Note 1.7, mit Klassendurchschnitt 1.9, s = 1.1 • Schüler B: Note 1.9, mit Klassendurchschnitt 2.1, s = 0.8 • Welcher Schüler ist, gemessen an seinem Kollektiv, besser? • Berechnung der z-Werte: • Schüler A: 1.7−1.9 = −0.18 1.1 • Schüler B: 1.9−2.1 0.8 = −0.25 • Damit liegt Schüler B 0.25 Noten unter dem Klassendurchschnitt, Schüler A liegt 0.18 Noten unter dem Klassendurchschnitt. Schüler B hat, gemessen an der Klassenleistung, damit die bessere Durchschnittsnote. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 37 / 50 z-Werte Hinweise zur Interpretation Hinweise zur Interpretation • z-Werte können bei jeder Variablen immer berechnet werden. • Oft wird dann auch von standardisierter Variable gesprochen. • Die Flächenanteile anhand der Standardnormalverteilung können aber nur sinnvoll interpretiert werden, wenn das Merkmal tatsächlich normalverteilt ist. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 38 / 50 Konfidenzintervalle Outline Konfidenzintervalle Vertrauensbereich Konfidenzintervalle für Mittelwerte S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 39 / 50 Konfidenzintervalle Vertrauensbereich Stichprobe und Population • Wenn eine Messung durchgeführt wird, möchte man i. d. R. wissen, wie die Verhältnisse in der Population sind. • Meistens kann man aber nicht die ganze Population messen, sondern nur eine Stichprobe. • Beispiel: • Wir möchten wissen, wie intelligent die Studierenden der SRH Heidelberg sind. • Dazu erheben wir von 112 Studierenden mit dem IST 2000 den Intelligenzquotienten. • Die SRH hat aber knapp 2600 Studierende, es haben also nicht alle Studierenden an unserer Studie mitgemacht. • Der mittlere IQ berechnet aus den 112 Teilnehmern ist also nur eine Schätzung für den IQ aller 2600 SRH Studierenden. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 40 / 50 Konfidenzintervalle Vertrauensbereich Vertrauensbereich • Parameter wie der Mittelwert sind Schätzungen von unbekannten Populationsparametern. • Diese Schätzung ist mit einer gewissen Ungewissheit verbunden: Wir kennen den wahren Populationsparameter nicht, haben aber eine Schätzung für diesen. • Ein Vertrauensbereich oder Konfidenzintervall ist ein Bereich um einen Parameter, in dem man mit einer gewissen Wahrscheinlichkeit den wahren Populationsparameter vermutet. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 41 / 50 Konfidenzintervalle Vertrauensbereich Herleitung • Für die Berechnung eines Konfidenzintervalle gibt es verschiedene Verfahren. • Typischerweise macht man eine Annahme über die Verteilung des gemessenen Merkmals. • Dies ermöglicht es, wie im vorangegangenen Abschnitt gezeigt, eine Wahrscheinlichkeit für das Auftreten eines Parameters in bestimmten Grenzen zu berechnen. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 42 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte 95% der Standardnormalverteilung • Wir suchen den Bereich, der 95% der Fläche um den Mittelwert der Standardnormalverteilung umfasst. • Der Wert 1.96 schneidet 97.5% der Standardnormalverteilung ab. • Der Wert -1.96 schneidet 2.5% der Verteilung ab. • Dazwischen liegen also 95%. • Man spricht von einem (1 − α) Konfidenzintervall, bei einem 95% KI ist α = 0.05 bzw. 5%. • Allgemein: Zwischen zwei Perzentile −z1−α/2 und zα/2 befindet sich die Fläche (1 − α). • Äquivalent ist folgende Schreibweise: Zwischen zα/2 und z1−α/2 befindet sich die Fläche (1 − α). S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 43 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte 95% der Standardnormalverteilung Dichte 95% der Fläche 2.5% der Fläche -3σ -2σ S. Garbade (SRH Heidelberg) 2.5% der Fläche -1σ 0 Normalverteilung 1σ 2σ 3σ z-Werte Statistik 1 44 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Herleitung • Die Stichprobenverteilung des arithmetischen Mittel hat den Erwartungswert µ und Streuung σx̄ . • Wenn diese in die Standardnormalverteilung überführt werden soll, lautet die z-Transformation: z= x̄ − µ σx̄ • Die Wahrscheinlichkeit, dass dieser z-Wert größer als das z−α/2 und kleiner als z1−α/2 ist lautet: P(z−α/2 ≤ z ≤ z1−α/2 ) = 1 − α • Durch einsetzen ergibt sich: P(z−α/2 ≤ S. Garbade (SRH Heidelberg) x̄ − µ ≤ z1−α/2 ) = 1 − α σx̄ Normalverteilung Statistik 1 45 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Herleitung (Forts. 2) • Dies kann umgeformt werden zu: P(x̄ − z−α/2 · σx̄ ≤ µ ≤ x̄ + z1−α/2 · σx̄ ) = 1 − α Komfidenzintervall für Mittelwert Damit liegt der Parameter µ mit einer Wahrscheinlichkeit (1 − α) in folgenden Grenzen: untere Grenze = x̄ − z−α/2 · σx̄ obere Grenze = x̄ + z1−α/2 · σx̄ (6) • Eine ähnliche Herleitung finden Sie im Bortz und Schuster (2010, S. 93f) S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 46 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Anwendungsbeispiel • Die durchschnittliche Arbeitsmotivation in einer Firma wurde mit dem Wert 34 (eher durchschnittlich) und Streuung 5.3 mit Stichprobengröße N = 66 ermittelt. • Wie groß ist das 95% Konfidenzintervall für den Mittelwert? • Berechnung: • Da das KI 95% sein soll, ist α = 0.05. • Damit ist z1−α/2 = 1.96. • Es gilt σx̄ = √sn . • Obere Grenze: 34 + 1.96 · • Untere Grenze: 34 − 1.96 5.3 √ = 35.28 66 5.3 · √66 = 32.72 • Schlusssatz: Mit einer Wahrscheinlichkeit von 95% liegt die wahre Arbeitsmotivation im Bereich 32.72 bis 35.28. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 47 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Hinweise zur Interpretation • Durch Konfidenzintervalle kann abgeschätzt werden, in welchem Intervall ein wahrer Populationsparameter, z. B. µ liegt. • Konfidenzintervalle werden auch sehr oft in der Diagnostik eingesetzt, um abzuschätzen, ob sich Werte zwischen Testteilnehmern bedeutsam unterscheiden, oder über die Zeit bedeutsam verändert haben. • Überschneiden sich beispielsweise die Konfidenzintervalle zweier Mittelwerte nicht, so kann man davon ausgehen, dass die beiden Mittelwerte unterschiedlichen Populationen entstammen, sich daher unterscheiden. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 48 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Mitarbeitermotivation in zwei Firmen • 95% KI Firma A: 34 ± 1.96 · • 95% KI Firma B: 39 ± 1.96 · 5.3 √ 66 6.4 √ 82 := [32.72, 35.28] := [37.61, 40.38] Testwert 40 35 rs Firma A ut Firma B 30 S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 49 / 50 Konfidenzintervalle Konfidenzintervalle für Mittelwerte Literaturverzeichnis Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Berlin: Springer. S. Garbade (SRH Heidelberg) Normalverteilung Statistik 1 50 / 50