5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Die Normalverteilung Was ist die Normalverteilung? Die Normalverteilung (normal distribution) ist eine stetige Verteilung mit der Dichte (x) = Error! Error! Die Parameter dieser Verteilung sind der Mittelwert µ und die Streuung . Wie sieht der Graph der Dichte der Normalverteilung aus? Die Dichtefunktion hat die Form einer Glocke und heißt daher üblicherweise Gaußsche Glockenkurve. (in der Grafik ist µ = 5 und = 2) Sie hat keine Nullstellen, jedoch streben die Funktionswerte sehr rasch gegen 0, wenn x gegen + oder – strebt. Im Abstand von 3 zum Mittelwert sind die Funktionswerte nur mehr ca. 1 % e–9/2 des Maximums. Die Wendepunkte liegen im Abstand vom Mittelwert und sind e–1/2 = 0,606 mal so hoch wie das Maximum. Das Maximum ist bei E Error! Warum heißt diese Verteilung „normal“? Die Normalverteilung tritt überall dort auf, wo ein „Normalwert“ durch zufällige Abweichungen gestört wird. © Mag. Wolfgang Streit Seite 1 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Wie ist der Zusammenhang zwischen der Binomial- und der Normalverteilung? 0,06 Die Dichte der Normalverteilung entsteht aus der Dichte der Binomialverteilung durch folgenden Grenzübergang: n 0,05 0,04 0,03 0,02 np µ n p (1 –p ) 0,01 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 In der Grafik rechts ist die Dichte der Binomialverteilung mit n = 256 und p = 0,5 dargestellt. Sie entspricht schon relativ genau der Normalverteilung mit µ = 128 und = 8 Wofür kann man die Dichte der Normalverteilung benutzen? Wie bei jeder stetigen Verteilung sind die Werte der Dichte eigentlich nicht als Wahrscheinlichkeiten interpretierbar. Allerdings kann man (x) als Näherung für b(k) benutzen. sollte größer gleich 3 sein, d.h. n p (1 – p) 9 Beispiel 1: Berechnen Sie für n = 20, p = 0,4 den Wert b(8) und (8). Darf man das? Wie groß ist der relative Fehler? © Mag. Wolfgang Streit Seite 2 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Was heißt Standardisierung? Standardisierung ist die Durchführung folgender Koordinatentransformation: z = Error! z gibt die Abweichung des x-Wertes zum Mittelwert in der Einheit Streuung an. z = –2 heißt also, dass der x-Wert zwei Streuungen kleiner als der Mittelwert ist. Der Mittelwert der standardisierten NVT ist also µ = 0 und die Streuung = 1. Man spricht daher auch von einer 0-1-Verteilung. Die Formel vereinfacht sich auf: 0,1(z) = Error! Error! Was ist die Verteilungsfunktion? Ihre Verteilungsfunktion ist das Integral über die Dichte und nicht analytisch darstellbar (es gibt keine Gleichung) (x;m;s) = Error! Für die standardisierte Form gibt es Tabellen für (z). Wie kann ich Wahrscheinlichkeiten ausrechnen? Wie bei jeder stetigen Verteilung ist W([a,b]) = (b) – (a) = Error! Was ist die geometrische Interpretation für Wahrscheinlichkeiten? Da Wahrscheinlichkeiten Integrale über der Dichtefunktion sind, ist das geometrisch die Fläche zwischen a und b unterhalb der Dichtefunktion. 0,14 0,12 0,1 0,08 0,06 0,04 © Mag. Wolfgang Streit Seite 3 von 16 0,02 0 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Wie stellt man (x) in Excel bzw. Derive dar: Excel: (x) = normvert(x; µ; ; 0) (x) = normvert(x;µ;,1) Umkehrfunktion –1(W) = norminv(W;µ; ) Derive: Laden der Zusatzfunktion PROBABIL ist nicht erforderlich m,s(x) = normal(x,m,s) normal(x) interpretiert DERIVE als normal(x,0,1). Umkehrung muss als Gleichung gelöst werden. Beispiel 2: Die Füllmenge von Waschmittelpackungen ist normalverteilt mit µ = 2.500 g 10 %. Wie groß ist die Wahrscheinlichkeit, dass eine Packung leichter als 2.200 g ist eine Packung schwerer als 2.600 g ist eine Packung zwischen 2.300 und 2.700 g ist Wie ermittelt man ein symmetrisches Intervall um den Mittelwert? W( [µ – d ] / µ + d ) = (µ + d ) – (µ – d ) oder bei Verwendung der standardisierten NVT: © Mag. Wolfgang Streit Seite 4 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 W( [ –d / d ] ) = (d ) – (– d ) = = 2 (d) – 1 Beispiel 3: Die Umsätze eines Betriebes sind normalverteilt und streuen um den Mittelwert 300.000 mit der Streuung 8 %. Ermitteln Sie ein symmetrisches Intervall um den Mittelwert so, dass 80 % aller Werte in diesem Intervall liegen. Gibt es spezielle Werte? Symmetrische Intervalle um den Mittelwert: im Intervall µ liegen 68 % aller Werte (ca. 2/3) im Intervall µ 2 liegen 96 % aller Werte © Mag. Wolfgang Streit Seite 5 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 im Intervall µ 3 liegen 99,7 % aller Werte (also fast alle) im Intervall µ 1,96 liegen 95 % aller Werte im Intervall µ 2,58 liegen 99 % aller Werte Was ist eine Prüfplankurve? Aus einer Grundgesamtheit wird eine Stichprobe vom Umfang n gezogen. Der Aussschussanteil in der Grundgesamtheit sei p. Zwischen Konsument und Produzent wird eine Annahmekennzahl c vereinbart, d.h. wenn in der Stichprobe nicht mehr als c Ausschussstücke enthalten sind, wird die Lieferung angenommen. Die Annahmewahrscheinlichkeit ist dann W(Annahme) = = W(x c) = = Error! = = Error! Eine Prüfplankurve ist die Darstellung der Funktion: Annahmewahrscheinlichkeit, abhängig vom wahren Ausschussanteil p. Die Parameter sind n und c: Annahme(p) = Error! Wie sieht eine Prüfplankurve (Operationscharakteristik) aus? Eine Prüfplankurve hat qualitativ immer die gleichen Eigenschaften: Annahme(0) = 1 ohne Ausschuss muss die Lieferung angenommen werden Mathematisch: () = 1, besser lim; (x) = 1 x→ ∞ Annahme(c/n) = 0,5 Konsument und Produzent haben das gleiche Risiko, weil die Anteile in der Stichprobe und in der Grundgesamtheit gleich groß © Mag. Wolfgang Streit Seite 6 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 sind. Mathematisch: (0) = 0,5 Es gibt nur Ausschussware, daher wird die Annahmekennzahl (sofern nicht der pathologische Fall c n auftritt) sicher überschritten. Annahme(1) = 0 Die Prüfplankurve ist umso steiler, je größer n ist. n = 300 c = 60 n = 30 c=6 Prüfplankurve n = 30 c = 6 Prüfplankurve n = 30 c = 6 1,20 1,20 1,00 1,00 0,80 Annahmewahrscheinlichkeit Annahmewahrscheinlichkeit 0,80 0,60 0,40 0,60 0,40 0,20 0,20 0% 10% 20% 30% 40% 50% 60% 70% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% -0,20 Ausschußwahrscheinlichkeit -0,20 Ausschußwahrscheinlichkeit © Mag. Wolfgang Streit Seite 7 von 16 80% 90% 100% 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Beispiel 4 Ein Konsument vereinbart folgende Prüfung einer Lieferung: es werden 80 Stück geprüft, bei einer Überschreitung von 10 % Ausschussanteil wird die Lieferung zurückgewiesen. Ermitteln Sie die Gleichung der Prüfplankurve. Wie hoch ist die Annahmewahrscheinlichkeit bei einem wahren Fehleranteil von 12 %. Der Produzent will zu 99 % sicher sein, dass seine Lieferung angenommen wird: er hat zwei Möglichkeiten: 1. seine Produktion so zu gestalten, dass er erfolgreich sein wird. oder 2. die Lieferkriterien zu verhandeln. Berechnen Sie beide Optionen. © Mag. Wolfgang Streit Seite 8 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Was ist das Produzentenrisiko (Fehler erster Art, -Fehler)? Das Produzentenrisiko ist die Ablehnwahrscheinlichkeit bei einer Hypothesenprüfung (Prüfplankurve). Es ist die Wahrscheinlichkeit, dass die Hypothese verworfen wird, obwohl sie zutrifft. -Fehler = Produzentenrisiko = 1 – Annahme(p) Was ist das Konsumentenrisiko (Fehler zweiter Art, -Fehler)? Das Konsumentenrisiko ist die Annahmewahrscheinlichkeit bei einer Hypothesenprüfung (Prüfplankurve). Es ist die Wahrscheinlichkeit, dass die Hypothese angenommen wird, obwohl sie nicht zutrifft. -Fehler = Konsumentenrisiko = Annahme(p) Beispiel 5 Es soll die Hypothese: „es werden gleich viele männliche und weibliche Babys geboren“ getestet werden. Dafür wird eine Stichprobe vom Umfang 1.000 gezogen. Die Hypothese soll verworfen werden, wenn in der Stichprobe weniger als 480 Mädchen sind. Wie groß ist der -Fehler bei einem wahren Anteil von 50 %? © Mag. Wolfgang Streit Seite 9 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Was ist ein Konfidenzintervall? Aus einer Stichprobe vom Umfang n soll auf die unbekannte Grundgesamtheit geschlossen werden. Der Merkmalsanteil in der Stichprobe sei h. Dann liegt der wahre Anteil mit einer Wahrscheinlichkeit (dem Signifikanzniveau) im Intervall [p1 / p2]. Dieses Intervall heißt Konfidenz- oder Vertrauensintervall. Wie berechne ich ein Konfidenzintervall? Eigentlich ist folgende Gleichung zu lösen: 2 · Error! – 1 = s wenn in einer Stichprobe vom Umfang n je x Merkmalträger auftreten. s ist das Signifikanzniveau. Error! = Error! Error! = z z hat üblicherweise den Wert z = 2 („signifikantes Ergebnis“ – s = 95 %) oder z = 3 („hochsignifikantes Ergebnis“ – s = 99,7 %) p1 und p2 sind dann die Grenzen des Konfidenzintervalls. oder für genügend großes n (n > 50): 1p2 © Mag. Wolfgang Streit = h z Error! Seite 10 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Beispiel 6: Bei einer Wahl wird eine Hochrechnung angestellt: von 500 abgegebenen Stimmen wurden 150 für die Österreichische Mathematikerpartei ÖMP abgegeben. Wie groß wird der tatsächlich auf die ÖMP entfallenen Stimmen sein? Irrtumswahrscheinlichkeit 90 %. Wie groß ist die Schwankungsbreite der Vorhersage? © Mag. Wolfgang Streit Seite 11 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Lösungen: Beispiel 1: Berechnen Sie für n = 20, p = 0,4 den Wert b(8) und (8). Darf man das? Wie groß ist der relative Fehler? b(8) = (20;10) 0,48 · 0,612 = binomial_density(8,20,0.4) = 0,1797 µ = 20 · 0,4 = 8 und = Error! 2,2 (für die Näherung eigentlich zu klein) 2 –(8 – 8) ;2 · 2 2 1;2 2 (8) = e = 0,181 2 2 relativer Fehler = Error! = 0,7 % , obwohl das Kriterium nicht erfüllt ist! Beispiel 2: Die Füllmenge von Waschmittelpackungen ist normalverteilt mit µ = 2.500 g 10 %. Wie groß ist die Wahrscheinlichkeit, dass eine Packung leichter als 2.200 g ist eine Packung schwerer als 2.600 g ist eine Packung zwischen 2.300 und 2.700 g ist W(x 2.200) = (2.200, 2500, 250) = 0,115 = 11,5 % Implementierung: normal(2200,2500,250) oder =normvert(2200;2500;250;1) W(x 2.600) = 1 – (2.600, 2500, 250) = 1 – 0,655 = 0,345 = 34,5 % Implementierung: 1 – normal(2200,2500,250) oder = 1 – normvert(2200;2500;250;1) W(2.300 x 2.700) = (2.700,2.500,250) – (2.300, 2500, 250) = 0,788 – 0,212 = 0,576 = 57,6 % Implementierung: normal(2700,2500,250) – normal(2300,2500,250) oder = 1 – normvert(2200;2500;250;1) © Mag. Wolfgang Streit Seite 12 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Beispiel 3: Die Umsätze eines Betriebes sind normalverteilt und streuen um den Mittelwert 300.000 mit der Streuung 8 %. Ermitteln Sie ein symmetrisches Intervall um den Mittelwert so, dass 80 % aller Werte in diesem Intervall liegen. Ansatz: µ = 300.000 = 0,08 · 300.000 = 24.000 0,8 = (300.000 + d, 300.000, 24.000) – (300.000 – d, 300.000, 24.000) Lösung über die Standardisierung: 2 (z) – 1 = 0,8 (z) = 0,9 z = 1,282 (eigentlich auch – 1,282) EXCEL: = norminv(0,0,1) DERIVE: Lösen der Gleichung normal(z) = 0,9 oder gleich 2normal(z) – 1 = 0,8 1,282 = Error! 30.768 = x – 300.000 x = 330.768 bzw. – 1,282 = Error! – 30.768 = x – 300.000 x = 269.232 Lösung über EXCEL: Eingabe: B3 Mittelwert B4 Streuung B5 Abweichung Lösung durch Extras > Zielwertsuche (Zielzelle d10, Zielwert 0,8, Veränderbare Zelle: b5) > OK Lösung über DERIVE: © Mag. Wolfgang Streit Seite 13 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Beispiel 4 Ein Konsument vereinbart folgende Prüfung einer Lieferung: es werden 80 Stück geprüft, bei einer Überschreitung von 10 % Ausschussanteil wird die Lieferung zurückgewiesen. Ermitteln Sie die Gleichung der Prüfplankurve. Wie hoch ist die Annahmewahrscheinlichkeit bei einem wahren Fehleranteil von 12 %. Der Produzent will zu 99 % sicher sein, dass seine Lieferung angenommen wird: er hat zwei Möglichkeiten: 1. seine Produktion so zu gestalten, dass er erfolgreich sein wird. oder 2. die Lieferkriterien zu verhandeln. Berechnen Sie beide Optionen. Parameter der Prüfplankurve: n = 80 c=8 Annahmews. = Error! Zeichnen in EXCEL: = normvert((8 – 80*a1)/wurzel(80*a1*(1 – a1))) runterkopieren Diagramm erstellen – Typ x-y - glatte Kurve besser wäre es allerdings, statt der Konstanten 8 und 80 Zellbezüge zu verwenden. DERIVE: normal((8 – 80p)/ (80p(1-p))) und ein 2-d-Diagramm erstellen Annahmews(p = 0,12) = 29 % (Einsetzen in die Funktion. d.h. obwohl die Lieferung nicht die Qualitätskriterien erfüllt (12 % statt 10 %) besteht eine 29 %-ige Wahrscheinlichkeit, dass die Liefe© Mag. Wolfgang Streit Seite 14 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 rung akzeptiert wird. Option 1: Error! = 0,99 lösen mit DERIVE (nummerisch mit p aus 0 bis 1) oder Zielwertsuche p = 0,046 = 4,6 % Der Produzent müsste also seine Qualität auf 4,6 % Ausschuss erhöhen. Option 2: c – 80 · 0 = 0,99 80 · 0 12 (1– 0,12) 12; c = 16,4 also wohl 17 Der Produzent muss ein Prüfkriterium von 17 aus 80 (d. s. 21 %) ausverhandeln. Beispiel 5 Es soll die Hypothese: „es werden gleich viele männliche und weibliche Babys geboren“ getestet werden. Dafür wird eine Stichprobe vom Umfang 1.000 gezogen. Die Hypothese soll verworfen werden, wenn in der Stichprobe weniger als 480 Mädchen sind. Wie groß ist der -Fehler bei einem wahren Anteil von 50 %? Der -Fehler ist die Annahmewahrscheinlichkeit, also die Wahrscheinlichkeit, dass bei p = 0,5 in der „Lieferung“ weniger als 480 Mädchen enthalten sind. = Error! = Error! = 10,3 % Mit einer Wahrscheinlichkeit von 10,3 % wird die Hypothese fälschlicherweise verworfen. Mit 10,3 %-iger Wahrscheinlichkeit können in einer Stichprobe von 1000 Geburten nur 480 Mädchen sein, obwohl in Wirklichkeit Mädchen und Bubengeburten gleichwahrscheinlich sind. © Mag. Wolfgang Streit Seite 15 von 16 5 ck / trögl Normalverteilung Schuljahr 2005 / 06 Beispiel 6: Bei einer Wahl wird eine Hochrechnung angestellt: von 500 abgegebenen Stimmen wurden 150 für die Österreichische Mathematikerpartei ÖMP abgegeben. Wie groß wird der tatsächlich auf die ÖMP entfallenen Stimmen sein? Irrtumswahrscheinlichkeit 90 %. Wie groß ist die Schwankungsbreite der Vorhersage? exakte Methode: 2 (z) – 1 = 0,9 (z) = 0,95 z = 1,64 Error! = 1,64 (150 – 500p)2 = 1,642 · 500 · p · (1 – p) 22.500 – 150.000 p + 250.000p2 = 1.344,8p – 1.344,8p2 251.344p2 – 151.344p + 22.500 = 0 p1 = 0,268 und p2 = 0,335 d.h. mit einer Wahrscheinlichkeit von 90 % liegt der wahre Anteil der ÖMP-Wähler zwischen 26,8 % und 33,5 %. Näherungsmethode: h = Error! = 0,3 z wie oben = 1,64 p1 = 26,6 % und p2 = 33,4 % 1p2 = 0,3 1,64 Error! = 0,3 0,034 Die Schwankungsbreite (= Länge des Konfidenzintervalls) ist 6,8 Prozentpunkte (bzw. 6,7 Prozentpunkte bei exakter Rechnung) © Mag. Wolfgang Streit Seite 16 von 16