Die Normalverteilung

Werbung
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Die Normalverteilung
Was ist die Normalverteilung?
Die Normalverteilung (normal distribution) ist eine
stetige Verteilung mit der Dichte
(x) = Error! Error!
Die Parameter dieser Verteilung sind der Mittelwert µ und die Streuung .
Wie sieht der Graph der Dichte der Normalverteilung aus?
Die Dichtefunktion hat die Form einer Glocke und heißt daher
üblicherweise Gaußsche Glockenkurve. (in der Grafik ist µ = 5
und  = 2)
Sie hat keine Nullstellen, jedoch streben die Funktionswerte sehr
rasch gegen 0, wenn x gegen +  oder –  strebt.
Im Abstand von  3 zum Mittelwert sind die Funktionswerte nur mehr ca. 1 % e–9/2 des Maximums.
Die Wendepunkte liegen im Abstand   vom Mittelwert und sind e–1/2 = 0,606 mal so hoch wie das Maximum.
Das Maximum ist bei E Error!
Warum heißt diese Verteilung „normal“?
Die Normalverteilung tritt überall dort auf, wo ein
„Normalwert“ durch zufällige Abweichungen gestört
wird.
© Mag. Wolfgang Streit
Seite 1 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Wie ist der Zusammenhang zwischen der Binomial- und der Normalverteilung?
0,06
Die Dichte der Normalverteilung entsteht aus der Dichte
der Binomialverteilung durch folgenden Grenzübergang:
n  
0,05
0,04
0,03
0,02
np  µ
n p (1 –p )  
0,01
0
1
4
7
10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64
In der Grafik rechts ist die Dichte der Binomialverteilung mit n = 256 und p = 0,5 dargestellt. Sie entspricht schon relativ genau der Normalverteilung mit
µ = 128 und  = 8
Wofür kann man die Dichte der Normalverteilung benutzen?
Wie bei jeder stetigen Verteilung sind die Werte der
Dichte eigentlich nicht als Wahrscheinlichkeiten interpretierbar. Allerdings kann man (x) als Näherung
für b(k) benutzen.
 sollte größer gleich 3 sein, d.h. n p (1 – p)  9
Beispiel 1:
Berechnen Sie für n = 20, p = 0,4 den Wert b(8) und (8). Darf man das? Wie groß ist der relative Fehler?
© Mag. Wolfgang Streit
Seite 2 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Was heißt Standardisierung?
Standardisierung ist die Durchführung folgender Koordinatentransformation:
z = Error!
z gibt die Abweichung des x-Wertes zum Mittelwert
in der Einheit Streuung an.
z = –2 heißt also, dass der x-Wert zwei Streuungen
kleiner als der Mittelwert ist.
Der Mittelwert der standardisierten NVT ist also µ =
0 und die Streuung  = 1. Man spricht daher auch
von einer 0-1-Verteilung. Die Formel vereinfacht
sich auf:
0,1(z) = Error! Error!
Was ist die Verteilungsfunktion?
Ihre Verteilungsfunktion ist das Integral über die
Dichte und nicht analytisch darstellbar (es gibt keine
Gleichung)
(x;m;s) = Error!
Für die standardisierte Form gibt es Tabellen für
(z).
Wie kann ich Wahrscheinlichkeiten ausrechnen?
Wie bei jeder stetigen Verteilung ist
W([a,b]) = (b) – (a) = Error!
Was ist die geometrische Interpretation für
Wahrscheinlichkeiten?
Da Wahrscheinlichkeiten Integrale über der
Dichtefunktion sind, ist das geometrisch die
Fläche zwischen a und b unterhalb der
Dichtefunktion.
0,14
0,12
0,1
0,08
0,06
0,04
© Mag. Wolfgang Streit
Seite 3 von 16
0,02
0
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Wie stellt man  (x) in Excel bzw. Derive dar:
Excel:
(x) = normvert(x; µ; ; 0)
(x) = normvert(x;µ;,1)
Umkehrfunktion
–1(W) = norminv(W;µ; )
Derive:
Laden der Zusatzfunktion PROBABIL ist nicht erforderlich
m,s(x) = normal(x,m,s)
normal(x) interpretiert DERIVE als normal(x,0,1).
Umkehrung muss als Gleichung gelöst werden.
Beispiel 2:
Die Füllmenge von Waschmittelpackungen ist normalverteilt mit µ = 2.500 g  10 %.
Wie groß ist die Wahrscheinlichkeit, dass
eine Packung leichter als 2.200 g ist
eine Packung schwerer als 2.600 g ist
eine Packung zwischen 2.300 und 2.700 g ist
Wie ermittelt man ein symmetrisches Intervall um den
Mittelwert?
W( [µ – d ] / µ + d ) =  (µ + d ) –  (µ – d )
oder bei Verwendung der standardisierten NVT:
© Mag. Wolfgang Streit
Seite 4 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
W( [ –d / d ] ) =  (d ) –  (– d ) =
= 2  (d) – 1
Beispiel 3:
Die Umsätze eines Betriebes sind normalverteilt und streuen um den Mittelwert 300.000 mit der
Streuung  8 %. Ermitteln Sie ein symmetrisches Intervall um den Mittelwert so, dass 80 % aller
Werte in diesem Intervall liegen.
Gibt es spezielle Werte?
Symmetrische Intervalle um den Mittelwert:
im Intervall µ   liegen 68 % aller Werte (ca. 2/3)
im Intervall µ  2  liegen 96 % aller Werte
© Mag. Wolfgang Streit
Seite 5 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
im Intervall µ  3  liegen 99,7 % aller Werte (also fast alle)
im Intervall µ  1,96  liegen 95 % aller Werte
im Intervall µ  2,58  liegen 99 % aller Werte
Was ist eine Prüfplankurve?
Aus einer Grundgesamtheit wird eine Stichprobe vom Umfang n gezogen.
Der Aussschussanteil in der Grundgesamtheit sei p.
Zwischen Konsument und Produzent wird eine Annahmekennzahl c vereinbart, d.h. wenn in der
Stichprobe nicht mehr als c Ausschussstücke enthalten sind, wird die Lieferung angenommen.
Die Annahmewahrscheinlichkeit ist dann
W(Annahme) =
= W(x  c) =
= Error! =
= Error!
Eine Prüfplankurve ist die Darstellung der Funktion:
Annahmewahrscheinlichkeit, abhängig vom wahren Ausschussanteil p. Die Parameter sind n und
c:
Annahme(p) =  Error!
Wie sieht eine Prüfplankurve (Operationscharakteristik) aus?
Eine Prüfplankurve hat qualitativ immer die gleichen
Eigenschaften:
Annahme(0) = 1
ohne Ausschuss muss die Lieferung angenommen werden
Mathematisch:  () = 1, besser
lim;
(x) = 1
x→ ∞
Annahme(c/n) = 0,5 Konsument und Produzent haben
das gleiche Risiko, weil die Anteile in der Stichprobe und in der
Grundgesamtheit gleich groß
© Mag. Wolfgang Streit
Seite 6 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
sind.
Mathematisch: (0) = 0,5
Es gibt nur Ausschussware, daher wird die Annahmekennzahl (sofern nicht
der pathologische Fall c  n auftritt) sicher überschritten.
Annahme(1) = 0
Die Prüfplankurve ist umso steiler, je größer n ist.
n = 300
c = 60
n = 30
c=6
Prüfplankurve n = 30 c = 6
Prüfplankurve n = 30 c = 6
1,20
1,20
1,00
1,00
0,80
Annahmewahrscheinlichkeit
Annahmewahrscheinlichkeit
0,80
0,60
0,40
0,60
0,40
0,20
0,20
0%
10%
20%
30%
40%
50%
60%
70%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
-0,20
Ausschußwahrscheinlichkeit
-0,20
Ausschußwahrscheinlichkeit
© Mag. Wolfgang Streit
Seite 7 von 16
80%
90%
100%
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Beispiel 4
Ein Konsument vereinbart folgende Prüfung einer Lieferung: es werden 80 Stück geprüft, bei
einer Überschreitung von 10 % Ausschussanteil wird die Lieferung zurückgewiesen. Ermitteln
Sie die Gleichung der Prüfplankurve. Wie hoch ist die Annahmewahrscheinlichkeit bei einem
wahren Fehleranteil von 12 %. Der Produzent will zu 99 % sicher sein, dass seine Lieferung angenommen wird: er hat zwei Möglichkeiten: 1. seine Produktion so zu gestalten, dass er erfolgreich sein wird. oder 2. die Lieferkriterien zu verhandeln. Berechnen Sie beide Optionen.
© Mag. Wolfgang Streit
Seite 8 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Was ist das Produzentenrisiko (Fehler erster Art, -Fehler)?
Das Produzentenrisiko ist die Ablehnwahrscheinlichkeit bei einer
Hypothesenprüfung (Prüfplankurve). Es ist die Wahrscheinlichkeit, dass die Hypothese verworfen wird, obwohl sie zutrifft.
-Fehler = Produzentenrisiko = 1 – Annahme(p)
Was ist das Konsumentenrisiko (Fehler zweiter Art,  -Fehler)?
Das Konsumentenrisiko ist die Annahmewahrscheinlichkeit bei einer
Hypothesenprüfung (Prüfplankurve). Es ist die Wahrscheinlichkeit,
dass die Hypothese angenommen wird, obwohl sie nicht zutrifft.
 -Fehler = Konsumentenrisiko = Annahme(p)
Beispiel 5
Es soll die Hypothese: „es werden gleich viele männliche und weibliche Babys geboren“ getestet
werden. Dafür wird eine Stichprobe vom Umfang 1.000 gezogen. Die Hypothese soll verworfen
werden, wenn in der Stichprobe weniger als 480 Mädchen sind. Wie groß ist der -Fehler bei
einem wahren Anteil von 50 %?
© Mag. Wolfgang Streit
Seite 9 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Was ist ein Konfidenzintervall?
Aus einer Stichprobe vom Umfang n soll auf
die unbekannte Grundgesamtheit geschlossen
werden. Der Merkmalsanteil in der Stichprobe
sei h. Dann liegt der wahre Anteil mit einer
Wahrscheinlichkeit (dem Signifikanzniveau)
im Intervall [p1 / p2]. Dieses Intervall heißt
Konfidenz- oder Vertrauensintervall.
Wie berechne ich ein Konfidenzintervall?
Eigentlich ist folgende Gleichung zu lösen:
2 ·  Error! – 1 = s
wenn in einer Stichprobe vom Umfang n je x
Merkmalträger auftreten.
s ist das Signifikanzniveau.
  Error! = Error!
 Error! = z
z hat üblicherweise den Wert z = 2 („signifikantes Ergebnis“ – s =
95 %) oder z = 3 („hochsignifikantes Ergebnis“ – s = 99,7 %)
p1 und p2 sind dann die Grenzen des Konfidenzintervalls.
oder für genügend großes n (n > 50):
1p2
© Mag. Wolfgang Streit
= h  z Error!
Seite 10 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Beispiel 6:
Bei einer Wahl wird eine Hochrechnung angestellt: von 500 abgegebenen Stimmen wurden 150
für die Österreichische Mathematikerpartei ÖMP abgegeben. Wie groß wird der tatsächlich auf
die ÖMP entfallenen Stimmen sein? Irrtumswahrscheinlichkeit 90 %. Wie groß ist die Schwankungsbreite der Vorhersage?
© Mag. Wolfgang Streit
Seite 11 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Lösungen:
Beispiel 1:
Berechnen Sie für n = 20, p = 0,4 den Wert b(8) und (8). Darf man das? Wie groß ist der relative Fehler?
b(8) = (20;10) 0,48 · 0,612 = binomial_density(8,20,0.4) = 0,1797
µ = 20 · 0,4 = 8 und  = Error!  2,2 (für die Näherung eigentlich zu klein)
2
–(8 – 8) ;2 · 2
2
1;2
2
(8) =
e
= 0,181
2 2
relativer Fehler = Error! = 0,7 % , obwohl das Kriterium nicht erfüllt ist!
Beispiel 2:
Die Füllmenge von Waschmittelpackungen ist normalverteilt mit µ = 2.500 g  10 %.
Wie groß ist die Wahrscheinlichkeit, dass
eine Packung leichter als 2.200 g ist
eine Packung schwerer als 2.600 g ist
eine Packung zwischen 2.300 und 2.700 g ist
W(x  2.200) =  (2.200, 2500, 250) = 0,115 = 11,5 %
Implementierung:
normal(2200,2500,250)
oder =normvert(2200;2500;250;1)
W(x  2.600) = 1 –  (2.600, 2500, 250) = 1 – 0,655 = 0,345 = 34,5 %
Implementierung:
1 – normal(2200,2500,250) oder = 1 – normvert(2200;2500;250;1)
W(2.300  x  2.700) = (2.700,2.500,250) –  (2.300, 2500, 250) = 0,788 – 0,212 = 0,576 =
57,6 %
Implementierung:
normal(2700,2500,250) – normal(2300,2500,250)
oder
= 1 – normvert(2200;2500;250;1)
© Mag. Wolfgang Streit
Seite 12 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Beispiel 3:
Die Umsätze eines Betriebes sind normalverteilt und streuen um den Mittelwert 300.000 mit der
Streuung  8 %. Ermitteln Sie ein symmetrisches Intervall um den Mittelwert so, dass 80 % aller
Werte in diesem Intervall liegen.
Ansatz: µ = 300.000  = 0,08 · 300.000 = 24.000
0,8 =  (300.000 + d, 300.000, 24.000) – (300.000 – d, 300.000, 24.000)
Lösung über die Standardisierung:
2 (z) – 1 = 0,8  (z) = 0,9  z = 1,282 (eigentlich auch – 1,282)
EXCEL:
= norminv(0,0,1)
DERIVE:
Lösen der Gleichung normal(z) = 0,9 oder gleich 2normal(z) – 1 = 0,8
1,282 = Error!  30.768 = x – 300.000  x = 330.768 bzw.
– 1,282 = Error!  – 30.768 = x – 300.000  x = 269.232
Lösung über EXCEL:
Eingabe:
B3
Mittelwert
B4
Streuung
B5
Abweichung
Lösung durch Extras > Zielwertsuche
(Zielzelle d10, Zielwert 0,8, Veränderbare Zelle: b5) > OK
Lösung über DERIVE:
© Mag. Wolfgang Streit
Seite 13 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Beispiel 4
Ein Konsument vereinbart folgende Prüfung einer Lieferung: es werden 80 Stück geprüft, bei
einer Überschreitung von 10 % Ausschussanteil wird die Lieferung zurückgewiesen. Ermitteln
Sie die Gleichung der Prüfplankurve. Wie hoch ist die Annahmewahrscheinlichkeit bei einem
wahren Fehleranteil von 12 %. Der Produzent will zu 99 % sicher sein, dass seine Lieferung angenommen wird: er hat zwei Möglichkeiten: 1. seine Produktion so zu gestalten, dass er erfolgreich sein wird. oder 2. die Lieferkriterien zu verhandeln. Berechnen Sie beide Optionen.
Parameter der Prüfplankurve: n = 80
c=8
Annahmews. =  Error!
Zeichnen in EXCEL:
= normvert((8 – 80*a1)/wurzel(80*a1*(1 – a1)))
runterkopieren
Diagramm erstellen – Typ x-y - glatte Kurve
besser wäre es allerdings, statt der Konstanten 8 und 80 Zellbezüge zu verwenden.
DERIVE: normal((8 – 80p)/ (80p(1-p)))
und ein 2-d-Diagramm erstellen
Annahmews(p = 0,12) = 29 %
(Einsetzen in die Funktion.
d.h. obwohl die Lieferung nicht die Qualitätskriterien erfüllt (12 % statt 10 %) besteht eine
29 %-ige Wahrscheinlichkeit, dass die Liefe© Mag. Wolfgang Streit
Seite 14 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
rung akzeptiert wird.
Option 1:
 Error! = 0,99
lösen mit DERIVE (nummerisch mit p aus 0 bis 1) oder Zielwertsuche p = 0,046 = 4,6 %
Der Produzent müsste also seine Qualität auf 4,6 % Ausschuss erhöhen.
Option 2:
c – 80 · 0



 = 0,99
80 · 0


12 (1– 0,12)
 12;

c = 16,4 also wohl 17
Der Produzent muss ein Prüfkriterium von 17 aus 80 (d. s. 21 %) ausverhandeln.
Beispiel 5
Es soll die Hypothese: „es werden gleich viele männliche und weibliche Babys geboren“ getestet
werden. Dafür wird eine Stichprobe vom Umfang 1.000 gezogen. Die Hypothese soll verworfen
werden, wenn in der Stichprobe weniger als 480 Mädchen sind. Wie groß ist der -Fehler bei
einem wahren Anteil von 50 %?
Der -Fehler ist die Annahmewahrscheinlichkeit, also die Wahrscheinlichkeit, dass bei p = 0,5 in
der „Lieferung“ weniger als 480 Mädchen enthalten sind.
 =  Error! =  Error! = 10,3 %
Mit einer Wahrscheinlichkeit von 10,3 % wird die Hypothese fälschlicherweise verworfen. Mit
10,3 %-iger Wahrscheinlichkeit können in einer Stichprobe von 1000 Geburten nur 480 Mädchen
sein, obwohl in Wirklichkeit Mädchen und Bubengeburten gleichwahrscheinlich sind.
© Mag. Wolfgang Streit
Seite 15 von 16
5 ck / trögl
Normalverteilung
Schuljahr 2005 / 06
Beispiel 6:
Bei einer Wahl wird eine Hochrechnung angestellt: von 500 abgegebenen Stimmen wurden 150
für die Österreichische Mathematikerpartei ÖMP abgegeben. Wie groß wird der tatsächlich auf
die ÖMP entfallenen Stimmen sein? Irrtumswahrscheinlichkeit 90 %. Wie groß ist die Schwankungsbreite der Vorhersage?
exakte Methode:
2 (z) – 1 = 0,9  (z) = 0,95  z = 1,64
Error! = 1,64
 (150 – 500p)2 = 1,642 · 500 · p · (1 – p) 
22.500 – 150.000 p + 250.000p2 = 1.344,8p – 1.344,8p2 
251.344p2 – 151.344p + 22.500 = 0

p1 = 0,268 und p2 = 0,335
d.h. mit einer Wahrscheinlichkeit von 90 % liegt der wahre Anteil der ÖMP-Wähler zwischen
26,8 % und 33,5 %.
Näherungsmethode:
h = Error! = 0,3
z wie oben = 1,64
p1 = 26,6 % und p2 = 33,4 %
1p2
= 0,3  1,64 Error! = 0,3  0,034 
Die Schwankungsbreite (= Länge des Konfidenzintervalls) ist 6,8 Prozentpunkte (bzw. 6,7 Prozentpunkte bei exakter Rechnung)
© Mag. Wolfgang Streit
Seite 16 von 16
Herunterladen