Kapitel 11 DIE NORMAL-VERTEILUNG Fassung vom 17. Februar 2006 Prof. Dr. C. Portenier Prof. Dr. W. Gromes Mathematik für Humanbiologen und Biologen 149 11.1 De…nition der Normal-Verteilung 11.1 De…nition der Normal-Verteilung Bisher haben wir nur diskret verteilte Zufallsvariable betrachtet. Bei physikalischen Messungen, wie z.B. Länge, Gewicht, usw., mußman aber kontinuierlich verteilte Zufallsvariable X zulassen, deren Wertebereich R oder Intervalle in R sind. Dementsprechend ist der Wahrscheinlichkeitsraum sehr kompliziert. Im Allgemeinen ist man aber nur an der Wahrscheinlichkeit P von Ereignissen der Gestalt f! 2 j X(!) 2 Ig , wobei I ein Intervall in R ist, interessiert, z.B. P (a 6 X 6 b) := P (f! 2 P (X 6 b) := P (f! 2 j a 6 X(!) 6 bg) j X(!) 6 bg) oder für a; b 2 R , und dazu genügt es, die Verteilung von X zu kennen. Die wichtigste Verteilung bei kontinuierlich verteilten Zufallsvariablen X ist die Normalverteilung. DEFINITION 1 Die Funktion : R ! R : z 7 ! (z) de…niert durch Z z t2 1 e 2 dt (z) := p 2 1 heiß t Standard-Normal-Verteilung . Die Funktion ' : R ! R de…niert durch t2 1 ' (t) := p e 2 2 nennt man die Dichtefunktion von . BEMERKUNG 1 (z) ist nicht durch eine einfache Formel, sondern in Tabellen gegeben. Da nach Beispiel 7.6.4 Z 1 t2 1 p e 2 dt = 1; 2 1 folgt mit der Zerlegungsregel ( z) = 1 Demnach wird nur 150 (z) (z) für z > 0 tabelliert : für alle z 2 R . DIE NORMAL-VERTEILUNG Prof. Dr. C. Portenier Prof. Dr. W. Gromes De…nition der Normal-Verteilung z 0 :01 :02 :03 :04 :05 :06 :07 :08 :09 :1 :11 :12 :13 :14 :15 :16 :17 :18 :19 z 1:0 1:01 1:02 1:03 1:04 1:05 1:06 1:07 1:08 1:09 1:1 1:11 1:12 1:13 1:14 1:15 1:16 1:17 1:18 1:19 (z) :5 :50399 :50798 :51197 :51595 :51994 :52392 :5279 :53188 :53586 :53983 :5438 :54776 :55172 :55567 :55962 :56356 :56749 :57142 :57535 (z) :84134 :84375 :84614 :84849 :85083 :85314 :85543 :85769 :85993 :86214 :86433 :8665 :86864 :87076 :87286 :87493 :87698 :879 :881 :88298 Prof. Dr. C. Portenier Prof. Dr. W. Gromes 11.1 z :2 :21 :22 :23 :24 :25 :26 :27 :28 :29 :3 :31 :32 :33 :34 :35 :36 :37 :38 :39 (z) :57926 :58317 :58706 :59095 :59483 :59871 :60257 :60642 :61026 :61409 :61791 :62172 :62552 :6293 :63307 :63683 :64058 :64431 :64803 :65173 z :4 :41 :42 :43 :44 :45 :46 :47 :48 :49 :5 :51 :52 :53 :54 :55 :56 :57 :58 :59 (z) :65542 :6591 :66276 :6664 :67003 :67364 :67724 :68082 :68439 :68793 :69146 :69497 :69847 :70194 :7054 :70884 :71226 :71566 :71904 :7224 z :6 :61 :62 :63 :64 :65 :66 :67 :68 :69 :7 :71 :72 :73 :74 :75 :76 :77 :78 :79 z 1:2 1:21 1:22 1:23 1:24 1:25 1:26 1:27 1:28 1:29 1:3 1:31 1:32 1:33 1:34 1:35 1:36 1:37 1:38 1:39 (z) :88493 :88686 :88877 :89065 :89251 :89435 :89617 :89796 :89973 :90147 :9032 :9049 :90658 :90824 :90988 :91149 :91309 :91466 :91621 :91774 z 1:4 1:41 1:42 1:43 1:44 1:45 1:46 1:47 1:48 1:49 1:5 1:51 1:52 1:53 1:54 1:55 1:56 1:57 1:58 1:59 (z) :91924 :92073 :9222 :92364 :92507 :92647 :92785 :92922 :93056 :93189 :93319 :93448 :93574 :93699 :93822 :93943 :94062 :94179 :94295 :94408 z 1:6 1:61 1:62 1:63 1:64 1:65 1:66 1:67 1:68 1:69 1:7 1:71 1:72 1:73 1:74 1:75 1:76 1:77 1:78 1:79 DIE NORMAL-VERTEILUNG (z) :72575 :72907 :73237 :73565 :73891 :74215 :74537 :74857 :75175 :7549 :75804 :76115 :76424 :7673 :77035 :77337 :77637 :77935 :7823 :78524 (z) :9452 :9463 :94738 :94845 :9495 :95053 :95154 :95254 :95352 :95449 :95543 :95637 :95728 :95818 :95907 :95994 :9608 :96164 :96246 :96327 z :8 :81 :82 :83 :84 :85 :86 :87 :88 :89 :9 :91 :92 :93 :94 :95 :96 :97 :98 :99 (z) :78814 :79103 :79389 :79673 :79955 :80234 :80511 :80785 :81057 :81327 :81594 :81859 :82121 :82381 :82639 :82894 :83147 :83398 :83646 :83891 z 1:8 1:81 1:82 1:83 1:84 1:85 1:86 1:87 1:88 1:89 1:9 1:91 1:92 1:93 1:94 1:95 1:96 1:97 1:98 1:99 (z) :96407 :96485 :96562 :96638 :96712 :96784 :96856 :96926 :96995 :97062 :97128 :97193 :97257 :9732 :97381 :97441 :975 :97558 :97615 :9767 151 11.1 De…nition der Normal-Verteilung z 2:0 2:01 2:02 2:03 2:04 2:05 2:06 2:07 2:08 2:09 2:1 2:11 2:12 2:13 2:14 2:15 2:16 2:17 2:18 2:19 (z) :97725 :97778 :97831 :97882 :97932 :97982 :9803 :98077 :98124 :98169 :98214 :98257 :983 :98341 :98382 :98422 :98461 :985 :98537 :98574 z 2:2 2:21 2:22 2:23 2:24 2:25 2:26 2:27 2:28 2:29 2:3 2:31 2:32 2:33 2:34 2:35 2:36 2:37 2:38 2:39 (z) :9861 :98645 :98679 :98713 :98745 :98778 :98809 :9884 :9887 :98899 :98928 :98956 :98983 :9901 :99036 :99061 :99086 :99111 :99134 :99158 z 2:4 2:41 2:42 2:43 2:44 2:45 2:46 2:47 2:48 2:49 2:5 2:51 2:52 2:53 2:54 2:55 2:56 2:57 2:58 2:59 (z) :9918 :99202 :99224 :99245 :99266 :99286 :99305 :99324 :99343 :99361 :99379 :99396 :99413 :9943 :99446 :99461 :99477 :99492 :99506 :9952 z :6 :61 :62 :63 :64 :65 :66 :67 :68 :69 :7 :71 :72 :73 :74 :75 :76 :77 :78 :79 (z) :99534 :99547 :9956 :99573 :99585 :99598 :99609 :99621 :99632 :99643 :99653 :99664 :99674 :99683 :99693 :99702 :99711 :9972 :99728 :99736 z 2:8 2:81 2:82 2:83 2:84 2:85 2:86 2:87 2:88 2:89 2:9 2:91 2:92 2:93 2:94 2:95 2:96 2:97 2:98 2:99 (z) :99744 :99752 :9976 :99767 :99774 :99781 :99788 :99795 :99801 :99807 :99813 :99819 :99825 :99831 :99836 :99841 :99846 :99851 :99856 :99861 z 3:0 3:01 3:02 3:03 3:04 3:05 3:06 3:07 3:08 3:09 3:1 3:11 3:12 3:13 3:14 3:15 3:16 3:17 3:18 3:19 (z) :99865 :99869 :99874 :99878 :99882 :99886 :99889 :99893 :99896 :999 :99903 :99906 :9991 :99913 :99916 :99918 :99921 :99924 :99926 :99929 z 3:2 3:21 3:22 3:23 3:24 3:25 3:26 3:27 3:28 3:29 3:3 3:31 3:32 3:33 3:34 3:35 3:36 3:37 3:38 3:39 (z) :99931 :99934 :99936 :99938 :9994 :99942 :99944 :99946 :99948 :9995 :99952 :99953 :99955 :99957 :99958 :9996 :99961 :99962 :99964 :99965 z 3:4 3:41 3:42 3:43 3:44 3:45 3:46 3:47 3:48 3:49 3:5 3:51 3:52 3:53 3:54 3:55 3:56 3:57 3:58 3:59 (z) :99966 :99968 :99969 :9997 :99971 :99972 :99973 :99974 :99975 :99976 :99977 :99978 :99978 :99979 :9998 :99981 :99981 :99982 :99983 :99983 z 3:6 3:61 3:62 3:63 3:64 3:65 3:66 3:67 3:68 3:69 3:7 3:71 3:72 3:73 3:74 3:75 3:76 3:77 3:78 3:79 (z) :99984 :99985 :99985 :99986 :99986 :99987 :99987 :99988 :99988 :99989 :99989 :9999 :9999 :9999 :99991 :99991 :99992 :99992 :99992 :99992 z 3:8 3:81 3:82 3:83 3:84 3:85 3:86 3:87 3:88 3:89 3:9 3:91 3:92 3:93 3:94 3:95 3:96 3:97 3:98 3:99 (z) :99993 :99993 :99993 :99994 :99994 :99994 :99994 :99995 :99995 :99995 :99995 :99995 :99996 :99996 :99996 :99996 :99996 :99996 :99997 :99997 152 DIE NORMAL-VERTEILUNG Prof. Dr. C. Portenier Prof. Dr. W. Gromes De…nition der Normal-Verteilung 11.1 0.8 0.6 0.4 0.2 -4 0 -2 ':t7 ! p1 2 e t2 2 und 2 :z7 ! p1 2 Rz 4 1 e t2 2 dt DEFINITION 2 Eine Zufallsvariable X heiß t normalverteilt mit Erwartungswert 2 Varianz , man schreibt dann und X ist N ( ; ) -verteilt, wenn b P (X 6 b) = N ( ; ) (b) := für alle b 2 R gilt. BEMERKUNG 2 Ist X N ( ; )-verteilt, so gilt P (X 6 b) = P (X < b) = 1 P (X > b) = 1 P (X > b) und P (a 6 X 6 b) = P (X 6 b) P (X 6 a) . Insbesondere gilt P r 6X6 = +r r =P X6 r P X6 +r =2 r r = 1. BEISPIEL Bei einem Präparat sei das Gewicht X des Wirksto¤es in den Tabletten N ( ; )verteilt mit = 80 mg und = 2 mg . Wie großist die Wahrscheinlichkeit, daßbei einer Tablette die Menge an Wirksto¤ um Prof. Dr. C. Portenier Prof. Dr. W. Gromes DIE NORMAL-VERTEILUNG 153 11.1 De…nition der Normal-Verteilung höchstens 5% von P abweicht ? Es ist 0:05 6X6 + 0:05 =2 = 2 0:97725 0:05 1=2 (2) 1= 1 = 0:955 = 95:5% mit Hilfe der Tabelle. Wie großist die Standard-Abweichung zu wählen, damit mindestens 99% der Tabletten höchstens 5% Abweichung von haben ? Nach obiger Rechnung mußgelten 0:05 2 1 > 0:99 , d.h. 4 > 1:99 = 0:995 . 2 Nach der Tabelle ist dies gerade erfüllt, wenn 4 > 2:58 gilt, also folgt 6 154 4 = 1:55 . 2:58 DIE NORMAL-VERTEILUNG Prof. Dr. C. Portenier Prof. Dr. W. Gromes Berechnung der Normal-Verteilung 11.2 11.2 Berechnung der Normal-Verteilung Ist X eine N ( ; )-verteilte Zufallsvariable, so gilt b P (X 6 b) = 1 p = 2 Z b e (t 2 Z 1 =p 2 )2 2 dt = Z 1 1 b t2 2 e dt = 1 b ' t dt 1 b nach der Verschiebungs- und Streckungsregel. Die N ( ; )-Verteilung b 7 ! die Dichte t 7 ! 1 ' t . hat also 0.8 0.6 0.4 0.2 -2 t 7 ! '(t 0 2 2) = p1 2 e (t 2)2 2 4 6 , t 7 ! 2 '(2 (t Die Wendepunkte dieser Dichten liegen bei , d.h. 2 5)) = 8 p2 2 1 und 5 ANWENDUNG Zu einer Zufallsvariable X ist eine Meß reihe x1; x2 ; man vermutet, daßsie normalverteilt ist. (a) Zuerst werden und e 2 (t 5)2 0:5 . ; xn gegeben, und mit Hilfe dieser Meß daten geschätzt : n 1 X := xj n j=1 und 2 n 1 X := (xj n j=1 )2 . (b) Dann untersucht man graphisch, ob eine Normal-Verteilung vorliegt. Man unterteilt das Messintervall [a; b] (mit xj 2 [a; b] für alle j ) in ; Im der gleichen Länge p m Teilintervalle I1 ; I2; L , wobei m < n , am besten so, daßm ' n . Man de…niert dann eine Treppenfunktion ' ~ Prof. Dr. C. Portenier Prof. Dr. W. Gromes DIE NORMAL-VERTEILUNG 155 11.2 Berechnung der Normal-Verteilung durch ' ~= 1 k auf Il L n falls k der Meß werte x1 ; : : : ; xn in Il liegen. , Die Normierung ist gerade so gewählt, dass das Integral über ' ~ , ebenso wie das über 1 ' x den Wert 1 hat. Ist ' ~ eine gute Approximation von 1 ' x , wobei und wie in (a) bestimmt sind, so geht man davon aus, daßX normalverteilt ist. BEMERKUNG Eine naturwissenschaftliche Zufallsvariable X (z.B. das Geburtsgewicht) setzt sich aus vielen Faktoren Xj zusammen (z.B. genetischen Faktoren, Ernährung der Mutter, ...). Es gilt der Zentrale Grenzwertsatz : HAUPTSATZ Ist X = X1 + X2 + unabhängig, so ist X normal verteilt. , und sind alle Xj klein gegen X und paarweise Dies erklärt das häu…ge Auftreten von Normal-Verteilungen bei naturwissenschaftlichen Experimenten. Eine typische Situation wird auch durch Satz 11.3 beschrieben. BEISPIEL Gewicht der Gesamtbevölkerung : Es ist nicht normalverteilt. Z.B. sind Alter und Geschlecht nicht kleine Ein‡uß größ en. 156 DIE NORMAL-VERTEILUNG Prof. Dr. C. Portenier Prof. Dr. W. Gromes Normal- und Binomial-Verteilung 11.3 11.3 Normal- und Binomial-Verteilung Ein typisches Problem der Statistik ist die Schätzung von Wahrscheinlichkeiten. Wir diskutieren dies am Beispiel der Binomial-Verteilung. Ausgangspunkt ist der folgende SATZ Ist X eine binomialverteilte Zufallsvariable mit Erwartungswert = n p und Varianz 2 = n p q , und ist 2 1 , (i.a. genügt > 3 ), so ist X annähernd N ( ; )-verteilt, d.h es gilt k X n P (X 6 k) = j j=0 Insbesondere gilt P n p 6X 6n p+z z pj q n j k ' z '2 . 1=2 (z) 1 =: (z) . Die letzte Aussage folgt Bemerkung 11.1.2. DEFINITION 1 Die Zahl (z) := 2 (z) 1 wird als Kon…denzzahl bezeichnet. BEMERKUNG 1 Aus der Tabelle für liest man die folgenden, häu…g benutzten Werte für (z) , und damit Näherungswerte für P n p z 6X 6n p+z ab : z 1 1:96 2:58 2:97 3:29 (z) 0:683 0:95 0:99 0:997 0:999 Frage Man möchte die Zahl p 2 [0; 1] , die praktisch nicht bekannt ist, mit Hilfe einer Stichprobe ! schätzen. Man wählt X (!) pb := n als Schätzwert für p . Für die Stichprobe ! gilt also mit Wahrscheinlichkeit n p (z) 6 X (!) 6 n p + z z , d.h. z p und mit 2 6 pb 6 p + n = n p (1 (p Es folgt n z oder n p) auch pb)2 6 p2 Prof. Dr. C. Portenier Prof. Dr. W. Gromes z z n 2 = 2p pb + pb2 6 z 2 [n p (1 n2 p)] z2 p (1 n z2 p n p) = = DIE NORMAL-VERTEILUNG 6p pb 6 z2 p (1 n z n p) . , ( ) z2 2 p , n 157 11.3 Normal- und Binomial-Verteilung also f (p) := 1+ z2 n p2 2b p+ z2 n p + pb2 6 0 . Somit gilt f (p) 6 0 mit Wahrscheinlichkeit (z) . Die zwei Nullstellen des Polynoms f werden mit p bezeichnet : 0 s 2 2 1 z z2 z2 @ p = 2b p + 2b p + 4 1 + 2 n n n 2 1 + zn Weiterhin ist f (0) = pb2 > 0 und f (b p) = 1+ z2 n und pb2 f (1) = 2b p+ z2 n 1+ z2 n pb + pb2 = 2b p+ z2 2 pb n z2 n 1 pb2 A . + pb2 = (1 z2 z2 pb = pb (b p n n pb)2 > 0 1) < 0 , da die Werte 0 und 1 für pb unwahrscheinlich sind. Damit haben wir gezeigt, daß 0 < p < p+ < 1 gilt. Da f (p) 6 0 zu p 2 [p ; p+ ] äquivalent ist, folgt die erste Behauptung im folgenden KOROLLAR Seien X eine bn;p -verteilte Zufallsvariable mit pb := den Schätzwert von p . (i) Mit Wahrscheinlichkeit 1 , ! eine Stichprobe und X (!) n (z) gilt (näherungsweise): p 2 [p ; p+ ] , sowie (ii) 2 Ist 0 < p0 6 1 2 p 2 pb z z p ; pb + p 2 n 2 n . und besitzt man die Vorinformation p 6 p0 über p , so gilt z p z p p 2 pb p p0 (1 p0 ); pb + p p0 (1 p0 ) n n mit Wahrscheinlichkeit (z) . Für die zweite Aussage in (i) folgt aus ( ) und nachstehendes Lemma, daßmit Wahrscheinlichkeit (z) gilt (p also jp 158 pbj 6 1 2 pz n , d.h. 1 2 pz n pb)2 6 6p z2 p (1 n pb 6 1 2 z2 1 , n 4 h oder p 2 pb p) 6 pz n DIE NORMAL-VERTEILUNG 2 z p ; pb + n z p 2 n i . Prof. Dr. C. Portenier Prof. Dr. W. Gromes Normal- und Binomial-Verteilung Gilt p 6 p0 6 1 2 , so folgt z2 z2 p (1 p) 6 p0 (1 p0 ) , n n (z) , woraus die Behauptung sich wie im ersten Teil ergibt. (p mit Wahrscheinlichkeit LEMMA 11.3 pb)2 6 Für das Polynom x 7 ! x (1 x) : R ! R 0.4 0.2 1 -0.2 -0.4 x 7 ! x (1 x) gilt 0 6 x (1 x) 6 1 4 für alle x 2 [0; 1] . In der Tat ist 0 6 x (1 x) = x 1 x = 4 2 x 1 2 2 6 1 4 für alle x 2 [0; 1] . BEMERKUNG 2 Die zweite Aussage ist einfacher und ungenauer, d.h. das Intervall ist größ er, dagegen aber sicherer ! DEFINITION 2 Ein Intervall [a; b] p 2 [a; b] [0; 1] , so daßgilt mit Wahrscheinlichkeit heiß t Kon…denzintervall zum Kon…denzniveau (z) , (z) . BEISPIEL 1 Innerhalb einer Population tritt eine allergische Reaktion auf eine Chemikalie ein. Prof. Dr. C. Portenier Prof. Dr. W. Gromes DIE NORMAL-VERTEILUNG 159 11.3 Normal- und Binomial-Verteilung Von 200 zufällig ausgewählten Personen reagieren 11 allergisch, es ist also 11 X (!) = 11 und pb = = 0:055 . 200 Zur Kon…denzzahl = 0:95 , also z = 1:96 , erhält man das Polynom (gerundet) 0:13 p + 0:003 6 0 . f (p) = p2 0.01 0.005 0 0.1 p 7 ! p2 0.2 0:13 p + 0:003 Das gesuchte Kon…denzintervall ergibt sich aus den Nullstellen p von f : s 2 0:13 0:13 p = 0:003 , 2 2 und damit p = 0:03 und p+ = 0:1 . Mit 95% Sicherheit liegt also die Wahrscheinichkeit p für eine allergische Reaktion zwischen 0:03 und 0:1 . BEISPIEL 2 Man möchte die Schätzung von p aus dem Beispiel 1 durch eine Vergröß erung der Stichprobe verbessern. Um 100 % Sicherheit zu bekommen, müsste man fast alle Personen untersuchen, man wählt deshalb wieder eine Kon…denzzahl < 1 . Wir benutzen weiter den Wert aus dem Beispiel 1, also = 0:95 und z = 1:96 , und suchen ein n so, daßmit Wahrscheinlichkeit der Wert von p im Kon…denzintervall [b p ; pb + ] liegt, wobei z.B. = 0:02 X(!) 11 sei. Der Schätzwert pb sei wieder durch n = 200 = 0:055 gegeben. Mit Hilfe des Korollars genügt es n so zu wählen, daß z p 6 2 n gilt, d.h. n> 160 z2 4 2 = 1:962 = 2401 . 4 0:022 DIE NORMAL-VERTEILUNG Prof. Dr. C. Portenier Prof. Dr. W. Gromes Normal- und Binomial-Verteilung 11.3 BEMERKUNG 3 Besitzt man Vorinformationen über p , z.B. wird man nach Beispiel 1 p 6 0:1 annehmen können, so genügt es n so zu wählen, daß z p p 0:1 (1 0:1) 6 = 0:02 , n oder 1:962 n> 0:09 = 864:36 , 0:022 d.h. n = 865 zu nehmen. Prof. Dr. C. Portenier Prof. Dr. W. Gromes DIE NORMAL-VERTEILUNG 161