anstaltung Skript von Ingenieurmathematik IV | Statistik | Wintersemester 1996/97 Umfang: 2V + 2U Dr. Rainer Schmidt Technische Universitat Clausthal Dr. Stefan Rettig Technische Hochschule Darmstadt Literatur Lehrbucher hoeck & Ruprecht 1979. Lehn, J., Wegmann, H.: Einfuhrung in die Statistik. 2. Auage, Teubner 1992. Kreyszig, E.: Statistische Methoden und ihre Anwendungen. 7. Auage, Vanden- Ang, A. H.{S.; Tang, W. H.: Probability Concepts in Engineering Planning and Design. Volume I: Basic Principles, Volume II: Decision, Risk, and Reliability. Wiley & Sons 1975 bzw. 1984. Heinhold, J.; Gaede, K.{W.: Ingenieur{Statistik. 4. Auage, Oldenbourg 1979. Plate, E. J.: Statistik und angewandte Wahrscheinlichkeitslehre fur Bauingenieure. Ernst & Sohn 1993. Ruegg, A.: Wahrscheinlichkeitsrechnung und Statistik { Eine Einfuhrung fur Ingenieure. Oldenbourg 1994. Weber, H.: Einfuhrung in die Wahrscheinlichkeitsrechnung und Statistik fur Ingenieure. Teubner 1992. Nachschlagewerke Hartung, J.: Statistik. 9. Auage, Oldenbourg 1993. Hartung, J.; Elpelt, B.: Multivariate Statistik. Oldenbourg 1984. Sachs, L.: Angewandte Statistik. 7. Auage, Springer 1992. Aufgabensammlungen Oldenbourg 1973. Lehn, J.; Wegmann, H.; Rettig, S.: Aufgabensammlung zur Einfuhrung in die Statistik. 2. Auage, Teubner 1994. Heinhold, J.; Gaede, K.{W.: Aufgaben und Losungen zur Ingenieur{Statistik. Sonstige Literatur Dutter, R.: Geostatistik. Teubner 1985. Chatterjee, S.; Handcock, M. S.; Simono, J. S.: A Casebook for a First Course in Statistics and Data Analysis. Wiley & Sons 1995. Kramer, W.: So lugt man mit Statistik. 4. Auage, Campus 1992. 2 2.2.2 Unabhangigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . 44 2.2.3 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.4 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2.5 Poisson{Verteilung und Poissonscher Grenzwertsatz . . . . . . . . . . . . 51 2 Zweidimensionale Mereihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.1.5 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.4 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.3 Streuungsmazahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.2 Lagemazahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.1 Graphische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Eindimensionale Mereihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . eschreibende Statistik 8 7 7 2.4.2 Erwartungswert einer stetig verteilten Zufallsvariable . . . . . . . . . . . 69 2.4.1 Erwartungswert einer diskret verteilten Zufallsvariable . . . . . . . . . . 67 2.4 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.3.6 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.3.5 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.4 Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.3 Eigenschaften der Verteilungsfunktion F . . . . . . . . . . . . . . . . . . 58 2.3.2 Stetig verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 57 2.3.1 Diskret verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . 55 haltsverzeichnis 1.2.1 Punktediagramm und Kontingenztafel . . . . . . . . . . . . . . . . . . . 18 2.4.3 Varianz einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.3 Zufallsvariable und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 54 1.2.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 2.5 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.4.6 Summen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 77 2.4.5 Tschebyschesche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . 76 2.4.4 Rechenregeln fur Erwartungswerte . . . . . . . . . . . . . . . . . . . . . 74 28 1.2.3 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Wahrscheinlichkeitstheorie 1 Zufallsexperiment und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 29 2.1.1 Grundbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1.2 Laplace { Annahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2 Bedingte Wahrscheinlichkeiten und Unabhangigkeit . . . . . . . . . . . . . . . . 38 2.2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 38 3 chlieende Statistik 84 1 Schatzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.1.1 Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.1.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.1.3 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.1.4 Maximum{Likelihood{Methode . . . . . . . . . . . . . . . . . . . . . . . 92 2 Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.2.1 Kondenzintervalle bei Binomialverteilungsannahme . . . . . . . . . . . 98 3.2.2 2 {Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.2.3 t{Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.2.4 Kondenzintervalle bei Normalverteilungsannahmen . . . . . . . . . . . . 103 3 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.3.1 Zentralsatz der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.3.2 Wahrscheinlichkeitspapier . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.3.3 Kolmogoro{Smirnov{Test . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4 Tests bei Normalverteilungsannahmen . . . . . . . . . . . . . . . . . . . . . . . 117 3.4.1 Einstichprobentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 3.4.2 Operationscharakteristik und Gutefunktion . . . . . . . . . . . . . . . . . 123 3.4.3 Zweistichprobentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5 2{Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3.5.1 Prufen bei endlich vielen Merkmalswerten . . . . . . . . . . . . . . . . . 133 3.5.2 Prufen auf eine bestimmte Verteilung . . . . . . . . . . . . . . . . . . . . 136 3.5.3 Prufen auf einen Verteilungstyp . . . . . . . . . . . . . . . . . . . . . . . 139 5 Themen: 1. Beschreibende (deskriptive) Statistik Aufbereitung von Daten Darstellung und Analyse von Mereihen Daten ordnen, praphisch aufbereiten, Kennzahlen berechnen 2. Wahrscheinlichkeitstheorie Mathematische Modelle fur zufallige Vorgange 3. Schlieende (induktive) Statistik Beurteilung von statistischen Daten Schlufolgerungen aus statistischen Daten Quantizierung der Risiken fur Fehlschlusse aus statistischen Daten 6 apitel 1 eschreibende Statistik male: qualitative Merkmale z.B. Geschlecht, Familienstand, Religionszugehorigkeit, Wohnort Rangmerkmale z.B. Grad des Interesses am technischen Fortschritt quantitativ{diskrete Merkmale z.B. Anzahl defekter Stucke in einem Los, Kettenlange (Anzahl Kohlenstoatome) von n{Alkanen in Dieselol Merkmalsauspragungen entstehen in der Regel durch Zahlen quantitativ{stetige Merkmale z.B. Korperlange, Temperatur, Druck, Spannung Merkmalsauspragungen entstehen in der Regel durch Messen Eindimensionale Mereihen n = Anzahl der Mewerte (Stichprobenumfang) x1; : : :; xn (reelle Zahlen) reihe (Merkmalsauspragungen) i 7 1.1.1 Graphische Darstellungen Stabdiagramm (bei quantitativ{diskreten Merkmalen) j j # h s" 1 s s s s s s s s 9 10 zeigt die relative Haugkeit einer Merkmalsauspragung innerhalb der beobachteten Mereihe Beispiel 9 > = > n = 20 ; Anzahl defekter Stucke in Losen aus jeweils 1000 gleichartigen Bauteilen 3 1 0 0 2 2 0 5 4 7 0 1 6 9 0 4 2 1 0 2 s 0 8 Anzahl defekter Stucke 0 1 2 3 4 5 6 7 8 9 relative Haugkeit in % 30 15 20 5 10 5 5 5 0 5 zugehoriges Stabdiagramm 40 30 relative Haugkeit 20 [%] 10 0 2 3 4 5 6 7 Anzahl defekter Stucke Darstellung einer Mereihe durch ein Stabdiagramm nicht sinnvoll bei quantitativ{stetigen Merkmalen, denn meist alle Werte x1 ; :::; xn verschieden, d.h. alle Stabe hatten Hohe n1 . 8 s . . . . . . . . . . . . . . . . . . . . . j #j h s" . . . . . . . . . . . 1 s . . . . . . . . . . . . . . H : R! [0; 1] s . . . . s . . . . . . . s . . . . . . . . s . . . . 3 4 5 6 7 Anzahl defekter Stucke 8 empirische Verteilungsfunktion 2 s 9 .... .... .... .... .... ..... ..... ..... ..... ..... .... .... .... .... ..... ..... ..... ..... ..... ..... .... .... .... .... .... ..... ..... ..... ..... ..... .... .... .... .... ..... ..... ..... ..... ..... .... .... .... .... .... ..... ..... ..... ..... ..... ..... . . . . . s H (x) = n1 (Anzahl der Mewerte x) ive Summenhaugkeit 1.0 0.9 0.8 0.7 0.6 H (x) 0.5 0.4 0.3 0.2 0.1 0.0 0 10 eis: Die empirische Verteilungsfunktion spielt eine entscheidende Rolle in der Schlieenden stik 9 Histogramm (bei quantitativ{stetigen Merkmalen) Einteilung des Wertebereichs in k Klassen: (a0 ; a1 ]; (a1; a2 ]; : : :; (ak;1 ; ak] Abtragen von Rechtecken uber den einzelnen Klassen, wobei Breite eines Rechtecks = Klassenbreite Klassenhaugkeit Hohe eines Rechtecks = relativeKlassenbreite Fazit: Die Flache des Rechtecks entspricht der relativen Klassenhaugkeit Beispiel 1.000 20.0 absolute relative relative Klassenhaugkeit Klasse Klassenh. Klassenh. Klassenbreite (14:10; 14:15] 2 0.010 0.2 (14:15; 14:20] 4 0.020 0.4 (14:20; 14:25] 12 0.060 1.2 (14:25; 14:30] 23 0.115 2.3 (14:30; 14:35] 39 0.195 3.9 (14:35; 14:40] 42 0.210 4.2 (14:40; 14:45] 36 0.180 3.6 (14:45; 14:50] 24 0.120 2.4 (14:50; 14:55] 12 0.060 1.2 (14:55; 14:60] 6 0.030 0.6 Klassen (14:10; 14:60] = (14 | :10; 14:15] [ (14:15; 14{z:20] [ : : : [ (14:55; 14:60]} 200 Nietkopfdurchmesser [mm] x1; : : :; x200 , alle im Intervall Daten: Nr. 1 2 3 4 5 6 7 8 9 10 200 10 gramm: lt stets: 5.0 4.0 3.0 2.0 1.0 0.0 i=1 k X 14.6 14.7 Klassenhaugkeit = 1 Klassenbreite relativeKlassenbreite 14.2 14.3 14.4 14.5 Nietkopfdurchmesser rel. Klassenhaugkeit Klassenbreite 14.1 Histogrammache = hte: Nicht die Hohen, sondern die Flachen der Histogrammrechtecke charakterisieren die ven Klassenhaugkeiten. Wichtig insbesondere bei nicht aquidistanten Klasseneinteilun- 11 1.1.2 Lagemazahlen Mereihe x1; ::; xn arithmetisches Mittel x7 x1 x2 x . . . . . . . . . . . . x = n1 i=1 n X x5 xi Beachte: x ist im allgemeinen kein beobachteter Wert x4 geordnete Mereihe x6 x~ = x(4) x(5) x(5) x(6) x(7) x(6) x(8) x(7) x3 x(2) x(3) x~ = x(4) fur n gerade fur n ungerade x(1) x(2) x(3) x(4) x(5) x(6) x(7) Median (mittlerer Wert) 8 > x > n + 1! > < 2 x~ = > > x n > : 2 x(1) x(2) x(3) Beachte: x~ ist stets ein beobachteter Mewert ! Beispiele n=7 n=8 x(1) -x -x -x Interpretation: Mindestens 50% der Mewerte sind x~ und mindestens 50% der Mewerte sind x~ 12 3 Streuungsmazahlen groe Streuung: Lagemazahl hat geringe Aussagekraft x kleine Streuung: Lagemazahl hat hohe Aussagekraft x er: Angabe einer Streuungsmazahl zu einer Lagemazahl nnweite d = x(n) ; x(1) n X i=1 1 1 n ; 1 und nicht n ! s2 = n ;1 1 (xi ; x)2 x(n) ;;;;;;;;;;;;;;;;;;; d ;;;;;;;;;;;;;;;;;;;! x(1) irische Varianz hte: Der Vorfaktor ist 13 -x -x -x i=1 v u n p X u s = t n ;1 1 (xi ; x)2 = s2 empirische Streuung oder Standardabweichung Es gilt die folgende Formel: =nx nx2 n X s2 = 1 (xi ; x)2 n ; 1 i=1 n X = 1 (xi2 ; 2xxi + x2 ) n ; 1 i=1 n n n X X X = n ;1 1 ( xi2 ; 2x xi + x2 ) |i=1{z } |i=1{z } i=1 n X = n ;1 1 ( xi2 ; nx2 ) i=1 Beachte: Anfalligkeit gegen Rundungsfehler bei groen Mewerten ! Variationskoezient v = s=x Weitere Streuungsmazahlen, die im Vergleich zur Standardabweichung weniger empndlich auf extrem hohe bzw. niedrige Werte in der Mereihe reagieren: 8 n X dx = n1 jxi ; xj i=1 durchschnittliche Mittelwertabweichung Dabei ist > < y falls y 0 jy j = > : ;y falls y < 0 durchschnittliche Medianabweichung n X dx~ = n1 jxi ; x~j i=1 14 4 Quantile antil i0<p<1 i ist falls np nicht ganzzahlig falls np ganzzahlig [a] = grote ganze Zahl a 8 >< x xp = ([np+1]) :> x(np) iele: [3.5] = 3, [0.7] = 0 x(21) x(20) -x -x xp Schranke fur die unteren 100 p% der beobachteten Werte pretation: Mindestens 100 p% der Mewerte sind xp und mindestens 100 (1 ; p)% der werte sind xp. iele: :1; n = 20 ) n p = 2 ganzzahlig x(2) = x0:1 0.1{Quantil x(5) = x0:2 :2; n = 21 ) n p = 4:2 nicht ganzzahlig, [4:2 + 1] = [5:2] = 5 x(1) 0.2{Quantil lt: x0:5 = x~ ; das 0:5{Quantil ist gerade der Median der Mereihe 15 Bezeichnungen: x0:25 = unteres Quartil x0:75 = oberes Quartil x(12) = x0:75 x(16) -x Ein mit Hilfe von Quantilen deniertes Streuungsma ist der Quartilabstand: q = x0:75 ; x0:25 Beispiel x(4) = x0:25 ;;;;;;;;; q ;;;;;;;;;! n = 16 ) n 0:25 = 4 und n 0:75 = 12 ) q = x(12) ; x(4) x(1) x(8) x x0:75 x(12) x(16) r x(16) Interpretation: Zwischen x0:25 und x0:75 liegen die mittleren 50% der Mewerte. 1.1.5 Boxplots x(4) x0:25 x~ = x0:5 . . . . . . . . . . . . . . . . . . . . . . . . . . Verwendung insbesondere zum Vergleich von Mereihen Es sei n = 16. x(1) r x(1) x x~ . . . . . . . . . . . . . . . . . . . . . . . . . . x~ ; x0:25 x0:75 ; x~ x0:25 x0:75 x(n) r ; untere 25% ;! ;;;;;;;; mittlere 50% ;;;;;;;;! ;;; obere 25% ;;;! symmetrisches Datenmaterial: r x(1) 16 -x iel 25:4 24:6 26:5 27:1 24:7 21:8 23:5 24:6 25:5 26:7 27:0 26:1 24:5 23:4 26:3 22:8 24:0 24:7 25:5 27:0 25:5 24:7 24:3 24:1 21:8 22:8 24:1 24:8 25:6 27:1 20:9 26:5 24:5 26:7 23:2 22:9 24:1 24:9 26:0 27:3 24:0 27:5 27:0 24:9 24:3 23:2 24:3 25:0 26:1 27:4 25:1 25:6 27:3 23:5 24:5 23:4 24:3 25:1 26:3 27:5 22:2 22:9 25:0 27:4 26:0 23:5 24:5 25:1 26:4 27:5 24:8 25:5 22:8 25:5 24:1 23:5 24:5 25:1 26:5 28:3 25:1 23:5 23:5 22:8 27:5 9 > > > > > > > = > n = 50 > > > > > > ; 9 > > > > > > = > n = 50 > > > > > > ; x~ x ... .. .. .. .. .. .. .. ... ... ... 28.0 r x = 501 (20:9 + 21:8 + : : : + 28:3) = 501 1247:3 = 24:946 x~ = x(25) = 24:8 x0:25 = x([12:5+1]) = x(13) = 23:9 x0:75 = x([37:5+1]) = x(38) = 26:3 r 22.0 30.0 22:2 23:9 24:7 25:5 27:0 ergehalte in 25 Bodenproben [ppm] 28:3 23:5 23:9 26:4 25:1 20:9 23:5 24:5 25:4 26:5 nete Mereihe: zahlen: lot: 20.0 24.0 26.0 Kupfergehalt 17 1.2 Zweidimensionale Mereihen Mereihe (x1 ; y1); : : : ; (xn; yn) fur 2 Merkmale x und y, wobei die beiden Merkmalswerte jeweils an derselben Beobachtungseinheit (Person, : : :) erhoben werden. Analyse der jeweiligen eindimensionalen Mereihen: v u n n X X u x1; : : :; xn ) x = n1 xi ; sx = t n ;1 1 (xi ; x)2 i =1 i =1 v u n n X X u y1 ; : : :; yn ) y = n1 yi ; sy = t n ;1 1 (yi ; y)2 i=1 i=1 Frage: Besteht ein Zusammenhang zwischen x und y der folgenden Form: "je groer x, desto groer y\ oder "je groer x, desto kleiner y\ , d. h. ist die Tendenz "steigend\ oder "fallend\ ? genauer: Besteht ein linearer Zusammenhang der Form y = ax + b d. h. lassen sich die Datenpunkte naherungsweise durch eine Gerade beschreiben ? 1.2.1 Punktediagramm und Kontingenztafel Beispiel x = Alter gesunder Manner y = systolischer Blutdruck 18 0 10 s s s 70 s ss s s s s s s s s s s ss s s sss s s 60 (qualitatives Merkmal) (Rangmerkmal) 30 40 50 Alter [Jahre] s ss 20 ss Alter und systolischer Blutdruck bei gesunden Mannern eihe (x1 ; y1); : : :; (x30 ; y30 ) e ermittelt an 30 gesunden Mannern 140 160 180 200 ktediagramm Blutdruck [mbar] 120 100 tingenztafel iel mbefall bei Zuchtpferden x = Rassenzugehorigkeit y = Wurmbefall n in Form einer Kontingenztafel 19 80 x y Rasse 1 Rasse 2 Rasse 3 gering 28 19 17 mittel 9 6 35 stark 13 14 20 50 39 72 64 50 47 161 Hinweis : Bei quantitativen Merkmalen erhalt man eine Kontingenztafel durch eine Klasseneinteilung 1.2.2 Korrelation empirische Kovarianz sxy n X (x ; x)(yi ; y) = 1 n ; 1 i=1 i n X = 1 n ; 1 i=1 (xi yi ; xi y ; x yi + x y) 0 1 B C B C B C B C n n n n X X X X B C B C = n ;1 1 B C Bi=1 xi yi ; i=1 xi y ; i=1 x yi + i=1 x y}C C B | {z } | {z } | {z B C @ =ynx =xny =nxy A {z } | =;nxy ! n 1 X n ; 1 i=1 xi yi ; nx y = empirischer Korrelationskoezient r = s sxy s x y 20 y 6 ;m r>0 pretation von sxy : y +m x +m sxy = n ;1 1 ;m i=1 y y 6 ;m r<0 x +m ;m - x viele Produkte negativ, wenige Produkte positiv ) sxy < 0 negative Korrelation +m (xi ; x)(yi ; y) n X - x ;1 r 1 viele Produkte positiv, wenige Produkte negativ ) sxy > 0 positive Korrelation lt: rr r r r - 6 r r r = ;1 rr r -r ...... ...... ...... ...... ...... ... . . . . ..... ...... ..... ...... ...... ...... ..... ...... ...... . . . . . ...... ...... ...... ..... ...... ...... ..... ...... .... . . . . . ...... ..... ...... ...... ...... ...... .. r pretation : jrj ist ein Ma fur die "Tendenz\ zu einem linearen Zusammenhang der x- und erte. 6 r=1 r r . ....... ...... ...... ..... ...... ...... ..... ..... ...... ...... ..... ...... ....... ...... ...... ...... ...... ...... ..... ..... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ..... ...... jrj = 1: Mewerte liegen auf einer Geraden 21 Beispiel ;1 r positive Korrelation r ;2 r 0 r r r 2 r 3 r 4 5 x = 11 9 y = ; 3 = ; 31 v9 u 2 ! u = 1:922 sx = t 1 43 ; 9 119 8 v u 2 ! u sy = t 81 91 ; 9 ; 13 = 3:354 sxy = 81 32 ; 9 119 ; 31 = 4:458 1 r 4:458 = 0:692 r = 1:922 3:354 yi xi2 yi 2 xi yi -3 4 9 6 -7 1 49 7 0 0 0 0 -2 1 4 -2 0 4 0 0 2 4 4 4 4 4 16 8 3 9 9 9 0 16 0 0 -3 43 91 32 Stichprobenumfang n = 9; Mereihe (x1 ; y1); : : :; (x9; y9 ) xi -2 -1 0 1 2 2 2 3 4 Summe 11 Man erhalt: ;3 Punktediagramm: 4 2 0 ;2 ;4 ;6 ;8 Achtung : Korrelation nicht "blind\ ausrechnen ! Beispiel: 2 Untergruppen im Datenmaterial (Manner/Frauen) insgesamt: r > 0 aber: in den Untergruppen jeweils r < 0 22 3 Regression arer Zusammenhang der Form unterstellt ! yi 6 s y = ax + b " j j s ax + b Losung: a^; ^b Regressionsgerade y = ^ax + ^b wird oft fur Prognosezwecke benutzt ! ("Schlu von x auf y\) Bestimmung von a^ und ^b i=1 n X @S (a; b) @b = i=1 2(yi ; axi ; b)(;1) n X =! 0 = ;2 (xi yi ; axi2 ; bxi) n @S (a; b) = X 2(yi ; axi ; b)(;xi ) @a i=1 n X Nullsetzen des Gradienten von S : also gilt und man erhalt Daraus folgt i=1 ny ; anx ; nb = 0 ; b = y ; ax (xi yi ; axi2 ; yxi + axxi) = 0 i=1 n X xiyi ; nx y = a( xi2 ; nx2 ) ; 24 n X xiyi ; n x y Kovarianz a^ = i=1X = sxy2 = empirische n empirische Varianz sx xi2 ; nx2 i=1 n X i=1 Einsetzen von b = y ; ax in die erste Gleichung liefert n X i=1 = ;2 (yi ; axi ; b) j j } Aus der zweiten Gleichung folgt ri - =! 0 xi {z =! minimal s# . .... .... .... ... .... ... .... ... .... .... ... .... ... .... ... .... .... ... .... ... .... ... ... .... .... .... ... .... ... ... .... .... ... .... .... ... ... .... .... ... .... .... ... ... .... .... ... .... .... ... ... .... .... ... .... .... ... .... .... .... .... ... .... .... .... .... .... .... .... ... .... .... .... .... ... .... .... .... .... .... .... .... .... ... .... .... .... .... .... .... ... .... .... ... .... ... .... ... .... ... .... .... lem: Bestimmung von a und b ? rium: i ist n X |i=1 (yi ; axi ; b)2 ri = yi ; (axi + b) ; i = 1; : : :; n Werte heien Residuen. n X i=1 ri2 = hode der kleinsten Quadrate\: S (a; b) = Summe der vertikalen Abstandsquadrate 23 t ergibt sich ^b zu ^b = y ; ^ax Untersuchung der zweiten partiellen Ableitungen zeigt, da die Funktion S an der Stelle tatsachlich ein Minimum besitzt ! y = ^ax + (y ; a^x) = ^a(x ; x) + y ; ; ^b = ; 1 ; 1:207 11 = ;1:809 3 9 x = 119 ; y = ; 13 ; sx = 1:922; sxy = 4:458 458 = 1:207 a^ = 14::922 2 (siehe oben) hte : Der Punkt (x; y) liegt stets auf der Regressionsgeraden, wegen iel us folgt: iel ^a = 1:493 { Blutdruck bei gesunden Mannern; aus den Daten ergibt sich ^b = 80:7 formel: Blutdruck 1.5 Alter + 80 Approximation kann zur Prognose herangezogen werden. tediagramm mit Regressionsgerade: 25 Blutdruck [mbar] 200 180 160 140 120 100 0 s ss ss 20 n X ri2 = s s ss s s s s s s s s s s ss s s ss s s s 30 40 50 Alter [Jahre] s 70 (|yi ; ^a{zxi ; ^b})2 = (n ; 1) (1 ; r2 ) sy2 Residuum n X i=1 B = r2 1 ssr B = 1 ; n ; s12 y i=1 60 80 .... .... ... .... .... ... .... ... .... ... .... .... ... .... ... .... ... .... .... ... ... .... .... .... ... .... ... .... .... ... ... .... ... .... .... .... .... .... .... .... .... .... .... .... .... ... .... ... .... .... ... .... .... .... ... .... ... ... .... ... .... .... .... .... ... .... ... .... ... .... .... ... .... .... .... .... .... ... .... .... .... ... .... .... .... .... .... ... .... .... .... ... .... .... .... .... .... .... .... ... .... .... .... ... .... .... .... .... .... ... .... .... .... s Alter und systolischer Blutdruck bei gesunden Mannern 10 = Zusammenhang mit Korrelationskoezienten ssr |{z} Summe der Residuenquadrate Bestimmtheitsma Es gilt 26 pretation und 1.Fall: B = 0 Wegen r = 0 gilt fur die Parameter der Regressionsgerade ^b = y a^ = 0 Die Regressionsgerade hangt somit nicht von x ab: y ( x) = y Es gilt insbesondere 1 2 n ; 1 ssr = sy ; d. h. kein Anteil der Varianz der y{Werte kann durch einen linearen Zusammenhang erklart werden. 2. Fall: B = 1 Wegen r2 = 1 gilt ssr = 0, d. h. alle vertikalen Abstande verschwinden und somit liegen alle Punkte auf der Regressionsgeraden. Fazit: Die gesamte Varianz der y{Werte ist in diesem Fall durch den linearen Zusammenhang erklart. gressionsgeraden Schlu von x auf y Prinzip: Summe der quadrierten senkrechten Abstande minimal ! y ; y = ssxy2 (x ; x) x Schlu von y auf x Prinzip: Summe der quadrierten waagrechten Abstande minimal ! ; ; x ; x = ssxy2 (y ; y) y Geraden fallen genau dann zusammen, falls sxy = sy2 sx2 sxy falls 2 sxy sx2 sy2 = 1 B = r2 = 1 27 Kapitel 2 Wahrscheinlichkeitstheorie Zufalligkeiten beeinussen Experimente und damit auch Meergebnisse; Versuchsergebnisse in diesen Fallen meist nicht reproduzierbar; mogliche Ursachen: gleich) technische Variabilitat (keine zwei Untersuchungsgegenstande in ihrer Struktur vollig Anderung der Versuchsbedingungen (z. B. Ort und Zeit der Messung) Mefehler (Storeekte uberlagern den wahren Wert) Folge : Daten sind mit Streuung behaftet (Restvariabilitat) stochastische Vorgange oder Zufallsexperimente Vorgange, bei denen Ergebnis nicht aus Versuchsbedingungen vorhersagbar: Beispiele (Probenvariabilitat + Mefehler) Messung des Spannungszustands einer Werkstoprobe in einem Zugversuch (raumliche Variabilitat) Anteil des Kupfergehalts in Bodenproben (Variabilitat durch Zeitpunkt der Messung + Mefehler) Verkehrsdichte an einer Kreuzung Bestimmung der Nahrstokonzentration im Ablauf von Abwasserbehandlungsanlagen (variierende Versuchsbedingungen [Industrie, Landwirtschaft, Haushalte] + zeitliche Abhangigkeiten + Mefehler) 28 monatliche Bestimmung der Biomasse in einem Wald (variierende Versuchsbedingungen [Klima] + Probleme der Stichprobenauswahl) Glucksspiele (Wurfeln, Roulette, Lotto, : : : ) rscheinlichkeitstheorie: mathematische Beschreibung von Zufallsexperimenten ! Ergebnis ! Zufallsexperiment und Wahrscheinlichkeit 1 Grundbegrie hfuhrung eines Zufallsexperiments ebereich oder Ergebnismenge: (! 2 ) iele Wurfelwurf: = f1; 2; 3; : : :; 6g Werfen zweier unterscheidbarer Wurfel: = f(i; j ) j i; j = 1; : : :; 6g = f(1; 1); (1; 2); (2; 1); : : :g 36 Elemente Werfen zweier nicht unterscheidbarer Wurfel: = f(i; j ) j i; j = 1; : : :; 6 ; i j g = f(1; 1); (1; 2); (2; 2); (1; 3); : : :g 21 Elemente Lebensdauer eines Systems: = f! 2 Rj ! 0g = R+ Gerat defekt oder intakt: = f0; 1g ; 0 =b defekt, 1 =b intakt gnisse: Teilmengen von (A ) (siehe oben) hweise : Ereignis A tritt ein, falls Ergebnis ! 2 A beobachtet wird iele A = f1; 3; 5g beim Wurfelwurf "ungerade Zahl\ A = f(1; 1); (1; 2); (2; 1)g "Summe 3\ 29 3. A = f(1; 1); (1; 2); (2; 2); (1; 3); (2; 3); (3; 3)g "beide Augenzahlen 3\ 4. A = f! 2 Rj ! > 100g = (100; 1) "langer als 100 Stunden\ 5. A = f0g "Gerat defekt\ Zusammengesetzte Ereignisse Es seien A und B Ereignisse A\B = ; : : ;: Elementarereignis unvereinbare oder disjunkte Ereignisse sicheres Ereignis leere Menge; unmogliches Ereignis "A oder B\ : mindestens eines tritt ein , ! 2 A [ B "A und B\ : beide treten gleichzeitig ein , ! 2 A \ B Ac , "nicht A\ : komplementares Ereignis f!g; ! 2 : Ai Ai : "mindestens eines davon\ : "alle Ereignisse gleichzeitig\ sei A1 ; A2; : : : eine Folge von Ereignissen 1 \ i=1 1 [ i=1 Frage: Wie gro ist die Wahrscheinlichkeit dafur, da die Betriebsdauer eines Gerates exakt 100 Stunden betragt ? Antwort: praktisch = 0 besser: Wie gro ist die Wahrscheinlichkeit dafur, da die Betriebsdauer eines Gerates zwischen 90 und 100 Stunden liegt ? also: Wahrscheinlichkeit fur das Eintreten des Ereignisses A = [90; 100] Fazit : Ereignisse haben Wahrscheinlichkeiten ! 30 P (A) = Wahrscheinlichkeit von A pretation : Bewertung des Ereignisses A nach dem Grad, wie sehr mit seinem Eintreten zu rechnen ist. A = System der Ereignisse, die betrachtet werden P (f!g) = Wahrscheinlichkeit dafur, da ! auftritt (Wahrscheinlichkeit des Elementarereignisses f!g) nschaften je zwei unvereinbar 9 > P (A ) 0 ; fur A 2 A > > > P ( ) = 1; hundertprozentig sicher\ = " 1 1 > Kolmogoro 1933 > P S Ai = P P (Ai ); falls A1 ; A2; :::: 2 A; i=1 i=1 > > > ; enregeln P (A c ) = 1 ; P ( A ) P (;) = 0 0 P (A) 1 "Grad des Eintretens\ A B ) P (A) P (B ) Wahrscheinlichkeit des zusammengesetzten Ereignisses "A oder B\: P (A [ B ) = P (A) + P (B ) ; P (A \ B ) Wahrscheinlichkeit des zusammengesetzten Ereignisses "A oder B oder C\: P (A [ B [ C ) = P (A) + P (B ) + P (C ) ; P (A \ B ) ; P (A \ C ) ; P (B \ C ) + P (A \ B \ C ) [ : : : [ An ) 1in + P (Ai \ Aj \ Ak ) 1i<j<kn ; : : : + (;1)n+1 P (A1 \ : : : \ An ) X X = P (Ai ) ; P (Ai \ Aj ) 1i<jn X allgemein: Wahrscheinlichkeit fur die Vereinigung endlich vieler Ereignisse P (A1 lem: Festlegung von P 31 2.1.2 Laplace { Annahme Falls = f!1 ; : : :; !ng eine endliche Menge ist und alle Elementarereignisse f!i g; i = 1; ::; n; die gleiche Wahrscheinlichkeit haben, so gilt: P (f!i g) = n1 ; i = 1; ::; n der fur A gunstigen Ergebnisse P (A) = Anzahl Anzahl der moglichen Ergebnisse in A = jAj P (A) = Anzahl der Elemente n j j Aus der Laplace-Annahme folgt fur ein Ereignis A : Interpretation Beispiele Werfen eines Wurfels: = f1; 2; 3; 4; 5; 6g P ("ungerade Zahl\) = P (f1; 3; 5g) = 63 = 12 Werfen zweier unterscheidbarer Wurfel = f1; : : :; 6g f1; : : :; 6g = f(i; j ) j i; j = 1; : : :; 6g Es gilt bei Laplace{Annahme P ("mindestens eine 6\) = P (f(1; 6); (2; 6); : : :; (6; 6); (6; 5); : : : ; (6; 1)g) = 11 36 Achtung : Werfen zweier nicht unterscheidbarer Wurfel = f(i; j )ji; j = 1; : : :; 6 ; i j g 21 Elemente bei Laplace{Annahme: 1 P (f(1; 1)g) = 21 32 nicht gerechtfertigt ! besser: A = "Summe betragt 12\ B = "Summe betragt 13\ C = "Summe betragt 11\ 1 |P (f(1{z; 1)g)} = 2 |P (f(1{z; 2)g)} 1 2 36 36 oder allgemein P (f(i; i)g) = 21 P (f(i; j )g) fur i 6= j Diese Festlegung von P entspricht also nicht mehr der Laplace{Annahme, da die Elementarereignisse unterschiedliche Wahrscheinlichkeiten besitzen. 3 Wurfel werden geworfen; Ereignisse: Mogliche Augenzahlen: fur A : 1+5+6 2+4+6 2+5+5 3+3+6 3+4+5 4+4+4 fur B : 1+6+6 2+5+6 3+4+6 3+5+5 4+4+5 fur C : 1+4+6 1+5+5 2+3+6 2+4+5 3+3+5 3+4+4 = f(i; j; h) : i; j; h = 1; :::; 6g; j j = 6 6 6 = 216 Anzahl der Moglichkeiten: jAj = 6 + 6 + 3 + 3 + 6 + 1 jB j = 3 + 6 + 6 + 3 + 3 jC j = 6 + 3 + 6 + 6 + 3 + 3 Bei Laplace{Annahme gilt: 25 21 27 P (A) = 216 P (B ) = 216 P (C ) = 216 Werfen von 4 unterscheidbaren Munzen = f(i; j; k; l) : i; j; k; l = 0; 1g = f0; 1g f0; 1g f0; 1g f0; 1g wobei 0 =b Wappen, 1 =b Zahl. Es gilt j j = 24 = 16 Es sei A = "mindestens einmal Wappen\ Aus der Laplace{Annahme folgt 1 = 15 P (A) = 1 ; P (Ac) = 1 ; P (f(1; 1; 1; 1)g) = 1 ; 16 16 33 Abzahlregeln 1. Platz 2. Platz : : : k. Platz insgesamt n n ::: n nk Anzahl = nk Es sei j 1 j = n1 und j 2j = n2. Dann gilt: 1 2 = f(!1 ; !2 ) : !1 2 1 ; !2 2 2 g hat n1 n2 Elemente. j j = n ; k 2 N geordnete Proben von k Elementen mit Wiederholungen: Begrundung: Moglichkeiten 1. Platz 2. Platz : : : k. Platz n n ; 1 : : : n ; (k ; 1) n (n ; 1) : : : 2 1 = n! Permutationen Moglichkeiten Anzahl = n (n ; 1) : : : (n ; k + 1) j j = n ; k n geordnete Proben von k Elementen ohne Wiederholung: Begrundung: Spezialfall: n = k 123 ; 132 ; 213 ; 231 ; 312 ; 321 Beispiel Es sei n = 3. Permutationen Anzahl Permutationen Anzahl der k{elementigen Teilmengen von 1 2 3 = 3! = 6 j j = n ; k n ungeordnete Proben von k{Elementen ohne Wiederholungen: ! n k 34 Anzahl der geordneten Proben: n (n ; 1) : : : (n ; k + 1) da ungeordnet: je k! viele der geordneten Proben sind gleich, also n (n ; 1) : : : (n ; k + 1) k! Durch Erweiterung des Bruches erhalt man ! n (n ; 1) : : : (n ; k + 1) (n ; k) : : : 1 = n! =: n k! (n ; k) : : : 1 k!(n ; k)! k Binomialkoezienten ! n k = "Anzahl der k{elementigen Teilmengen aus einer n{elementigen Menge\ = k! (nn;! k)! ! 4 4! 4 3 2 1 2 = 2!2! = 2 1 2 1 = 6 Beispiel Es sei n = 4 und k = 2. Anzahl der 2-elementigen Teilmengen einer 4-elementigen Menge: Aufzahlung der Teilmengen f1; 2g; f1; 3g; f1; 4g; f2; 3g; f2; 4g; f3; 4g f1; 2; 3; 4g 3 Zufallsvariablen Nicht das genaue Ergebnis !, sondern nur ein damit verbundener Zahlenwert ist von esse. iel: Augensumme beim Werfen von zwei Wurfeln Zufallsvariable X : ! R 35 P (X = k) = P (A) Von besonderem Interesse sind Ereignisse der Form "X = k\. Mit A = f! 2 : X (!) = kg gilt Beispiel X = Summe der Augenzahlen Augensumme beim Wurf zweier unterscheidbarer Wurfel. Ergebnismenge des Zufallsexperiments: = f1; : : :; 6g f1; : : :; 6g = f(i; j ) j i; j = 1; : : :; 6g 36 Elemente Zufallsvariable 36 X: ebereich von X : f2; 3; : : :; 12g. 2.2 Bedingte Wahrscheinlichkeiten und Unabhangigkeit ! R (i; j ) 7! i + j Wahrscheinlichkeit eines Ereignisses A : P (A) Interpretation eilung von X unter der Laplace{Annahme: P (X = 2) = P (f(1; 1)g) = 361 P (X = 3) = P (f(1; 2); (2; 1)g) = 362 P (X = 4) = P (f(1; 3); (2; 2); (3; 1)g) = 363 P (X = 5) = P (f(1; 4); (2; 3); (3; 2); (4; 1)g) = 364 P (X = 6) = P (f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g) = 365 P (X = 7) = P (f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1)g) = 366 P (X = 8) P (X = 9) P (X = 10) P (X = 11) P (X = 12) = P (X = 6) = P (X = 5) = P (X = 4) = P (X = 3) = P (X = 2) P (A) relative Haugkeit des Eintretens von A in langen Serien gleicher, getrennter Versuche Beispiel Munzwurfe = 365 = 364 = 363 = 362 = 361 n lt: P (X = k ) s 2 12 X k=2 s 3 s 4 s 5 6 k 7 2048 12012 0.5069 0.5005 2.2.1 Bedingte Wahrscheinlichkeiten s 8 Serie: s s s s A A B B A A B B A B P (X = k) = 1 = P ( ) A B Es sei nA = Anzahl Versuche mit A nB = Anzahl Versuche mit B nA\B = Anzahl Versuche mit A und B gleichzeitig 9 10 11 12 In der obigen Serie: 37 12 12 Gegeben seien zwei Ereignisse A und B s s nWappen relative Haugkeit Buon 4040 Pearson 24000 diagramm 6 36 5 36 4 36 3 36 2 36 1 36 P ("Wappen\) = P ("Zahl\) = 12 n = 12; nA = 7 ; nB = 6; 38 nA\B = 4 A nA\B = nA\B =n nA nA=n nA = 7 n 12 falls P (A) > 0 nA\B = 4 = 1 ; n 12 3 rscheinlichkeit fur B unter der Bedingung, da A eintritt (d. h. zahle nur die Versuche, in n A eintritt): r obigen Serie: nA\B = 4 ; nA 7 pretation legt nahe: ngte Wahrscheinlichkeit von B unter A \ B) P (B jA) = P (PA(A ) mel der totalen Wahrscheinlichkeit nisse A1 ; : : :; An seien paarweise unvereinbar (d. h. Ai \ Aj = ; fur i 6= j ). i=1 i=1 n X i=1 n X P ( B \ Ai ) P (Ai ) P (Ai ) P (B jAi ) P (Ai ) P (B jAi ) P (Ai ) = P (B ) = n r sei S Ai = und P (Ai ) > 0 fur i = 1; : : :; n. gilt undung n X i=1 39 Verallgemeinerung P (B ) = i=1 1 X = n X = P (B \ Ai ) i=1 ! [n = P (B \ Ai) 1 0i=1 C B [n !C C B B = PB B\ A C @ | i=1{z i }A = P (B ) P (B jAi ) P (Ai ) n Es sei A1 ; A2; : : : eine Folge von paarweise unvereinbaren Ereignissen mit S Ai = und i=1 P (Ai ) > 0 fur i = 1; 2; : : : Dann gilt Beispiel 4 ; P (B jA1 ) = 31 A1 = "kein As beim 1. Zug\ A2 = "As beim 1. Zug\ B = "As beim 2. Zug\ P (A2 ) = 324 ; 3 P (B jA2 ) = 31 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurucklegen der ersten Karte); Ereignisse: Laplace{Annahme: 28 ; P (A1 ) = 32 Mit der Formel der totalen Wahrscheinlichkeit folgt: P (B ) = 4 28 + 3 4 = 1 31 32 31 32 8 40 mel von Bayes Multiplikationsformel 0:001 0:01 Begrundung Sei 2 ) P (A1 \ A2 \ A3 ) = P (A1 ) P (PA1(A\ A P (A \ A ) : : : 1) 1 2 A1 \ : : : \ An;1 ) P (A1 \ : : : \ An) : : : PP ((A 1 \ : : : \ An;2 ) P (A1 \ : : : \ An;1 ) = P (A1 \ : : : \ An ) 42 A1 = "2. Person hat anderen Geburtstag als 1. Person\ A2 = "3. Person hat anderen Geburtstag als 1. und 2. Person\ A = "4. Person hat anderen Geburtstag als 1., 2. und 3. Person\ 3 ... A = "k{te Person hat anderen Geburtstag als 1., 2., : : : , (k ; 1){te Person\ k ; 1 ... An;1 = n{te Person hat anderen Geburtstag als alle vorher\ " P (A1 \ : : : \ An;1 ) = ? P (A1 ) = 364 365 363 P (A2 jA1) = 365 P (A3 jA1 \ A2 ) = 362 365 ... (n ; 1) = 365 ; n + 1 P (An;1 jA1 \ : : : \ An;2 ) = 365 ;365 365 n zufallig ausgewahlte Personen P ("keine 2 Personen haben am selben Tag Geburtstag\ ) = ? Beispiel P (A1 ) P (A2 jA1) P (A3 jA1 \ A2 ) : : : : : : P (An;1 jA1 \ : : : \ An;2 ) P (An jA1 \ : : : \ An;1 ) P (A1 \ : : : \ An ) = P (A1 ) P (A2 jA1) P (A3 jA2 \ A1 ) : : : P (An jA1 \ : : : \ An;1 ) A1 ; : : :; An Ereignisse mit P (A1 \ : : : \ An;1 ) > 0 P (B jAi ) P (Ai ) P (Ai jB ) = P (PA(i B\)B ) = X n P (B jAk ) P (Ak ) k=1 eignis mit P (B ) > 0 ; A1 ; : : :; An wie bei der Formel der totalen Wahrscheinlichkeit iel (korrektes Ergebnis) 0:999 A = "untersuchter Patient hat Tbc\ B = "positiver Befund\ P("untersuchter Patient hat Tbc\ j "positiver Befund\) = ? Rontgenreihenuntersuchung ahmen: P (B jA) = 0:92 (falsches Ergebnis) P (A) = 0:001 P (B jAc) = 0:01 der Formel der totalen Wahrscheinlichkeit folgt: 0:92 P (B ) = |P (B{zjA)} |P ({zA)} + |P (B{zjAc)} |P ({zAc)} = 0:01091 Bayessche Formel liefert: 0:001 = 0:0843 P (AjB ) = P (B jPA()B )P (A) = 0:092:01091 P (Ac jB ) = 1 ; P (AjB ) = 0:9157 92% 41 Werfen von 3 Munzen Multiplikationsformel liefert: : : (365 ; n + 1) P (A1 \ : : : \ An;1 ) = 364 363 :365 n;1 : (365 ; n + 1) (Laplace{Annahme) = 365 364 : :365 n Pfaddiagramm: Z 0.973 0.589 0.294 0.030 0.006 W 1/2 1/2 1/2 Z W Z X=0 X=1 X=1 X=2 X=1 W P (X = 0) P (X = 1) P (X = 2) P (X = 3) iele W 1/2 W phische Methode (Pfadregel) 1/2 Z X=2 X=2 2. Munze 1/2 W 3. Munze X=3 = 12 12 12 = 18 = 3 18 = 38 = 3 18 = 38 = 12 12 12 = 18 bei n Munzen: ! n P (X = k) = nk 12 k = 0; : : :; n P ("As beim 2. Zug\) = ? Pfaddiagramm: 1/2 Z Z also 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurucklegen der 1. Karte) 1/2 1/2 Z 1/2 1. Munze W 1/2 endung der Multiplikationsformel: (Binomialverteilung, siehe unten) 2.2.2 Unabhangigkeit von Ereignissen 4/32 28/32 kein As also 1/2 1/2 n P (A1 \ : : : \ An;1 ) 5 20 30 50 60 X = Anzahl Munzen mit Wappen sichtbar Beispiel As 27/31 4/31 28/31 3/31 kein As As kein As As 3 4 + 4 28 = 1 P ("As beim 2. Zug\) = 31 32 31 32 8 43 1. Zug 32 Karten (Skat), 4 Asse, 2 Zuge mit Zurucklegen der 1. Karte ; die Asse seien die Karten mit den Nummern 1, 2, 3 und 4 2. Zug Ergebnismenge: = f1; 2; 3; 4; : : :; 31; 32g f1; 2; 3; 4; : : :; 31; 32g Ereignisse: = f1; 2; 3; 4g f1; 2; : : :; 32g = f1; 2; : : :; 32g f1; 2; 3; 4g A \ B = f1; 2; 3; 4g f1; 2; 3; 4g A B 44 322 Elemente "1. Karte ein As\ "2. Karte ein As\ "zweimal As\ ace{Annahme: 1 P (A) = 432 32 2 = 8 = P (B ) 16 = 1 P (A \ B ) = 32 2 64 "B hat keinen Einu auf A\ "A hat keinen Einu auf B\ "getrennte Versuchsteile bestimmten das Eintreten von A und B\ , P (A \ B ) = P (A) P (B ) P (AjB ) = P P(A(B\B) ) = 648 = 81 = P (A) P (B jA) = P P(B(A\A) ) = 648 = 81 = P (B ) ngte Wahrscheinlichkeiten: ition P (A \ B ) = P (A) P (B ) nisse A und B heien unabhangig, falls gilt endung (A1 1 ) (B2 2 ) = 1 2 = f(!1 ; !2 )j!1 2 1; !2 2 2 g 1. Zufallsexperiment : Ergebnismenge 1 2. Zufallsexperiment : Ergebnismenge 2 truktion von Modellen bei mehrstugen Experimenten samt: nisse: A = A1 2 B = 1 B2 ussetzung: Experimente ohne gegenseitige Beeinussung : P (A \ B ) = P (A) P (B ) 45 Beispiele Ai = "Bauteil i intakt\ ; i = 1; 2 G = "Gerat intakt\ 2 Bauteile, I = Serienschaltung, II = Parallelschaltung; Ereignisse: Es sei pi = P (Ai ); i = 1; 2 P (A1 \ A2 ) = P (A1 ) P (A2 ) = p1 p2 Annahme: A1 ; A2 stochastisch unabhangig. Dann gilt: Daraus folgt: P I (G) = P (A1 \ A2 ) = P (A1 ) P (A2 ) = p1 p2 P II (G) = P (A1 [ A2 ) = P (A1 ) + P (A2 ) ; P (A1 \ A2 ) = p1 + p2 ; p1 p2 Es gilt: P I (G) < P II (G) = f1; 2; 3; 4g; P (fig) = 14 ; i = 1; : : :; 4; Laplace{Annahme; Sei A = f1; 2g; B = f1; 3g; C = f2; 3g Es gilt: P (A \ B ) = 14 = 21 21 = P (A) P (B ) 46 Es gilt also fur i = 1; 2; 3; : : : ebenso: P (A \ C ) = P (A) P (C ) P (B \ C ) = P (B ) P (C ) aber: Verallgemeinerung P (A \ B \ C ) = 0 6= P (A) P (B ) P (C ) "A; B; C paarweise unabhangig, aber nicht vollstandig unabhangig\ 3 Geometrische Verteilung iel "Warten auf den ersten Erfolg\ Es sei p = Erfolgswahrscheinlichkeit pro Experiment und X = Anzahl der benotigten Versuche bis zum 1. Erfolg Falls die einzelnen Experimente sich nicht gegenseitig beeinussen (Unabhangigkeitsannahme), gilt en auf die erste "6\ beim Wurfeln i X = Anzahl der benotigten Wurfe P (X = i) = p (1 ; p)i;1 ; r der Annahme, da die einzelnen Wurfe ohne gegenseitige Beeinussung erfolgen (Unngigkeitsannahme), gilt: X=1 X=2 X=3 X=4 =6 =6 =6 =6 1/6 1/6 1/6 <6 5/6 <6 5/6 i;1 P (X = i) = 16 65 "X geometrisch verteilt mit Parameter p\ Es gilt: 1 X 1 1 X X P (X = i) = p (1 ; p)i;1 = p (1 ; p)i i=1 i=1 i|=0 {z } 1/6 <6 5/6 <6 5/6 i = 1; 2; 3; : : : = p 1 ; (11 ; p) = 1 geometrische Reihe ....... us folgt: P (X = 1) = 61 P (X = 2) = 56 16 2 P (X = 3) = 65 16 3 P (X = 4) = 56 16 47 (beachte : P ( ) = 1 !) Beispiel Wurfelwurf X = Anzahl der Versuche bis zur ersten 6 Gesucht ist die Wahrscheinlichkeit fur das Ereignis usw A = "erste 6 spatestens beim 3. Wurf\ 48 erhalt: i wurde benutzt: fur q > 0 91 = 0:4213 = 216 n+1 qi = 1 1;;q q i;1 3 3 X X P (X 3) = P (X = i) = 1 5 i=1 i=1 6 6 5 3 2 5 i 1 1 ; X 6 = 1 = 6 6 i=0 6 1 ; 56 n X i=0 4 Binomialverteilung hfuhrung von n gleichen Zufallsexperimenten ohne gegenseitige Beeinussung (! Unngigkeitsannahme) = f(!1 ; !2 ; : : :; !n) j !i 2 f0; 1gg X = Anzahl Experimente mit A ("Anzahl Erfolge\) nis A vorgegeben; "Erfolg\ = "A tritt ein\ bnismenge: i !i = 0 , kein Erfolg !i = 1 , Erfolg X : ;! N (!1 ; !2 ; : : :; !n) 7! Anzahl i mit !i = 1 0p1 "k Erfolge\ p = P (A) = Erfolgswahrscheinlichkeit pro Experiment ; lsvariable X : i ! = (!1 ; !2 ; : : :; !n ) 2 mit X (!) = k 49 k n pk |{z} k Erfolge n;k |(1 ;{zp) } n ; k Mierfolge k = 0; 1; : : :; n solcher ! mit X (!) = k (Anzahl Serien mit genau k Erfolgen). Daraus P (f!g) = Dann gilt aufgrund der Unabhangigkeitsannahme: Es gibt insgesamt folgt: ! P (X = k) = nk pk (1 ; p)n;k ; ! "X binomialverteilt mit Parametern n und p\ Schreibweise: X B (n; p) Es gilt: n n n X X P (X = k) = pk (1 ; p)n;k k=0 k=0 k = (p + (1 ; p))n = 1 (P ( ) = 1 !) n n! X k n;k k a b k=0 k = 0; 1; 2; 3 X B (n; p) mit n = 3 und p = 61 ; X = Anzahl der "Sechsen\ (a + b)n = Dabei wurde die binomische Formel benutzt: Beispiel 3 Wurfe eines Wurfels Es gilt: also ! k 3;k P (X = k) = k3 61 65 ; 50 Formel liefert: samt gilt: P (X = 0) P (X = 1) P (X = 2) P (X = 3) 3 = 0:5787 = 0:3472 = 0:0694 = 0:0046 216 = 1 P (X = k) = 216 125 5 = = 56 2 216 75 =3 1 = 6 2 56 216 15 =3 1 = 216 16 3 6 = = 2161 6 3 X k=0 em : Berechnung von P (X = k) bei groem n ! k = k) = k! e; ; k = 0; 1; 2; : : : nlim !1 n pn = > 0 5 Poisson{Verteilung und Poissonscher Grenzwertsatz nlim !1 P (Xn Xn B (n; pn ) ; n = 1; 2; : : : ; sonscher Grenzwertsatz gilt: undung kn ! P (Xn = k) = n pk (1 ; pn )n;k n k n k 1 ; npn n = n(n ; 1) : :k: ! (n ; k + 1) npnn (1 ; pn )k ! 0 ! 1n 1 z}|{C 1 1 ; n : : : 1 ; k ;n 1 k B = (npn ) B1 ; npn C A k n (1 ; | k{z! } @ | {zpn ) } k | {z } !1 ! !e; k! k e; k! n;! !1 51 i P (X = i) = i! e; ; Eine Zufallsvariable X mit ex = 1 xi X i! i=0 1 X i=0 i = 0; 1; 2; : : :; 1 i X ; i! = e e = 1 i=0 >0 (Reihenentwicklung der Exponentialfunktion) P (X = i) = e; heit "Poisson{verteilt\ mit Parameter . (Verteilung fur die Anzahl des Auftretens seltener Ereignisse.) Es gilt: wegen Anwendung Anzahl der "Erfolge\, falls Zufallsexperiment sehr oft wiederholt wird und Erfolgswahrscheinlichkeit p bei einem Experiment gering. Beispiele: Anzahl der Unfalle eines Autofahrers pro Jahr Anzahl der Anrufe in einer Telefonzentrale zwischen 10.00 Uhr und 10.05 Uhr fur k = 0; 1; : : :; n X B (n; p) ; wobei n gro und p klein Approximation von Binomialwahrscheinlichkeiten Dann gilt mit = n p k P (X = k) k! e; 52 iel 2.3 Zufallsvariable und Verteilungsfunktion Beispiele Werfen eines Wurfels 6; 6; 1; 3 mogliche Werte von X : 1, 2, 3, 4, 5, 6 bei 5{maliger Versuchswiederholung konnten folgende Ergebnisse auftreten: 4; |{z} Realisation von X X = Gewicht eines Huhnereies mogliche Werte von X : alle positiven reellen Zahlen aber: Das Auftreten bestimmter Werte ist sehr unwahrscheinlich 54 Problem : Beschreibung (Darstellung) der Verteilung von X d. h. man kennt die Verteilung von X . "Man kennt die Wahrscheinlichkeiten, mit denen X bestimmte Werte annimmt.\ Annahme : X = geworfene Augenzahl spezielles Versuchsergebnis x: Realisation von X Zufallsvariable X beschreibt den Ausgang eines Zufallsexperiments X B (200; 0:02) X = Anzahl herausgegriener Personen mit Blutgruppe AB erden 200 Personen zufallig gewahlt. Anteil der Personen mit Blutgruppe AB in der lkerung betrage 2%. Sei lt = 200 0:02 = 4 erhalt man naherungsweise nach dem Poissonschen Grenzwertsatz: P (X > 3) = 1 ; P (X 3) 3 k X 1 ; e;4 k! k=0 = 1 ; e;4 1 + 4 + 8 + 32 3 = 1 ; e;4 71 3 = 0:5665 53 1 Diskret verteilte Zufallsvariable Darstellung der Verteilung von X als Stabdiagramm endung meistens beim Zahlen Beispiel iele X B (3; 12 ) , also geometrisch{verteilte Zufallsvariable binomial{verteilte Zufallsvariable ! ! 3 P (X = k) = k3 21 = k3 18 ; Man erhalt: Poisson{verteilte Zufallsvariable Werte xi x1 x2 x3 . . . Wahrscheinlichkeit P (X = xi ) p1 p2 p3 . . . iele P (X = 1) = 38 P (X = 3) = 18 P (X = 0) = 18 P (X = 2) = 83 tetabelle k = 0; 1; 2; 3 P(X=k) 1 1/2 Wurfelwurf X = geworfene Augenzahl 1/8 xi 1 2 3 4 5 6 P (X = xi ) 16 16 16 16 16 16 X B (n; p) (Binomialverteilung) Dann gilt fur k = 0; 1; : : :; n: die Wahrscheinlichkeiten pi gilt stets: 0 pi 1 i pi = 2 3 Analogie: Stabdiagramm in der beschreibenden Statistik bei quantitativ{diskreten Merkmalen Verteilungsfunktion xk = k ! pk = P (X = k) = nk pk (1 ; p)n;k ; 0 p 1 X x 1 0 X i fur alle i F (x) := P (X x) = X i mit xi x P (X = xi ) = Wahrscheinlichkeit dafur, da X Werte x annimmt P (X = xi ) = 1 55 56 iel Dichtefunktion f B (3; 12 ) Eine Funktion f : R! [0; 1) heit Dichte von X , wenn die Verteilungsfunktion von X gegeben ist durch Zx F (x) = P (X x) = f (t)dt F(x) 1 P(X=3)=1/8 ;1 f(t) P(X=2)=3/8 1/2 P(X=1)=3/8 P(X=0)=1/8 0 1 2 3 x ogie : relative Summenhaugkeitsfunktion in der beschreibenden Statistik (empirische eilungsfunktion) lt: P (a < X b) = F (b) ; F (a) ; P (a X b) = F (b) ; F (a) + P (X = a) t x Flacheninhalt = F(x) = P(X < x) Insbesondere gilt dann Z1 ;1 f (t)dt = 1 Gesamtache f(t) Flache = 1 2 Stetig verteilte Zufallsvariable endung: in der Regel beim Messen Wert eines Intervalls ist moglich, nicht nur diskrete Werte wie ganze Zahlen. t 2.3.3 Eigenschaften der Verteilungsfunktion F eilungsfunktion F F (x) := P (X x) = Wahrscheinlichkeit dafur, da X Werte x annimmt t wei man alles uber die Zufallsvariable X , z. B. P (a < X b) = F (b) ; F (a) 57 Es sei F die Verteilungsfunktion einer Zufallsvariablen X . Dann gilt: F ist stetig von rechts. F ist monoton wachsend. 0 F (x) 1 fur alle x 2 R x!;1 lim F (x) = 0 58 P (a < X b) = F (b) ; F (a) = Ra f (t)dt = P (a X b) b F(x) 1 f(t) Flache = P(a < X < b) 0 x xlim !1 F (x) = 1 F ist eine Treppenfunktion, falls X diskret verteilte Zufallsvariable F(x) 0 t a b R f (t)dt = P (X < b) P (X b) = F (b) = ;1 b 1 P (X > a) = 1 ; F (a) = Ra f (t)dt = P (X a) 1 f(t) 0 x Flache = P(X > a) F ist eine stetige Funktion (keine "Sprunge\), falls X stetig verteilt mit Dichte f Zx F (x) = f (t)dt ;1 beachte : Integral hangt nur von der oberen Grenze ab. 0 t a P (jX j c) = P (;c X c) = ;Rc f (t)dt = F (c) ; F (;c) F(x) c 1 f(t) Flache = P(|X| < c) 0 x i X eine stetig verteilte Zufallsvariable mit Dichte f . Dann gilt: 0 t -c P (X = c) = 0 fur beliebiges c 59 c 0 60 4 Rechteckverteilung teckverteilung (Gleichverteilung) e: X R(a; b) a b 8 <> 1 fur a t b f (t) = b ; a :> 0 sonst f(t) 0.5 1 1.5 2 3 3.5 4.5 5 t Verteilungsfunktion: Es gilt im Fall x < 0: Im Fall x 0 erhalt man: Insgesamt also: 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0 Zx Zx ;1 f (t)dt e;tdt F (x) = 0 F (x) = F (x) = = ;e;tj0x = ;e;x + 1 8 > < 0 x<0 F (x) = > : 1 ; e;x x 0 0.5 1 1.5 62 2.5 x 3 3.5 4 4.5 2 R; 2 > 0 5 2 ;(t ; )2 ;1 t ; 22 = p1 e 2 2 X N (; 2) ; f (t) = p1 e 2 2 Verteilungsfunktion der Exponentialverteilung mit Parameter = 1:0 Dichte: Normalverteilung mit Parametern und 2 2.3.6 Normalverteilung F(x) 1/(b-a) 5 Exponentialverteilung 0 4 8 > < 0 fur t < 0 f (t) = > : e;t fur t 0 X Exp() nentialverteilung mit Parameter > 0 e: 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 61 2.5 x e der Exponentialverteilung mit Parameter = 1:0 f(x) en der Normalverteilungen mit Parametern = 0:0 ; = 5:0 1 = 1:0 ; 0.9 0.8 = 4:0 0.7 0.6 F(x) 0.4 0.35 0.5 0.4 0.3 0.3 0.25 0.2 0.2 0.1 0.15 0 0.1 -4 -3 -2 -1 0 x 1 2 3 4 3 4 0.05 Integral nicht geschlossen losbar, deshalb in Tabellen ! 0 -6 -4 -2 0 2 4 6 8 10 12 14 16 x Es gilt: (;x) = 1 ; (x) Standard{Normalverteilung meter = 0; 2 = 1 e: ; 1 t2 f (t) = p1 e 2 2 fur alle x 2 R 0.4 0.35 0.3 0.4 0.25 f(x) 0.35 0.2 0.3 0.15 f(x) 0.25 0.2 0.1 0.15 0.05 0.1 0 0.05 -4 0 -4 -3 -2 -1 0 x 1 ilungsfunktion der Standard{Normalverteilung: Zx e; t dt (x) = p1 2 ;1 1 2 2 63 2 3 4 -3 -2 -1 0 x 1 Sei X N (; 2) mit Verteilungsfunktion F; (x). Dann gilt: 2 F; (x) = x ; 2 64 2 mit der Substitution u = t; (du = dt) erhalt man: F; (x) = Zx p1 t; e; ( ) dt 2 1 2 2 ;1 x; Z = p1 e; u du 2 ;1 = x ; 2 1 2 r gilt: P; (a < X b) = F; (b) ; F; 2 Beispiel 2 2 X N (; 2) P (jX ; j 2) = P ( ; 2 X + 2) = F; ( + 2) ; F; ( ; 2) = + 2 ; ; ; 2 ; = (2) ; (;2) 2 2 2 = 2(2) ; 1 ! (a) = b ; ; a ; = 0:9544 95% "2{Regel\ e und Verteilungsfunktion von X Interpretation : Abweichungen von , die groer als 2 sind, treten bei normalverteilten Zufallsvariablen nur mit einer Wahrscheinlichkeit von 5% auf. f(t) Veranschaulichung im Falle der Standard{Normalverteilung 0.4 0.35 0.3 f(x) 0.25 0.2 1 0.15 0.841 F(x) 0.1 0.05 0.5 0 -4 0.159 -3 -2 -1 0 x 0 65 66 1 2 3 4 Erwartungswert und Varianz hreibende Statistik Mereihen Kennzahlen: Lageparameter Streuungsparameter rscheinlichkeitstheorie Verteilungen von Zufallsvariablen Kennzahlen: Erwartungswert (Mitte der Verteilung) Varianz (Breite der Verteilung) 1 Erwartungswert einer diskret verteilten Zufallsvariable ilung von X gegeben als Wertetabelle: X xi P (X = xi) Werte xi x1 x2 x3 . . . Wahrscheinlichkeit P (X = xi ) p1 p2 p3 . . . artungswert von X E (X ) = i "gewichtete Summe\ die Reihe absolut konvergent ist ! 67 Beispiele X B 3; 21 bzw. P (X = 0) = 81 P (X = 3) = 81 P (X = 1) = 83 k = 0; 1; 2; 3 P (X = 2) = 83 , also ! 3 ! P (X = k) = k3 21 = k3 81 ; Erwartungswert von X : i = 0; 1; 2; : : : E (X ) = 0 P (X = 0) + 1 P (X = 1) + 2 P (X = 2) + 3 P (X = 3) = 0 1 +1 3 +2 3 +3 1 8 8 8 8 3 = 12 8 =2 i X i=1 =1 h(xi ) P (X = xi ) = 1 i X = i! e; |i=0 {z } = 1 i X E (X ) = i e; i=0 i! 1 i;1 X ; (i ; 1)! e P (X = i) = i! e; ; i X Poisson{verteilt mit Parameter > 0 , also Erwartungswert von X : Transformationen Es sei h : R;! R beliebig. Dann gilt E (h(X )) = 68 E (X 2 ) = die Reihe absolut konvergent ist ! endungen h(x) = x2 Beispiel X B 3; 12 X i xi2 P (X = xi) = xi ) E (X 2) = 0 P (X = 0) + 1 P (X = 1) + 4 P (X = 2) + 9 P (X = 3) X E (X k ) = xik P (X k{tes Moment der Zufallsvariable X i = 0 81 + 1 83 + 4 38 + 9 81 = 24 = 3 8 h(x) = xk ; k 2 N in diesem Sinne: E (X ) = 1. Moment (Erwartungswert) E (X 2 ) = 2. Moment E (X 3 ) = 3. Moment ::: 2 Erwartungswert einer stetig verteilten Zufallsvariable i X eine stetig verteilte Zufallsvariable mit Dichte f artungswert von X 69 E (X ) = falls der Integrand absolut integrierbar ! Beispiel Z1 ;1 x f (x) dx X exponentialverteilt mit Parameter > 0 ; Dichte: 8 > < 0 x<0 f (x) = > : e;x x 0 ;1 = ;(0 ; 1 ) = 1 Z1 ;1 0 h(x) f (x) dx 1 = (0 ; 0) ; 1 e;x 0 0 = ;xe;x0 + e;x dx 1 Z1 Z1 1 = x ; 1 e;x ; ; 1 e;xdx 0 0 E (X ) = Erwartungswert von X (durch partielle Integration): Z1 Z1 x f (x)dx = xe;xdx Transformationen Es sei h : R;! R stetig. Dann gilt E (h(X )) = falls der Integrand absolut integrierbar ! 70 "quadratische Abweichung von E (X )\ h(x) = [x ; E (X )]2 2.4.3 Varianz einer Zufallsvariable x2 f (x) dx endungen Z1 ;1 Es sei E (X 2) = V ar(X ) = E (h(X )) = E ([X ; E ({zX )}]2) | feste Zahl "mittlere (erwartete) quadratische Abweichung vom Erwartungswert E (X )\ X i V ar(X ) = [xi ; E (X )]2 P (X = xi) Z1 ;1 [x ; E (X )]2 f (x) dx i = 1; 2; : : :; 6 X = Augenzahl beim Wurfelwurf P (X = i) = 61 ; 72 E (X ) = 1 16 + 2 61 + : : : + 6 61 = 61 (1 + 2 + : : : + 6) = 61 21 = 27 = 3:5 Erwartungswert von X : Es gilt Sei Beispiele im Falle einer stetig verteilten Zufallsvariable X mit Dichte f V ar(X ) = im Falle einer diskret verteilten Zufallsvariable X Es gilt Varianz von X h(x) = x2 Z1 0 Beispiel X exponentialverteilt mit Parameter > 0 Z1 x2 f (x)dx = x2 e;xdx E (X 2 ) = ;1 1 Z1 = x2 ; 1 e;x ; 2x ; 1 e;xdx 0 0 =E(X ) Z1 = (0 ; 0) + 2 xe;xdx {z } |0 xk f (x) dx = 2 E (X ) = 2 1 = 22 Z1 ;1 k{tes Moment der Zufallsvariable X E (X k ) = h(x) = xk ; k 2 N (stetige Funktion) in diesem Sinne: E (X ) = 1. Moment (Erwartungswert) E (X 2 ) = 2. Moment E (X 3 ) = 3. Moment ::: 71 Varianz von X : V ar(X ) = [1 ; 3:5]2 1 + [2 ; 3:5]2 1 + : : : + [6 ; 3:5]2 61 6 6 = 61 [;2:5]2 + [;1:5]2 + [;0:5]2 2 = 1 25 + 9 + 1 3 4 35 = 2:917 = 12 E (X ) = V ar(X ) = 2 73 "Mitte der Verteilung\ ;! E (X ) V ar(X ) ; oder besser "Breite der Verteilung\ ;! q V ar(X ) (Streuung) Fur X N (; 2) gilt: e: f(t) 2.4.4 Rechenregeln fur Erwartungswerte fur alle t 0 Bei der Berechnung von Erwartungswerten konnen folgende Regeln angewandt werden: E (X ) = ; "Verteilung symmetrisch zu \ P (X = ; t) = P (X = + t) Es sei X eine diskret verteilte Zufallsvariable. Gilt fur ein 2 R dann ist Erwartungswert = Symmetriepunkt falls der Erwartungswert existiert. Interpretation : Beispiele { X B (3; 12 ). Fur = 23 gilt: E (X ) = 3:5 P (X = 23 ; t) = P (X = 32 + t) ; t 0 also: E (X ) = 23 (vgl. Berechnung oben) { Sei X = Augenzahl beim Wurfelwurf Verteilung von X ist symmetrisch zu = 3:5, also (vgl. Berechnung oben) E (X ) = ; Es sei X eine stetig verteilte Zufallsvariable mit Dichte f . Gilt fur ein 2 R f ( ; t) = f ( + t) fur alle t 0 ; dann ist falls der Erwartungswert existiert. 74 Beispiel X N (; 2) (Normalverteilung); Dichte: 2 ;1 x ; f (x) = p1 e 2 2 ist "die Mitte der Verteilung\ ! E (X ) = Hier gilt f ( ; t) = f ( + t) ; t 0 ; und man kann zeigen, da E (X ) existiert, also Interpretation : Es seien a; b 2 R. Dann gilt: E (aX + b) = aE (X ) + b V ar(aX + b) = a2 V ar(X ) 2 E (X ) = 23 ; E (X 2) = 3 Dann gilt (siehe oben): V ar(X ) = E X 2 ; [E (X )]2 Die Varianz einer Zufallsvariable X kann mit folgender Formel berechnet werden: Beispiele { Es sei X B (3; 21 ). Daraus folgt: E (X ) = 1 ; E (X 2) = 22 V ar(X ) = 3 ; 23 = 12 4; 9 = 43 { Es sei X exponentialverteilt mit Parameter > 0. Dann gilt (siehe oben): Daraus folgt: 2 V ar(X ) = 22 ; 1 = 12 75 2.4.5 Tschebyschesche Ungleichung Zusammenhang zwischen Erwartungswert E (X ) und Varianz V ar(X ) einer Zufallsvariable X : P (jX ; E (X )j c) V arc2(X ) ; fur c > 0 Die Tschebyschesche Ungleichung liefert also eine obere Schranke fur die Wahrscheinlichkeit dafur, da Abweichungen vom Erwartungswert auftreten, die groer oder gleich c sind. Man beachte: P (jX ; E (X )j c) = 1 ; P (jX ; E (X )j < c) = 1 ; P (E (X ) ; c < X < E (X ) + c) und V ar(X ) = 2 P (jX ; E (X )j < c) = P (E (X ) ; c < X < E (X ) + c) 1 ; V ar2(X ) c Daraus ergibt sich folgende Abschatzung fur c > 0: Beispiel E (X ) = Es sei X N (; 2) und c = 2. Es gilt: Aus der Tschebyscheschen Ungleichung erhalt man: 2 P (jX ; j 2) 42 = 41 = 0:25 Die Tschebyschesche Ungleichung ist hier sehr grob, denn es gilt nach der "2{Regel\ (siehe oben): P (jX ; j 2) = 0:0456 0:05 76 77 erung: Die Ereignisse A1 ; : : :; An sollen vollstandig unabhangig sein ! = 1; : : :; n sei Ai = " Xi xi \ orgegebenen Werten x1 ; x2; : : :; xn. isch: "Die Werte kommen ohne gegenseitige Beeinussung zustande.\ ematisch: Produktformel bhangigkeit der Zufallsvariablen X1 ; X2; : : :; Xn e : Gilt eine entsprechende Formel auch fur die Varianz ? E (X1 + X2 + : : : + Xn) = E (X1 ) + E (X2) + : : : + E (Xn) ien X1; X2; : : :; Xn Zufallsvariablen. Dann gilt: 6 Summen von Zufallsvariablen f(t) Dies bedeutet: P (A1 \ : : : \ An) = P (A1 ) : : : P (An ) 1 Fur die sogenannte gemeinsame Verteilungsfunktion F(X ;:::;Xn)(x1 ; : : :; xn) gilt also: 1 F(X ;:::;Xn)(x1 ; : : :; xn) = P (X1 x1 ; X2 x2; : : :; Xn xn) = P (A1 \ : : : \ An ) = P (A1 ) : : : P (An ) = P (X1 x1 ) P (X2 x2) : : : P (Xn xn) 2 9 8 > > Produkt der einzelnen = < > = : > Verteilungsfunktionen ; 1 = FX (x1 ) FX (x2 ) : : : FXn (xn ) wobei (x1 ; x2; : : :; xn) 2 Rn beliebig. Merkregel : gemeinsame Verteilungsfunktion Die Zufallsvariablen X1 ; X2; : : :; Xn heien unabhangig, falls diese Gleichheit gilt. Wichtig: Die Annahme der Unabhangigkeit soll immer gemacht werden, wenn die Zufallsvariablen X1; X2; : : :; Xn Beobachtungen beschreiben, die durch Vorgange ohne gegenseitige Beeinussung zustande kommen ! V ar(X1 + X2 + : : : + Xn) = V ar(X1) + V ar(X2 ) + : : : + V ar(Xn) Fur unabhangige Zufallsvariablen X1; : : :; Xn gilt: sowie E (X1 X2 : : : Xn) = E (X1) E (X2 ) : : : E (Xn) 78 endungen Binomialverteilung Xi = 1 , Erfolg ; "Anzahl Erfolge bei n Versuchen\ Xi = 0 , kein Erfolg p = "Erfolgswahrscheinlichkeit\ ; 0 p 1 X1; : : :; Xn seien unabhangig und Xi B (1; p) fur i = 1; : : :; n. Es gilt also P (Xi = 1) = p und P (Xi = 0) = 1 ; p wobei Interpretation : Es gilt: Y = X1 + : : : + Xn B (n; p) Fur i = 1; : : :; n erhalt man E (Xi ) = 0 (1 ; p) + 1 p = p E (Xi 2 ) = 02 (1 ; p) + 12 p = p V ar(Xi ) = p ; p2 = p(1 ; p) Daraus folgt fur die B (n; p){verteilte Zufallsvariable Y : E (Y ) = E (X1 ) + : : : + E (Xn) = n p V ar(Y ) = V ar(X1) + : : : + V ar(Xn) = n p (1 ; p) Normalverteilung X1; : : :; Xn seien unabhangig und E (Xi) = i sowie V ar(Xi ) = i2 fur i = 1; : : :; n. Es folgt: E (X1 + X2 + : : : + Xn) = 1 + 2 + : : : + n V ar(X1 + X2 + : : : + Xn) = 12 + 22 + : : : + n2 Fur eine normalverteilte Zufallsvariable X gilt: X N (; 2) =) aX + b N (a + b; a22 ) Es gilt sogar: Summen von unabhangigen normalverteilten Zufallsvariablen sind wiederum normalverteilt. 79 Achtung: X1 + : : : + Xn N (1 + : : : + n; 12 + : : : + n2 ) X1 ; : : :; Xn unabhangig ; X1 N (1 ; 12); : : :; Xn N (n; n2 ) =) Fur groes n gilt die letzte Aussage naherungsweise auch fur nicht{ normalverteilte Zufallsvariablen Xi ! 80 Zentraler Grenzwertsatz "Lange Summen von unabhangigen Zufallsvariablen sind naherungsweise normalverteilt.\ unabhangig ; fur i = 1; : : :; n hte : Dies gilt auch ohne die Voraussetzung, da die Summanden selbst normalverteilt ussetzungen X1; : : :; Xn E (Xi ) = i ; V ar(Xi ) = i2 gilt (unter schwachen Zusatzbedingungen) fur groes n die Approximation 0 1 P @ X1 + : : :q+ X2 n ; (1 + : : : + n) yA (y) ; y 2 R 1 + : : : + n2 Approximation a np b b + 0:5 1 f (t) = p2 pnp e; (1;p) 1 2 t;np pnp (1;p) Y B (n; p), n gro, p nicht zu klein (sonst Poisson{Approximation !) 0 1 0 1 P (a Y b) @ q b ; np A ; @ q a ; np A np(1 ; p) np(1 ; p) graphisch: a ; 0 :5 Stetigkeitskorrektur Stetigkeitskorrektur liefert i. allg. eine bessere Naherung: 0 1 0 1 P (a Y b) @ bq+ 0:5 ; np A ; @ aq; 0:5 ; np A np(1 ; p) np(1 ; p) pretation : Eine "lange\ Summe X1 + : : : + Xn ist naherungsweise N (; 2){verteilt mit 1 + : : : + n und 2 = 12 + : : : + n2 endung auf die Binomialverteilung Beispiel also Naherungsrechnung: 82 V ar(Y ) = np (1 ; p) = 225 E (Y ) = np = 450 P("hochstens 480 zeigen die gleiche Seite\) = ? Sei Y = Anzahl Munzen mit "Wappen\ nach oben. Dann gilt: Y B (n; p) mit n = 900 und p = 21 900 Munzen werden auf den Tisch geworfen. B (1; p); i = 1; : : :; n ; X1; : : :; Xn unabhangig. lt: E (Xi) = p V ar(Xi) = p(1 ; p) Y = X1 + : : : + Xn B (n; p) dem Zentralen Grenzwertsatz folgt: Y ist naherungsweise N (np; np(1 ; p)) verteilt, d.h. 0 1 P @ q Y ; np yA (y) Grenzwertsatz von Moivre{Laplace np(1 ; p) 81 2 ohne Stetigkeitskorrektur ! ! P (420 Y 480) 480p; 450 ; 420p; 450 225 225 = (2) ; (;2) = 2 (2) ; 1 = 0:9544 mit Stetigkeitskorrektur ! :5 ; 450 419:5 ; 450 p P (420 Y 480) 480p ; 225 225 61 = 30 ; ;3061 = 2 (2:03) ; 1 = 0:9576 83 ! Kapitel 3 Schlieende Statistik Beschreibende Statistik: Analyse von Mereihen Wahrscheinlichkeitstheorie: Mathematische Beschreibung von Zufallsexperimenten; dabei wurde stets angenommen, da die Verteilungsfunktion F , die das Zustandekommen der Ergebnisse beschreibt, vollstandig bekannt ist. Schlieende Statistik: Es wird davon ausgegangen, da die Verteilungsfunktion F (das Zufallsgesetz) nicht vollstandig bekannt ist. Ziel: Ruckschlusse ziehen auf F auf der Basis vorliegender Beobachtungsdaten (Mereihen). Beispiel Es sei p der relative Anteil der Individuen einer Population, die an einer ganz bestimmten Krankheit leiden. Wegen des zu groen Populationsumfangs ist ein Untersuchen aller Individuen nicht moglich. Zur Bestimmung des unbekannten relativen Anteils p wird daher folgendermaen vorgegangen: Der Gesamtpopulation wird eine Stichprobe von n Individuen entnommen und es wird festgestellt, wieviele Individuen innerhalb der Stichprobe an der Krankheit leiden. Fragen: Wie gro ist p ? ;! Schatzproblem Zwischen welchen Grenzen liegt p ? ;! Kondenzintervall Gilt p = 1% ? ;! Testproblem 84 Schatzverfahren Beispiele ben: Stichprobe x1; : : :; xn ; n = Stichprobenumfang ; Das arithmetische Mittel ell: Realisierung von unabhangigen Zufallsvariablen X1; : : :; Xn ; alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion F ; 2 ; = "Indexmenge\ (Menge der moglichen Parameterwerte) n X Tn (x1 ; : : :; xn) = x(n) = n1 xi i=1 ist ein Schatzer fur () = E(X ) Die Stichprobenvarianz n 2 X Tn(x1 ; : : :; xn) = s2(n) = n ;1 1 xi ; x(n) i=1 Angabe eines Schatzwerts fur bzw. fur (), wobei : ! R, also () ein "reellwertiger Parameter\ iel = (; 2) Schatzen des Erwartungswertes Schatzen der Varianz tzvariable ibweisen: () = V ar(X ) Frage : Welche speziellen Eigenschaften sollten vernunftige Schatzer besitzen ? i X N (; 2), also tzer ist ein Schatzer fur und = R R+ () = () = 2 3.1.1 Erwartungstreue Beispiel Schieen mit einem Gewehr Tn : Rn ;! R Zuordnung (|x1 ; :{z: :; xn)} 7;! T| n (x1;{z: : :; xn}) Stichprobe Schatzwert fur () Tn(X1 ; : : :; Xn) (Zufallsvariable) E(X ) ; V ar(X ) ; P (X x) ; E(Tn ) = E (Tn (X1 ; : : :; Xn)) ; : : : x bedeutet: Der Wert der jeweiligen Groe hangt davon ab, welches 2 das zutreende 85 normale Streuung ! systematischer Fehler ! 86 Es sei T T () = V ar(X ) und n X Tn (X1 ; : : :; Xn) = S(2n) = n ;1 1 (Xi ; X (n))2 i=1 Es gilt mit = E(X ): n X nicht so ! so ! i=1 (Xi ; X (n))2 = = = n h X i2 (Xi ; ) ; (X (n) ; ) i=1 n X n X i=1 n X i=1 n X i=1 i=1 (Xi ; )2 ; 2 (Xi ; )2 ; 2 + n(X (n) ; )2 τ(θ) = τ(θ) = "Schatzer soll im Mittel richtig schatzen !\ Schatzer Tn heit erwartungstreu, falls fur alle 2 gilt: E (Tn (X1 ; : : :; Xn)) = () iele Es sei und Dann gilt: () = E (X ) (Xi ; )2 ; 2[nX 2(n) ; 2nX (n) + n2 ] + n(X (n) ; )2 i=1 n X (Xi ; )2 ; 2n(X (n) ; )2 + n(X (n) ; )2 i=1 n X i=1 (Xi ; )2 ; n(X (n) ; )2 Daraus erhalt man: ! n 2 X 1 2 E S(n) = E n ; 1 (Xi ; X (n)) i=1 ! n X 1 E (Xi ; )2 ; n(X (n) ; )2 = n ; 1 i=1 2 n 6X 1 2 2 = n ; 1 664 E [(X{z i ; ) }] ; n E[(X (n) ; ) ] | {z } i=1 | V ar (Xi) ! n X E (Tn (X1 ; : : :; Xn)) = E n1 Xi i=1 n X 1 = n E | {z(Xi )} i=1 () = n1 n () = () 87 (Xi X (n) ; Xi ; X (n) + 2 ) = 1 n ; n 1 V ar(X ) n;1 n Tn (X1 ; : : :; Xn) = X (n) d. h. X (n) ist erwartungstreu fur () = E(X ) . = n X (Xi ; )(X (n) ; ) + n(X (n) ; )2 3 77 75 V ar (X(n) )= n1 V ar (X ) = V ar (X ) d. h. S(2n) ist erwartungstreu fur () = V ar(X ) . Fur den Schatzer n X Tn (X1 ; : : :; Xn) = n ;n 1 S(2n) = n1 (Xi ; X (n))2 i=1 gilt: 1 n;1 n;1 2 E (Tn (X1 ; : : :; Xn)) = E n ; S = n E S(2n) = n V ar(X ) ( n ) n | {z } <1 88 Deshalb n ;1 1 und nicht n1 als Faktor ! Dieser Schatzer ist also nicht erwartungstreu fur () = V ar (X ) ("wahre Varianz wird im Mittel unterschatzt\). 2 Konsistenz "Wenn n gro genug wird, schatzt man beliebig genau.\ ben sei fur jedes n 2 N ein Schatzer Tn : Rn ! R fur (). Schatzerfolge T1 ; T2; T3 ; : : : heit konsistent fur : ! R, falls fur jedes > 0 und fur 2 gilt: > ) = 0 nlim !1 P (jTn (X1; : : :; Xn) ; ()j () = E(X ) fur alle 2 ; ! arithmetisches Mittel Schatzen des Erwartungswertes so ist die Schatzerfolge T1 ; T2 ; T3; : : : konsistent fur : ! R: nlim !1 V ar(Tn (X1 ; : : :; Xn)) = 0 Sind die Schatzer T1 ; T2 ; T3 ; : : : erwartungstreu fur : ! R und gilt rium zum Prufen, ob Konsistenz vorliegt: iel i Schatzer Tn(X1 ; : : :; Xn) = X (n) wartungstreu fur () (siehe oben). n n X V ar(Tn (X1 ; : : :; Xn)) = V ar n1 Xi i=1 ! n X V ar(Xi ) = n12 i=1 = n12 n V ar(X ) = 1 V ar (X ) n 89 gilt 1 nlim !1 V ar (Tn (X1 ; : : :; Xn)) = nlim !1 n V ar(X ) = 0 ; d. h. das arithmetische Mittel ist konsistent fur () = E (X ) . Problem : Wie kann man Schatzer bestimmen, wenn F ; 2 , gegeben ist ? 3.1.3 Momentenmethode i=1 n X xik "k{tes Stichprobenmoment\ m(k)() = E(X k ) k{tes Moment der Zufallsvariable X (siehe Abschnitt 2.4.1 bzw. 2.4.2): Betrachte den Schatzer Tn(k)(x1 ; : : :; xn) = n1 2 Rl l{dimensionaler Parameter n X E Tn(k)(X1 ; : : :; Xn) = E n1 Xik i=1 = n1 n m(k)() = m(k)() Tn(k) ist ein erwartungstreuer Schatzer fur das k{te Moment von X : ! Es sei Prinzip: i=1 n X xik fur k = 1; : : :; l Wahle als Schatzwert ^ denjenigen Parameterwert aus , fur den gilt: m(k)(^) = n1 90 iele X exponentialverteilt mit Parameter = R+ ; also l = 1 1. Moment (= Erwartungswert) von X : m(1)() = E (X ) = 1 Gleichung zur Bestimmung von ^: n 1= 1X x =: x(n) ^ n i=1 i Es folgt: ^ = x1 (n) Man erhalt also als Schatzer fur den Parameter einer Exponentialverteilung: (n) Tn (x1; : : :; xn) = x1 X normalverteilt mit Parametern und 2 = (; 2 ) ; = R R+ R2 ; also l = 2 1. und 2. Moment von X : m(1)() = E(X ) = m(2)() = E(X 2 ) = V ar (X ) + [E(X )]2 = 2 + 2 Es sei ^ = (^; c2 ) Man erhalt zunachst: n X ^ = m(1)(^) = n1 xi = x(n) i=1 Die zweite Gleichung n X c2 + ^2 = m(2) (^) = n1 xi2 i=1 liefert n n 2 X X 2 xi ; x(n) c2 = n1 xi2 ; x(n) = n1 i=1 i=1 Bei Anwendung der Momentenmethode erhalt man also folgende Schatzer: Tn (x1 ; : : :; xn) = x(n) fur und n 2 X xi ; x(n) fur 2 Tn (x1 ; : : :; xn) = n1 i=1 91 X B (1; ) , Schatzen der Erfolgswahrscheinlichkeit = [0; 1] R; also l = 1 1. Moment (= Erwartungswert) von X : m(1)() = E(X ) = Nach der Momentenmethode erhalt man folgenden Schatzwert fur : i=1 n X ^ = m(1) (^) = n1 xi Es sei k die Anzahl der Versuche mit xi = 1 (Anzahl Erfolge). Dann gilt: ^ = nk relative Haugkeit der Erfolge Die zugehorige Schatzvariable hat also folgende Gestalt: n X Tn (X1 ; : : :; Xn) = Kn wobei K = Xi i=1 Frage: Ist dieser Schatzer erwartungstreu fur ? Die Zufallsvariable K ist B (n; ) verteilt. Daraus folgt: E K = 1 E(K ) = 1 n = n n n Der Schatzer ist also erwartungstreu fur . Frage: Ist die Schatzerfolge konsistent fur ? Wegen V ar Kn = n12 V ar (K ) = n12 n (1 ; ) = (1n; ) gilt K nlim !1 V ar n = 0 Die Schatzerfolge ist also konsistent fur . 3.1.4 Maximum{Likelihood{Methode Beispiel Gegeben sei eine Urne mit 10 Kugeln (schwarze und weie). Die Anzahl der schwarzen Kugeln in der Urne ist nicht bekannt. Es gilt 2 = f0; : : :; 10g 92 ird aus der Urne dreimal ohne Zurucklegen eine Kugel gezogen. Unter den gezogenen ln benden sich 2 schwarze Kugeln. Wie kann man mit dieser Information einen geeigneten zwert fur gewinnen ? i X = Anzahl der gezogenen schwarzen Kugeln : Welche Verteilung besitzt die Zufallsvariable X ? ergeometrische Verteilung "hypergeometrische Verteilung\ ben sei eine Population von N Individuen. M der Individuen seien "markiert\. Es werden opulation insgesamt n Individuen entnommen (Ziehen ohne Zurucklegen). Die Zufallsvae Y beschreibe die Anzahl der "markierten\ Individuen in der Stichprobe. Es gilt: ! ! M N ;M n! ; k P (Y = k ) = k ; k = max(M ; (N ; n); 0); : : :; min(M; n) N n ibweise: Y H (n; N; M ) Verteilung der Zufallsvariable X , die die Anzahl der gezogenen schwarzen Kugeln beibt, hangt naturlich vom zutreenden, jedoch unbekannten, 2 ab. Es gilt: X H (3; 10; ) Es wurde das Ereignis fX = 2g beobachtet. Jenes pat am besten zu diesem Ereignis, as die Wahrscheinlichkeit des Eintretens dieses Ereignisses am groten ausfallt. Das ist das ibelste ! Maximum{Likelihood{Prinzip = Prinzip der groten Plausibilitat estimmen ist also jenes 2 , fur das die Wahrscheinlichkeit P (X = 2) am groten ist. 10 3 lt fur = 0; 1; 10: P (X = 2) = 0 fur = 2; : : :; 9 (hypergeometrische Verteilung): ! ! 10 ; !1 P (X = 2) = 2 Berechnung der Werte ergibt folgende Tabelle: 93 0 1 2 3 4 5 6 7 8 9 10 P (X = 2) 0 0 0.067 0.175 0.300 0.417 0.500 0.525 0.467 0.300 0 Die grote Wahrscheinlichkeit ergibt sich fur = 7. Man erhalt also als Maximum{Likelihood{ Schatzwert fur : ^ = 7 Allgemeines Vorgehen: 1. Fall: X diskret verteilt L( ; |x1; : {z: :; xn} ) = P| (X1 = x1 ) P (X2 ={zx2) : : : P (Xn = xn)} ; 2 Stichprobe Wahrscheinlichkeit dafur, da die beobachtete Stichprobe auftritt, falls zutrit Betrachte die Likelihood{Funktion zur Stichprobe x1; : : :; xn: Prinzip: Wahle als Schatzwert ^ denjenigen Parameterwert aus , bei dem die Likelihood{Funktion L( ; x1; : : :; xn) ihr Maximum annimmt ! Der zugehorige Schatzer Tn (x1 ; : : :; xn) = ^(x1 ; : : :; xn) heit Maximum{Likelihood{Schatzer (ML{Schatzer). Beispiel X sei Poisson{verteilt mit Parameter > 0. Als Likelihood{Funktion zu einer Stichprobe (x1 ; : : :; xn) 2 (N [ f0g)n erhalt man: 1 L( ; x1; : : :; xn) = x ! : 1: : x ! x +:::+xn e;n 1 n Man betrachtet die sogenannte Log{Likelihood{Funktion ln L( ; x1; : : :; xn), welche die gleichen Maximalstellen wie die Likelihood{Funktion besitzt: ln L( ; x1; : : :; xn) = ;n ; ln(x1 ! : : : xn!) + (x1 + : : : + xn) ln 94 etzen der 1. Ableitung der Log{Likelihood{Funktion ergibt: d ln L = ;n + 1 (x + : : : + x ) =! 0 n d 1 Nullsetzen der 1. Ableitung ergibt: d ln L = n ; (x + : : : + x ) =! 0 1 n d 1 2 96 Hinweis: Die Momentenmethode und die Maximum{Likelihood{Methode fuhren im Falle der Exponentialverteilung zum gleichen Schatzer. Die 2. Ableitung der Log{Likelihood{Funktion ist an der Stelle ^ negativ, so da die Funktion an dieser Stelle ihr Maximum annimmmt. Man erhalt also als Maximum{Likelihood{Schatzer fur : (Kehrwert des arithmetischen Mittels) ^(x1 ; : : :; xn) = x + :n: : + x = x1 1 n (n) n = (x + : : : + x ) 1 n Daraus folgt: arithmetisches Mittel sen der Gleichung liefert folgenden Schatzwert fur : ^ = n1 (x1 + : : : + xn) = x(n) . Ableitung der Log{Likelihood{Funktion ist < 0 an der Stelle ^, so da die Funktion an r Stelle tatsachlich ihr Maximum annimmt ! ll: X stetig verteilt Verteilungsfunktion F sei gegeben durch eine Dichte f . verwendet folgenden U bergang: P (Xi = xi ) ;! f(xi ) Likelihood{Funktion zur Stichprobe x1 ; : : :; xn ist hier also folgendermaen deniert: L( ; x1; : : :; xn) = f(x1 ) f (x2 ) : : : f (xn) ; 2 weitere prinzipielle Vorgehensweise ist die gleiche wie im 1. Fall. iel Exp() ; > 0. lt also (siehe Abschnitt 2.3.5): 8 >0 < fur x < 0 f (x) = > : e;x fur x 0 1 = e;x e;x : : : e;xn = n e;(x +:::+xn ) Likelihood{Funktion zur Stichprobe x1 ; : : :; xn, wobei xi > 0 fur alle i, ist gegeben durch: L( ; x1; : : :; xn) Log{Likelihood{Funktion lautet: ln L( ; x1; : : :; xn) = n ln ; (x1 + : : : + xn) 95 Kondenzintervalle Es soll gelten: () P ( U (X1 ; : : :; Xn) O(X1 ; : : :; Xn) ) 1 ; ben: Stichprobe x1; : : :; xn ; n = Stichprobenumfang ; fur alle 2 mit vorgegeben ( klein, z. B. = 0:05 , 5% oder = 0:01 , 1%). ell: Das zufallige Intervall I (X1 ; : : :; Xn) = [ U (X1 ; : : :; Xn) ; O(X1 ; : : :; Xn) ] Realisierung von unabhangigen Zufallsvariablen X1; : : :; Xn ; alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion F ; 2 ; = "Indexmenge\ (Menge der moglichen Parameterwerte) I (x1 ; : : :; xn) = [ U (x1 ; : : :; xn) ; O(x1 ; : : :; xn) ] ist ein konkretes Schatzintervall zur Stichprobe x1 ; : : :; xn. : In welchen Grenzen liegt bzw. () ? Interpretation : = 0:05 bedeutet, da hochstens ungefahr 5% der entstehenden konkreten Schatzintervalle nicht enthalten. Angabe eines Schatzintervalls fur bzw. () I (|x1 ; :{z: :; xn}) = [ U (x1 ; : : :; xn) ; O(x1 ; : : :; xn) ] Stichprobe 3.2.1 Kondenzintervalle bei Binomialverteilungsannahme ht: Funktionen U : Rn ! R untere Grenze des Schatzintervalls O : Rn ! R obere Grenze des Schatzintervalls mit der Eigenschaft () heit Kondenzintervall fur bzw. () zum Kondenzniveau 1 ; ("Kondenzschatzverfahren\). X1 ; : : :; Xn unabhangig, identisch B (1; ){verteilt, 2 = (0; 1). Es gilt Y = X1 + : : : + Xn B (n; ) Grenzwertsatz von Moivre{Laplace (siehe Abschnitt 2.5): q Y ; n N (0; 1) (naherungsweise) n(1 ; ) em : Intervall mu nicht enthalten ! 8. Stichprobe 7. Stichprobe Dichte der N(0,1)-Verteilung ! 6. Stichprobe 5. Stichprobe 4. Stichprobe 3. Stichprobe ! 2. Stichprobe 1. Stichprobe 2 θ 97 Θ 2 u = ;u1; 2 u1; 2 2 98 2 2 =: O(Y ) = O(X1 ; : : :; Xn) ;c q Y ; n c ; n(1 ; ) lt also fur alle 2 : 0 1 P @;u1; q Y ; n u1; A 1 ; n(1 ; ) Ungleichung 2 i c = u1; , ist fur folgende Werte von erfullt: 1 0 s 13 fur alle 2 s 1 s 1 0 0 1 @ Y (n ; Y ) c2 A Y (n ; Y ) c2 A c2 1 @ c2 ; c n + 4 n + c2 Y + 2 + c n +4 n + c2 Y + 2 | {z } {z } =: U (Y ) = U (X1 ; : : :; Xn) dieses zufallige Intervall gilt also: P ( U (X1 ; : : :; Xn) O(X1 ; : : :; Xn) ) 1 ; zufallige Intervall s I (X1 ; : : :; Xn) = [ U (X1 ; : : :; Xn) ; O(X1 ; : : :; Xn) ] 2 s 2 s 3 mit ein approximatives Kondenzintervall fur , das fur groes n naherungsweise mit dem vall 2 0 2 2 = 4X (n) ; u1; n1 X (n)(1 ; X (n)) ; X (n) + u1; n1 X (n)(1 ; X (n)) 5 2 (X1 ; : : :; Xn) = 4 n1 @Y ; u1; Y (nn; Y ) A ; n1 @Y + u1; Y (nn; Y ) A5 einstimmt. eise: X (n) ist ein erwartungstreuer Schatzer fur . q 1 n X (n)(1 ; X (n)) ist ein Schatzer fur die Streuung von X (n), denn V ar X (n) = n1 (1 ; ) 99 3.2.2 2{Verteilung Die Zufallsvariablen X1 ; : : :; Xn seien unabhangig und identisch N(0,1) verteilt. Fur die Zufallsvariable Y gelte: P (Y y) = P (X12 + : : : + Xn2 y) ; y 2 R n=2 2 n=3 4 n=6 6 und 8 10 14 n = 10 12 V ar(Y ) = 2n 16 18 20 Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden Y n2 Dann heit Y 2 {verteilt mit n Freiheitsgraden, kurz: 0.5 0.4 0.3 0.2 0.1 0 0 Dichten von n2 {verteilten Zufallsvariablen: Hinweise: E (Y ) = n Negative Werte treten nicht auf. Es gilt Fur groes n ist nach dem Zentralen Grenzwertsatz Y naherungsweise N (n; 2n){verteilt. Es gilt dann: ! P Yp; n y (y) ; y 2 R 2n graden in Tabellen gegeben. Fur 0 < < 1 sind die {Quantile n2 ; bzw. n2 ;1; der 2{Verteilung mit n Freiheits- 100 p n2 ;1; Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden n2 ; Fur groes n gilt naherungsweise: n2 ; n + u 2n Dabei ist u das entsprechende {Quantil der N(0,1){Verteilung. 3 t{Verteilung i X N (0; 1) sowie Y n2 . Ferner seien die Zufallsvariablen X und Y unabhangig. Fur ufallsvariable Z gelte: 1 0 C B C B C B sX z C ; z 2R P (Z z ) = P B A @ 1 nY Z tn heit Z t{verteilt mit n Freiheitsgraden, kurz: en von tn {verteilten Zufallsvariablen: 101 Hinweise: 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4 -4 -2 0 1 n = 20 n=5 n=1 -1 2 3 Dichte der t-Verteilung mit n Freiheitsgraden -3 -3 -1 N(0,1)-Verteilung -2 0 1 2 3 n=2 4 Vergleich der t-Verteilung mit der N(0,1)-Verteilung Es gilt E (Z ) = 0 fur n 2 V ar(Z ) = n ;n 2 fur n 3 Fur groes n ist Z naherungsweise N (0; 1){verteilt, d.h. es gilt P (Z z ) (z ) ; y 2 R q Grund: Fur den Nenner n1 Y gilt E n1 Y = 1 sowie V ar n1 Y = n2 und X N (0; 1). 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 102 4 Fur 0 < < 0:5 sind die 1 ; {Quantile tn;1; der t{Verteilung mit n Freiheitsgraden in Tabellen gegeben. Die Quantile tn; fur 0 < < 0:5 erhalt man aus der Beziehung tn; = ; tn;1; 0 tn;1; Dichte der t-Verteilung mit n Freiheitsgraden tn; = ;tn;1; Fur groes n gilt naherungsweise: tn;1; u1; Dabei ist u1; das entsprechende (1 ; ){Quantil der N(0,1){Verteilung. 4 Kondenzintervalle bei Normalverteilungsannahmen und = R R+ Zufallsvariablen X1; : : :; Xn seien unabhangig und identisch N (; 2){verteilt. = (; 2) n i=1 n 2! X X (n) = 1 Xi N ; n0 ll: Kondenzintervall fur () = , wobei 2 = 02 bekannt lt: us folgt: X (n) ; N (0; 1) p0 n 103 2 2 2 1 2 u1; Dichte der N(0,1)-Verteilung 2 u = ;u1; 0 2 n 2 2 = P X (n) ; u1; p0 X (n) + u1; p0 n n 2 B;u1; X (n) ; u1; A C 1 ; = P @ p0 Man erhalt also fur alle 2 : Hinweise: X (n) ist ein erwartungstreuer Schatzer fur () = . p0n ist die Streuung von X (n). 2 n 2 X Xi ; X (n) i=1 2 ! Das zufallige Intervall # " I (X1; : : :; Xn) = X (n) ; u1; p0n ; X (n) + u1; p0n ist also ein Kondenzintervall fur zum Kondenzniveau 1 ; bei bekannter Varianz 02 . S(2n) = n ;1 1 2. Fall: Kondenzintervall fur () = , wobei 2 unbekannt Idee: 2 durch schatzen. Es gilt: Xr(n) ; t n;1 S(2n) n 104 0 2 tn;1;1; 2 2 Dichte der t-Verteilung mit n-1 Freiheitsgraden 2 2 ;tn;1;1; 2 2 erhalt also fur alle 2 : 0 1 B C t C 1 ; = P B;tn;1;1; Xr(n) ; n;1;1; A @ 2 S (n) n eise: X (n) ist ein erwartungstreuer Schatzer fur () = . s S(2n) n ist ein Schatzer fur die Streuung von X (n). 2 zufallige Intervall s 2 s 2 3 2 S S I (X1 ; : : :; Xn) = 4X (n) ; tn;1;1; n(n) ; X (n) + tn;1;1; n(n) 5 so ein Kondenzintervall fur zum Kondenzniveau 1 ; bei unbekannter Varianz 2 . Q(n) = i=1 n X (Xi ; 0 )2 ll: Kondenzintervall fur () = 2 , wobei = 0 bekannt i lt: Q(n) 2 n 2 105 2 n; 2 2 2 n2 ;1; 2 Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden 2 n2 ; Man erhalt also fur alle 2 : 2 ! Q 1 ; = P n2 ; (2n) n2 ;1; 1 0 n;1; 2 = P @ Q2 (n) 2 Q2(n) A 2 2 Das zufallige Intervall 2 3 I (X1; : : :; Xn) = 4 Q2 (n) ; Q2(n) 5 n;1; n; ist also ein Kondenzintervall fur 2 zum Kondenzniveau 1 ; bei bekanntem Erwartungswert 0 . S(2n) = n ;1 1 i=1 n 2 X Xi ; X (n) Stichprobenvarianz 4. Fall: Kondenzintervall fur () = 2, wobei unbekannt Es sei Es gilt: (n ; 1) S 2 2 (n) n;1 2 106 2 2 2 2 (n ; 1)S(2n) 2 (n;2 1)S(n) A n2 ;1;1; n;1; 2 2 2 2 ! n2 ;1;1; 2 Dichte der Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden 2 n2 ;1; erhalt also fur alle 2 : = P @ 1 ; = P n2 ;1; (n ;2 1) S(2n) n2 ;1;1; 1 0 zufallige Intervall 2 3 2 (n ; 1)S 2 (n ; 1)S 2 ( n ) ; 2 (n) 5 I (X1 ; : : :; Xn) = 4 2 n;1;1; n;1; so ein Kondenzintervall fur 2 zum Kondenzniveau 1 ; bei unbekanntem Erwartungs. 107 F (x) = P (Xi x) ; i = 1; : : :; n Realisation von Zufallsvariablen X1 ; : : :; Xn unabhangig identisch verteilt mit Verteilungsfunktion F , also n = Stichprobenumfang x1; : : :; xn 3.3 Empirische Verteilungsfunktion Mereihe bzw. Stichprobe wobei Stochastisches Modell x1 ; : : :; xn X1 ; : : :; Xn X1 ; : : :; Xn Problem: F unbekannt ! Ziel: Ruckschlusse auf F auf der Basis der vorliegenden Stichprobe ! 3.3.1 Zentralsatz der Statistik Fn ( ; x1; : : :; xn) : R! [0; 1] Bilde aus der Mereihe x1 ; : : :; xn die empirische Verteilungsfunkion mit Fn (z ; |x1; : {z: :; xn} ) = n1 (Anzahl der Mewerte z ) vorliegende Mereihe = rel. Haugkeit der Mewerte z 108 1.0 0.8 0.6 0.4 0.2 6 r r r x4 x1 |X1 ; :{z: :; Xn} ) Zufallsvariablen r x5 F (z ) r F5 (z ; x1; : : :; x5) x3 "zufallige Funktion\ Fn ( ; x1; : : :; xn) |F ({z )} unbekannte Verteilungsfunktion x2 - z ................................................................ ....... ....... ....... ........ ........ ........ ........ ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .. ......................................................... . .................... ............ . ................ ... ....... ....... ..... . ..... ..... . ..... .... . .... .... . .... . ..... .. . .... .... .... ... ... . ... . ... ... . ... ... . ... ... . ... . ..... . ..... ... .... ... ... . .. . ... ... . ... . ..... . . ..... . .... ... ... ... . .... . .... . ... .... . .... .... . .... .... . .... ..... . ......... ... ........ ....... . ........ .......... . ............. .................... .................................................................................................... . 0.0 chte Fn ( ; : Zusammenhang Fn ( ; X1; : : :; Xn) ! F (z ) ? ralsatz der Statistik (Satz von Glivenko/Cantelli) P n 1 n z2 n nlim !1 Dn (X1 ; : : :; Xn) = 0 =1 1 n = 1; 2; : : : (n = Stichprobenumfang) n D (X ; : : :; X ) = supRjF (z ; X ; : : :; X ) ; F (z )j ; lliger maximaler Unterschied\ zwischen empirischer Verteilungsfunktion und wahrer Verngsfunktion: lt: pretation : Fur geeignet lange Mereihen x1 ; : : :; xn ist die empirische Verteilungsfunktion Fn ( ; x1; : : :; xn) eine beliebig gute Approximation fur die wahre Verteilungsfunktion F . 109 Problemstellung Konnen die Mewerte x1 ; : : :; xn als Realisation von normalverteilten Zufallsvariablen angesehen werden ? Graphische Prufmethode: Wahrscheinlichkeitspapier Quantitative Prufmethode: Kolmogoro{Smirnov{Test 1.0 y = (x) = p1 2 ;1 Zx 2 2 e; t dt = Verteilungsfunktion der N(0,1){ Verteilung 3.3.2 Wahrscheinlichkeitspapier Es gilt 50% = 0.5 0.0 15.9% = 0.159 0% = ;3:0 ;2:0 ;1:0 0.0 x 1.0 2.0 3.0 - ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ........ ........ ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .............................................................................................................. ....... ............... .......... ........ ...... ...... ..... ..... .... .... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ... . .... ... . ... . ... ... . ... ... . ....................................................................................................................................................................................................................................... . . . .... . ... . . . . ... . . ... . . . . ... . . ... . . . ... . . . ... . . . ... . . ... . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... . . . . . ... . . . ... . . . . ... . . . . . ... . . ... . . . . . ... . . . . . ... . . ... . . . . . ... . . ... . . . . . ... . . . . ... . . . ... . . . . ... . . ... . . . . . ... . . ... . . . . ... . . ... . . . . .... . . . . . . . . . . . . . . . . . . . . . . . .... . . . . ..... . . .... . . . . . ..... . . . ...... . . . . . . ...... . . ...... . . . . . ....... . . ......... . . . . . .......... . . .................. . . ................................................................................... . . . . 84.1% = 0.841 y 100% = Graph von : Idee A nderung der Skala der y{Achse so, da sich der Graph von im neuen Koordinatensystem zu einer Geraden streckt. 110 anderung: i v = ;1 (y) ; 0 < y < 1 ;1 = Umkehrfunktion von t gilt fur den Graph von im x ; v{Koordinatensystem: v = ;1 (( | {zx)}) = x =y Graph von im x ; v{Koordinatensystem = 1. Winkelhalbierende 84.1% ! 0 1 v6 50% ! 15.9% ! ;1 1.0 1.5 v=x 2.0 ... ....... ......... ......... ......... ........ ........ ......... ....... ......... ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........... ........ ......... . ......... ........ . ........ ........ . ........ ......... . ........ ......... . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............ . ....... . ......... . . ......... ......... . . ........ ......... ......... . . ......... ......... . . ......... ....... . . . . . . . . . . . . . . . ............... . . . . ......... . ........ . . . ......... ......... . . . ......... ........ . . . ......... ........ ........ . . . ........ . . . ;2:0 ;1:5 ;1:0 ;0:5 0.0 x Im Wahrscheinlichkeitsnetz wird die v{Achse mit den entsprechenden Prozentzahlen beschriftet ! 0.5 x ; v{Koordinatensystem bezeichnet man als Wahrscheinlichkeitsnetz ung mein 2 2 y = F; (x) = x ; F; = Verteilungsfunktion einer N (; 2){Verteilung y{Koordinatensystem: v{Koordinatensystem: v = ;1 x ; = x ; 111 Fazit: 2 - F; Die Verteilungsfunktion einer Normalverteilung ist also im Wahrscheinlichkeitsnetz stets eine Gerade ! setze v = 0 (entspricht 50%{Linie) =) x = ;;;;;;; ;;;;;;;! + setze v = 1 (entspricht 84.1%{Linie) =) x = + ......... ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................. ............... . ................ ............... . ............... ............... . ............... ................ . ............... ................ . ............... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................... . .............. ................ . . ............... .............. . . ................ ............... . . ................ ............. . . ............... ............... . . ............... ................ ............. . . .............. . . . . . . . . . . 6 Naherungswerte fur die Parameter und 2 einer Normalverteilung: v 84.1% 50% Vorgehen x 1. Den Graphen der empirischen Verteilungsfunktion zur Mereihe x1; : : :; xn in das x ; v{ Koordinatensystem (Wahrscheinlichkeitsnetz) eintragen. 2. Die approximierende Naherungsgerade einzeichnen 3. Falls die Abweichungen zwischen dem Graphen der empirischen Verteilungsfunktion (Treppenfunktion) und der Naherungsgeraden nicht zu gro sind: Naherungswerte fur und bestimmen. Hinweis : Bei klassierten Daten mussen die summierten relativen Klassenhaugkeiten als Punkte uber den rechten Klassengrenzen in das Wahrscheinlichkeitsnetz eingetragen werden. Dann Gerade durch diesen Punkteschwarm legen. 112 z2 R Dn (x1; : : :; xn) = sup jFn (z ; x1; : : :; xn) ; F0 (z )j und 2 vorgegeben F0 = Verteilungsfunktion einer Normalverteilung F0 beliebige stetige Verteilungsfunktion, F0 vorgegeben Hypothese H0 : F = F0 3 Kolmogoro{Smirnov{Test i iel insbesondere gehen chne 8 > > > < r x5 r x(1); : : :; x(n) r x4 x1 r F (z ) r z - 9 > > > = max jFn (x(i); x1; : : :; xn) ; F0 (x(i) )j ; jFn( x(i) ; 0 ; x1; : : :; xn) ; F0 (x(i))j ; i = 1; : : :; n> > | {z } > > > linksseitiger > : ; Grenzwert i ist 6 eordnete Mereihe. 1.0 0.8 0.6 0.4 0.2 x2 x3 F5 (z ; x1; : : :; x5) ....... ....... ....... ........ ........ ........ ........ ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .. ................................................................................................................... . ...................... .............. . ................ ..... ...... ....... ...... . .... . ..... ..... .... . .... .... . .... . ..... .. ....... .. ..... ... ... . ... . ... ... . ... ... . ... . ... ... . .... . ...... . .... ... ... . ... . ... ... . ... . ..... . . ..... . ..... ... .... .... .... . .... . .... .... . .... . .... .... . .... ..... . .......... .... ....... ....... . ......... ......... . .............. ..................... . .................................................................................................. 0.0 113 Falls alle Mewerte verschieden sind, gilt Dn(x1 ; : : :; xn) = max ni ; F0 (x(i)) Entscheidung : ; i ;n 1 ; F0 (x(i)) ; i = 1; : : :; n Dn (x1 ; : : :; xn) "zu gro\ ; Hypothese "F = F0\ verwerfen, falls d. h. falls Wahl von c ? Dn(x1 ; : : :; xn) > c Problem : Bei Gultigkeit der Hypothese H0 (also F = F0 ) soll gelten P (Dn(X1 ; : : :; Xn) > c) ; Vorgehen : wobei 0 < < 1 vorgegeben. Interpretation : Die Wahrscheinlichkeit dafur, die Hypothese zu verwerfen, obwohl sie wahr ist, d. h. die Wahrscheinlichkeit dafur, die Hypothese falschlicherweise zu verwerfen (Fehlentscheidung !), soll be- tragen Die festzulegende Konstante c hangt also vom gewahlten ab: c = c oder = 5% Da die Wahrscheinlichkeit fur eine Fehlentscheidung ist, wird in der Regel klein gewahlt: = 1% Man bezeichnet als Signikanzniveau des Tests. Zur Festlegung von c benotigt man die Verteilung von Dn (X1 ; : : :; Xn), falls F = F0 gilt. 114 (Kolmogoro) p n Dn(X1 ; : : :; Xn) y = K (y) ; 0.6 2 2 0.8 1 1.2 1.6 y2R 1.8 2 Kolmogorosche Verteilungsfunktion 1.4 Kolmogorosche Verteilungsfunktion y0 y>0 : :; Xn unabhangige und identisch verteilte Zufallsvariablen mit stetiger VerteilungsfunkF . Dann gilt: nlim !1 P 0.2 0.4 i K : R;! [0; 1] gegeben durch 8 1 > 1+2X (;1)k e;2k y < k=1 K (y ) = > : 0 0 e von K in Tabellen ! 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 mmung von c : K ( n c ) = 1 ; p P (D (X ; : : :; X ) > c ) = 1 ; P (Dn(X1 ; : : :; Xn) c ) n 1 n p p = 1 ; P n Dn(X1 ; : : :; Xn) n c 1 ; K (pn c) =! us folgt: 115 c = 1p:36 n pn c = 1:36 K ( n c) = 1 ; 0:05 = 0:95 p p Vorgehen: vorgeben, 1 ; berechnen, der Tabelle den Wert fur n c entnehmen und daraus c ermitteln Beispiel Vorgabe: = 5% Der Tabelle entnimmt man: Man erhalt: Im Falle n = 100 gilt also c = 0:136. Die Entscheidung bei der Durchfuhrung des Kolmogoro{Smirnov{Tests zum Signikanzniveau = 5% lautet also: Falls Dn (x1 ; : : :xn ) > c = 1p:36 n wird die Hypothese "F = F0\ verworfen, sonst kann gegen H0 nichts eingewendet werden. F0 mu vollstandig bekannt sein ! Beachte: 116 Tests bei Normalverteilungsannahmen lem: Pat eine Stichprobe x1; : : :; xn zu einer bestimmten Verteilungsannahme (Nullhypothese) ? 1 Einstichprobentests ben: Stichprobe x1; : : :; xn ; n = Stichprobenumfang ; ell: Realisierung von unabhangigen Zufallsvariablen X1; : : :; Xn ; alle Zufallsvariablen identisch N (; 2){verteilt {Test 9 > = > zweiseitige Fragestellung ; Vergleiche X (n) (erwartungstreuer Schatzer fur ) mit 0 . Nullhypothese H0 : = 0 Alternative H1 : 6= 0 bekannt, aber 2 = 02 bekannt. 0 vorgegeben. groe: p T (X1 ; : : :; Xn) = n (X (n) ; 0 ) 0 117 Verteilung von T bei Gultigkeit von H0 : T N (0; 1) Es sei 2 (0; 1) das "Signikanzniveau\ des Tests. Idee: Nullhypothese verwerfen, falls der Wert von T "zu klein\ oder "zu gro\ ist. p Entscheidungsregel: Wird eine Stichprobe x1 ; : : :; xn beobachtet mit 2 2 2 u1; Dichte der N(0,1)-Verteilung 2 u = ;u1; 2 2 jT (x1 ; : : :; xn)j = n jx(n) ; 0 j > u1; ; 0 so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Interpretation: Das Signikanzniveau beschreibt die Wahrscheinlichkeit dafur, die Nullhypothese H0 falschlicherweise zu verwerfen. Den Fehler, die Nullhypothese H0 falschlicherweise zu verwerfen, bezeichnet man als den Fehler 1. Art. Somit beschreibt die Wahrscheinlichkeit dafur, da dieser Fehler auftritt. Also: klein wahlen ( = 0:05 , = 0:01) 118 eitige Fragestellungen p Nullhypothese H0 : 0 ; Alternative H1 : > 0 Testgroe (wie vorher): T (X1 ; : : :; Xn) = n (X (n) ; 0 ) 0 p Man erkennt, da groe Werte von T gegen die Hypothese H0 sprechen. Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit T (x1 ; : : :; xn) = n x(n) ; 0 > u1; ; 0 so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. u1; Dichte der N(0,1)-Verteilung p Nullhypothese H0 : 0 ; Alternative H1 : < 0 Testgroe (wie vorher): T (X1 ; : : :; Xn) = n (X (n) ; 0 ) 0 p Man erkennt, da kleine Werte von T gegen die Hypothese H0 sprechen. Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit T (x1 ; : : :; xn) = n x(n) ; 0 < u = ;u1; ; 0 so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. 119 Merke : Dichte der N(0,1)-Verteilung u = ;u1; Bei einseitigen Fragestellungen werden die { bzw. (1 ; ){Quantile anstelle der { bzw. 1 ; {Quantile verwendet ! 2 2 Allgemeines Vorgehen beim "Signikanztest\ Stichprobenvarianz 9 > = > zweiseitige Fragestellung ; Verteilungsannahmen spezizieren Nullhypothese H0 und Alternativhypothese H1 formulieren Wahl der Testgroe T Bestimmung der Verteilung von T unter H0 Entscheidungsregel angeben in Abhangigkeit vom Signikanzniveau t{Test und 2 unbekannt, 0 vorgegeben. Nullhypothese H0 : = 0 Alternative H1 : 6= 0 i=1 n 2 X Xi ; X (n) Idee: 2 durch S(2n) schatzen, wobei S(2n) = n ;1 1 120 groe: T tn;1 p ; 0 ( n ) T (X1 ; : : :; Xn) = n Xq S(2n) ilung von T bei Gultigkeit von H0 : 2 2 ;tn;1;1; 0 2 2 tn;1;1; 2 Dichte der t-Verteilung mit n-1 Freiheitsgraden cheidungsregel: Wird eine Stichprobe x1 ; : : :; xn beobachtet mit jT (x1 ; : : :; xn)j = pn jx(qn) ;2 0 j > tn;1;1; ; s(n) rd die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. eitige Fragestellungen Nullhypothese H0 : 0 ; Alternative H1 : > 0 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit p T (x1 ; : : :; xn) = n x(qn) ;2 0 > tn;1;1; ; s(n) so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Nullhypothese H0 : 0 ; Alternative H1 : < 0 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit p n) ; 0 < t = ;t T (x1 ; : : :; xn) = n x(q n;1; n;1;1; ; s(2n) so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. 121 2 {Streuungstest 9 > = zweiseitige Fragestellung > ; Vergleich von S(2n) (erwartungstreuer Schatzer fur 2 ) mit 02 Nullhypothese H0 : 2 = 02 Alternative H1 : 2 6= 02 und 2 unbekannt, 02 vorgegeben. Idee: Testgroe: T n2 ;1 T (X1 ; : : :; Xn) = n ;2 1 S(2n) 0 Verteilung von T bei Gultigkeit von H0 : 2 2 n2 ;1;1; 2 Dichte der Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden 2 n2 ;1; Entscheidungsregel: Wird eine Stichprobe x1 ; : : :; xn beobachtet mit 2 T (x1 ; : : :; xn) = n ;2 1 s(2n) < n2 ;1; 0 122 2 T (x1 ; : : :; xn) = n ;2 1 s(2n) > n2 ;1;1; ; 0 rd die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. eitige Fragestellungen Nullhypothese H0 : 2 02 ; Alternative H1 : 2 > 02 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit T (x1 ; : : :; xn) = n ;2 1 s(2n) > n2 ;1;1; ; 0 so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Nullhypothese H0 : 2 02 ; Alternative H1 : 2 < 02 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xn beobachtet mit T (x1 ; : : :; xn) = n ;2 1 s(2n) < n2 ;1; ; 0 so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. 2 Operationscharakteristik und Gutefunktion ichprobenfall, d. h. gegeben ist eine Stichprobe x1 ; : : :; xn , wobei n = Stichprobenumfang ell: Realisierung von unabhangigen Zufallsvariablen X1; : : :; Xn ; alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion F ; 2 ; = "Indexmenge\ (Menge der moglichen Parameterwerte) Sprechweisen: 2 0 : 2 1 : "Nullhypothese trit zu\ "Alternative trit zu\ Ein statistischer Test zur Prufung des Vorliegens der Nullhypothese 0 ist gegeben durch den kritischen Bereich K Rn Entscheidungsregel: Gilt fur die vorliegende Stichprobe (x1 ; : : :; xn) 2 K ; so wird die Nullhypothese verworfen, andernfalls wird gegen 0 nichts eingewendet. = R R+ X N (; 2) ; Bemerkung: Der kritische Bereich K wird meist mit Hilfe einer sogenannten Testgroe T festgelegt. Beispiel Einstichproben{t{Test Verteilungsannahme: also Nullhypothese beim einseitigen Einstichproben{t{Test: 0 = f : 0 g R+ Alternative: 1 = f : > 0 g R+ Dabei ist 0 ein vorgegebener Wert. Testgroe: p ; 0 ( n ) T (X1 ; : : :; Xn) = n Xq S(2n) K = f(x1 ; : : :; xn) : T (x1 ; : : :; xn) > tn;1;1; g Kritischer Bereich bei festgelegtem 2 (0; 1): 0 = Nullhypothese 1 = Alternativhypothese (Alternative) 124 = 0 [ 1 ; wobei 0 \ 1 = ; nkte Zerlegung der Indexmenge : chnung: 123 tion: (x1 ; : : :; xn) 2 K (x1 ; : : :; xn) 2= K Fehler 1. Art OK 2 0 OK Fehler 2. Art 2 1 rationscharakteristik (OC{Funktion) des Tests: : ;! [0; 1] () = P ((X1 ; : : :; Xn) 2= K ) efunktion des Tests: g : ;! [0; 1] g() = 1 ; () = P ((X1 ; : : :; Xn) 2 K ) () = Wahrscheinlichkeit fur das Auftreten eines Fehlers 2. Art g() = Wahrscheinlichkeit fur das Auftreten eines Fehlers 1. Art er OC{Funktion bzw. der Gutefunktion konnen die Wahrscheinlichkeiten fur das Auftreten Fehlers 1. Art bzw. 2. Art abgelesen werden. 2 0 : 2 1 : i 2 (0; 1). tatistischer Test heit Niveau{{Test, falls g() fur alle 2 0 Bei einem Niveau{{Test betragt die Wahrscheinlichkeit fur einen Fehler 1. Art hochstens . chnung: = Signikanzniveau des Tests allen in diesem Abschnitt betrachteten Tests werden zu vorgegebenem ( klein) die chen Bereiche so gewahlt, da die resultierenden Verfahren Niveau{{Tests darstellen, man orientiert sich bei der Festlegung ausschlielich an der Wahrscheinlichkeit fur einen r 1. Art. 125 3.4.3 Zweistichprobentests Liegen zwei verschiedene Mereihen x1; : : :; xm und y1 ; : : :; yn vor, stellt sich oft die Frage, ob fur die zugrundeliegenden Zufallsvariablen gleiche Erwartungswerte oder gleiche Varianzen angenommen werden konnen. Gegeben: Stichprobe x1; : : :; xm , m = Stichprobenumfang der x{Stichprobe ; Stichprobe y1 ; : : :; yn , n = Stichprobenumfang der y{Stichprobe ; Modell: 9 > = > zweiseitige Fragestellung ; x{Stichprobe Realisierung von Zufallsvariablen X1 ; : : :; Xm alle Zufallsvariablen Xi identisch N (1; 12){verteilt y{Stichprobe Realisierung von Zufallsvariablen Y1 ; : : :; Yn alle Zufallsvariablen Yj identisch N (2 ; 22){verteilt alle Zufallsvariablen X1; : : :; Xm; Y1; : : :; Yn unabhangig Zweistichproben{Gau{Test Nullhypothese H0 : 1 = 2 Alternative H1 : 1 6= 2 1 und 2 unbekannt, aber 12 und 22 bekannt. Idee: Vergleich der arithmetischen Mittel X (m) (erwartungstreuer Schatzer fur 1) und Y (n) (erwartungstreuer Schatzer fur 2 ) Testgroe: T (X1 ; : : :; Xm; Y1; : : :; Yn) = Ys(n) ; X (m) 12 + 22 m n 126 2 2 u 1; Dichte der N(0,1)-Verteilung T N (0; 1) ilung von T bei Gultigkeit von H0 : 2 2 u = ;u1; 2 2 cheidungsregel: Wird eine Stichprobe x1 ; : : :; xm; y1 ; : : :; yn beobachtet mit jT (x1 ; : : :; xm; y1; : : :; yn)j = jys(n) ; x(m)j > u1; ; 12 + 22 m n rd die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. eitige Fragestellungen Nullhypothese H0 : 1 2 ; Alternative H1 : 1 > 2 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xm; y1; : : :; yn beobachtet mit y ;x T (x1 ; : : :; xm; y1; : : :; yn) = s(n) (m) < u = ;u1; ; 12 + 22 m n so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Nullhypothese H0 : 1 2 ; Alternative H1 : 1 < 2 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xm; y1; : : :; yn beobachtet mit y ;x T (x1 ; : : :; xm; y1; : : :; yn) = s(n) (m) > u1; ; 12 + 22 m n so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. 127 Zweistichproben{t{Test 12 = 22 = 2, 2 unbekannt. Beachte: Gleiche unbekannte Varianz 2 ! 9 > = zweiseitige Fragestellung > ; Stichprobenvarianz der x{Werte Stichprobenvarianz der y{Werte Nullhypothese H0 : 1 = 2 Alternative H1 : 1 6= 2 i=1 n 2 X Yi ; Y (n) S~(2n) = n ;1 1 Idee: Unbekannte Varianz 2 schatzen durch m 2 X S(2m) = 1 m ; 1 i=1 Xi ; X (m) bzw. Testgroe: : T tm+n;2 s + n ; 2) Y (n) ; X (m) r T (X1 ; : : :; Xm; Y1; : : :; Yn) = mn(m m+n (m ; 1) S(2m) + (n ; 1) S~(2n) Verteilung von T bei Gultigkeit von H0 0 2 tm+n;2;1; 2 Dichte der t-Verteilung mit m+n-2 Freiheitsgraden 2 2 ;tm+n;2;1; 128 2 cheidungsregel: Wird eine Stichprobe x1 ; : : :; xm; y1 ; : : :; yn beobachtet mit s jy(n) ; x(m)j jT (x1 ; : : :; xm; y1; : : :; yn)j = mn(mm ++ nn ; 2) q (m ; 1) s(2m) + (n ; 1) s~(2n) > tm+n;2;1; ; rd die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. eitige Fragestellungen Nullhypothese H0 : 1 2 ; Alternative H1 : 1 > 2 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xm; y1; : : :; yn beobachtet mit T (x1 ; : : :; xm; y1; : : :; yn) < tm+n;2; = ;tm+n;2;1; ; so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Nullhypothese H0 : 1 2 ; Alternative H1 : 1 < 2 Entscheidungsregel: Wird eine Stichprobe x1; : : :; xm; y1; : : :; yn beobachtet mit T (x1 ; : : :; xm; y1; : : :; yn) > tm+n;2;1; ; so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. em : Wie kann die Annahme gleicher Varianzen, die beim Zweistichproben{t{Test getroen wird, mit einem vorgeschalteten Test uberpruft werden ? erteilung i X 2 sowie Y 2 . Ferner seien die Zufallsvariablen X und Y unabhangig. Fur die r s lsvariable Z gelte: 0 1 1 C ; z 2R B X C P (Z z ) = P B r1 z A @ sY heit Z F {verteilt mit r und s Freiheitsgraden, kurz: Z Fr;s 129 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1.5 2 r = 6 , s = 12 r = 10 , s = 20 1 r=5,s=5 0.5 2.5 Dichte der F-Verteilung mit r und s Freiheitsgraden Dichten von Fr;s {verteilten Zufallsvariablen: Hinweise: 1 Z Fs;r Es gilt fur s 3 E (Z ) = s s ; 2 2 2) V ar(Z ) = r 2(ss ; (r2)+2 s(; s ; 4) fur s 5 Der wesentliche Teil der Verteilung liegt in der Nahe von 1, da E 1 X = 1 und E 1 Y = 1 r s Ist Z Fr;s , so gilt heitsgraden in Tabellen gegeben. 3 Fur 0 < < 0:5 sind die (1 ; ){Quantile Fr;s;1; der F {Verteilung mit r und s Frei- s;r;1; Die Quantile Fr;s; fur 0 < < 0:5 erhalt man aus der Beziehung Fr;s; = F 1 130 est 6 Fr;s; 9 > = > zweiseitige Fragestellung ; Fr;s;1; Dichte der F-Verteilung mit r und s Freiheitsgraden 1 nd 2 sowie 12 und 22 unbekannt. Nullhypothese H0 : 12 = 22 Alternative H1 : 12 6= 22 - Vergleich der Stichprobenvarianzen S(2m) (erwartungstreuer Schatzer fur 12 ) und S~(2n) (erwartungstreuer Schatzer fur 22 ) groe: S2 T (X1 ; : : :; Xm; Y1 ; : : :; Yn) = ~(2m) S(n) ilung von T bei Gultigkeit von H0 : T Fm;1;n;1 2 cheidungsregel: Wird eine Stichprobe x1 ; : : :; xm; y1 ; : : :; yn beobachtet mit s2 T (x1 ; : : :; xm; y1; : : :; yn) = s~(2m) < Fm;1;n;1; (n) 131 6 2 1 2 2 Fm;1;n;1;1; 2 Dichte der F-Verteilung mit m-1 und n-1 Freiheitsgraden 2 Fm;1;n;1; - oder s2 T (x1 ; : : :; xm; y1; : : :; yn) = (2m) > Fm;1;n;1;1; s~(n) so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Hinweis : Falls der F {Test bei zwei Mereihen zu einer Ablehnung der Nullhypothese H0 : 12 = 22 fuhrt, kann der Zweistichproben{t{Test nicht zur U berprufung der Nullhypothese H0 : 1 = 2 herangezogen werden. Einseitige Fragestellungen Nullhypothese H0 : 12 22 ; Alternative H1 : 12 > 22 Entscheidungsregel: Wird eine Stichprobe x1 ; : : :; xm; y1; : : :; yn beobachtet mit s2 T (x1 ; : : :; xm; y1 ; : : :; yn) = s~(2m) > Fm;1;n;1;1; (n) so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Nullhypothese H0 : 12 22 ; Alternative H1 : 12 < 22 Entscheidungsregel: Wird eine Stichprobe x1 ; : : :; xm; y1; : : :; yn beobachtet mit s2 T (x1 ; : : :; xm; y1 ; : : :; yn) = s~(2m) < Fm;1;n;1; (n) so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. 132 2{Anpassungstests ben: Stichprobe x1; : : :; xn ; n = Stichprobenumfang ; ell: Realisierung von unabhangigen Zufallsvariablen X1; : : :; Xn alle Zufallsvariablen identisch wie X verteilt mit der Verteilungsfunktion F Prufen einer Annahme uber die Verteilung von X (vgl. Kolmogoro{ Smirnov{Test, Abschnitt 3.1.3) 1 Prufen bei endlich vielen Merkmalswerten risches Beispiel dels Erbgesetz Mendels Erbgesetz gilt: Verhaltnis 1:2:1 zungsversuch von weibluhenden mit rotbluhenden Panzen; r = 3 verschiedene Phanon bei den Nachkommen: wei, rosa, rot; i p30 = 41 p1 = Wahrscheinlichkeit fur wei p2 = Wahrscheinlichkeit fur rosa p3 = Wahrscheinlichkeit fur rot p20 = 12 ; (p1 ; p2 ; p3 ) 6= p10 ; p20 ; p30 p10 = 41 ; (p1 ; p2 ; p3 ) = p10 ; p20 ; p30 Mendels Erbgesetz lautet also die Hypothese H0: native H1: 133 Daten: n = 112 Kreuzungen; Phanotyp 22 53 37 beobachtete Haugkeit nj 0.25 0.50 0.25 Wahrscheinlichkeit pj 28 56 28 unter H0 erwartete Haugkeit n pj0 Phanotyp "wei\ : n1 = 22 mal Phanotyp "rosa\ : n2 = 53 mal Phanotyp "rot\ : n3 = 37 mal "wei\ "rosa\ "rot\ Daraus ergibt sich: Idee: Die Daten sprechen nicht gegen das Erbgesetz (die Hypothese), falls nj n pj0 2 2 2 T = (22 ; 28) + (53 ; 56) + (37 ; 28) 28 56 28 9 + 2 81 = 2 36 +56 = 243 56 4:339 Betrachte die 2 {Abstandsfunktion (Testgroe): Frage: Ist das "zu gro\, d. h. soll die Hypothese bei diesem Wert verworfen werden ? 134 meines Vorgehen ebereich von X : fi1; i2 ; : : :; ir g (r verschiedene Werte insgesamt) r X j=1 pj0 = 1 (p1 ; p2 ; : : :; pr ) = |(p10 ; p20 ;{z: : :; pr0 )} vorgegebene Werte pj = P (X = ij ) ; j = 1; : : :; r Stichprobenumfang (Anzahl der Beobachtungen) i these: native: Nj (p1 ; p2 ; : : :; pr ) 6= (p10 ; p20 ; : : :; pr0) j=1 0r 21 r N ; n p0 2 X X j j = @ Nj 0 A ; n n pj0 j=1 n pj j=1 groe: Es sei Nj die zufallige Anzahl des Auftretens von ij innerhalb der Stichprobe, j = ; r. Es gilt r X =n Abstandsfunktion: T (N1 ; N2; : : :; Nr ) = ilung von T bei Gultigkeit der Nullhypothese H0 : Die exakte Verteilung von T ist schwierig stimmen. Es gilt naherungsweise: T r2;1 erkung: Die Naherung ist nach einer vielfach zitierten Faustregel als gut zu bezeichnen, n pj0 5 fur j = 1; : : :; r gilt. i 2 (0; 1) das vorgegebene Signikanzniveau des Tests. cheidungsregel: "Groe\ Werte von T sprechen gegen die Hypothese. 135 6 r2;1;1; - mit 0 1 r n2 X j A 2 n pj0 ; n > r;1;1; ; j=1 =@ Dichte der Chi-Quadrat-Verteilung mit r ; 1 Freiheitsgraden Also: Wird eine Stichprobe j=1 x1; : : :; xn beobachtet r n ; n pj0 2 X j n pj0 T (n1 ; n2; : : :; nr ) = so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Historisches Beispiel Mendels Erbgesetz Fur r = 3 und = 5% ergibt sich: 2 32;1;1;0:05 = 2;0 :95 = 5:991 Wegen T = 4:339 < 5:991 wird gegen H0 nichts eingewendet, d. h. die Beobachtungen stehen nicht im Widerspruch zu dem Erbgesetz. F = F0 F 6= F0 (F0 vorgegeben) 3.5.2 Prufen auf eine bestimmte Verteilung Hypothese: Alternative: 136 ... .... ... ... . ... ..... ... ... . I2 I3 q q q .. ... ... .. ... .. pj = P (X 2 Ij ) ; j = 1; : : :; r .. ... ... .. ... .. (p1 ; p2 ; : : :; pr ) = (p10 ; p20 ; : : :; pr0) F0 I ;1 r pj0 = ; j = 1; : : :; r |P0 (X{z2 Ij )} Berechnung unter Zugrundelegung von F0 F0 (x) Ij (p1 ; p2 ; : : :; pr ) 6= (p10 ; p20 ; : : :; pr0) r X pj0 = 1 ... .. .... .. ... . Ir I r x ........ .......... R i R= I1 [ I2 [ : : : [ Ir Zerlegung des Wertebereichs von X in r disjunkte Teilintervalle und Halbachsen und 1 I1 ..... ...... ...... ..... ...... ...... ..... ...... ...... ..... ...... ..... ...... ...... ..... ...... ...... ..... ...... ..... ...... ...... ..... ...... ...... ..... ...... ..... ...... ...... ..... ...... ...... ..... ...... ..... ..... ...... ..... ...... ...... ..... ...... ...... ..... ... ......................................................................................................................... ........................... ................... .............. ............. .......... ....... ...... .... ..... .... .... .... .... .... .... .... . .................. .... .... ......... .... ...................... .... .... .... ................... .... .... . . . . ... ................... .... .... . . . . ... .................. ... ... .................. ... ... ................... ... ... ............. ... ... .... ... .... .... .... ..... ..... ...... ...... ...... ...... ...... ....... ....... ....... ......... ........ .......... .......................................... ........ ........... pj0 I1 these: i native: lt: j=1 137 jetzt: Nj = Anzahl Mewerte in Ij ; j = 1; : : :; r Testgroe T, Verteilung von T bei Gultigkeit von H0 sowie Entscheidungsregel wie im vorangegangenen Abschnitt. Beispiel 1000 Zufallszahlen zwischen 0 und 1 aus einem Taschenrechner. 1 ... .... ... .. 0 f0 (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ij nj 0.4 0.5 j (;1; 0:1] (0:1; 0:2] (0:2; 0:3] (0:3; 0:4] (0:4; 0:5] (0:5; 0:6] (0:6; 0:7] (0:7; 0:8] (0:8; 0:9] (0:9; 1] 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x ........... ....... Hypothese: Gleichverteilung im Intervall [0,1], d. h. die Verteilungsfunktion F0 ist gegeben durch folgende Dichte f0 (vgl. Abschnitt 2.3.4): Daten: 1 2 3 4 5 6 7 8 9 10 68 116 101 107 92 100 136 101 79 100 1000 138 chnung der Testgroe T : 100 100 100 100 100 100 100 100 100 100 1000 pj0 n pj0 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 1.0 10.24 2.56 0.01 0.49 0.64 0.00 12.96 0.01 4.41 0.00 31.32 (nj ; n pj0 )2 n pj0 cheidung: Fur r = 10 und = 5% erhalt man 2 9;0 :95 = 16:919 n T = 31:32 > 16:919 e Nullhypothese daher zu verwerfen. F 2 fF : 2 g 3 Prufen auf einen Verteilungstyp these: iel n man bei der Mereihe x1; : : :; xn die Normalverteilungsannahme machen ? 139 Vorgehen 1. Berechne aus der Mereihe den Maximum{Likelihood{Schatzwert ^ fur (siehe Abschnitt 3.2.4). pj0 = ; j = 1; : : :; r |P0 (X{z2 Ij )} Berechnung unter Zugrundelegung von F0 2. Ersetze im vorangegangenen Abschnitt durch ; j = 1; : : :; r p^ = j |P^(X{z2 Ij )} Berechnung unter Zugrundelegung von F^ (naherungsweise) 3. Es sei = (1 ; 2; : : :; k ) ein k{dimensionaler Parameter. Verteilung von T bei Gultigkeit der Nullhypothese H0 : T r2;1;k Entscheidungsregel: Wird eine Stichprobe x1 ; : : :; xn beobachtet mit T (n1 ; n2; : : :; nr ) > r2;1;k;1; ; so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet. Anmerkung: An die Stelle des Quantils r2;1;1; in den beiden vorangegangenen Abschnitten tritt hier also das Quantil r2;1;k;1; . Man sagt: "Die Zahl r ; 1 der Freiheitsgrade der 2 {Verteilung wird um die Zahl k der geschatzten Parameter vermindert.\ Diese Entscheidungsregel wird in der Praxis haug angewandt, obwohl sie nur auf einer Naherungsrechnung beruht. In der Regel ist die Wahrscheinlichkeit, H0 falschlicherweise zu verwerfen, d. h. die Wahrscheinlichkeit fur einen Fehler 1.Art, etwas groer als . Beispiel 650 disjunkte Ausschnitte aus einer Zellkultur. Xi = Anzahl Zellen im i. Ausschnitt, die sich in einer bestimmten Phase der Zellteilung benden 140 k 1 P (X = k) = k! e; ; 0 4 5 k = 0; 1; 2; : : : 3 6 72 169 191 120 66 21 11 2 these: "Es liegt eine Poisson{Verteilung vor\, d. h. > 0 geeignet. n: Anzahl Zellen Anzahl Ausschnitte Ij nj 0.1261 0.2611 0.2703 0.1866 0.0966 0.0400 0.0193 1.0 pj^ 81.94 169.69 175.72 121.30 62.81 26.01 12.55 650 n pj^ 1.206 0.003 1.329 0.014 0.162 0.965 0.191 3.870 2 nj ; n pj^ n pj^ mum{Likelihood{Schatzwert (siehe Abschnitt 3.2.4): + 3 120 + : : : + 6 11 = 2:071 ^ = x(650) = 0 72 + 1 169 + 2 191 650 chnung der Testgroe: j 1 2 3 4 5 6 7 f0g 72 f1g 169 f2g 191 f3g 120 f4g 66 f5g 21 f 6,7,8,. . . g 11 650 cheidung: Fur r = 7, k = 1 und = 5% erhalt man: 2 72;1;1;1;0:05 = 5;0 :95 = 11:070 n T = 3:870 < 11:070 gegen die Hypothese nichts eingewendet werden 141