Teil III: Schließende Statistik Prof. Dr. Barbara Grabowski Hochschule für Technik und Wirtschaft des Saarlandes (C) 2014 Einleitung -1- Einleitung Diese Kurseinheit dient der Vermittlung von Grundkenntnissen auf dem Gebiet der sogenannten Schließenden Mathematischen Statistik. Mathematische Statistik und Wahrscheinlichkeitsrechnung sind zwei unterschiedliche Teildisziplinen der Mathematik, die ohne einander nicht denkbar sind und unter dem Sammelbegriff „Stochastik“ zusammengefasst werden. Aufgabe der Wahrscheinlichkeitsrechnung ist es, Gesetzmäßigkeiten des Zufalls zu untersuchen, bzw. mathematische Modelle dafür zu liefern. Die Wahrscheinlichkeitsrechnung ist zugleich das theoretische Fundament der mathematischen Statistik. Diese wird in der Regel in die Teildisziplinen „Beschreibende Statistik“ und „Schließende Statistik“ unterteilt. Während es in der Beschreibenden Statistik um Methoden der Aufbereitung und Darstellung von Datenmaterial geht, stehen im Mittelpunkt der Schließenden Statistik Verfahren, mit deren Hilfe von Beobachtungsdaten eines Merkmals an n Objekten einer Grundgesamtheit, d.h. von der sogenannten Stichprobe, auf die Verteilung der Merkmalswerte in der gesamten Grundgesamtheit geschlossen wird. Dieser Schluss wird mit Hilfe von Methoden der Wahrscheinlichkeitsrechnung durch Irrtumsbzw. Sicherheitswahrscheinlichkeiten bewertet. Die Stochastik hat längst in viele moderne wissenschaftliche Teildisziplinen Einzug gehalten, auch die Ingenieurwissenschaften sind ohne stochastische Methoden nicht mehr denkbar. Stochastische Methoden finden hier zum Beispiel Anwendung - bei der Planung von Versuchen - bei der Analyse von Zusammenhängen zwischen 2 und mehr Einflussgrößen und Zielgrößen - bei der Wahl wesentlicher Einflussgrößen - bei der Modellierung von Zusammenhängen - bei der Untersuchung von Lebensdauern und Zuverlässigkeiten von technischen Systemen - bei der statistischen Prozesskontrolle Wir geben in dieser Kurseinheit zunächst eine Einführung in die Methoden der Schließenden Statistik. Für weitere Methoden der Stochastik, u.a. auch der Beschreibenden Statistik und der Wahrscheinlichkeitsrechnung, verweisen wir auf die Skripte I. und II. und die im Literaturverzeichnis des Anhangs angegebene weiterführende Literatur. -2– III. Schließende Statistik Im Kapitel 1 starten wir mit Grundgesetzen zur Verteilung von Summen stochastisch unabhängiger Zufallsgrößen. Diese bilden die Grundlage für die weiteren Kapitel. Sie werden dabei die grundlegende Bedeutung der Normalverteilung in der Statistik kennen lernen. Kapitel 2 erläutert die Begriffe Stichprobe, Schätzfunktion und Toleranzschätzung, sowie die Eigenschaften von Schätzfunktionen und Toleranzschätzungen. Danach werden Sie im Kapitel 3 mit Punktschätzungen, Toleranz- und Prüfbereichen für den unbekannten Erwartungswert einer Zufallsgröße unter der Annahme, dass ihre Varianz bekannt ist, vertraut gemacht und es werden konkrete Beispiel durchgerechnet. Ein wesentlicher Bestandteil dieses Kapitels sind Überlegungen zur Wahl des Stichprobenumfanges, um gute Schätzungen für den Erwartungswert zu erhalten. Um Schätzungen für den Erwartungswert bei unbekannter Varianz zu erhalten, benötigt man die Kenntnis weiterer Verteilungen, die Normalverteilung reicht nicht mehr aus. Im Kapitel 4 werden Sie mit der t- Verteilung von Student, der 2-verteilung und der F-Verteilung von Fisher vertraut gemacht. Auf dieser Basis werden dann in Kapitel 5 Punktschätzungen und Toleranzbereiche bzw. Bereichsschätzungen für unbekannte Wahrscheinlichkeiten, unbekannte Erwartungswerte und Varianzen hergeleitet, sowie Untersuchungen zum notwendigen Stichprobenumfang durchgeführt. Kapitel 6 behandelt die Methoden der Statistischen Prozesskontrolle (SPC), bei denen sogenannte Kontrollregelkarten, die wiederum auf Toleranzbereichen beruhen, verwendet werden. Kapitel 7 widmet sich dem Hypothesenprüfen. Das Grundprinzip statistischer Hypothesentests wird erläutert; es werden Hypothesen über unbekannte Wahrscheinlichkeiten, unbekannte Erwartungswerte und Varianzen sowie über Verteilungen einer Zufallsgröße anhand von Beobachtungen dieser Zufallsgröße geprüft. Dabei werden wieder Untersuchungen zum notwendigen Stichprobenumfang durchgeführt. Die anschließenden Kapitel beschäftigen sich mit Methoden der statistischen Analyse von Zusammenhängen zwischen mehreren Einflussgrößen X1,…,Xk und einer Zielgröße Y. Dazu gehören die statistische Versuchsplanung Einleitung (DOE), die Varianzanalyse (ANOVA und MANOVA) und die multiple Regressions- und Korrelationsanalyse. In jedem Kapitel werden eine Reihe von Übungsaufgaben gestellt. Am Ende dieses Skriptes finden Sie die Lösungen zu einigen Übungsaufgaben. -3- -4– III. Schließende Statistik Inhaltsverzeichnis 1 Verteilungen von Summen von Zufallsgrößen 6 1.1 Erwartungswert und Varianz von Summen und linearen Transformationen von Zufallsgrößen ...................................................................................................... 6 1.2 Verteilungen von Summen von Zufallsgrößen ...................................................... 8 1.5.1 Der Reproduktionssatz für Normalverteilungen........................................ 9 1.5.2 Der zentrale Grenzwertsatz ......................................................................... 12 2 Stichproben und Schätzfunktionen 17 2.1 Stichproben- und Stichprobenfunktionen.............................................................. 17 2.2 Schätzfunktionen ........................................................................................................ 18 2.2.1 Punktschätzfunktionen ................................................................................... 18 2.2.2 Konsistenz und Erwartungstreue von Punktschätzfunktionen ................ 19 2.3 Bereichsschätzungen und Prüfintervalle............................................................... 20 3 Toleranz- und Prüfintervalle für den unbekannten Erwartungswert =EX einer Zufallsgröße X bei bekannter Varianz Var(X)=2 23 3.1 Fall: X ist normalverteilt, X~N(, 2), 2 bekannt .................................................. 23 3.1.1 Bereichsschätzung für EX bei bekannter Varianz 2.................................. 23 3.1.2 Bereichsschätzungen für EX mit vorgegebener GenauigkeitStichprobenumfangsbestimmung ............................................................... 27 3.1.3 Prüfintervalle für EX=................................................................................... 29 3.2 Fall: X ist nicht normalverteilt, EX = , Var(X)=2, 2 bekannt ........................... 30 4 Die Verteilung von Stichprobenfunktionen 31 4.1 Die 2- Verteilung ...................................................................................................... 31 4.2 Die t-Verteilung ........................................................................................................ 33 4.3 Die F-Verteilung ......................................................................................................... 36 5 Toleranz- und Prüfintervalle für Erwartungswerte und Varianzen38 5.1 Toleranz- und Prüfintervalle für die Varianz Var(X)=2 einer N(, 2) – verteilten Zufallsgröße X......................................................................................... 38 Inhaltsverzeichnis -5- 5.2 Toleranz- und Prüfintervall für EX= bei unbekannter Varianz Var(X)=...... 42 5.2.1 Toleranz- und Prüfintervall für EX= bei unbekannter Varianz, X~N(, 2)..................................................................................................................... 42 5.2.2 Stichprobenumfangsbestimmung ............................................................... 46 5.3 Toleranz- und Prüfintervalle für =EX bei unbekannter Varianz 2 und für 2 = Var(X) für nicht normalverteilte Zufallsgrößen................................................ 49 6 Kontrollregelkarten 51 6.1 Hypthesen und Prüfintervalle zur Überwachung der laufenden Produktion. 51 6.2 SPC-Regelkarten und Prüfentscheidungen........................................................... 52 6.2.1 Was sind Kontrollregelkarten ...................................................................... 52 6.2.2 Auswertung von Kontrollregelkarten ........................................................ 54 6.2.3 Erstellung der Kontrollregelkarten bei unbekanntem Erwartungswert und unbekannter Varianz ............................................................................ 57 7 Literaturverzeichnis 59 8 Tabellen und Diagramme 61 A1. Tabelle der Standardnormalverteilung .................................................................. 61 A2. Zufallszahlen zur Gleichverteilung......................................................................... 63 A3. Quantile m2() der 2-Verteilung mit m Freiheitsgraden P(X < m2()) = ..... 64 A4. 1- - Quantile der t-Verteilung mit v Freiheitsgraden.......................................... 65 A5. Quantile der F-Verteilung für =0,01 und =0.05 ................................................ 66 Stichwortverzeichnis ........................................................................................................ 67 -6– III. Schließende Statistik 1 Verteilungen von Summen von Zufallsgrößen Häufig benötigt man bei der Modellierung des Zufalls die Verteilung von Summen oder anderen Funktionen von stochastisch unabhängigen Zufallsgrößen. Angenommen, es ist bekannt, dass das zufällige Gewicht X von Papiertüten einer bestimmten Schwankung unterliegt, genauso wie auch der in die Papiertüte eingefüllte Inhalt Y. Möchte man jetzt die Verteilung des Gesamtgewichtes analysieren, so besteht die mathematische Aufgabe darin, die Verteilungsfunktion von Z = X + Y, d.h. der Summe zweier stochastisch unabhängiger Zufallsgrößen zu ermitteln. Nach Durcharbeiten dieses Kapitels können Sie 1.1 Erwartungswert und Varianz von Summen stochastisch unabhängiger Zufallsgrößen berechnen, Wahrscheinlichkeitsverteilungen von Summen stochastisch unabhängiger normalverteilter Zufallsgrößen bestimmen und dazu praktische Aufgaben lösen, den Zentralen Grenzwertsatz zur Lösung praktischer Aufgaben anwenden. Erwartungswert und Varianz von Summen und linearen Transformationen von Zufallsgrößen Wir führen zunächst den Begriff der stochastischen Unabhängigkeit von Zufallsgrößen ein. Wir erinnern uns daran, dass 2 Ereignisse A und B stochastisch unabhängig sind, genau dann, wenn gilt: P ( A B ) P ( A) P ( B ) . In Analogie zur Unabhängigkeit von Ereignissen A und B definieren wir: Stochastische Unabhängigkeit von Zufallsgrößen Definition 1.1: Zwei Zufallsgrößen X und Y heißen stochastisch unabhängig, falls für alle a,b R gilt: P (( X a ) (Y b)) P ( X a ) P (Y b) Diese Produktformel gilt entsprechend auch für n Zufallsgrößen: n Zufallsgrößen X1,…,Xn heißen stochastisch unabhängig voneinander , falls Verteilung von Summen von Zufallsgrößen -7- für jede Auswahl {Xi1,….,Xik } {X1,…,Xn } von k Zufallsgrößen aus diesen n gilt: P (( X i1 a1 ) ... ( X ik a k )) k P( X ij a j ) j 1 Wir interessieren uns nun für die Eigenschaften von Erwartungswert und Varianz von Summen und linearen Transformationen von Zufallsgrößen. Wir erinnern daran, dass Erwartungswert EX und Varianz Var(X) einer stetigen Zufallsgröße X mit Verteilungsdichte f(x) wie folgt definiert waren: (1.1) EX xf ( x)dx und Var ( X ) ( x EX ) 2 f ( x)dx Für eine diskrete Zufallsgröße X {a1,…,ak} Wahrscheinlichkeitsverteilung pi=P(X=ai) ist entsprechend: (1.2) k k i 1 i 1 und EX ai pi und Var ( X ) (ai EX ) 2 pi Wir bemerken, dass wir in jedem Fall für die Varianz auch schreiben können: (1.3) Var(X) = E(X-EX)2 Darüber hinaus ist auch noch die sogenannte Covarianz zwischen 2 Zufallsgrößen von Interesse, die wie folgt definiert ist (1.4) Cov(X,Y) := E(X-EX)(Y-EY) und den Zusammenhang zwischen 2 Zufallsgrößen X und Y beschreibt. (Offensichtlich ist Cov(X,X)=Var(X)) Satz 1.1: (Eigenschaften von Erwartungswert und Varianz) Seien a,b R. Dann gilt: 1. E(b) = b und Var(b) = 0 2. E(aX) = aEX und Var (aX ) a 2Var ( X ) 3. E(X1 + X2 + ... + Xn) = EX1 + EX2 + ...+ EXn 4. E(aX+b) = aEX + b 5. Var ( X Y ) =Var(X)+Var(Y)+2Cov(X ,Y) 6. Var (aX b) a 2Var ( X ) Eigenschaften von Erwartungswert und Varianz -8– III. Schließende Statistik Für stochastisch unabhängige Zufallsgrößen gilt darüber hinaus: 7. E(XY) = EXEY 8. Cov(X,Y) = 0 9. Var(X+Y)=Var(X) + Var(Y) 10. Var ( X 1 X 2 ... X n ) Var ( X 1 ) Var ( X 2 ) ... Var ( X n ) 1.1 Seien X1 und X2 zwei stochastisch unabhängige Zufallsgrößen mit E(X1)=5, Var(X1)=1 und E(X2) = 10, Var(X2)=4. a) Berechnen Sie Erwartungswert und Varianz von Y=2X1+3X2. b) Sei X ~N(80, 52) die Verteilung des Gewichtes von Personen zwischen 20 und 60 Jahren in der BRD. Angenommen wir greifen jetzt 8 Personen zufällig aus dieser Grundgesamtheit heraus. Berechnen Sie das erwartete Gesamtgewicht der 8 Personen! Wie groß ist die Varianz des Gesamtgewichtes der 8 Personen ? c) Weisen Sie unter Verwendung der Eigenschaften 1.- 4. des Erwartungswertes und von Formel (1.3) nach, dass gilt : Var(X+Y)=Var(X) + Var(Y) + 2Cov(X,Y) ! 1.2 1.2 Für 2 stochastisch unabhängige Zufallsgrößen X und Y gilt: EXY = EXEY. Weisen Sie nach, dass daraus und aus den im o.g. Satz genannten Eigenschaften 1.-4. des Erwartungswertes folgt: a) Cov(X+Y) = 0 und b) Var(X+Y)=Var(X) + Var(Y) Verteilungen von Summen von Zufallsgrößen In diesem Abschnitt geht es um die Bestimmung der Verteilung von linearen Transformationen und von Summen von stochastisch unabhängigen Zufallsgrößen. Manche Verteilungen, wie z.B. die Poisson- und die Normalverteilung, besitzen die sogenannte Reproduktionseigenschaft. D.h., der Verteilungstyp von Summen derart verteilter unabhängiger Zufallsgrößen bleibt erhalten, die Parameter der Summen berechnen sich gemäß den Verteilung von Summen von Zufallsgrößen -9- Eigenschaften der Erwartungswerte von Summen von Zufallsgrößen, wie sie in Abschnitt 1.1 dargestellt wurden. 1.5.1 Der Reproduktionssatz für Normalverteilungen Satz 1.2: (Reproduktionssatz für Normalverteilungen) a) Ist X normalverteilt mit den Parametern EX= und Var(X)=2, so ist auch jede lineare Transformation Y= aX + b von X normalverteilt mit den Parametern EY = a+b und Var(Y)= (a )2. b) Sind X1,...,Xn stochastisch unabhängige normalverteilte Zufallsgrößen mit den Parametern EX i i , Var ( X i ) i2 , i=1,...,n, dann ist ihre Summe n n X X i ebenfalls normalverteilt mit den Parametern EX i und i 1 i 1 n Var ( X ) i2 . i 1 Bemerkung: Diese Reproduktionseigenschaft gilt nicht generell für alle Verteilungen. Zum Beispiel ist die Summe von n unabhängigen exponentialverteilten Zufallsgrößen nicht mehr exponentialverteilt ist. Hier erhält man eine neue theoretische Verteilung, die sogenannte ErlangVerteilung, auf die wir hier aber nicht weiter eingehen wollen, wir verweisen auf die weiterführende Statistik-Literatur [Wa], [Lex]. Beispiel: Sei X das zufällige Gewicht einer erwachsenen Person in der BRD und sei X~N(80kg, (5kg)2). (D.h., ca 68 % aller erwachsenen Personen haben ein Gewicht zwischen 75 kg und 85 kg, fast alle zwischen 65kg und 95 kg. In einem Fahrstuhl steht die Aufschrift: Maximale Traglast: 5 Personen oder 410 kg. Wie groß ist die Wahrscheinlichkeit dafür, dass 5 zufällig eintreffende erwachsene Personen das Gesamtgewicht G von 410 kg überschreiten? Lösung: Offensichtlich ist das Gesamtgewicht G 5 X i 1 i , wobei Xi~N(80kg, (5kg)2) Reproduktionssatz für Normalverteilungen - 10 – III. Schließende Statistik das zufällige Gewicht der i.ten Person ist. Nach Reproduktionssatz, Teil b), ist G normalverteilt, es gilt: G 5 X i 1 i ~ N (400kg ,125(kg 2 )) . Daraus ergibt sich für die gesuchte Wahrscheinlichkeit: P(G 410) 1 P(G 410) 1 F (410) 410 400 1 1 0,89 125 1 0,8133 0,1867 (Die Normalverteilungsverteilungsfunktion wird in die Standardnormalverteilungsfunktion (x) transformiert und deren Werte aus der Tabelle (Vgl. Abschnitt Tabellen und Diagramme) abgelesen, siehe auch Skript II. Wahrscheinlichkeitsrechnung. ) 1.3 Sei das zufällige Gewicht von Papiertüten X ~ N (50 g , (1g ) 2 ) und des zufällige Gewicht der durch eine Maschine in die Papiertüte gefüllte Inhalt eines Pulvers Y ~ N (500 g , (5 g ) 2 ) . a) Wie groß ist die Wahrscheinlichkeit dafür, dass das Gewicht der gefüllten Tüte im Toleranz-Bereich 550g 6g liegt? b) Geben Sie den Bereich an, indem das Gewicht fast aller (99,98%) gefüllten Papertüten liegt! Bemerkung: Aus Teil a) des Reproduktionssatzes folgt folgende wichtige TransformationsRegel: Satz 1.3: Es gilt: X~N(,2) X EX Var ( X ) Diese Regel wird als Standardisierung und Zufallsgröße bezeichnet. X ~ N (0,1) . X EX Var ( X ) (1.5) als standardisierte Verteilung von Summen von Zufallsgrößen - 11 - Bemerkung: Ein wichtiger Spezialfall ist die Summe X = n X i 1 i stochastisch unabhängiger X1,...,Xn mit X i ~ N ( , 2 ) für identisch normalverteilter Zufallsgrößen i=1,...,n. 1.4 Seien X i ~ N ( , 2 ) i=1,…,n n stochastisch unabhängige und identisch normalverteilte Zufallsgrößen. a) Welche Verteilung besitzt dann die Summe n X i 1 i ? b) Welche Verteilung besitzt das arithmetische Mittel X 1 n X i dieser Zufallsgrößen? n i 1 c) Welche Verteilung besitzt die Zufallsgröße Y = n (X ) ? Lösung zu 1.4.: Nach Reproduktionssatz ist die Summe der Xi wieder normalverteilt. Für Erwartungswert und Varianz der Summe erhalten wir n n E X i i 1 Folglich ist i 1 n X i 1 i EX i n und Var ( n X i 1 n i ) Var ( X i ) n 2 i 1 ~ N (n , n 2 ) und daraus folgt wiederum nach Teil a) des Reproduktionssatzes: (1.6) X 1 n 2 X ~ N ( , ) i n i 1 n D.h., das arithmetische Mittel einer Stichprobe von n stochastisch unabhängigen identisch N ( , 2 ) verteilten Zufallsgrößen ist wieder normalverteilt. Je größer n, desto „genauer“ trifft X . - 12 – III. Schließende Statistik Abbildung 1.1. Dichtefunktionen der Normalverteilung X ~ N ( , 2 ) für n verschiedene n 1.5 1.5.2 Sei das zufällige Gewicht X von Personen wie folgt verteilt: X~N(80 kg, (5 kg)2). Wie groß ist die Wahrscheinlichkeit dafür, dass das Durchschnittsgewicht von 8 zufällig ausgewählten Personen der Grundgesamtheit 80 kg überschreitet? Der zentrale Grenzwertsatz Oft kennt man die Verteilung der Summanden Xi einer Summe von stochastisch unabhängigen Zufallsgrößen nicht und dann gelingt es auch nicht, die Verteilung dieser Summe exakt auszurechnen. Aber es lässt sich zeigen, dass man sie immer, wenn n „hinreichend“ groß ist durch eine Normalverteilung gut annähern kann. Es gilt der Zentrale Grenzwertsatz: Verteilung von Summen von Zufallsgrößen - 13 - Satz 1.4: (Zentraler Grenzwertsatz) Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen mit den Parametern EX i i und Var ( X i ) i2 , i=1,...,n. Sei X n X i 1 i . Dann konvergiert die Verteilung der standardisierten n Summe Y= Zentraler Grenzwertsatz X EX Var ( X ) (X i 1 i i ) für n gegen gegen eine n i 1 2 i Standardnormalverteilung N(0,1). n Wir können also für „große n“ die Zufallsgröße Y= (X i 1 i i ) als n i 1 2 i standardnormalverteilt betrachten: n Y (X i 1 i i ) n i 1 N (0,1) n groß 2 i Aus dem Zentralen Grenzwertsatz folgt folgende wichtige Regel: Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen mit den Parametern EX i i und Var ( X i ) i2 , i=1,...,n. Dann ist für „große n“ die Summe n X X i näherungsweise normalverteilt mit i 1 n n i 1 i 1 n EX i und Var ( X ) i2 : X i 1 i n n i 1 i 1 N ( i , i2 ) n groß (1.7) Eine Faustregel besagt, dass n 120 groß genug ist. Die „Näherung“ heisst, dass für n gegen unendlich, die Verteilung der Summe gegen die Normalverteilung strebt. Normalverteilungsregel - 14 – III. Schließende Statistik Diese Regel liefert die Begründung dafür, dass so viele Phänomene (Körpergewicht, Intelligenzquotient, Messfehler usw.) in der Praxis normalverteilt erscheinen. Sie entstehen als Überlagerung sehr vieler unabhängig voneinander wirkender stochastischer Einflüsse. Ein wichtiger Spezialfall der Normalverteilungsregel ist wieder der Fall, dass alle Summanden X i identisch verteilt sind, also den gleichen Erwartungswert EX i und die gleiche Varianz Var ( X i ) 2 , besitzen. In diesem Fall ist für n X X i der i 1 n n Erwartungswert EX n und die Varianz Var ( X ) 2 n 2 i 1 n X i 1 und es gilt: i 1 i N ( n , n 2 ) (1.8) 1 n 2 und X X i N ( , ) n i 1 n und i=1,...,n (1.9) n ( X ) N (0,1) (1.10) Eine Anwendung dieses Spezialfalls besteht in der Approximation der Binomialverteilung durch die Normalverteilung. Wie wir wissen, ist die zufällige Anzahl X von Erfolgen bei n facher Wiederholung eines zweipunktverteilten Versuchs mit Erfolgswahrscheinlichkeit p binomialverteilt mit den Parametern n und p. Wir können die i.te Versuchswiederholung durch die zweipunktverteilte Zufallsgröße charakterisieren 0 falls Misserfo lg Xi Erfo lg 1 falls Dann ist X n X i 1 i 1 p p mit EX i p und Var ( X i ) p (1 p ) und wir erhalten als Spezialfall der Normalverteilungsregel den folgenden Grenzwertsatz von Moivre und Laplace bezeichneten Satz: Approximation der Binomialverteilung durch die Normalverteilung auch als Satz 1.5: (von Moivre und Laplace): Eine mit den Parametern n und p binomialverteilte Zufallsgröße X ist für große n näherungsweise normalverteilt mit EX = np und Var(X) = np(1-p), d.h. B(n,p) N(np, np(1-p) (Empfehlung: n 120 ) Verteilung von Summen von Zufallsgrößen Beispiel: Eine Krankheit A tritt mit der Wahrscheinlichkeit von 1% in der Bevölkerung auf. Wie groß ist die Wahrscheinlichkeit dafür, dass von 1000 Personen mehr als 15 erkranken? Lösung: Die zufällige Anzahl der erkrankten Personen unter 1000 ist binomialverteilt mit den Parametern n=1000 und p=0,01 (der zweipunktverteilte Versuch ist: i ist Xi =“Status der Person i“ mit Xi = 0(gesund), Xi =1(krank) mit Wahrscheinlichkeit p=0,01). Für die gesuchte Wahrscheinlichkeit ergibt sich gemäß den Wahrscheinlichkeiten der Binomialverteilung: 1000 (0,01) i (0,99)1000i P( X 15) 1 P( X 15) 1 i i 0 15 Die Berechnung dieser Summe ist mit einigen numerischen Schwierigkeiten verbunden. Aber glücklicherweise können wir aufgrund des Satzes von Moivre und Laplace die gesuchte Wahrscheinlichkeit gut genug durch eine Normalverteilung mit den Parametern =EX = np = 10000,01=10 und 2=Var(X)=np(1-p)=10000,010,99=9,9 approximieren . Es gilt näherungsweise: 15 10 1 (1,59) P ( X 15) 1 P ( X 15) 1 F (15) 1 9 , 9 =1-0,9441=0,0559. Übungsaufgaben 1.6 Das Gewicht X von Papiertüten schwanke zufällig normalverteilt mit EX = 100mg, Var(X)= (10 mg)2. In diese Papiertüten wird 100 Schrauben mit einem normalverteilten Einzelgewicht 2 Y~N(3mg,(0,5mg) ) gefüllt. Wie groß ist die Wahrscheinlichkeit dafür, dass das Gesamtgewicht (Tüte + 100 Schrauben) der gefüllten Tüte innerhalb des Intervalls [300mg, 500mg] liegt? 1.7 Ein regelmäßiger Würfel wird n=600 mal geworfen. Wie groß ist die Wahrscheinlichkeit dafür, dass die Anzahl der gewürfelten Sechsen zwischen 90 und 110 liegt? 1.8 Die Ausfallwahrscheinlichkeit von Geräten, bei denen eine bestimmte Leuchtdiode nicht mehr funktioniert beträgt 0,8. Wie groß ist die Wahrscheinlichkeit dafür, dass von 240 solchen Geräten mit defekter Leuchtdiode mehr als 180 ausfallen? - 15 - Verteilung von Funktionen von Zufallsgrößen 2 - 17 - Stichproben und Schätzfunktionen In der schließenden Statistik geht es u.a. darum, von Beobachtungen einer Zufallsgröße auf deren Verteilung zu schließen oder wenigstens einige ihrer Parameter gut genug zu bestimmen. Dafür benötigt man sogenannte Stichprobenfunktionen S( X 1 ,, X n ), die so heißen, weil sie Funktionen einer mathematischen Stichprobe X 1 ,, X n sind. Diese Stichprobenfunktionen müssen für die Hochrechnung auf die Grundgesamtheit geeignet sein, d.h. bestimmte Güteeigenschaften besitzen. Für die Untersuchung der Güteeigenschaften von Stichprobenfunktionen benötigt man wiederum ihre Wahrscheinlichkeitsverteilungen. In diesem Abschnitt werden wir die Stichprobe, Stichprobenfunktion, die Güteeigenschaften und Wahrscheinlichkeitsverteilungen von Stichprobenfunktionen definieren. 2.1 Stichproben- und Stichprobenfunktionen Sei X eine Zufallsgröße mit der Verteilungsfunktion F. Wir schreiben X ~ F . (Gilt diese Aussage nur näherungsweise, so schreiben wir X F ). Das Ziel besteht darin, F oder einen unbekannten Parameter der Verteilung, wie zum Beispiel den Erwartungswert EX oder die Varianz Var ( X ) , zu bestimmen. Das geschieht immer auf der Basis von Beobachtungen von X . Seien x1 , , xn n Beobachtungen von X . Jede Beobachtung xi können wir als Realisierung einer neuen Zufallsgröße X i auffassen, die dieselbe Verteilung besitzt wie X . Wir sprechen auch von identisch verteilten zufälligen Beobachtungen. Jede hier vorgestellte statistische Schlussweise beruht auf der Voraussetzung, dass die Beobachtungen unabhängig voneinander erhoben werden; das heißt, dass alle X i untereinander stochastisch unabhängig sind. Definition: Seien X 1 , , X n Zufallsgrößen, die unabhängig voneinander und identisch wie X verteilt sind und sei für jedes i 1, , n xi eine Realisierung von X i . Dann heißt ( x1 , , xn ) konkrete und ( X 1 , , X n ) zufällige Stichprobe von X . n heißt Stichprobenumfang. Jede Funktion S ( X 1 , , X n ) einer mathematischen Stichprobe nennen wir Stichprobenfunktion. Stichprobe und Stichprobenfunktion - 18 – III. Schließende Statistik 2.2 Schätzfunktionen 2.2.1 Punktschätzfunktionen Punktschätzung Definition: Eine Funktion S, die jeder Stichprobe vom festen Umfang n einen Schätzwert für einen Parameter zuordnet, heißt Schätzfunktion; der Wert dieser Funktion heißt Punktschätzung für . Wir schreiben für die Schätzfunktion: S( X 1 , , X n ) und für den Schätzwert, d.h. den Wert dieser Funktion bei einer konkreten Belegung ( x , , x ) der zufälligen Stichprobe: S( x , , x ) . 1 1 n n Bemerkung: Die Schätzfunktion ist als Funktion von zufälligen Größen X i ebenfalls eine Zufallsgröße. Da der Schätzwert von den konkreten Beobachtungen x1 , , xn abhängt, können wir ihn als eine Realisierung der Zufallsgröße auffassen. Beobachten wir X erneut n mal, d.h. haben wir eine andere konkrete Stichprobe, auf die wir S anwenden, so erhalten wir in der Regel einen anderen Schätzwert . Beispiel: Das arithmetische Mittel S ( X 1 ,..., X n ) X 1 n X i = einer n i 1 zufälligen Stichprobe von X ist eine Schätzfunktion für den unbekannten Erwartungswert EX= von X. Für n=5 und konkrete Beobachtungen x1 3, x2 5, x3 1, x4 3, x5 2 von X 1 ,..., X 5 erhalten wir den konkreten 1 5 14 xi =2,8 für EX. 5 i 1 5 Für neue 5 konkrete Beobachtungen x1 1, x2 4, x3 1, x4 2, x5 2 von Schätzwert S ( x1 ,..., x5 ) x X 1 ,..., X 5 erhalten S ( x1 ,..., x5 ) x wir den konkreten Schätzwert 1 5 10 xi 2 . 5 i 1 5 Für jedes 5-Tupel von konkreten Beobachtungen x1 , x2 , x3 , x4 , x5 erhalten wir einen anderen Schätzwert x für EX gemäß unserer Schätzfunktion. Verteilung von Funktionen von Zufallsgrößen - 19 - 2.2.2 Konsistenz und Erwartungstreue von Punktschätzfunktionen Die Güte einer Schätzfunktion zur Schätzung von wird in der mathematischen Statistik durch verschiedene Kriterien definiert, die diese Zufälligkeit berücksichtigen. Im allgemeinen werden zwei Eigenschaften gefordert : a) die Schätzfunktion soll im Mittel „treffen“, d.h. es soll gelten: E( ) . Diese Eigenschaft wird als Erwartungstreue von bezeichnet. Erwartungstreue und Konsistenz b) Die mittlere quadratische Abweichung der Schätzfunktion von , d.h. die Varianz Var( ) , soll möglichst klein sein und mit wachsendem Beobachtungsumfang n gegen 0 konvergieren, d.h. es soll gelten: Var ( ) E( ) 2 0 . n Diese Eigenschaft bedeutet, dass die Schätzung mit wachsendem Beobachtungsumfang immer genauer wird. Diese Eigenschaft wird als Konsistenz bezeichnet. Beispiel: Seien X 1 ,, X n n zufällige Beobachtungen von X, die unabhängig voneinander erhoben wurden; d.h. sei X 1 ,, X n eine mathematische Stichprobe von X. Als Schätzfunktion für den unbekannten Erwartungswert =EX (d.h., =) verwendet man in der mathematischen Statistik das arithmetisches Mittel X der Beobachtungen: n X X i 1 i n (2.1) Da alle Xi i=1,…,n unabhängig voneinander sind, folgt aus den Eigenschaften für den Erwartungswert und die Varianz von Summen unabhängiger Zufallsgrößen (siehe Abschnitt 1.1): EX E ( 1 n 1 n 1 n ) = X ) = X E ( i n E ( X) = i n i 1 n i 1 i 1 arithmetisches Mittel - 20 – III. Schließende Statistik Var ( X ) Var ( 1 n 1 Xi) 2 n i 1 n n Var ( X i ) i 1 1 n2 n Var ( X ) i 1 2 n 0 n Damit ist X eine konsistente Schätzfunktion für = EX. 2.3 Bereichsschätzungen und Prüfintervalle Offensichtlich sind Punktschätzungen, die entweder nicht erwartungstreu oder nicht konsistent sind, sinnlos. Aber auch eine Punktschätzung, die die beiden Güteeigenschaften erfüllt, ist erst für n genau. Wie genau ist sie für endliches, festes n ? ˆ ˆn ist für jedes feste n eine Zufallsgröße; ihre Verteilung wird durch eine Dichtefunktion beschrieben: Abbildung 2.1 Wir sehen, dass für die Punktschätzung bei einem festgelegten Stichprobenumfang n gilt: P(ˆn ) 0 (Fläche unter der Dichte an dieser Stelle ist = 0). D.h. den unbekannten zu schätzenden Parameter genau zu treffen ist unwahrscheinlich, wir treffen ihn mit einer Stichprobe nie genau, wir schätzen daneben. Aber die Wahrscheinlichkeit dafür, dass wir mit ˆn in der Nähe von liegen, ist nicht gleich 0, es ist: P(| ˆn | ) 0 Verteilung von Funktionen von Zufallsgrößen - 21 - In diesem Zusammenhang gibt es den Begriff der sogenannten Bereichsschätzfunktion - auch als Toleranzbereiches oder Toleranzschätzung bezeichnet - für einen unbekannten Parameter . Definition: Ein Intervall I [ˆn , ˆn ] mit der Eigenschaft P( [ˆn , ˆn ]) 1 heißt Toleranzschätzung bzw. Toleranzintervall (oder Bereichsschätzung oder Konfidenzintervall) für zur Überdeckungs- bzw. Sicherheitswahrscheinlichkeit 1 . heißt Irrtumswahrscheinlichkeit. heißt Genauigkeit der Schätzung . Offenbar ist P ( ˆn , ˆn ) P ( ˆn ) , d.h. wenn wir ein solches Toleranzintervall konstruieren, wissen wir, dass ˆn von mit der Wahrscheinlichkeit 1 um höchsten abweicht. Die Güte eines Toleranzintervalls wird durch seine Breite (Genauigkeit ) und seine Überdeckungswahrscheinlichkeit (1-) charakterisiert. Das Ziel statistischer Untersuchungen ist es, bei festem Stichprobenumfang n möglichst kleine Intervalle (hohe Genauigkeit) mit einer großen Überdeckungswahrscheinlichkeit zu konstruieren. Dabei geht man in der Regel wie folgt vor: man gibt sich einen möglichst kleinen Wert vor, z. B. 0,01 oder 0,05 . Anschließend wird das kleinste berechnet, für welches die Überdeckungswahrscheinlichkeit 1 erreicht wird. Wählen wir 0,05 und berechnen das zugehörige , so ist die Wahrscheinlichkeit dafür, dass der wahre Parameter im Intervall [ˆn , ˆn ] liegt, gleich 1 0,05 0,95 . Diese Aussage bedeutet folgendes: wenn wir dieses Intervall 100 mal auf der Basis von 100 Stichproben vom Umfang n berechnen , enthalten 95 dieser Intervalle den wahren Parameter - nur fünf enthalten ihn nicht. Bemerkungen : Mit der Frage der Konstruktion einer guten Bereichsschätzung für sind 2 weitere Fragen eng verknüpft. Toleranzintervall (Toleranzschätzung, Bereichsschätzung) - 22 – III. Schließende Statistik 1. Wahl eines geeigneten Stichprobenumfanges n Die Güte eines Toleranzintervalls wird durch seine Breite und die Sicherheit 1- bestimmt. Diese hängt aber auch vom Stichprobenumfang n ab. Eine Verbesserung der Güte der Toleranzschätzung, d.h. eine Verkleinerung von oder eine Erhöhung der Sicherheit 1- kann man erreichen, indem man n erhöht . Diesen Zusammenhang zwischen n , und 1- werden wir in den folgenden Kapiteln verdeutlichen und untersuchen, wie groß der Stichprobenumfang mindestens sein muss, um ein Toleranzbereich für mit vorgegebener Genauigkeit und vorgegebener Sicherheit 1- zu erhalten. 2. Prüfen, ob für den unbekannten Parameter gilt: = o, wobei o eine vorgegebener Wert ist Ist die Aussage = o wahr, so müsste die Schätzung ˆn für mit großer Wahrscheinlichkeit in der Nähe, d.h.in einer kleinen Umgebung, von o liegen. Das können wir mit den sogenannten Prüfintervallen untersuchen. Prüfintervall Definition: Ein Intervall I [ 0 , 0 ] mit der Eigenschaft P(ˆn [ 0 , 0 ]) 1 heißt Prüfintervall für zum Prüfen der Hypothese H: = o mit der Überdeckungswahrscheinlichkeit 1 (bzw. Irrtumswahrscheinlichkeit ) und der Genauigkeit . Falls der berechnete Schätzwert ˆn im Intervall I [ 0 , 0 ] liegt, so entscheiden wir uns dafür, dass die Aussage = o wahr ist, andernfalls entscheiden wir uns dagegen. Bei dieser Entscheidungsregel irren wir uns mit der Wahrscheinlichkeit , dh. wir entscheiden uns mit der Wahrscheinlichkeit fälschlicherweise gegen die Aussage = o, obwohl sie stimmt. Verteilung von Funktionen von Zufallsgrößen 3 - 23 - Toleranz- und Prüfintervalle für den unbekannten Erwartungswert =EX einer Zufallsgröße X bei bekannter Varianz Var(X)=2 3.1 Fall: X ist normalverteilt, X~N(, 2), 2 bekannt 3.1.1 Bereichsschätzung für EX bei bekannter Varianz 2 Sei eine X ~ N(, 2) verteilte Zufallsgröße mit EX= und Var(X)=2 . Sei 2 bekannt. sei unbekannt und zu schätzen. Dazu machen wir eine Stichprobe X1,…,Xn von n unabhängige zufälligen Beobachtungen von X. Wir schätzen durch die erwartungstreue Schätzfunktion X 1 n Xi . n i 1 Sind die Beobachtungen unabhängig voneinander, so wissen wir aus Kapitel 1.1: EX und Var ( X ) 2 . n D.h., wir treffen im Mittel den gesuchten Wert (die Schätzfunktion ̂ X ist erwartungstreu) und die Schätzung wird mit wachsendem n immer genauer (die mittlere quadratische Abweichung E ( X ) 2 Var ( X ) konvergiert mit n monoton fallend gegen 0). Unter Verwendung des Reproduktionssatzes erhalten wir die Verteilung der Schätzfunktion X : X 1 n 2 X ~ N ( , ) i n i 1 n (3.1) - 24 – III. Schließende Statistik D.h., das arithmetische Mittel einer Stichprobe von n stochastisch unabhängigen identisch N ( , 2 ) verteilten Zufallsgrößen ist wieder normalverteilt (siehe auch Abschnitt 1.2) Abbildung 3.1. Dichtefunktionen der Normalverteilung von X ~ N ( , 2 ) n Offensichtlich gilt für die normalverteilte Zufallsgröße X P( X ) 0 D.h. die Chance mit der Schätzung X genau zu treffen ist gleich Null. Aber die Wahrscheinlichkeit dafür, dass wir mit X in einem „kleinen“ Bereich um , d.h. in der Nähe von liegen, ist nicht gleich 0, es ist: P( X ) 0 für jedes >0 Wir können jetzt für ein vorgegebenes = () so bestimmen, dass gilt: P( X ) 1 Wegen der Äquivalenz: X X X erhalten wir für dieses ( ) einen Toleranzbereich X ( ) für zur Irrtumswahrscheinlichkeit , es gilt: Verteilung von Funktionen von Zufallsgrößen - 25 - P( X ( ) X ( )) P( ( ) X ( )) 1 . Im folgenden Satz wird bewiesen, dass gerade gilt: ( ) u 1 2 n (3.2) wobei u p das p-Quantil der Standardnormalverteilung ist. Satz 3.1: Sei X~N(,2) und X1,…,Xn eine mathematische Stichprobe von X. Dann ist das Intervall I X u 1 , X u 1 n 2 n 2 (3.3) eine Bereichsschätzung für =EX mit der Irrtumswahrscheinlichkeit . Hierbei ist das p-Quantil der Standardnormalverteilung. u p Beweis: Aus der Normalverteilung X ~ N ( , P( I ) P( 2 ) des arithmetischen Mittels folgt: n u (1 ) X u (1 )) 2 2 n n n( X ) P u (1 ) u (1 ) 2 2 u (1 ) (u (1 )) 2 2 2 u (1 ) 1 2 2(1 ) 1 2 q.e.d Beispiel: In einer Autowaschanlage soll untersucht werden, wie groß die Bearbeitungszeit beim Waschen eines Autos im Durchschnitt durch den - 26 – III. Schließende Statistik Beschäftigten ANTON ist. Sei X die zufällige Bearbeitungszeit von ANTON bei einem Auto. Gesucht ist dann EX = . Es sei angenommen, dass die Bearbeitungszeit X normalverteilt um mit der Varianz Var(X)=2 = 1 (Min2) ist. a) Geben Sie einen Schätzwert und ein Toleranzbereich für die erwartete Bearbeitungszeit zur Sicherheit 1- = 0,95 an! b) Wie ändern sich die Intervallgrenzen des Toleranzbereiches, wenn man die Sicherheit auf 0,99 erhöht? Lösung: Zu a) 4 Beobachtungen der Autowaschanlage ergaben für die Bearbeitungszeit durch den Beschäftigten ANTON folgende Werte: Lauf i ANTONs Zeit xi (Min.) 1 2 3 4 8,08 8,75 7,08 8,42 Tabelle 3.1 Beobachtungen von Bedienzeiten und Systemverweilzeiten Aus den in der Tabelle gegebenen Beobachtungen erhalten wir als Schätzwert für die mittlere Bearbeitungszeit durch ANTON und die erwartete mittlere Kundenverweilzeit im System: x =8,08. Wir wollen ein Intervall für die erwartete Bearbeitungszeit EX konstruieren, in welchem sie mit 95% Sicherheit liegt. Es ist also =0,05 vorgegeben. Gemäß (3.2) ist dieses Intervall gegeben durch I x 1 u 1 = 8,08 u 0,975 2 2 n Für u(0,975) lesen wir aus der Tabelle der Standardnormalverteilung ab: u(0,975)=1,96 Daraus ergibt sich das gesuchte Toleranzintervall zur Irrtumswahrscheinlichkeit 0,05. Die erwartete Bearbeitungszeit von ANTON für das Waschen eines Autios liegt mit 95%iger Sicherheit im Intervall : Verteilung von Funktionen von Zufallsgrößen - 27 - I 8,08 0,98 [7,1 ; 9,06] Zu b) Für =0,01 (99% ige Sicherheit) erhalten wir mit u n 1 (1 ) =u(0,995)=2,576 2 das Toleranzintervall : I 8,08 1,288 [6,792 ; 9,368] in welchem jetzt mit 99 %iger Sicherheit liegt. Für festes n gilt: Je größer man die Sicherheitswahrscheinlichkeit 1 wählt, desto größer wird das Quantil u (1 ) und desto breiter wird folglich das 2 Intervall. Das Ziel besteht darin, möglichst kleine Intervalle mit möglichst hoher Überdeckungswahrscheinlichkeit zu konstruieren. Bei festem n kann man schmalere Intervalle nur auf Kosten der Sicherheit erhalten. Bei vorgegebener Sicherheit kann die Intervallbreite nur durch eine Erhöhung des Stichprobenumfangs n verringert werden. 3.1.2 Bereichsschätzungen für EX mit vorgegebener GenauigkeitStichprobenumfangsbestimmung Wir wissen, dass gilt: P( [ X , X ]) 1 mit u 1 2 n (3.4) Angenommen, wir geben uns eine Genauigkeit o vor, die mit dieser Sicherheitswahrscheinlichkeit 1- mindestens eingehalten werden soll. Um zu erreichen, dass (3.4) für =0 gilt, müssen wir den Stichprobenumfang n so wählen, dass dieser die Bedingung n u (1 ) 0 2 erfüllt. Aus (3.5) folgt damit für die Stichprobenumfangsformel: (3.5) - 28 – III. Schließende Statistik n u (1 ) 2 0 Bestimmung des notwendigen Stichprobenumfanges 2 (3.6) Wählen wir n gemäß (3.6), so erhalten wir P ( [ X 0 , X 0 ]) 1 Beispiel. Angenommen, wir wollen die Bedienzeit von ANTON in der Autowaschanlage mit einer Genauigkeit von = 0,5 (= 0) und mit einer Sicherheit 1 =0,95 schätzen. Die vier Beobachtungen der Tabelle 3.1 reichen dazu nicht aus; hier haben wir nur eine Genauigkeit von = 1 u 1 1,96 0,98 2 2 n erhalten. Wie viele zusätzliche Beobachtungen muss man machen, um die geforderte Genauigkeit 0,5 zu erreichen? Lösung: Gemäß (3.6) ergibt u (1 ) 2 n 0 sich für den notwendigen Stichprobenumfang: 2 2 = (1,96 1) = 15,37 0,5 2 Wir müssen insgesamt n = 16 Beobachtungen machen, um die geforderten Bedingungen an Genauigkeit und Sicherheit zu erreichen. D.h., es sind n-n0= 12 zusätzliche Beobachtungen der Bedienzeit durchzuführen. 3.1 Berechnen Sie die notwendige Anzahl zusätzlicher Beobachtungen, um mit 95%iger Sicherheit eine Bereichsschätzung für die erwartete Bedienzeit EX mit der Genauigkeit von =0,1 Minuten zu erhalten! Verteilung von Funktionen von Zufallsgrößen - 29 - 3.1.3 Prüfintervalle für EX= Wir wollen prüfen, ob gilt = EX = o für ein vorgegebenes o . Wenn =o wäre, würde nach (3.4) gelten: u 1 2 n P ( o [ X , X ]) 1 mit Wegen P ( o [ X , X ]) P ( X 0 , 0 müsste also im Falle, dass =o ist, die Schätzfunktion X mit hoher Wahrscheinlichkeit ((1-)) im Prüfintervall 0 , 0 liegen. Unser Prüfintervall ist also: Prüfkriterium für =0 0 , 0 mit u 1 2 n (3.7) Und unser Entscheidungskriterium lautet: X 0 , 0 Der Aussage o kann nicht widersprochen werden. (3.8) X 0 , 0 Die Aussage o ist falsch! Die Wahrscheinlichkeit, die Aussage für falsch zu erklären, obwohl sie korrekt ist, beträgt dann . Beispiel. ANTON behauptet, dass er im Schnitt nur 7 Minuten für das Waschen eines Autos benötigt. Wir prüfen das auf der Basis der 4 in Tabelle 3.1 gegebenen n=4 Beobachtungen von ANTONs Bedienzeit mit einer Irrtumswahrscheinlichkeit von =0,05. Wenn die Aussage von ANTON stimmt, müsste X im Prüfintervall: X 0 , 0 für 0 = 7 und mit 95%iger Sicherheit u 1 = 0,98 liegen. 2 n Also ist zu prüfen, ob für unseren Schätzwert x gilt: x 6,02 ; 7,98 . - 30 – III. Schließende Statistik Wir erhalten für unsere 4 Beobachtungen den Wert x 8,08 6,02 ; 7,98 und lehnen damit die Aussage von ANTON als falsch ab! (Allerdings mit der Irrtumswahrscheinlichkeit von 0,05. D.h., dass dieses Verfahren sich bei 100 Anwendungen 5 im Schnitt mal irrt). 3.2 Fall: X ist nicht normalverteilt, EX = , Var(X)=2, 2 bekannt Der Toleranzbereich für wird auf der Basis der Kenntnis der Wahrscheinlichkeitsverteilung von X berechnet. Ist X normalverteilt, so galt die Beziehung X ~ N ( , 2 ). n Sind X und damit die X 1 ,, X n von X nicht normalverteilt, so gilt folgt aus dem Zentralen Grenzwertsatz (siehe Kapitel 1), dass X für n-> gegen eine Normalverteilung konvergiert, d.h. dass näherungsweise für große n gilt: (3.9) X N ( , 2 ) für n ≥120 n Damit erhalten wir mit (3.3) ebenfalls ein Toleranzintervall für , welches näherungsweise für n ≥120 die Überdeckungswahrscheinlichkeit 1- besitzt. (3.7) und (3.8) sind als Prüfintervall bzw. Prüfkriterium verwendbar, die für n ≥ 120 die Irrtumswahrscheinlichkeit näherungsweise einhalten. Die Formel (3.6) für den notwendigen Stichprobenumfang zum Einhalten einer vorgegeben Genauigkeit und Sicherheit bleibt ebenfalls erhalten, wobei zu beachten ist, dass unabhängig davon, welches n berechnet wurde, falls die Normalverteilung nicht vorliegt, der Stichprobenumfang n ≥ 120 sein muss!!! Übungsaufgaben Fallstudie 1 Verteilung von Funktionen von Zufallsgrößen 4 - 31 - Die Verteilung von Stichprobenfunktionen 4.1 Die 2- Verteilung Satz4.1: Seien X 1 ,, X n n stochastisch unabhängige standardnormalverteilte Zufallsgrößen. Dann besitzt die Quadratsumme n (X i 1 i )2 eine 2-Verteilung mit n Freiheitsgraden. Wir schreiben: n (X i 1 i ) 2 ~ n2 Abbildung 4.1 gibt eine Vorstellung über die Gestalt der Dichtefunktion der 2-Verteilung in Abhängigkeit der Freiheitsgrade. Die 2-Verteilung hängt von einem Parameter, dem sogenannten Freiheitsgrad (FG), ab und wird mit 2 abgekürzt bezeichnet. Der FG ist eine natürliche Zahl und bestimmt die FG Form der Dichtefunktion. Die Dichtefunktion ist nicht symmetrisch. 2 Ist X FG , so gilt EX = FG und Var (X) = 2 FG. Abbildung 4.1 Dichtefunktion der 2 - Verteilung mit 2,4 und 8 FG Wir benötigen im Weiteren lediglich die Quantile x der 2-Verteilung. 2-Verteilung - 32 – Quantile III. Schließende Statistik Definition: Sei X eine stetige Zufallsgröße mit der Dichte f(x) und der Verteilungsfunktion F . Die Zahl x heißt (unteres) -Quantil der Verteilung F , falls gilt: x P( X x ) F( x ) f ( x )dx . Ist die Verteilung von X symmetrisch (wie bei Normalverteilung), so gilt offensichtlich - x = x1 . f(x) f(x) x x x 0 x 1 x x F( x ) 1 x x Abbildung 4.2: Quantile Die Quantile der 2-Verteilung sind in der Tabelle A3 im Anhang A zusammengestellt. Die Einträge in dieser Tabelle sind die Werte x und , so dass gilt: P( X x ) bzw. P( X x ) 1 . Beispiel: Ist X 2-verteilt mit 3 Freiheitsgraden, so können wir aus der Tabelle A3 ablesen: Der Wert x, für den gilt : P(X x ) = 0,9, ist x = 6,25. Für x = 7,81 erhalten wir P( X > x) = 0,05 . Verteilung von Funktionen von Zufallsgrößen 4.1 - 33 - Sei X FG . Vervollständigen Sie folgende Tabelle an den durch – gekennzeichneten Stellen! FG x 3 0,025 7 14,07 35 0,9 - Für die Streuung einer Stichprobe gilt folgender wichtiger Satz: Satz 4.2: Seien X 1 ,, X n eine Stichprobe einer N(,2)-verteilten Zufallsgröße X, d.h. X i ~ N ( , 2 ) , i=1,...,n seinen stochastisch unabhängig und wie X normalverteilt. Sei X S2 = 1 n X i das arithmetische Mittel und n i 1 1 n ( X i X ) 2 die Streuung der Stichprobe X 1 ,, X n . n 1 i 1 Dann gilt (n 1) (4.1) S2 ~ n21 2 Daraus kann man Toleranzbereiche für 2 zur Sicherheitswahrscheinlichkeit 1- berechnen. 4.2 4.2 a) Wie groß sind ES2 und Var(S2)? b) Warum ist S2 eine konsistente Schätzfunktion für 2? c) Wie groß ist P(S2=2) ? Die t-Verteilung Die t-Verteilung ist eine Verteilung, die von einem Parameter, dem Freiheitsgrad (FG) abhängt; wir schreiben t FG. Die Dichte der t-Verteilung ist symmetrisch um x = 0 . Es gilt für X t FG : EX = 0 und Var(X) =FG / (FG-2). t-Verteilung - 34 – III. Schließende Statistik Für konvergiert die t-Verteilung gegen eine FG Standardnormalverteilung; die Approximation X N(0,1) wird üblicherweise bereits ab FG 30 verwendet. Abbildung 4.3: Dichtefunktion der t-Verteilung für 1,5 und 100 FG Die t-Verteilung entsteht als Verteilung des Quotienten einer Standardnormalverteilten und der Wurzel aus einer 2 -verteilten Zufallsgröße. Satz 4.3: Sei Z~N(0,1) Z Y n verteilt Y~ n2 und verteilt. Dann gilt ~ tn Eine Anwendung der t-Verteilung ist die folgende: Aus Abschnitt 1 wissen wir, dass das arithmetische Mittel 1 n X X i einer Stichprobe von X~ N(,) als Schätzfunktion für den n i 1 unbekannten Erwartungswert Normalverteilung X ~ N ( , EX= ) n 2 der besitzt, Zufallsgröße woraus folgt, X eine dass die standardisierte Größe Z= verteilt ist. n( X ) ~ N (0,1) (4.2) Verteilung von Funktionen von Zufallsgrößen Aus (4.1) wissen wir, dass Y= (n 1) - 35 - S2 ~ n21 verteilt ist. 2 Ersetzen wir in (4.2) 2 durch S2 so ergibt sich die Größe n( X ) Z ~ t n 1 S Y /(n 1) (4.3) die gemäß Satz 4.3 t-verteilt mit n-1 Freiheitsgraden ist. Daraus erhalten wir einen Toleranzbereich für den Erwartungswert EX= bei unbekannter Varianz Var(X)=2 von X. 4.3 Sei X t FG . Vervollständigen Sie folgende Tabelle : FG 3 7 32 0,025 0,9 x 1,895 4.4 Seien X1,...,Xn eine Stichprobe einer normalverteilten Zufallsgröße X ~ N( , 2 ) und X 1 n X i die Schätzfunktion für n i 1 den unbekannten Erwartungswert EX= der Zufallsgröße X. Zeigen Sie, dass dann I = X S t n 1 1 , X t n 1 1 2 2 n n S (4.4) eine Bereichsschätzung für zur Irrtumswahrscheinlichkeit ist, d.h. zeigen Sie, dass gilt: P(I) = 1- Hierbei ist tn-1(p) das p-Quantil der t-Verteilung mit n-1 Freiheitsgraden. - 36 – III. Schließende Statistik 4.3 Die F-Verteilung Die F-Verteilung ist definiert als Quotient zweier 2-verteilter Zufallsgrößen. Definition: Seien X~n1 und Y~n2 zwei -verteilte Zufallsgrößen. Dann ist der Bruch Z=X/Y F-verteilt mit den beiden Freiheitsgraden n1 und n2: Z= X / n1 ~ Fn1,n 2 Y / n2 (4.5) Die F-Verteilung hängt von zwei Parametern FG1, FG2 ab, die ebenfalls als Freiheitsgrade der Verteilung bezeichnet werden. Die F-Verteilung wird mit FFG1,FG2 bezeichnet. FGi sind natürliche Zahlen und bestimmen die Form der Dichtefunktion. Die Reihenfolge der FG-Parameter ist für die Gestalt der Dichtefunktion signifikant, d.h., es ist: FFG1,FG2FFG2,FG1 für FG1FG2. Abbildung 4.4: Dichtefunktion der F 10,12 - Verteilung Eine Anwendung der F-Verteilung ist die folgende: Aus (4.1) wissen wir, dass für die Stichprobenstreuung S2 = 1 n (X i X )2 n 1 i 1 einer N(,2) verteilten Stichprobe X 1 ,, X n gilt (n 1) S2 ~ n21 2 Seien nun S12 die Stichprobenstreuung einer N(1, 12 )-verteilten Stichprobe und S 22 die Stichprobenstreuung einer N(2, 22 )-verteilten Stichprobe. Verteilung von Funktionen von Zufallsgrößen - 37 - Dann ist der Bruch: S12 / 12 ~ Fn1 1;n2 1 S 22 / 22 (4.6) offensichtlich F-verteilt mit n1-1 und n2-1 Freiheitsgraden. Daraus kann man z.B. einen Hypothesentest zum Prüfen der Gleichheit der Varianzen 12 und 22 herleiten. 4.5 Weisen Sie die Formel (4.6) nach! Wir benötigen im Weiteren wieder lediglich nur die Quantile der FVerteilung. Diese sind tabelliert. Die Einträge in diesen Tabellen sind die Werte x und , so dass gilt: P( X x ) bzw . P( X x ) 1 . In den Tabellen A5 des Anhangs sind die -Quantile F - Verteilung zusammengestellt, die wir im Weiteren benötigen werden. Für die Quantile x = Fm1,m2() der F-Verteilung kann man zeigen, dass gilt: Fm1,m2() = 1/ Fm2,m1 (1-) (4.7) Aus Tabelle A5 erhalten wir beispielsweise so für das untere 2,5%-Quantil der F-Verteilung mit 3 und 7 Freiheitsgraden den Wert F3, 7(0,025) = 1/ F7, 3(0,975) = 1/ 14,62. 4.6 Sei X die zufällige Bedienzeit in unserer Auto-Waschanlage. Berechnen Sie die Bedienzeit x, die nur in 2,5 % aller Fälle unterschritten wird, falls gilt a) X ~ F7,3 b) X ~F 3,7 c) X~F5,12 - 38 – III. Schließende Statistik 5 Toleranz- und Prüfintervalle für Erwartungswerte und Varianzen 5.1 Toleranz- und Prüfintervalle für die Varianz Var(X)=2 einer N(, 2) – verteilten Zufallsgröße X Sei eine X ~ N(, 2) verteilte Zufallsgröße mit EX= und Var(X)=2 . 2 sei unbekannt und zu schätzen. Dazu machen wir eine Stichprobe X1,…,Xn von n unabhängigen zufälligen Beobachtungen von X. Wir schätzen 2 durch die erwartungstreue Schätzfunktion S2 1 n 1 n 2 mit ( X X ) X i Xi n 1 i 1 n i 1 Aus Kapitel 4.1 Formel (4.1) wissen wir, dass die mit dem Faktor n 1 2 multiplizierte Zufallsgröße S2 eine 2- Verteilung mit n-1 Freiheitsgraden besitzt: (5.1) (n 1) 2 S ~ n21 2 Daraus ergibt sich folgender Zusammenhang zwischen der 2 Verteilungsfunktion FS 2 ( x) von S und der Verteilungsfunktion F 2 ( x) einer 2- Verteilung mit n-1 Freiheitsgraden: n 1 (5.2) (n 1) 2 (n 1) (n 1) FS 2 ( x) P ( S 2 x) P S x F 2 x 2 2 2 n 1 Verteilung von Funktionen von Zufallsgrößen - 39 - Satz 5.1 Sei eine X ~ N(, 2) und X1,…,Xn eine Stichprobe von n unabhängigen zufälligen Beobachtungen von X. Sei S2 1 n 1 n ( X i X ) 2 mit X X i n 1 i 1 n i 1 Dann gilt: 1) Das Intervall: n21 ( / 2) 2 n21 (1 / 2) 2 IP ; n 1 n 1 (5.3) ist ein Prüfintervall für 2 zur Sicherheit 1-; d.h. es gilt mit Wahrscheinlichkeit 1-: n21 ( / 2) 2 2 (1 / 2) 2 S 2 n 1 n 1 n 1 (5.4) 2) Das Intervall (n 1) S 2 (n 1) S 2 IT 2 ; 2 n 1 (1 / 2) n 1 ( / 2) (5.5) ist ein Toleranzintervall für 2 zur Sicherheit 1-; d.h. es gilt mit Wahrscheinlichkeit 1-: (n 1) S 2 (n 1) S 2 2 2 n21 (1 / 2) n 1 ( / 2) (5.6) Bemerkung: 1) (5.5) bedeutet: Ist die Hypothese H: Var(X)=0 wahr, so muss die Schätzung S2 mit der Wahrscheinlichkeit 1- im Prüfintervall n21 ( / 2) 0 2 n21 (1 / 2) 0 2 IP ; liegen. n 1 n 1 - 40 – III. Schließende Statistik Wir wählen in der Regel 1- sehr hoch (z.B.= 0,95 oder 0,99). Ist die Hypothese wahr, so würden nur in 100% ( 5% oder 1%) aller Fälle S2 außerhalb des Prüfintervalls liegen. Liegt jetzt eine konkret ermittelte Schätzung s2 im Prüfintervall, so entscheiden wir uns für die Gültigkeit der Hypothese, liegt s2 außerhalb, so entscheiden wir uns gegen die Hypothese. Der Fehler sich gegen die Hypothese zu entscheiden, obwohl sie wahr ist gerade nur (5 oder 1 von 100 Fällen irren wir uns). 2) (5.6) bedeutet: Ein unbekanntes liegt mit der Wahrscheinlichkeit 1- Im Toleranzbereich IT. Wir versuchen, den wahren unbekannten Wert für durch einen solchen Bereich zu ermitteln, der möglichst klein ist und eine hohe Sicherheit 1- besitzt. Bemerkung: Wegen (n 1) S 2 2 2 n 1 (1 / 2) 2 S n21 (1 / 2) n 1 2 und 2 (n 1) S 2 n21 ( / 2) 2 n21 ( / 2) S 2 n 1 gilt folgende Äquivalenz zwischen Toleranzintervall (5.6) und Prüfintervall (5.5): (n 1) S 2 (n 1) S 2 2 n21 (1 / 2) n21 ( / 2) (5.7) bzw. (5.8) 2 2 n21 ( / 2) S 2 n21 (1 / 2) n 1 n 1 2 IT S 2 IP Verteilung von Funktionen von Zufallsgrößen - 41 - Beweis zum Satz 5.1: Zu 1) Unter Verwendung der Transformationsformel (5.2) erhalten wir: 2 ( / 2) 2 2 (1 / 2) 2 P n 1 S 2 n 1 n 1 n 1 2 2 n 1 (1 / 2) n 1 n21 ( / 2) 2 n 1 F 2 2 F 2 2 n 1 n 1 n 1 n 1 F n21 (1 / 2) F n21 ( / 2) 1 / 2 / 2 1 Zu 2) Aus der Äquivalenz (5.7) zwischen Toleranz – und Prüfintervall folgt dann sofort (n 1) S 2 (n 1) S 2 P 2 2 2 n 1 ( / 2) n 1 (1 / 2) 2 2 2 2 n 1 ( / 2) S n21 (1 / 2) =1-. = P n 1 n 1 q.e.d 5.1 Leiten Sie aus dem Prüfintervall (5.3) bzw. (5.4) für die Varianz Var(X)=2 ein Prüfintervall für die Standardabweichung DX(X)= her! Übungsaufgaben Fallstudie 2 - 42 – III. Schließende Statistik 5.2 Toleranz- und Prüfintervall für EX= bei unbekannter Varianz Var(X)= 5.2.1 Toleranz- und Prüfintervall für EX= bei unbekannter Varianz, X~N(, 2) Ist X~N(, 2) so gilt für das arithmetische Mittel einer Stichprobe von X: X ~ N ( , 2 ) . Daraus folgt nach Reproduktionssatz für die standardisierte n Zufallsgröße: n ( X ) ~ N (0,1) (5.9) Ist 2 unbekannt, so ersetzen wir in der Formel (5.9) 2 durch die erwartungstreue Schätzung S2 1 n ( X i X ) 2 bzw. durch S. n 1 i 1 und betrachten anstelle von (5.9) die Größe (5.10) T= n (X ) S Diese ist zwar nicht mehr Standardnormalverteilt, aber wie folgender Satz besagt, t-verteilt: Satz 5.2: Seien X 1 ,, X n stochastisch unabhängige normalverteilte Zufallsgrößen mit EX i= und Var(Xi)= 2 , i 1,, n . Seien X und S2 das arithmetische Mittel und die Stichprobenvarianz der Beobachtungen. Dann gilt: Verteilung von Funktionen von Zufallsgrößen - 43 - Die Größe T= n ( X ) ~ t n 1 S (5.11) besitzt eine t - Verteilung mit n-1 Freiheitsgraden: T ~ tn-1 Als Folgerung aus diesem Satz erhält man sofort : Satz 5.3: Unter den Voraussetzungen des Satzes 5.2 gilt: Bereichsschätzung für einen unbekannten Systemparameter 1) Das Intervall S S IT X t n 1 1 , X t n 1 1 2 2 n n ist ein Toleranzintervall Irrtumswahrscheinlichkeit . (=Bereichsschätzung) für =EX (5.12) mit der 2) Das Intervall S S I P t n 1 1 , t n 1 1 2 2 n n (5.13) ist ein Prüfintervall zum Prüfen, ob EX= ist mit der Irrtumswahrscheinlichkeit Hierbei ist t k p das p-Quantil der t-Verteilung mit k Freiheitsgraden. Bemerkung: Es gilt wieder die Äquivalenz zwischen Prüf-und Toleranzintervall: (5.14) IT X IP - 44 – III. Schließende Statistik Beweis: Es ist P( X I P ) P( I T ) P( S n t n 1 (1 S ) X t n 1 (1 )) 2 2 n n( X ) P t n 1 (1 ) t n 1 (1 ) 2 S 2 F t n 1 (1 ) F (t n 1 (1 )) 2 2 2 F t n 1 (1 ) 1 2 2(1 ) 1 2 qed. Bemerkung: Wir benötigen zur Berechnung der Prüf- und Toleranzintervalle die Quantile t n1 (1 ) . Diese sind in Tabelle A4 des Anhangs tabelliert. 2 Beispiel: Wir betrachten wieder unser Beispiel der Waschanlage aus Kapitel 3. 4 Beobachtungen der Autowaschanlage ergaben für die Bearbeitungszeit durch den Beschäftigten ANTON folgende Werte: Lauf i ANTONs Zeit xi (Min.) 1 2 3 4 8,08 8,75 7,08 8,42 Tabelle 5.1 Beobachtungen von Bedienzeiten Aus den in der Tabelle gegebenen Beobachtungen erhalten wir als Schätzwert für die mittlere Bearbeitungszeit durch ANTON und die Streuung der Daten x =8,08 und s2= 0.7221438 = (0.5214917)2 Verteilung von Funktionen von Zufallsgrößen - 45 - Wir wollen ein Intervall für die erwartete Bearbeitungszeit EX von ANTON konstruieren, in welchem sie mit 95% Sicherheit liegt. Es ist also =0,05 vorgegeben. Für die n=4 Simulationsläufe lesen wir aus Tabelle A4 das Quantil der t-Verteilung mit 3 FG ab: t n1 (1 ) = t3(0,975) = 3,182 2 Daraus folgt für die Genauigkeit des Toleranzintervalls für EX: = t n1 (1 ) 2 s = 3,182(0.5214917) / 2 = 1.148931 1.15 n Die erwartete Bearbeitungszeit Sicherheit im Intervall : EX von ANTON liegt also mit 95%iger 8.08 1.15 = [6.93 ; 9. 23 ] Minuten Für =0,01 (99% ige Sicherheit) erhalten wir mit t n1 (1 ) =t3(0,995)=5,841 2 die Toleranzschätzung : 8,08 2.11 = [ 5.97 ; 10.99 ] Die Sicherheit mit der EX in diesem Intervall liegt ist zwar höher, aber dafür ist das Intervall breiter, d.h. die Angabe über EX ungenauer. Um die Intervallbreite zu verringern, müssen wir wieder den Stichprobenumfang erhöhen. Zusammenfassung: Berechnung des Toleranzintervalls IT zur Sicherheit 1 für =EX: 1. Sei x1 ,, xn eine Stichprobe vom Umfang n. Berechnung der Schätzungen x= 1 n 1 n 2 und x s i ( xi x ) 2 n i 1 n 1 i 1 im Falle IT und nur von s2 im Falle IP. 2. Ablesen des Quantils t n1 (1 ) aus Tabelle A4 2 3. Berechnung des Intervalls s s I T x t n 1 (1 ) , x t n 1 (1 ) oder 2 n 2 n - 46 – III. Schließende Statistik S S I P t n 1 1 , t n 1 1 2 2 n n 5.1 Sei X die zufällige Bedienzeit in unserer Auto-Waschanlage. 4 Beobachtungen der Autowaschanlage ergaben für die Systemverweilzeit Y eines Autos in der Anlage folgende Werte: Lauf i ANTONs Zeit xi (Min.) 1 2 3 4 8,08 8,75 7,08 8,42 Systemverweilzeit yi in Minuten 13,74 14,53 13,84 13,98 Tabelle 5.2 Beobachtungen von Bedienzeiten und Systemverweilzeiten Berechnen Sie eine Schätzung und einen Toleranzbereich zur Sicherheit 1- = 0,95 für die erwartete Systemverweilzeit EY! 5.2.2 Stichprobenumfangsbestimmung Die halbe Breite (5.15) Und des wird als Prüf-bzw. Toleranzintervalls ist t n 1 1 2 n S Genauigkeit der Intervalle bezeichnet. Für festes n gilt: Je größer man die Sicherheitswahrscheinlichkeit 1 wählt, um so größer wird das Quantil t n1 (1 ) und um so breiter wird das Inter2 vall. Das Ziel besteht darin, möglichst schmale (genaue) Intervalle mit möglichst hoher Überdeckungswahrscheinlichkeit zu konstruieren. Verteilung von Funktionen von Zufallsgrößen - 47 - Bei festem n kann man schmalere Intervalle nur auf Kosten der Sicherheit erhalten. Bei vorgegebener Sicherheit kann die Intervallbreite nur durch eine Erhöhung des Stichprobenumfangs verringert werden. Dazu geben wir uns eine Genauigkeit 0 vor und berechnen n so dass gilt: t n1 (1 ) 2 s 0 n (5.16) Nun hängen sowohl s als auch das Quantil t n1 (1 ) von n ab, so dass sich 2 diese Ungleichung nicht einfach nach n umstellen lässt. In der Praxis ist folgendes 2-stufige Verfahren üblich. 1. Wir berechnen zunächst für eine sogenannte Pilotstichprobe vom Umfang n0 (in der Praxis liegt n0 zwischen 2 und 5) eine „Anfangsschätzung“ s02 für die Varianz 2 . 2. Anschließend wird der Stichprobenumfang n so berechnet, dass (5.16) gilt. Dabei wird in (5.16) s durch s0 und (wegen der näherungsweisen Übereinstimmung der t-Verteilung mit der Standardnormalverteilung) für n ≥ 30 das Quantil t n1 (1 unabhängige Quantil u(1- ) durch das vom Stichprobenumfang n 2 ) der Standardnormalverteilung ersetzt. Der 2 benötigte Stichprobenumfang n ist dann die kleinste natürliche Zahl, die die folgende Bedingung erfüllt: u (1 )s 0 2 n 0 2 (5.17) Da die Näherung der t-Verteilung durch die Normalverteilung nur für n ≥ 30 gut genug ist, müssen wir für den Stichprobenumfang n von vornherein, d.h. unabhängig von der Lösung, die sich aus (5.17) ergibt fordern: Bedingung: n ≥ 30 (5.18) - 48 – III. Schließende Statistik 3. Man schätzt und 2 erneut mit der Gesamtstichprobe von n Beobachtungen und berechnet das Konfidenzintervall für gemäß der Formel (5.6). 4. Die Breite dieses Intervalls sollte ungefähr betragen; ist es noch zu groß, so wiederholt man die Schritte 2 und 3 mit n0:=n und s0:=s. Beispiel: Angenommen, wir wollen die Systemverweildauer in der Autowaschanlage mit einer Genauigkeit von =0,1 und mit einer Sicherheit 1 =0,95 schätzen. Die vier Beobachtungen der Tabelle 14 reichen dazu nicht aus; hier haben wir nur eine Genauigkeit von =0,561 erhalten. Wie viele zusätzliche Beobachtungen muss man machen, um die geforderte Genauigkeit 0,1 zu erreichen? 1. Mit den s0=0,3524 n0=4 Beobachtungen aus der Tabelle 5.1 2. Wir lesen aus der Tabelle A2 das Quantil u(1- erhalten wir ) der Standardnormal2 verteilung für =0,05 ab. Wir erhalten u(1-0,025) = u(0,975) = 1,96. Für den benötigten Stichprobenumfang n ergibt sich damit : u (1 )s 2 2 = (1,96 0,3524) = 47,707 n 0,12 2 3. Wir müssen insgesamt n = 48 Beobachtungen machen, um die geforderten Bedingungen an Genauigkeit und Sicherheit zu erreichen. D.h., es sind n-n0= 45 zusätzliche Beobachtungen der Systemverweilzeit durchzuführen. 5.2 Sei X die zufällige Bearbeitungszeit von ANTON in unserer Auto-Waschanlage in Tabelle 5.1. Berechnen Sie den Stichprobenumfang der nötig ist, um die erwartete Bedienzeit EX von ANTON mit einer Genauigkeit von =0,1 und einer Sicherheit von 1-=0,95 zu schätzen. Wie viele Beobachtungen von ANTON’s Zeiten sind zusätzlich zu den 4 bereits vorhandenen notwendig? Verteilung von Funktionen von Zufallsgrößen 5.3 - 49 - Toleranz- und Prüfintervalle für =EX bei unbekannter Varianz 2 und für 2 = Var(X) für nicht normalverteilte Zufallsgrößen Die Grundlage der Toleranz- und Prüfintervalle für EX und Var(X) bilden die t-Verteilung des arithmetischen Mittels und die 2- Verteilung der Streuung. Diese Verteilungen beruhen wiederum auf der Tatsache, dass die Summen normalverteilter Zufallsgrößen wieder normalverteilt sind. Auch wenn X bzw. die Stichprobe X 1 ,, X n nicht normalverteilt ist, folgt aus dem Zentralen Grenzwertsatz (siehe Kapitel 1), dass für n ≥ 120 die Summen näherungsweise normalverteilt sind. Wir erhalten folgende Aussagen: 1) Die Verteilung von Verteilung an 2) Die Verteilung von (n 1) 2 S nähert sich für n einer n21 2 n ( X ) nähert sich für n einer tn-1S Verteilung an. In der Praxis wir für Bedingung: n ≥ 120 (5.19) die Approximation (n 1) 2 S n21 und 2 verwendet. n ( X ) t n 1 S - 50 – III. Schließende Statistik Damit bleiben unter der Bedingung (5.19) alle in den vorigen Abschnitten berechneten Toleranz- und Prüfintervalle für EX = und Var(X)=2 und die Formel (5.17) für die Stichprobenumfangsbestimmung gültig. Die Irrtumswahrscheinlichkeit unserer Intervalle wird näherungsweise eingehalten. Verteilung von Funktionen von Zufallsgrößen 6 6.1 Kontrollregelkarten Hypthesen und Prüfintervalle zur Überwachung der laufenden Produktion Häufig muss in der laufenden Produktion überwacht bzw. überprüft werden, ob vorgegebene Normwerte und Abweichungen von der Norm, z.B. Erwartungswert und Varianz eines zufälligen Objektmerkmals, bestimmte Vorgaben erfüllen oder davon abweichen und einen Produktionseingriff erforderlich machen. D. h. in der laufenden Produktion wird in regelmäßigen Zeitabständen überprüft, ob die Annahmen (Hypothesen) H: EX = 0 oder 2 H: Var(X) = 0 oder H: EX = 0 und Var(X) = 02 wahr sind. Z.B. wird ist bei der Herstellung von Drehteilen zu prüfen, ob der erwartete Norm-Durchmesser EX = 100 mm =o und die erlaubte Standardabweichung SD(X) = 0 = 0,1 mm eingehalten wird oder ob es eine systematische Abweichung davon in der Produktion gibt, die ein Eingreifen erfordert! Wenn die o.g. Hypothesen stimmen würden, so müssten die Schätzungen X und S2 mit Wahrscheinlichkeit 1- in den zugehörigen Prüfintervallen liegen: u (1 / 2) 2 X 0 0 I P , o n (bei bekanntem (n 1) 02 2 n 1 (1 / 2) und S 2 ; (n 1) 2 I P , 0 0 n21 ( / 2) - 51 - - 52 – III. Schließende Statistik 6.2 SPC-Regelkarten und Prüfentscheidungen 6.2.1 Was sind Kontrollregelkarten Das Ermitteln von Schätzungen x und s2 und das regelmäßige Prüfen über einen längeren Zeitraum, ob diese Schätzungen in den zugehörigen Prüfbereichen liegen, geschieht durch die sogenannten Kontroll-bz. Prozessregelkarten in der sogenannten SPC (Statistische Prozesskontrolle). Kontrollregelkarten enthalten: Kartenkopf: (allgemeinen Daten zum Prozess ,was, wie , womit, wer) - Art der Stichprobenentnahme: (Zeit-Intervall und Umfang der Stichprobenentnahme usw.), - Kontrollverantwortliche usw. - Tabelle der Stichprobenergebnisse: Einzelwerte jeder Stichprobe, Daten zu Lage und Streuung der Stichprobe für jedes Zeitintervall Lagespur: Zeitabhängige Darstellung der berechneten Daten zur Lage der Stichprobe (Mittelwert, Median usw.) Streuungsspur: Zeitabhängige Darstellung der ausgewerteten Daten zur Streuung der Stichprobe (Streuung, Standardabweichung, Spannweite, usw.) Verteilung von Funktionen von Zufallsgrößen Im Laufe der Kontrolle werden dies Karten mit den Messdaten gefüllt. Beispiel: x / s- Kontrollregelkarte: Art: x - Kontrollregelkarte Abschnitt: Wickeln von Federn Ziel: Überwachung der Ausgangsfestigkeit der Drähte, Verantwortung: Heiner Mustermann, Abteilung ERB/3 Messung: xi= Werte für Zereißlasten in daN, pro Tag, n=5 - 53 - - 54 – III. Schließende Statistik 6.1 Tragen Sie die Daten in der in der Vorlesung ausgeteilten Kontrollregelkarte für 0 = 132 und 0 = 2 ab! 6.2.2 Auswertung von Kontrollregelkarten Für das Prüfen mittels Prüfintervallen müssen die Grenzen der Intervalle, die man auch als Eingriffsgrenzen bezeichnet, festgelegt werden. Ein Prozess wird als beherrscht bezeichnet, wenn die Eingriffsgrenzen nicht über- bzw. unterschritten werden und keine auffälligen Muster auftreten. Um Muster besser erkennen zu können, bzw. schon frühzeitiger erkennen zu können, ob der Prozess „aus dem Ruder läuft“, werden innerhalb der Eingriffsgrenzen weitere Grenzen, sogenannte Warngrenzen definiert. Für das Festlegen der Grenzen gibt es zwei grundsätzliche Vorgehensweisen. 1) Wir legen die Irrtumswahrscheinlichkeit (bzw. Sicherheitswahrscheinlichkeit 1- fest. Wir bezeichnen dabei i.A. die Grenzen dieser Intervalle für 1-= 0,9 und 0,95 als Warngrenzen und für 1-=0,99 als Eingriffsgrenzen. Wenn die Schätzung außerhalb der Eingriffsgrenzen liegt (obwohl sie mit 99%iger Wahrscheinlichkeit darin liegen müsste), so heißt das, dass die Produktion aus dem Ruder gelaufen ist, die Hypothese muss abgelehnt werden; die Produktion muss gestoppt und nachjustiert werden. Liegt die Schätzung innerhalb der Warngrenzen, so ist alles OK. Liegt sie zwischen Warn- und Eingriffsgrenze, so beginnt die Produktion aus dem Ruder zu laufen und muss möglichst im laufenden Betrieb nachjustiert werden. Verteilung von Funktionen von Zufallsgrößen 2) Wir legen die Grenzen der Intervalle fest Bei x - Kontrollregelkarten bilden die Grenzen 30 des Prüfintervalls 0 3 0 I P , o die Eingriffsgrenzen. Das entspricht einer Irrtumswahrscheinlichkeit =0,002 bzw. einer Sicherheitswahrscheinlichkeit von 1- = 0,998. D.h., wenn x außerhalb dieser Grenzen liegt, wird ist die geforderte Bedingung EX=0 als verletzt angesehen. Wir irren uns nur in 2 von 1000 Fällen, d.h. nur in 2 von 1000 Fällen liegt x außerhalb dieser Grenzen obwohl EX=0 ist. Ebenfalls werden Warngrenzen festgelegt, im Allgemeinen bilden die ein-und zweifachen Standardabweichungen (1 0, 2 0) die Warngrenzen. Ein Prozess wird als beherrscht angesehen, wenn die Schätzungen innerhalb der Warngrenzen liegen. Ein Prozess wird als nicht beherrscht angesehen und muss gestoppt und Nachjustiert werden, wenn die Schätzungen außerhalb der Eingriffsgrenzen liegen. Für die Interpretation der Verläufe der Lage- und Streuungsspuren auf den Kontrollregelkarten zwischen Warn- und Eingriffsgrenzen gibt es verschiedene Heuristiken. Einige davon sind die Folgenden: 1) Liegt der Schätzwert zwischen Warn-und Eingriffsgrenze, so führe zunächst e i n e Widerholung der Stichprobenerfassung und Ermitttlung der Schätzungen durch. 2)Entscheide dich für einen Prozessstop (nichtbeherrschter Prozess) in folgenden Fällen: 8er-Run: Mindestens acht aufeinander folgende Punkte liegen auf der gleichen Seite der Mittellinie. - 55 - - 56 – III. Schließende Statistik 4er-Run: Mindestens vier von fünf aufeinander folgenden Punkten liegen auf einer Seite der Mittellinie und einer davon zwischen Warn- und Eingriffsgrenze, oder: mindestens 4 von 5 aufeinanderfolgenden Punkten liegen auf einer Seite der Mittellinie außerhalb des 1 - 0-Bereiches, aber im 2- und 3- 0Bereich . 2er-Run im Außenbereich: Mindestens zwei von drei aufeinander folgenden Punkten liegen zwischen äußerer Warn- und Eingriffsgrenze (bzw. zwischen 2- und 3-0- Bereich) auf der selben Seite. Trend: Sechs aufeinander folgende Punkte fallen bzw. steigen. Verteilung von Funktionen von Zufallsgrößen - 57 - Darüber hinaus lassen folgende Muster auf systematische Störeinflüsse im Produktionsprozess schließen: Innenbereich: 15 Punkte in Folge oder mindestens 68 % aller Punkte liegen im 1-0Bereich. Tritt dieses Muster auf, sollten die Eingriffsgrenzen neu berechnet werden. Alternation: Zwischen 14 aufeinander folgenden Punkten findet jeweils zwischen 2 Punkten abwechselnd Steigen und Fallen statt. Zyklen: Die Aufzeichnung zeigt ein wiederkehrendes Muster. 6.2.3 Erstellung der Kontrollregelkarten bei Erwartungswert und unbekannter Varianz unbekanntem Sind 0 und/oder 0 nicht bekannt, so werden sie zunächst in einem PilotProzessvorlauf aus einer relativ großen Stichprobe geschätzt. Dabei ist die Vorgehensweise die folgende: Zu m Zeitpunkten werden je n Beobachtungen von X durchgeführt und xi und 2 si , i=1,…,m ermittelt. Dabei sollte die Bedingung: m n ≥ 200 (6.1) - 58 – III. Schließende Statistik eingehalten werden. Beispiel: n=5 m ≥ 40 und n=12 m ≥ 18 Für 0 und 02 ergeben sich dann erwartungstreue Schätzungen durch: ̂ 0 x 1 m xi m i 1 und ˆ 0 s 2 2 die in den Kontrollregelkarten verwendet werden. Übungsaufgaben Fallstudie 3 1 m 2 si m i 1 Verteilung von Funktionen von Zufallsgrößen 7 Literaturverzeichnis Standard-Literatur Diese Literatur ist für einen breiten Leserkreis gedacht, der eine mathematische Grundausbildung (als Nichtmathematiker) besitzt. [Grei] M.Greiner und G.Tinhofer: Stochastik für Studienanfänger der Informatik, Carl-Hanser-Verlag München, 1996. [Krey] D.Kreyszig: Statistische Methodenlehre. Teubner, Stuttgart, 1995. [Preu] W.Preuß und G. Wenisch: Lineare Algebra und Stochastik, Fachbuchverlag Leipzig , 2001. [Stin] Peter Stingl: Mathematik für Fachhochschulen – Technik und Informatik, Carl Hanser Verlag München Wien, 1996. Weiterführende Literatur Diese Literatur ist für einen Leserkreis gedacht, der auf der Basis dieser Kurseinheit sein Grundwissen zur Stochastik ergänzen möchte. [Gr] B.Grabowski: Mathematische Methoden in der Simulation dynamischer Systeme (SIM3), Hrg. ZFH Koblenz, Fernstudium Allg. Informatik, 1997. [Lex] G.Walz (Hrg.), B.Grabowski: Lexikon der Statistik, Elsevier–Spektrum Akademischer Verlag, 2004. [Wa] E.Wahrmuth: Mathematische Modelle diskreter stochastischer Systeme (SIM2), Hrg. ZFH Koblenz, Fernstudium Allgemeine Informatik, 1997. Wissenschaftliche Literatur Diese Literatur ist nicht für einen breiten Leserkreis gedacht, sonder eher für Fachleute, die auf dem Gebiet der Anwendung stochastischer Verfahren angewandte Forschung und Entwicklung betreiben. [Fish] G. S. Fishman: Monte Carlo, Concepts, Algorithms, and Applications, Springer Verlag New York, 1996. - 59 - - 60 – III. Schließende Statistik [Math] R. Mathar; D. Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart, 1990. [Rip] B. D. Ripley: Stochastic Simulation. John Wiley & Sons, Inc., 1987. Verteilung von Funktionen von Zufallsgrößen 8 Tabellen und Diagramme A1. Tabelle der Standardnormalverteilung A1. Tabelle der Verteilungsfunktion (u) der Standardnormalverteilung für u=0,00 (0,01)3,09 Es gilt: (-u) = 1-(u) und (u)1 für u 3,1 - 61 - - 62 – III. Schließende Statistik Die Funktion (u) ist für u=0,00 bis u=3,09 mit der Schrittweite 0,01 tabelliert. Dabei setzt sich u aus den Zahlen der linken Spalte und der Kopfzeile zusammen. Die Zahlen in der Kopfzeile stellen die zweite Nachkommastelle von u dar. Ablesebeispiele: (1,27)=0,898, (-2,1) = 1- (2,1) = 1–0,9821=0,0179, (-3,12)=1-(3,12)=0. Die Quantile der Standardnormalverteilung erhält man aus Tabelle A1 durch lineare Interpolation. Quantile: (u ) 0,5 u 0 , (u ) 0,9 u 1,282 0,900 0,950 0,975 0,990 0,995 0,999 u() 1,282 1,645 1,960 2,326 2,576 3,090 0,100 0,050 0,025 0,010 0,005 0,001 u() -1,282 -1,645 -1,960 -2,326 -2,576 -3,090 A2. Tabelle der Quantile der Standardnormalverteilung Verteilung von Funktionen von Zufallsgrößen A2. Zufallszahlen zur Gleichverteilung Die einzelnen Ziffern bilden eine Zufallszahlenfolge zur Gleichverteilung auf der Menge der Ziffern 0 bis 9. Die Fünfergruppen, als Dezimalzahl gelesen und durch 100000=105 geteilt, sind eine Zufallszahlenfolge zur Gleichverteilung auf dem Intervall [0,1]. - 63 - - 64 – III. Schließende Statistik A3. Quantile m2() der 2-Verteilung mit m Freiheitsgraden P(X < m2()) = m\ 0,005 0,01 0,025 0,05 0,1 0,9 0,95 0,975 0,99 0,995 1 0,000 0,000 0,000 2 0,010 0,020 0,051 3 0,072 0,115 0,216 0,004 0,016 2,706 3,841 5,023 6,635 7,879 4 0,207 0,297 0,484 5 0,412 0,554 0,831 0,711 1,064 7,779 9,422 11,14 13,28 14,86 6 0,676 0,872 1,237 7 0,989 1,239 1,690 8 1,344 1,647 2,180 1,635 2,204 10,64 12,59 14,45 16,81 18,55 9 1,735 2,088 2,700 10 2,156 2,558 3,247 3,325 4,168 14,68 16,92 19,02 21,67 23,59 11 2,603 3,053 3,816 12 3,074 3,571 4,404 13 3,565 4,107 5,009 4,575 5,578 17,28 19,68 21,92 24,72 26,76 14 4,075 4,660 5,629 15 4,601 5,229 6,262 6,571 7,790 21,06 23,68 26,12 29,14 31,32 16 5,142 5,812 6,908 17 5,697 6,408 7,564 18 6,265 7,015 8,321 7,962 9,312 23,54 26,30 28,85 32,00 34,27 19 6,844 7,633 8,907 20 7,434 8,260 9,491 10,12 11,65 27,20 30,14 32,85 36,19 38,58 25 10,52 11,52 13,12 30 13,79 14,95 16,79 35 17,19 18,51 20,57 14,61 16,47 34,38 37,65 40,65 44,31 46,93 40 20,71 22,16 24,43 45 24,31 25,90 28,37 26,51 29,05 51,81 55,34 59,34 63,69 66,77 50 27,99 29,71 32,36 60 35,53 37,48 40,48 70 43,28 45,44 58,76 34,76 37,69 63,17 67,42 71,42 76,15 79,49 80 51,17 53,54 67,15 90 59,20 61,75 65,65 100 67,33 70,07 74,22 60,39 64,28 96,58 101,9 106,6 112,3 116,3 0,103 0,211 4,605 5,991 7,378 9,210 10,60 0,352 0,584 6,251 7,815 9,348 11,34 12,94 1,145 1,610 9,236 11,07 12,83 15,09 16,75 2,167 2,833 12,02 14,07 16,01 18,48 20,28 2,733 3,490 13,36 15,51 17,53 20,09 21,96 3,940 4,865 15,99 18,31 20,48 23,21 25,19 5,226 6,304 18,55 21,03 23,34 26,22 28,30 5,892 7,042 19,81 22,36 24,74 27,69 29,32 7,261 8,547 22,31 25,00 27,49 30,58 32,80 8,672 10,09 24,77 27,59 30,19 33,41 35,72 9,390 10,86 25,99 28,87 31,53 34,81 37,16 10,85 12,44 28,41 31,41 34,17 37,57 40,00 18,49 20,60 40,26 43,98 46,98 50,89 53,67 22,46 24,80 46,06 49,20 53,20 57,34 60,27 30,61 33,35 57,51 61,41 65,41 69,96 73,17 43,19 46,46 74,40 79,30 83,30 88,38 91,95 51,74 55,33 85,53 90,02 95,02 100,4 104,2 69,13 73,29 107,6 113,1 118,1 124,1 128,3 77,93 82,36 118,5 124,3 129,6 135,8 140,2 Verteilung von Funktionen von Zufallsgrößen A4. 1- - Quantile der t-Verteilung - 65 - mit v Freiheitsgraden - 66 – III. Schließende Statistik A5. Quantile der F-Verteilung für =0,01 und =0.05 Verteilung von Funktionen von Zufallsgrößen - 67 - Stichwortverzeichnis A S arithmetisches Mittel 19 Satz Reproduktionssatz 9 E über die Eigenschaften von Erwartungstreue 19 Erwartungswert und Varianz 7 Erwartungswert 19 von Moivre und Laplace 14 Eigenschaften 7 Zentraler Grenzwertsatz 13 Schätzfunktion 18 F F - Verteilung 36 Stichprobe 17, 18 Stichprobenumfang 27, 47 G Stichprobenvarianz 42 Grenzwertsatz von Moivre und T Laplace 14 I t-Verteilung 33 U Irrtumswahrscheinlichkeit 21, 22 Überdeckungswahrscheinlichkeit 21, M 22 Mittel arithmetisches 19 P Unabhängigkeit von Zufallsgrößen 6 V Varianz 19 Eigenschaften 7 Punktschätzung 18 Q Quantil 32 R Reproduktionssatz für Verteilungen 9 Z Zentraler Grenzwertsatz für Verteilungen 13 - 68 – III. Schließende Statistik